← Indice documentazione Microprogettazione › synthesizer

myclaw

synthesizer — pipeline di nascita di un neurone

Microprogettazione v1.0 — 22 aprile 2026
Secondo documento dell'estensione «Neuroni e Memoria».
Reifica Neuroni+Memoria v1.1 §3 (il ciclo di sintesi).

Pubblico: chi implementerà il loop di generazione e i gate di sicurezza. Lettura: 18 min.

1. Scopo e confini

Il synthesizer è il componente che trasforma un fallimento motivato in un neurone candidato. È una pipeline a 7 stadi con retry massimo 3 e un gate umano non bypassabile allo stadio 6. Quello che produce è una directory-neurone pronta per essere firmata.

Cosa copre

Trigger: dal fallimento del reasoning loop alla decisione "sintesi sì/no".
Ogni stadio della pipeline: input, output, criteri di successo.
Gate: analisi statica, test sandbox, approvazione umana.
Retry policy e condizione di abbandono.

Cosa non copre

Anatomia del neurone risultante → neuron.html.
Come si misura utilità e fitness dopo la nascita → synapse.html.
La sandbox che esegue test e bozza → sandbox.html.
La UX di approvazione (batching, revoca) → approval_ux.html.

2. I sette stadi

Figura 1 — La pipeline in sette stadi. Stadi 4, 5, 6 sono gate: un rifiuto rimanda a bozza (o a spec, se l'utente lo chiede). Dopo tre cicli falliti il synthesizer abbandona, comunica all'utente, logga un episode di fallimento per reflection.

#	Stadio	Output	Costo tipico
1	Trigger	`SynthesisRequest` (scopo, trace originale, capability desiderate)	0 (decisione logica)
2	Spec	`NeuronSpec` (purpose, I/O schema, cap)	1 chiamata LLM frontier, ~0.5€
3	Bozza	body.py + test_birth.py + manifest.yaml (draft)	1–2 chiamate LLM frontier, ~0.8€
4	Statica	Report lint + verdetto ok/fail	~200 ms locale
5	Sandbox + reward `R`	Report test + metriche + `R` ∈ [0,1] con breakdown (§7.1)	~1–30 s sandbox + ~0.05€ judge local-fast
6	Utente	Decisione informata da `R`: approva / rivedi / scarta	umano (asincrono, ma molto più veloce grazie al breakdown)
7	Firma & attivazione + bootstrap TrustScore	signature.hmac scritto, neurone caricato, `TrustScore` iniziale = `R`	~50 ms locale

3. Trigger: quando parte la sintesi

Il synthesizer non decide da solo: il agent_runtime emette una SynthesisRequest quando almeno uno dei seguenti è vero, e nessun veto della policy è attivo:

Trigger esterno (reattivo)

Il reasoning loop ha esaurito i tool disponibili senza raggiungere lo scopo.
Il modello ha proposto ripetutamente la stessa sequenza fallita (detector di bucle).
L'utente non ha autorizzato "abbandona".
Il budget (§ cost tiering) consente almeno una chiamata frontier.

Trigger interno (proattivo, presidiato)

Negli ultimi 30 giorni, pattern di fallimento ricorrente (≥ M volte su task simili).
Proposta emessa come InternalProposal, visibile nel digest notturno.
Richiede due approvazioni: prima la direzione, poi il neurone. Vedi Neuroni+Memoria §4.

DECISIONE DA CONFERMARE. In fase 1 solo il trigger esterno è attivo. Quello interno richiede il grafo di fitness e un aggregato storico; si attiva in fase 6 quando synapse è implementato.

4. Stadio 2 — Spec

Una chiamata LLM frontier (purpose design-neuron-spec) produce uno NeuronSpec strutturato. Il prompt include: la trace fallita, i tool già tentati, il catalogo delle capability disponibili, lo stile degli spec precedenti (few-shot).

@dataclass(frozen=True)
class NeuronSpec:
    proposed_name: str
    purpose: str                   # 1-4 frasi NL
    input_schema: dict             # JSON Schema
    output_schema: dict
    capabilities_requested: list[str]
    rationale: str                 # perché serve, cosa non bastava
    may_call: list[str]            # tool/neuroni attesi

La spec passa un pre-check di policy: se richiede capability forbidden (es. shell:* fuori dalla whitelist), viene rigettata subito senza consumare la quota di retry.

5. Stadio 3 — Bozza

Seconda chiamata LLM frontier (purpose write-neuron-code). Input: lo NeuronSpec, il template skeleton del corpo, l'API di NeuronContext, esempi di neuroni esistenti ad alta fitness (few-shot). Output: tre file (body.py, test_birth.py, manifest.yaml).

Vincoli imposti nel prompt

Solo import da stdlib e myclaw.runtime.
test_birth.py contiene almeno 3 casi: uno positivo, uno edge, uno negativo.
Il manifest deve dichiarare le stesse capability dello spec (non di più, non di meno).
Nessun codice di rete a meno che network non sia tra le capability.

6. Stadio 4 — Analisi statica

Lanciata in locale, senza sandbox (sta analizzando testo, non eseguendo). Tre check in cascata:

Lint: ruff check su body.py e test_birth.py. Errore = rigetto.
Security lint: bandit con profilo strict.
AST whitelist: parsing AST, verifica che solo gli import ammessi siano presenti e che non ci siano chiamate a eval, exec, compile, __import__, open (deve passare da ctx.open).
Coerenza capability: le capability in manifest.yaml devono coprire tutte le chiamate che il body effettivamente fa (es. ctx.open("~/logs", ...) richiede fs-read:~/logs).

DECISIONE v1: la whitelist AST parte molto stretta. Se in pratica taglia troppi neuroni legittimi, estenderla con revisione umana un simbolo alla volta. Restringere è difficile, allargare è facile.

7. Stadio 5 — Test in sandbox

test_birth.py viene eseguito dentro un profilo bwrap tight (vedi sandbox §3):

Filesystem: solo una tmpfs di lavoro + eventuale bind read-only delle path richieste.
Rete: disabilitata per default (salvo capability esplicita).
Limiti: 30 s wall, 256 MB ram, 512 KB stdout, 10 CPU-s.
Variabili di ambiente scrubbed.

Output: SandboxReport con esito per ciascun test, wall-clock, ram peak, stdout/stderr troncati.

7.1 Synthetic reward composito `R`

Dopo il SandboxReport lo stadio 5 non produce un verdetto binario ma uno score continuo R ∈ [0, 1]. La formula è canonizzata in rl_offline §5 (Esperimento B):

R = 0.40 · det_pass_rate       # frazione test deterministici verdi
  + 0.25 · judge_score         # LLM-as-judge (local-fast) su rubrica costituzionale
  + 0.15 · cost_ratio          # clip(1 − cost_sandbox_effettivo / stima, 0, 1)
  − 0.10 · similarity_penalty  # cosine-sim embedding con neuroni esistenti > 0.85
  + 0.10 · coverage_bonus      # bonus se copre effect_class non coperto

gate_threshold = 0.65          # DECISIONE v1

Esito	Azione
`R ≥ 0.65`	Pass: lo stadio 5 passa al 6 (approvazione umana) con dossier che include il breakdown `R`.
`R < 0.65`	Rigetto soft: il breakdown è iniettato in-context nella prossima iterazione di bozza ("det_pass_rate=0.40, judge segnala law.1 borderline, cost_ratio basso: riprova tenendo conto"). Consuma 1 retry dei max 3.
Test fallisce (hard)	Se `det_pass_rate = 0` o viene violato un limite sandbox (OOM, timeout > 30s, exit ≠ 0 su tutti i test): rigetto hard, ritorno a bozza senza calcolare `R`. Consuma 1 retry.

Il giudice è un modello economico. judge_score è calcolato invocando il tier local-fast (vedi policy §6 cost_tiering) con una rubrica fissa che include la Costituzione renderizzata. Non è un reward model appreso: è un prompt con criteri espliciti, ispezionabile e modificabile come qualunque altro prompt di sistema. Max 500 token di output, formato {"score": float, "reasoning": str}.

DECISIONE v1 (soglia 0.65): calibrata per filtrare i casi mediocri senza essere restrittiva sui buoni. Per scenario:

Neurone buono (tutti test verdi, judge 0.8, cost ok, nuovo): R ≈ 0.40+0.20+0.15+0+0.10 = 0.85 → passa.
Neurone medio (test verdi, judge 0.5, cost ok, già simile): R ≈ 0.40+0.125+0.15−0.10+0 = 0.575 → non passa, feedback in-context.
Neurone dubbio (test metà, judge 0.6, cost scarso, originale): R ≈ 0.20+0.15+0.05+0+0.10 = 0.50 → non passa.

La soglia si sposta con il tempo d'uso: rivalutare dopo 20 sintesi reali.

8. Stadio 6 — Approvazione umana

Questo stadio è non bypassabile in ogni livello di autonomy. È la valvola di non-ritorno prescritta dalla Legge 2: un agente non si auto-modifica senza consenso informato.

Cosa vede Roberto

Contesto: la trace originale che ha innescato la sintesi (collapse-by-default, espandibile).
Purpose del neurone in NL.
Capability richieste, con riferimento alla policy (es. "questo tocca fs-read:~/logs che non era già concesso").
Diff del body con syntax highlighting.
Esito test: verde/rosso, tempi, consumo risorse.
Score R con breakdown: le 5 componenti (det_pass_rate, judge_score, cost_ratio, similarity_penalty, coverage_bonus) in tabella + il totale. Vedi §7.1.
Giudizio testuale del judge: le 2-3 righe di motivazione prodotte dal tier local-fast. Se il judge ha segnalato una Legge borderline, è evidenziato in arancione.
Costo di sintesi finora (centesimi).

Effetto sul carico di approvazione. Il dossier informato dal reward R è la differenza fra "Roberto deve leggere 200 righe di codice per decidere" e "Roberto vede uno score 0.85 col breakdown e il giudizio testuale, e decide in 20 secondi". Questa è la riduzione di carico dei 4 driver del progetto.

Azioni possibili

Azione	Effetto
Approva	Vai allo stadio 7 (firma & attivazione).
Approva con riserva	Neurone attivo ma solo su scopo corrente, retrieval disabilitato. Promozione a retrieval normale richiede un secondo OK dopo 5 invocazioni pulite.
Rivedi spec	Rimanda a stadio 2 con feedback NL dell'utente. Conta come 1 retry.
Rivedi bozza	Rimanda a stadio 3 con feedback. Conta come 1 retry.
Scarta	Synthesizer abbandona. Registra un episode fallimento; in modalità interna il pattern alla base viene marcato "direzione rifiutata" per 30 giorni.

La UX concreta (CLI, Telegram, batching) è in approval_ux.

9. Stadio 7 — Firma e attivazione

Normalizzazione dei tre file: rimozione trailing whitespace, line endings LF.
Calcolo HMAC-SHA256 secondo il contratto di neuron §5.
Scrittura di signature.hmac.
Bootstrap TrustScore: scrittura in TrustStore (rl_offline §7) di un record iniziale per il subject ("neuron:<name>", "invoke") con score = R (dallo stadio 5), n_samples = 1, componente human_approval_rate = 1.0 (è appena stato approvato). Il neurone parte con fiducia parziale proporzionale alla qualità della nascita.
Notifica al loader tramite il watcher: viene ricaricato, stato iniziale neonato.
Audit event neuron.born con nome, versione, trace_id originale, hash del body, R finale.

Conseguenza operativa. Un neurone nato con R=0.85 è pronto a essere usato dal runtime ma richiede ancora approvazione umana per side-effect (autonomy standard). Dopo ~10 invocazioni pulite, il TrustScore accumulato dall'Esperimento A lo porterà sopra la soglia di promozione, e la policy inizierà a far passare le sue azioni green-zone senza chiedere a Roberto.

10. Retry e abbandono

Max 3 retry per SynthesisRequest. Contano sia i rigetti automatici (stadi 4/5) sia quelli umani (stadio 6 "rivedi").
Quando lo stadio 5 produce R < 0.65, il sintetizzatore non si ferma: costruisce un feedback in-context con il breakdown delle componenti e una frase esplicativa per ogni metrica sotto soglia (es. "det_pass_rate=0.50: 2 test falliti su 4 — considera edge case di input vuoto"). Torna a stadio 2 o 3 a seconda del tipo di fallimento. Questo è rejection sampling con feedback testuale (rl_offline §5), non gradient training.
Al quarto tentativo il synthesizer abbandona: chiude con outcome abandoned, scrive l'episode in memory, non ritenta sullo stesso scopo per 24 h.
Se il budget frontier è esaurito a metà pipeline, abbandono prematuro.
Il trigger interno aggiunge un ulteriore gate di direzione (stadio 0): rifiuto di direzione → marca il pattern e non riprova per 30 giorni.

Niente retry silenzioso oltre la terza iterazione. Un agente che continua a generare neuroni finché uno "passa" è un agente che degrada la qualità della library. Tre è il numero (arbitrario, tunabile) che dà respiro senza diventare una lotteria.

11. Contratto Python

from typing import Protocol, Literal
from dataclasses import dataclass

SynthesisOutcome = Literal["born", "abandoned", "rejected_direction"]

@dataclass
class SynthesisRequest:
    goal: str                       # scopo in NL
    trace_id: str                   # trace originale che ha fallito
    mode: Literal["external", "internal"]
    capability_hint: list[str]      # ipotesi iniziali
    budget_cents: float             # tetto frontier spendibile

@dataclass
class RewardBreakdown:
    """Score composito R dello stadio 5 (vedi §7.1). Reso visibile a Roberto
    nel dossier di stadio 6 e al sintetizzatore come feedback in-context
    quando R < gate. Formula canonica in rl_offline §5."""
    det_pass_rate: float       # [0,1]
    judge_score: float         # [0,1] dal tier local-fast
    judge_reasoning: str       # 2-3 righe di motivazione
    cost_ratio: float          # [0,1]
    similarity_penalty: float  # [0,1] (con segno negativo nella formula)
    coverage_bonus: float      # [0,1]
    total: float               # R aggregato

@dataclass
class SynthesisResult:
    outcome: SynthesisOutcome
    neuron_name: str | None
    neuron_path: str | None
    retries_used: int
    cost_cents: float
    rejection_reason: str | None
    final_reward: RewardBreakdown | None = None   # popolato se arriva a stadio 5

class Synthesizer(Protocol):
    async def synthesize(self, req: SynthesisRequest) -> SynthesisResult:
        """Esegue la pipeline a 7 stadi. Non solleva: ritorna sempre un
        SynthesisResult, anche su abbandono."""
        ...

    async def revise(
        self, request_id: str, feedback: str,
        target_stage: Literal["spec", "draft"],
    ) -> SynthesisResult:
        """Riprende una request in pausa dopo rifiuto utente allo stadio 6."""
        ...

# Errori interni (non propagati; registrati e trasformati in outcome)
class StaticAnalysisError(Exception): ...
class SandboxTestError(Exception): ...
class PolicyVetoError(Exception): ...
class BudgetExceededError(Exception): ...

12. Alternative considerate

Alternativa	Perché scartata (o rimandata)
Nessuna analisi statica, solo sandbox	La sandbox non cattura classi di problemi (import disallowed, dead code, capability drift). Statica prima filtra l'80%.
Un solo LLM-call per spec+bozza	Prompt enorme, qualità minore, diff difficili da ispezionare. Separare dà due punti di verifica.
Approvazione opzionale per neuroni "non-I/O"	Anche un neurone "puro" può ciclare a vuoto, consumare quota, inquinare la library. Gate umano sempre.
Retry illimitato con prompting adattivo	Degrada il budget e la qualità media della library. Max 3 è tuning conservativo.
Sintesi senza test_birth	Il gate sandbox diventa inutile (nulla da eseguire). Il test è la parte non negoziabile.
Generazione da più LLM in parallelo e selezione del migliore	Costo 3×, per uso domestico non giustificato. Eventuale in v2 se la pipeline ha hit-rate basso.

13. Test di conformità

Invariante	Test
Trigger rispetta il veto policy	Request con capability forbidden → outcome `abandoned`, retries_used = 0, nessun LLM-call emesso.
Static fallisce → ritorno a bozza	Iniettare `os.system(...)` in body draft → ruff/bandit lo rifiutano, stadio 3 ri-partito con feedback.
Whitelist AST enforced	Import di `socket` nella bozza → rigetto con error_class `ForbiddenImport`.
Timeout sandbox → rigetto	test_birth con `while True` → SandboxReport timeout=true, outcome stadio 5 fail.
Capability coerenza	body chiama `ctx.open("/etc/passwd")` ma manifest non dichiara la cap → coerenza fallisce, rigetto.
Gate umano sempre presente	Non esiste path di codice che approvi un neurone senza passare dal callback approval_ux. Test: mock approval_ux → senza mock chiamato, nessun signature.hmac scritto.
Max 3 retry	Forzare 3 rigetti consecutivi → outcome = `abandoned`, retries_used = 3.
Abbandono logga episode	Outcome `abandoned` → un record in `episodes` di memory con outcome `synthesis_failed`.
Budget enforced	Request con budget 0.10€ → BudgetExceededError interno → outcome `abandoned`, costo effettivo ≤ 0.10€.
Internal mode doppio gate	Request mode=internal → due approvazioni distinte richieste prima della firma.
Pattern rifiutato: lock 30 gg	Rifiuto direzione interna su pattern P → nessun nuovo synthesize interno per P per 30 gg.
Signature scritta dopo approvazione	signature.hmac esiste ⇔ stadio 7 concluso con outcome=born.

14. Riferimenti

Riferimento	Cosa abbiamo preso
Neuroni+Memoria v1.1 §3	I sette stadi, il ciclo di vita, l'approvazione obbligatoria.
Neuroni+Memoria v1.1 §4	Modalità esterna vs interna, doppio gate.
Voyager (Wang et al. 2023)	Iterative prompting + test-driven skill generation.
Self-Debugging (Chen et al. 2023)	Ciclo "esegui, leggi errore, correggi". Ispira il feedback loop fra stadi 4–5 e stadio 3.
Gorilla / ToolBench	Schema-first generation: prima il contratto, poi il codice.
Bandit / ruff	Gate statici concreti.
Sandbox §3	Profilo bwrap tight usato in stadio 5.
Approval UX	Il come presentare all'utente la scelta allo stadio 6.

Continua a leggere

prossimo

synapse

Il grafo dei neuroni dopo la nascita: fitness, decadimento, potatura.

microprogettazione

neuron

Anatomia del neurone che il synthesizer produce.

microprogettazione

approval_ux

Il "come" lo stadio 6 è presentato all'utente.

indice

Torna alla landing

Microprogettazione, tutti i doc.

myclaw — synthesizer microprogettazione v1.0 — 2026-04-22
Secondo doc dell'estensione neuroni. Prossimo: synapse.html.

myclaw

Indice

1. Scopo e confini

Cosa copre

Cosa non copre

2. I sette stadi

3. Trigger: quando parte la sintesi

Trigger esterno (reattivo)

Trigger interno (proattivo, presidiato)

4. Stadio 2 — Spec

5. Stadio 3 — Bozza

Vincoli imposti nel prompt

6. Stadio 4 — Analisi statica

7. Stadio 5 — Test in sandbox

7.1 Synthetic reward composito R

8. Stadio 6 — Approvazione umana

Cosa vede Roberto

Azioni possibili

9. Stadio 7 — Firma e attivazione

10. Retry e abbandono

11. Contratto Python

12. Alternative considerate

13. Test di conformità

14. Riferimenti

Continua a leggere

7.1 Synthetic reward composito `R`