La ricerca, quella vera, non sta dentro una query. Non si risolve con un prompt brillante né con un chatbot veloce. È una bestia caotica, tentacolare, fatta di deviazioni improvvise, intuizioni che arrivano mezz’ora dopo l’orario previsto, link impensabili e documenti che nessuno ha mai pensato di indicizzare davvero bene. È per questo che le architetture di intelligenza artificiale lineari — quelle a colpo secco, domanda-risposta, pipeline serrata — vanno in crisi quando il compito si fa realmente interessante.
Ed è anche il motivo per cui multi-agent system non è una moda geek per smanettoni da San Francisco, ma la direzione inevitabile che l’AI sta prendendo per affrontare problemi aperti, non deterministici, e rumorosamente complessi. Sì, rumorosi: perché nel caos informativo contemporaneo, ciò che serve non è un’unica voce saggia, ma una sinfonia di agenti cognitivi autonomi, coordinati come un’orchestra.
Nel cuore del sistema Research di Claude, costruito da Anthropic, pulsa proprio questa filosofia: lasciar lavorare più agenti in parallelo, ognuno con il proprio compito, la propria finestra di contesto, la propria missione esplorativa. Uno orchestrator generale (un Claude Opus 4, tanto per capirci) pianifica la ricerca e smista il lavoro a diversi subagents (Claude Sonnet 4), che scandagliano porzioni distinte dello spazio informativo. Non è solo parallelo computazionale: è decomposizione cognitiva, in tempo reale.
Il risultato? Secondo i benchmark interni, questa configurazione a più agenti ha superato di oltre il 90% le performance del miglior agente singolo nel rispondere a richieste complesse. Ad esempio, individuare tutti i membri del consiglio di amministrazione delle aziende dell’S&P 500 IT non è un esercizio da trivia: implica decine di ricerche simultanee, verifiche incrociate, esplorazioni asincrone di documenti aziendali, fonti giornalistiche e API aziendali. Un compito che il sistema multi-agent ha gestito brillantemente, mentre un singolo Claude Opus 4 annaspava nel suo loop sequenziale.
Questa architettura non nasce dal nulla. È figlia di una comprensione brutale e illuminante: la vera risorsa scarsa non è la potenza computazionale, ma il contesto. Gli LLM hanno limiti di token — letteralmente, quante parole possono tenere “in testa” contemporaneamente. Quando la complessità del compito supera questi limiti, o si segmenta il lavoro, o si fallisce. E il modo più scalabile per farlo non è espandere il cervello dell’agente, ma clonarlo e specializzarlo. A ognuno il suo pezzo di mondo.
I dati parlano chiaro: nelle valutazioni BrowseComp, che misurano la capacità di trovare informazioni elusive sul web, l’uso di token da solo spiegava l’80% della varianza nelle performance. Il resto? Numero di chiamate agli strumenti e modello utilizzato. È una lezione brutalmente meccanica: spendi token, raccogli risultati. Ma il trucco non è solo buttare dentro più parole, è saperle distribuire con intelligenza: ecco il vero valore dei subagenti, ognuno con la propria prospettiva, che contribuisce a una compressione finale più informata.
Attenzione però: tutta questa magia ha un prezzo. In termini concreti, un sistema multi-agent consuma fino a 15 volte i token di una chat standard. Una follia computazionale? Non se il valore del task giustifica il costo. Per compiti dove il prezzo della risposta è molto inferiore al valore dell’informazione estratta, è un investimento. Per tutto il resto, meglio restare sul vecchio chatbot.
E non tutte le sfide si prestano a questo approccio. Le attività di programmazione, per esempio, hanno troppi vincoli di contesto condiviso per essere realmente parallelizzabili in modo utile. Oggi i subagenti non sono ancora capaci di coordinarsi al volo come un team di sviluppatori agguerriti su GitHub. Ma per la ricerca, quella fatta di mille direzioni divergenti e un traguardo sfocato, il modello multi-agent è un game changer. Più che risolvere, esplora. Più che capire, comprime. Più che rispondere, struttura.
Il parallelo con l’evoluzione dell’intelligenza umana è inevitabile. Homo sapiens è rimasto più o meno lo stesso per centomila anni, ma la nostra civiltà è esplosa di capacità quando abbiamo imparato a distribuire i compiti, a fare reti, a costruire sistemi di intelligenza collettiva. Le AI stanno ripercorrendo lo stesso cammino, ma a velocità moltiplicata. Quando l’intelligenza è sufficiente, il problema diventa la coordinazione. E i sistemi multi-agent sono, in fondo, un primo embrione di civilizzazione artificiale.
Un ingegnere potrebbe obiettare che tutto questo è ancora fragile, dipende troppo da una buona progettazione del prompt, da una corretta ingegnerizzazione degli strumenti, da un’architettura stabile. Vero. Ma anche l’umanità ha costruito cattedrali su fondamenta che oggi chiameremmo fragili. L’efficienza viene dopo: prima viene la potenza espressiva. Prima viene la capacità di “pensare insieme”.
Un piccolo paradosso chiude il cerchio. Per costruire agenti capaci di esplorare, sbagliare, riformulare e cercare di nuovo, non serve meno complessità. Serve più rumore, più ridondanza, più consumo. La semplicità verrà con la maturità del sistema, non prima. Per ora, chi sa orchestrare agenti diversi come strumenti in una sinfonia cognitiva ha un vantaggio competitivo brutale. Come diceva Borges, “pensare è dimenticare le differenze, è generalizzare, astrarre”. Ma per scoprire qualcosa di nuovo, serve prima ricordarle tutte. Anche se costano 15 volte di più.