Nel 2008, Airbnb era solo un’idea bizzarra di due designer di San Francisco; nel 2012, Figma non esisteva nemmeno. Ma se avessero avuto un’intelligenza artificiale come GPT-4o a fianco, forse la storia sarebbe andata diversamente. Un recente studio dell’Università di Oxford e Vela Research ha dimostrato che i modelli linguistici di grandi dimensioni (LLM) possono prevedere il successo delle startup con una precisione superiore a quella di molti investitori in fase iniziale.

Il paper, intitolato “VCBench: Benchmarking LLMs in Venture Capital”, introduce VCBench, il primo benchmark pubblico progettato per testare se l’IA può prevedere il successo delle startup prima che accada. Il team ha costruito un dataset di 9.000 profili di fondatori anonimizzati, ciascuno associato a dati sulla loro azienda in fase iniziale. Circa 810 profili sono stati etichettati come “di successo” definiti come quelli che hanno raggiunto una pietra miliare di crescita significativa come un’uscita o un’IPO fornendo ai modelli un segnale scarso ma significativo su cui addestrarsi.

Un aspetto cruciale dello studio è che i ricercatori hanno rimosso i nomi e gli identificatori diretti dal dataset, in modo che i modelli non potessero semplicemente memorizzare trivia da Crunchbase. Hanno anche eseguito test avversariali per garantire che gli LLM non stessero “barando” rivelando l’identità dei fondatori dai dati pubblici, riducendo il rischio di re-identificazione del 92% pur preservando le caratteristiche predittive.

Quando messi alla prova, i modelli hanno superato la maggior parte dei benchmark umani. Il paper nota che l'”indice di mercato” — essenzialmente la performance di base di tutte le scommesse in fase iniziale — ottiene solo l’1,9% di precisione, ovvero un vincitore ogni 50 tentativi. Y Combinator fa meglio con il 3,2%, circa 1,7 volte il mercato, e le società di venture capital di primo livello raggiungono circa il 5,6%, raddoppiando ancora una volta.

Tuttavia, i modelli linguistici di grandi dimensioni hanno superato ampiamente questa base. Ad esempio, DeepSeek-V3 ha fornito più di sei volte la precisione dell’indice di mercato, mentre GPT-4o ha raggiunto il punteggio F0.5 più alto, bilanciando precisione e richiamo. Claude 3.5 Sonnet e Gemini 1.5 Pro hanno anche battuto facilmente il mercato, posizionandosi nello stesso livello di performance delle società di venture capital di élite.

In altre parole, quasi ogni LLM all’avanguardia testato ha fatto un lavoro migliore nell’identificare i probabili vincitori rispetto alla media degli investitori in venture capital e diversi modelli hanno eguagliato o superato il potere predittivo di Y Combinator e dei fondi di primo livello.

I ricercatori hanno rilasciato VCBench come risorsa pubblica su vcbench.com, invitando la comunità a eseguire i propri modelli e pubblicare i risultati. Se la classifica si riempie di LLM che superano il mercato, potrebbe rimodellare gli investimenti in fase iniziale. Un mondo in cui i fondatori vengono scoperti da agenti IA che setacciano LinkedIn anziché inviare e-mail a freddo ai partner potrebbe non essere lontano.