La società deve affrontare la questione cruciale della fiducia in sistemi che dimostrano una capacità di auto-evoluzione, e questo è un tema che Isaac Asimov ha affrontato nelle sue opere di fantascienza.

Asimov è noto per la creazione delle “Tre leggi della robotica”, che sono state progettate per garantire che i robot non danneggino gli esseri umani o permettano che gli esseri umani vengano danneggiati attraverso l’inazione.

Tuttavia, come la società si avvicina allo sviluppo di sistemi di intelligenza artificiale sempre più sofisticati e autonomi, la questione della fiducia e del controllo diventa ancora più complessa.

La capacità di auto-evolversi di un sistema di intelligenza artificiale significa che può imparare e adattarsi senza l’intervento umano, il che può portare a risultati imprevisti o indesiderati.

Questo solleva domande su come possiamo garantire che tali sistemi operino in modo sicuro ed etico, e su come possiamo garantire che siano conformi alle leggi e alle normative umane.

A questa necessita’ viene icontro il Curiosity-Driven Red-Teaming (CRT) è un metodo innovativo per migliorare la sicurezza dei Large Language Models (LLMs), come i chatbot AI.

I ricercatori dell’Improbable AI Lab del MIT e del MIT-IBM Watson AI Lab hanno utilizzato l’apprendimento automatico per migliorare il red-teaming. Hanno sviluppato una tecnica per addestrare un modello linguistico di grandi dimensioni del team rosso a generare automaticamente diversi suggerimenti che attivano una gamma più ampia di risposte indesiderate dal chatbot in fase di test.

Lo fanno insegnando al modello della squadra rossa a essere curioso quando scrive i suggerimenti e a concentrarsi su nuovi suggerimenti che evocano risposte tossiche dal modello target.

Questo approccio utilizza l’esplorazione guidata dalla curiosità per ottimizzare la novità, formando modelli di red team per generare un insieme di casi di test diversi ed efficaci.

Tradizionalmente, il processo di verifica e test delle risposte di un LLM coinvolgeva un “red team” umano che creava prompt di input specifici per cercare di provocare risposte indesiderate dall’LLM.

Questo processo può essere sia costoso che lento. Di recente, sono stati sviluppati metodi automatici che addestrano un LLM separato, con l’apprendimento per rinforzo, per generare test che massimizzino la probabilità di suscitare risposte indesiderate dal LLM target.

Tuttavia, questi metodi tendono a produrre un numero limitato di casi di test efficaci, offrendo quindi una copertura limitata delle potenziali risposte indesiderate.

CRT supera questa limitazione collegando il problema della generazione di test alla strategia di esplorazione guidata dalla curiosità.

Questo approccio non solo aumenta la copertura dei casi di test, ma mantiene o aumenta anche la loro efficacia, migliorando significativamente la valutazione complessiva della sicurezza dei LLM.

La metodologia CRT si è rivelata molto utile nel generare output tossici da modelli LLM che erano stati addestrati con cura per prevenire tali output.

Questo studio evidenzia l’importanza di esplorare nuovi metodi per aumentare l’efficacia e la copertura dei test di sicurezza per i LLM, specialmente alla luce della loro crescente capacità e diffusione in applicazioni pratiche.

Per ulteriori dettagli, puoi consultare il documento originale “Curiosity-driven Red-teaming for Large Language Models” pubblicato su OpenReview o il codice sorgente disponibile su GitHub.

Official implementation of ICLR’24 paper, “Curiosity-driven Red Teaming for Large Language Models” (https://openreview.net/pdf?id=4KqkizXgXU)

I coautori di Hong includono gli studenti laureati EECS Idan Shenfield, Tsun-Hsuan Wang e Yung-Sung Chuang; Aldo Pareja e Akash Srivastava, ricercatori del MIT-IBM Watson AI Lab; James Glass, ricercatore senior e capo dello Spoken Language Systems Group presso il Laboratorio di informatica e intelligenza artificiale (CSAIL); e l’autore senior Pulkit Agrawal, direttore di Improbable AI Lab e assistente professore al CSAIL. La ricerca sarà presentata alla Conferenza Internazionale sulle Rappresentazioni dell’Apprendimento.

L’integrazione del Curiosity-Driven Red Teaming (CRT) nella sicurezza dei chatbot e dei Large Language Models (LLMs) rappresenta un significativo progresso, evidenziando una trasformazione fondamentale nella gestione e mitigazione delle risposte indesiderate generate dall’intelligenza artificiale.

Questo metodo, attraverso l’automazione e l’efficienza incrementata, non solo supera i limiti tradizionali di costi, tempo e varietà nei test, ma pone anche questioni etiche sul ruolo umano in questo processo evolutivo.

L’aumento dell’autonomia dell’IA, che sta progredendo nella generazione autonoma del proprio codice software e nel monitoraggio delle proprie prestazioni, indica una trasformazione nel settore industriale orientata all’efficienza temporale e alla riduzione dei costi associati allo sviluppo.

Tuttavia, questa evoluzione solleva interrogativi significativi sull’autoreferenzialità dell’IA e sulla potenziale assenza di supervisione umana, portando a riflessioni sulla regolamentazione e sul controllo etico dell’evoluzione dell’IA.

La società deve affrontare la questione cruciale della fiducia in sistemi che dimostrano una capacità di auto-evoluzione, un circolo che, seppur virtuoso in termini di innovazione tecnologica, presenta dilemmi etici profondi.

In questo scenario, l’elaborazione di norme assume una rilevanza fondamentale, con alcune regioni che prendono la guida nella stesura di regolamenti destinati a orientare l’evoluzione dell’IA.

Persiste ancora ambiguità riguardo all’interpretazione e all’applicazione di tali direttive da parte dell’IA, che sta diventando sempre più indipendente e potrebbe non aderire ai dettami umani.

Questa prospettiva solleva interrogativi sulla reale attuazione di certe norme, che pongono al centro la sicurezza umana e la sottomissione dei sistemi robotici alla volontà umana, evidenziando le sfide nell’implementarle in contesti di AI avanzata e sempre più autonoma.

L’evoluzione dell’IA è un tema complesso e articolato che richiede una riflessione attenta sui potenziali benefici e rischi associati al suo sviluppo. Se da un lato l’aumento dell’autonomia dell’IA ha il potenziale per rivoluzionare i settori e migliorare l’efficienza, dall’altro solleva questioni etiche sul ruolo umano nello sviluppo e nella regolamentazione dell’IA.

Come società, dobbiamo lavorare insieme per garantire che l’evoluzione dell’IA sia guidata da principi di sicurezza, etica e trasparenza, e che i suoi benefici siano accessibili a tutti.