Intelligenza Artificiale, Innovazione e Trasformazione Digitale

Tag: Wikipedia

Wikipedia ora usa un po’ di intelligenza artificiale generativa AutoWikiBrowser

Wikipedia, la madre di tutte le enciclopedie digitali, simbolo del crowdsourcing umano e baluardo della conoscenza democratica, sta flirtando ufficialmente con l’intelligenza artificiale generativa. Non è fantascienza, non è un esercizio accademico: la Wikimedia Foundation ha confermato che inizierà a integrare sistemi di AI per automatizzare alcuni passaggi “noiosi” della creazione e manutenzione delle voci. In altre parole, mentre gli umani restano (per ora) i curatori ufficiali dei contenuti, sarà l’AI a sporcarsi le mani con il lavoro sporco.

Questa mossa segna un punto di svolta culturale e tecnico. Fino ad oggi, Wikipedia ha resistito a ogni tentazione di automatizzare la conoscenza, difendendo con le unghie e con i denti il principio che il sapere debba essere validato, discusso e scritto da esseri umani. Ma evidentemente anche la pazienza dei volontari ha un limite, soprattutto quando si tratta di aggiornare formati, pulire codice, o uniformare stili di scrittura tra milioni di pagine.

Meno scraping, più sharing: la nuova mossa di Wikipedia per l’AI

Con un colpo di scena in stile open-source, la Wikimedia Foundation ha deciso di affrontare di petto uno dei problemi più spinosi dell’era AI: il sovrasfruttamento dei contenuti da parte degli scraper automatizzati. Lo fa non chiudendo, ma aprendo meglio: nasce così un dataset pensato appositamente per l’addestramento dei modelli di intelligenza artificiale.

Wikipedia addestra gli addestratori: la finta apertura che serve a chiudere le porte ai bot

Quando una piattaforma fondata sull’utopia della conoscenza libera decide di “semplificare” la vita agli sviluppatori di intelligenza artificiale con un dataset ufficiale, bisogna sempre chiedersi: a chi conviene davvero? La Wikimedia Foundation ha annunciato la pubblicazione su Kaggle la piattaforma di Google per il machine learning di un dataset in beta contenente dati strutturati tratti da Wikipedia, in inglese e francese, pensato per addestrare modelli di AI.

Sembra un dono alla comunità, ma è un cavallo di Troia. Dietro la maschera dell’altruismo open source si nasconde una strategia di contenimento: evitare che gli scraper e i crawler automatici di OpenAI, Anthropic, Meta & soci continuino a divorare banda e cicli server a colpi di scraping massivo e disordinato. L’iniziativa, nelle intenzioni di Wikimedia, dovrebbe fornire un’alternativa ufficiale, elegante, e soprattutto controllabile. Niente più parsing di HTML grezzo, niente più richieste al limite del DoS mascherate da “ricerca”. Solo JSON ben confezionato, con abstract, infobox, sezioni e link a immagini. Mancano però riferimenti, contenuti audio e tutto ciò che esce dal testo scritto. In pratica: il cuore, ma senza il sangue.

CC BY-NC-SA 4.0 DEED | Disclaimer Contenuti | Informativa Privacy | Informativa sui Cookie