A pranzo dal mitico Cecchini in Provincia di Firenze, mentre il nostro amato Sole fiutava con assoluta chiarezza se davanti a sé ci fosse una bistecca di manzo succulenta o una fetta di pizza croccante, mi sono chiesto: e l’intelligenza artificiale, ci riesce altrettanto bene a riconoscerle, visivamente, senza confondersi tra manzo e impasto lievitato?
Il problema di distinguere pizza da bistecca non è banale per un sistema visivo: cos’è una pizza se non un oggetto stratificato, con salsa di pomodoro, mozzarella, ingredienti distribuiti in livelli? Ed è proprio su questa caratteristica che i ricercatori del MIT CSAIL hanno costruito PizzaGAN, un modello in grado di analizzare una foto di pizza, determinare gli ingredienti, la loro distribuzione e persino l’ordine con cui sono stati aggiunti. Un procedimento sofisticato che parla più da cuoco neurale che da semplice classificatore.
Al contrario, la bistecca in genere una massa monolitica di carne con variazioni di colore, marezzature, grassezza rappresenta una classe visiva molto diversa, con più variazioni e meno regolarità strutturale. In uno studio di Stanford, training su dataset come Food‑101 ha evidenziato che le reti convolutional (ResNet, Inception‑ResNet) ottengono valori di top‑1 accuracy intorno al 72 % e top‑5 fino al 91 % per piatti come la bistecca, ma con grande variabilità nella presentazione visuale: la bistecca è spesso la classe meno accuratamente riconosciuta rispetto ad altri piatti.
Nel frattempo al MIT un altro gruppo ha sviluppato Pic2Recipe, un sistema che data una foto di un piatto può suggerire ingredienti e ricette simili: sorprendente applicazione di visione artificiale ai comportamenti alimentari umani. Tuttavia la distinzione tra pizza e bistecca resta una sfida diversa: pizza ha una geometria stratificata abbastanza uniforme, mentre la bistecca è un oggetto più amorfo e soggetto a variabilità estetica del tutto umana.
Secondo CSAIL un altro problema cruciale è la cosiddetta “minimum viewing time (MVT)”, cioè il tempo minimo che un essere umano richiede per riconoscere un’immagine. I modelli attuali spesso superano le prestazioni umane su immagini facili, ma cadono a pezzi su immagini più complesse o poco rappresentative. È come chiedere all’AI di distinguere una bistecca sanguinante da una di manzo ben cotta in condizioni di luce subottimali: il modello impiega più tempo o sbaglia completamente. Questo implica che, se mostriamo un’immagine di pizza scadente o una bistecca sfocata, l’AI può facilmente confondersi.
Sole, il Nostro Cagnolino eminente degustatore, reagisce istantaneamente al profumo e all’aspetto: il suo sistema di riconoscimento è estremamente robusto. L’AI invece si appoggia a modelli CNN, addestrati su dataset eterogenei, spesso con transfer learning da ImageNet. Le CNN estraggono feature locali: bordi, texture, pattern; poi pool, trasformazioni, fine tuning con optimizer come Adam o RMSprop, dropout, data augmentation—tecniche ben note in corsi come CS231n a Stanford.
Nel mondo accademico esistono anche progetti open‑source come NeuralNibbles o FoodVision Mini‑App basati su PyTorch ed EfficientNetB0 capaci di distinguere pizza, steak e sushi, con modelli ibridi trainati su dataset specifici (GitHub). Sono applicazioni sperimentali che mostrano come l’AI possa raggiungere alte performance, ma nei test la pizza è spesso più facile da riconoscere della bistecca, proprio per la sua struttura visiva più consistente.
Immaginiamoci il Nostro Sole seduto davanti alla Fiorentina: per lui è manzo o non manzo, senza etichette, basato sulla vista, sull’olfatto, sul gusto. L’AI deve affidarsi a pixel, algoritmi e dati. Il riconoscimento visivo può fallire se la bistecca è affettata,della pizza restano solo briciole, o se la pizza è tagliata male. Le CNN tendono a generalizzare peggio su classi facilmente variabili: una Fiorentina cotta al sangue in un piatto di ceramica rossa può venire classificata come bistecca o addirittura hamburger a seconda delle ombre, del riflesso, della texture.
È ironico e provocatorio pensare che un AI visionario, come PizzaGAN, possa ricostruire virtualmente una pizza completa da una foto monca di ingredienti, mentre per distinguere se un pezzo di carne è manzo di vitello o bistecca di maiale serve un dataset sterile di etichette uniformi, cosa rara in cucina reale. Così una AI che eccelle con la pizza può inciampare con una bistecca.
In termini pratici, se al Nostro Sole chiedessimo di guardare un’immagine digitale: lui capirebbe se è pizza o bistecca in base alla forma e al odore quasi irreale. L’AI invece utilizza un modello probabilistico: data una foto pixelata riconosce la pizza se trova distribuzioni di topping, strutture circolari, pattern tipici; riconosce bistecca se la texture contiene gradienti di colore rosso‑marrone, fibre muscolari visibili, o ombre specifiche definite da training dataitici. È un processo statistico, non sensoriale.
In conclusione provocatoria: l’AI può sì distinguere tra pizza e bistecca — ma la pizza è il suo campo visivo preferito, regolare, stratificata, quasi geometrica; la bistecca invece è un territorio selvaggio di variabilità, difficile da etichettare accuratamente. Mentre Sole assapora senza dubbi, l’AI necessita di dataset curati, architetture CNN raffinate, tecniche come transfer learning sui modelli Inception‑ResNet per migliorare accuracies fino al 72 % top‑1 e 91 % top‑5 su Food‑101.
Dunque per l’AI, pizza è quasi un’esperienza matematica ben definita: bistecca è un rompicapo visivo che richiede molta più attenzione. Se volete una AI che riconosca la Fiorentina come “manzo” o “non manzo” affidabile come Sole, preparatevi a fornire migliaia di immagini coerenti, condizioni di luce uniformi e magari qualche sniff… ops nessun sniff: l’AI non ha naso.