bananes marché st gilles © Mickael IRLES. Fotolia.com

INTELLIGENZA ARTIFICIALE E SENSO COMUNE

in
Un gruppo di ricerca del Centro Mente/Cervello inizia una collaborazione triennale con Google
di Marco Baroni

I computer sono intelligentissimi, ci battono a scacchi e risolvono problemi matematici per noi insolubili eppure non sono in grado di fare la spesa al posto nostro! Per quanto eccellano nel calcolo matematico, difettano infatti di “senso comune”, quell'insieme smisurato di conoscenze che ci aiuta a sopravvivere nella vita quotidiana. Quando compro delle banane, devo per esempio sapere che quelle verdi non si possono mangiare subito, che se costano venti euro l'una è meglio cambiare fruttivendolo, eccetera. A pensarci un po', la lista di conoscenze necessaria all'acquisto delle banane è enorme: devo sapere quali negozi le vendono, devo conoscere le convenzioni su come si aspetta il proprio turno in coda, devo sapere cos'è il denaro e come si usa, e così via. Come se non bastasse, le conoscenze che formano il senso comune non sono delle verità assolute, e vanno interpretate con molta flessibilità: sapere che le banane di solito sono gialle e non costano più di un euro non mi deve impedire, se l'occasione lo richiede, di acquistare una pregiatissima banana rossa che ne costa cinque.

L'intelligenza artificiale, nei suoi primi decenni, sviluppò sofisticati sistemi di ragionamento, ma sottovalutò l'importanza della materia prima su cui ragionare, ovvero il senso comune, finendo per creare sistemi di grande eleganza ma privi di utilità pratica, in quanto incapaci di operare nella complessità del mondo reale. Dunque, almeno dai primi anni ’90 in poi, ci si è posti come uno dei problemi prioritari nel settore quello di raccogliere dosi massicce di senso comune, onde rendere i computer più adatti alla vita quotidiana.
Come conseguenza della mole gigantesca di enunciati che formano il senso comune, non è pensabile, per chi voglia programmare un'intelligenza artificiale, inserire tali enunciati a mano nei propri programmi. Trattandosi di conoscenze per lo più implicite (a fare la spesa si impara facendola e non studiando sui libri) e non corrispondenti a verità scientifiche assolute (le banane non sono necessariamente gialle), esse non sono inoltre facili da estrarre da vocabolari, enciclopedie o manuali. Per esempio, la Wikipedia definisce la banana come: “frutto [...] che si sviluppa (nella specie e nelle varietà commestibili) in una serie di grappoli. Le banane pesano tipicamente 125-200 grammi, benché questo peso vari considerevolmente fra le differenti cultivar. Il frutto [...] può essere consumato crudo o cotto”: una definizione scientificamente ineccepibile che non è di nessun aiuto a riconoscere la banana presso un tipico fruttivendolo trentino ed è addirittura fuorviante nel nostro contesto (la banana tipica in questione non si mangia cotta!).

Nel nostro laboratorio, cerchiamo dunque di assemblare senso comune con metodi alternativi alla raccolta manuale o alla ricerca su fonti enciclopediche. I nostri programmi attraversano il Web, e scaricano enormi quantità di testi (milioni di pagine). Conduciamo poi un'analisi statistica automatica di tali testi, estraendo le sequenze di parole che tendono a co-occorrere con il concetto di cui ci stiamo occupando. In questo modo, troviamo per esempio tra le proprietà più caratteristiche delle banane: che si mangia, è un frutto, contiene potassio, si trova in caschi, si sbuccia, matura, e si compra. Non è una descrizione perfetta, ma si tratta di informazioni utili, e il processo completamente automatico ci permette di estrarre migliaia di informazioni simili per migliaia di concetti distinti. Va notato che le proprietà che estraiamo vengono di solito enunciate in modo implicito: se cercassimo affermazioni quali “le banane si mangiano”, ne troveremmo ben poche; troviamo invece frasi come “ieri ho mangiato troppe banane”, da cui deduciamo che le banane si mangiano, anche se l'autore non intendeva comunicarci questo fatto.

Valutiamo la prestazione dei nostri metodi con approcci diversi, tra cui uno dei più importanti consiste nel misurare (con metodi quantitativi) la somiglianza tra concetti sulla base delle proprietà estratte dai nostri algoritmi: per esempio, sulla base di proprietà condivise quali “si mangia” o “è un frutto”, la banana dovrebbe risultare più simile ad altri frutti che ad un aeroplano. Al sito http://clic.cimec.unitn.it/infomap-query, il lettore può verificare le prestazioni in questo compito di vari metodi da noi implementati (per l'italiano e l'inglese).

Anche se i risultati che otteniamo con l'analisi automatica dei testi sono promettenti, siamo ancora lontani dal produrre senso comune di qualità e su larga scala, e stiamo dunque esplorando varie altre strade, complementari all'analisi del testo. Per esempio, abbiamo di recente attivato una “slot-machine” concettuale su Facebook, dove i giocatori verificano le affermazioni che estraiamo in automatico dai testi: http://apps.facebook.com/conceptgame/. Tuttavia, questo gioco ha una funzione di mera verifica delle affermazioni che estraiamo, non ci permette di scoprire fatti nuovi. Sta emergendo, invece, che ci sono tipi di proprietà molto difficili, se non impossibili, da rintracciare in testi scritti, per esempio il colore tipico degli oggetti (si scrive di rado che le banane sono gialle!). Per questo, una delle frontiere più recenti della nostra ricerca consiste nel tentativo di analizzare (in automatico) non soltanto i testi in cui capita il nome di un concetto, ma anche le immagini ad esso associate sul Web. E proprio su questo tema si avvierà da questo novembre la nostra collaborazione triennale con Google.