L'Intelligenza Artificiale è stata battuta dagli umani nel più difficile e rigoroso test di matematica cui è stata sottoposta finora: sono stati messi alla prova quattro diversi modelli di IA tra quelli disponibili al pubblico, tra cui ChatGpt 5.5 Pro, e nessuno di essi è riuscito a rispondere correttamente a tutti e 10 i quesiti che, non essendo mai stati pubblicati fino ad allora, richiedevano un certo grado di creatività.
Il risultato migliore, riporta la rivista Nature sul suo sito, lo ha ottenuto il modello del Politecnico federale di Zurigo (ETH), che ha risolto 6 problemi su 10. ChatGpt di OpenAI è arrivato terzo dietro il modello dell'Università della California a Los Angeles, mentre si è classificato ultimo quello dell'Università di Princeton, che a differenza degli altri si basava su Gemini di Google. Il test fa parte di un progetto chiamato First Proof e i risultati sono stati pubblicati sul suo sito.
"Non sono sorpreso di questo risultato", dice all'ANSA il matematico Roberto Natalini, direttore dell'Istituto per le applicazioni del calcolo del Consiglio Nazionale italiano delle Ricerche (CNR). "Non c'è nessun motivo per cui questi modelli dovrebbero avere idee nuove, non sono stati costruiti per questo. Ma non penso sia impossibile che, prima o poi, anche questo gap venga colmato".
Le domande poste nell'esame, infatti, non erano mai state pubblicate prima né nella letteratura scientifica né su Internet, per ridurre il rischio che i modelli si limitassero a ripetere informazioni apprese durante l'addestramento. Un gruppo di 30 matematici ha poi verificato le risposte. "Anche per noi matematici - sottolinea Natalini - le idee originali sono pochissime nell'arco della carriera, la maggior parte delle volte prendiamo spunto da cose fatte in precedenza e tanti tentativi finiscono in vicoli ciechi. Le macchine fanno la stessa cosa, la differenza è che noi esseri umani riusciamo a collegare cose distanti pur avendo pochi esempi a disposizione, mentre all'IA ne servono migliaia".
Il gruppo dell'ETH ha anche condotto un'indagine preliminare per capire perché alcuni problemi non siano stati risolti da nessuno dei concorrenti. In alcuni casi sembra che ai modelli mancasse un'intuizione cruciale che avrebbe permesso di arrivare alla soluzione finale, mentre in altri l'approccio di base era corretto, ma i sistemi non sono riusciti cogliere tutti i dettagli.
"Questo, comunque, non è un risultato negativo - afferma Natalini - perchè ci dice dove siamo arrivati. Stiamo assistendo a un miglioramento notevole nella capacità di risolvere problemi matematici reali e noi matematici siamo molto incuriositi: se c'è uno strumento che ci possa aiutare a raggiungere risultati, noi siamo contenti. Anche perché in matematica - rileva - la parte difficile è trovare il problema, più che la risposta, e siamo noi che dobbiamo indicare le priorità alle macchine, per le quali invece è tutto uguale: il fine della matematica è l'ampliamento della conoscenza umana, e la direzione la decidono gli umani".