Negli ultimi anni, l’intelligenza artificiale (AI) ha dimostrato di essere utile in molteplici ambiti, inclusa la sintesi di contenuti. Tra le funzionalità più apprezzate dai produttori di tecnologia AI vi è la capacità di riassumere articoli, rendendo più fruibili testi complessi o di grande lunghezza. Nonostante ciò, diversi esperimenti hanno rivelato che i chatbot AI presentano delle inaccuratezze nella generazione dei riassunti, soprattutto in ambito giornalistico.
Risultati dei test condotti dalla BBC
Recentemente, la BBC ha condotto un test su quattro dei principali chatbot AI: ChatGPT di OpenAI, Copilot di Microsoft, Gemini di Google e Perplexity di Anthropic. Durante la sperimentazione, i chatbot sono stati autorizzati ad accedere ai feed di notizie della BBC, normalmente bloccati, per generare riassunti di 100 articoli. Gli esperti hanno poi valutato la qualità di questi riassunti.
Problemi riscontrati nei riassunti
Dal test è emerso che il 51% dei riassunti presentava problemi significativi. In particolare, il tasso di “allucinazione”, ovvero la presenza di dati falsi o inventati, ha raggiunto il 19%. I riassunti hanno mostrato difficoltà nel distinguere tra opinionismo e fatti e frequentemente non includevano contesti fondamentali.
Commento della CEO di BBC News
Deborah Turness, CEO di BBC News, ha espresso le sue preoccupazioni riguardo ai risultati, sottolineando l’importanza di affrontare i rischi associati all’uso dell’intelligenza artificiale. Ha definito l’AI una fonte di “opportunità infinite“, avvertendo al contempo che le aziende sono “in gioco con il fuoco“. Ha sollevato interrogativi su eventuali danni reali generati da titoli distorti dall’AI.
Non tutte le piattaforme AI sono inefficaci
Nonostante i risultati preoccupanti, Turness ha aperto alla possibilità di “collaborare per trovare soluzioni“. Solo OpenAI ha risposto ufficialmente, evidenziando il suo impegno nel migliorare l’accuratezza delle citazioni. Non si può considerare che l’AI sia intrinsecamente inefficace nel generare riassunti; infatti, le piattaforme tendono a performare bene con informazioni brevi e concatenate, mentre i contenuti più complessi risultano problematizzabili.
Lascia un commento