La rapida evoluzione dell’intelligenza artificiale (AI) ha portato a significativi sviluppi nell’industria tecnologica in pochi anni. Uno dei principali protagonisti di questa trasformazione è ChatGPT, che ha iniziato una vera e propria rivoluzione. Diversi esperti del settore, come Elon Musk, sollevano dubbi sulla disponibilità di dati per l’addestramento di modelli di AI, affermando che la quantità di dati a disposizione stia esaurendosi.
Elon Musk e altri esperti: l’esaurimento dei dati per l’AI
L’addestramento di modelli complessi di AI richiede enormi quantità di dati. Nonostante l’immagine di un’industria che utilizza dati in modo illimitato, gli esperti indicano che si è vicini a un picco dei dati. Durante la conferenza NeurIPS a dicembre, Ilya Sutskever, ex chief scientist di OpenAI, ha comunicato che il settore ha già raggiunto questo stato di saturazione.
Secondo Sutskever, la maggior parte dei dati necessari per l’addestramento dei modelli è praticamente stata sfruttata, lasciando pochissime risorse inutilizzate. Questo richiederà un cambiamento radicale nello sviluppo dei modelli di AI. In un’intervista, Musk ha dichiarato che l’industria ha “esaurito fondamentalmente la somma cumulativa della conoscenza umana… nell’addestramento dell’AI”.
Il potenziale dei dati sintetici come nuova risorsa
Esistono comunque strategie alternative per ottenere nuovi dati. Diverse aziende di AI stanno utilizzando dati sintetici per il proprio addestramento. Tale tipo di dati viene generato da altri modelli di AI. Musk ha affermato che l’unico modo per integrare i dati reali è attraverso dati sintetici, dove l’AI crea i dati di addestramento, favorendo un processo di auto-apprendimento.
Stime e avvertenze sull’uso dei dati sintetici
Secondo la società di ricerca e consulenza Gartner, entro il 2024, il 60% dei dati utilizzati per sviluppi basati su AI potrebbe essere di natura sintetica. Alcuni progetti noti che utilizzano questo tipo di dati includono:
- Phi-4 di Microsoft
- Gemma di Google
- Claude 3.5 di Sonnet
- Llama di Meta
Nonostante i vantaggi, l’uso eccessivo di dati sintetici deve essere monitorato attentamente. Infatti, una loro diffusione eccessiva potrebbe condurre ad un aumento dei bias, compromettendo la creatività dei modelli e la qualità dei risultati generati. D’altro canto, utilizzare dati sintetici può portare a significativi risparmi sui costi.
Lascia un commento