Recenti sviluppi nel settore dell’intelligenza artificiale hanno portato attenzione su un nuovo protagonista: DeepSeek, un’azienda cinese che ha fatto notevoli progressi nell’ambito dei modelli linguistici di grandi dimensioni (LLM). La visibilità di questa azienda è aumentata esponenzialmente in seguito al rilascio della sua più recente innovazione, DeepSeek-V3.
che cos’è deepseek?
fondazione e sviluppo di deepseek
DeepSeek è stata fondata da Liang Wenfang, un ex co-fondatore di un hedge fund quantitativo che utilizza l’intelligenza artificiale per le sue decisioni di investimento. Nel 2023, Liang ha creato DeepSeek come un progetto collaterale con l’obiettivo di perseguire l’intelligenza generale artificiale.
Il processo di sviluppo ha incluso la costruzione di un centro dati personale, avviato nel 2015, che ha visto crescere il numero di schede grafiche da 100 a 10.000 negli anni successivi. Questa ambizione ha portato all’apertura di Fire-Flyer 2, con un investimento di 140 milioni di dollari.
innovazioni di deepseek prima del 2025
In meno di sei mesi dalla sua fondazione, DeepSeek ha lanciato diversi modelli, tra cui DeepSeek-Coder e DeepSeek-LLM nel novembre 2023, seguiti da DeepSeek-MoE a gennaio 2024. Questi modelli hanno scosso il mercato, portando a una riduzione dei prezzi tra i principali concorrenti in Cina.
Il rilascio del modello V2 a maggio 2024 ha innescato una vera e propria guerra dei prezzi nel mercato, culminando nel lancio di V3 il 26 dicembre 2024.
deepseek-v3 e deepseek-r1
performance e confronto con altri modelli
DeepSeek-V3 si distingue come un potente modello linguistico, superando leggermente GPT-4o in diversi test benchmark. Ciò che è particolarmente notevole è il costo di addestramento di V3, che è stato di soli 6 milioni di dollari rispetto ai 100 milioni di OpenAI per modelli simili.
Grazie a un’architettura nota come “mixture-of-experts”, DeepSeek-V3 attiva solo 37 miliardi dei suoi 671 miliardi di parametri per ogni query, abbassando così i costi operativi e il prezzo per i token.
deepseek-r1 e le sue innovazioni
DeepSeek-R1, evoluzione di V3, è stata progettata per migliorare il ragionamento interno. Si caratterizza per un approccio innovativo, utilizzando esclusivamente l’apprendimento per rinforzo durante la fase di sviluppo iniziale. Questo ha portato alla creazione di R1-Zero, un modello capace di sviluppare capacità di ragionamento emergente.
ripercussioni sul mercato
Il lancio di DeepSeek ha causato un’onde di cambiamento nel mercato, con il Nasdaq che ha subito una perdita di un trilione di dollari in capitalizzazione di mercato. Nvidia è stata particolarmente colpita, registrando una riduzione di quasi 600 miliardi di dollari.
Le reazioni del mercato mettono in evidenza come DeepSeek abbia costretto i maggiori attori del settore a riconsiderare le proprie strategie e modelli operativi. Ciò dimostra che l’innovazione può emergere anche da competitor più piccoli, forzando un rinnovamento e un’accelerazione all’interno di un settore già dinamico.
il futuro e le prospettive
Con i recenti sviluppi, il panorama dell’intelligenza artificiale si sta rapidamente evolvendo. La capacità di aziende come DeepSeek di competere ad armi pari con i giganti del settore evidenzia un cambiamento cruciale e il potenziale per ulteriori innovazioni che potrebbero condurre il mercato in direzioni impensabili. Di conseguenza, il 2025 si preannuncia come un anno di sfide e opportunità senza precedenti nel campo dell’IA.
Lascia un commento