Il DeepSeek-V3-0324, un nuovo modello linguistico sviluppato dalla startup cinese di intelligenza artificiale DeepSeek, è ora disponibile per il download gratuito su Hugging Face. Con licenza MIT, questo modello può essere utilizzato sia per scopi personali che commerciali.
deepseek-v3-0324: un modello potente e accessibile
Con una dimensione di 641 gigabyte, il DeepSeek-V3-0324 è progettato per funzionare in modo efficiente su hardware di consumo, inclusi i dispositivi Mac Studio dotati del chip M3 Ultra. Questo modello vanta ben 685 miliardi di parametri, rendendolo uno dei più grandi modelli di intelligenza artificiale open-source disponibili.
L’esperto di intelligenza artificiale Xeophon ha dichiarato che questo modello può competere con Claude Sonnet 3.5 di Anthropic. A differenza del Sonnet, che richiede un abbonamento a pagamento, DeepSeek-V3-0324 è completamente gratuito, offrendo così un vantaggio significativo in termini di accessibilità.
architettura moE: maggiore efficienza e intelligenza
Il DeepSeek-V3-0324 utilizza l’architettura Mixture of Experts (MoE). Questa tecnologia consente al modello di attivare solo i parametri più rilevanti anziché tutti contemporaneamente; infatti, tra i suoi 685 miliardi di parametri, solo 37 miliardi sono attivi in ogni momento. Ciò riduce le richieste computazionali mantenendo elevati livelli prestazionali.
innovazioni per prestazioni superiori
Il modello introduce due innovazioni principali:
- Multi-Head Latent Attention (MLA): migliora la capacità del modello nel mantenere il contesto in testi lunghi.
- Multi-Token Prediction (MTP): consente la generazione simultanea di più token.
Tali caratteristiche aumentano la velocità d’uscita del modello fino all’80%. Secondo il ricercatore Apple Awni Hannun, test condotti su Mac Studio hanno mostrato velocità pari a 20 token al secondo.
cambiamento nello stile comunicativo
I risultati ottenuti con il nuovo modello mostrano una variazione nel tono rispetto alle versioni precedenti. Mentre i modelli precedenti presentavano uno stile conversazionale e simile a quello umano, la nuova versione ha adottato un approccio più formale e tecnico. Questo cambiamento ne fa uno strumento ideale per ricerche accademiche, programmazione e utilizzi aziendali.
impatto del deepseek-v3-0324 sulla concorrenza AI
Il DeepSeek-V3-0324 rappresenta una significativa evoluzione nel panorama dell’industria dell’intelligenza artificiale. Offrendo un’alternativa potente e gratuita ai modelli basati su abbonamento, DeepSeek sta ridefinendo le regole della competizione nel settore.
- DeepSeek-V3-0324
- Mac Studio con M3 Ultra chip
- Xeophon – ricercatore AI
- Claude Sonnet 3.5 – Anthropic
- Awni Hannun – ricercatore Apple
Lascia un commento