Google lancia PaliGemma 2: il modello rivoluzionario visione-linguaggio

Google lancia PaliGemma 2

Google ha recentemente presentato PaliGemma 2, il suo nuovo modello open vision-language model (VLM), dopo aver introdotto il primo Gemma 2 durante l’evento I/O 2024 a maggio. Questa seconda versione offre diverse funzionalità avanzate e migliora notevolmente le capacità del modello originale.

Novità e miglioramenti di PaliGemma 2

La prima versione di PaliGemma consentiva operazioni come la captioning di immagini e brevi video, l’interpretazione del testo nelle immagini, la rilevazione di oggetti, la segmentazione di oggetti e il visual question answering. Con PaliGemma 2, però, il focus si è spostato verso il long captioning, che permette di generare descrizioni più dettagliate, contestualmente rilevanti, per le immagini. Queste non si limitano all’identificazione di semplici oggetti, ma si estendono a descrivere azioni, emozioni e la narrativa complessiva della scena. Il modello è fornito in diverse dimensioni, includendo una configurazione di 3B, 10B e 28B parametri, e risoluzioni di 224px, 448px e 896px.

Prestazioni avanzate e specifiche tecniche

PaliGemma 2 integra anche un’ottima capacità di riconoscimento ottico dei caratteri (OCR) e la comprensione della struttura e del contenuto delle tabelle nei documenti. Google ha riscontrato che questo modello eccelle in attività come il riconoscimento di formule chimiche, il riconoscimento delle partiture musicali, il ragionamento spaziale e la generazione di report su radiografie toraciche. Inoltre, il nuovo modello è progettato per essere un “drop-in replacement” per gli utilizzatori del primo modello, consentendo agli sviluppatori di ottenere guadagni di prestazione immediati la maggior parte delle operazioni, senza necessità di modifiche significative al codice.

Disponibilità e opzioni di implementazione

PaliGemma 2 è facilmente personalizzabile per soddisfare le esigenze specifiche di diversi progetti. I modelli pre-addestrati e il codice sono attualmente accessibili su piattaforme come Kaggle, Hugging Face e Ollama, facilitando ulteriormente l’integrazione nelle applicazioni esistenti e migliorando le capacità degli sviluppatori e delle aziende che desiderano implementare soluzioni di intelligenza artificiale avanzata.

Continue reading

NEXT

Produzione dei Chip AI di NVIDIA in Arizona: TSMC Pronta a Iniziare Presto

Negli ultimi tempi, TSMC ha suscitato un notevole interesse nel settore della tecnologia. Recentemente, il governo degli Stati Uniti ha concesso 6,6 miliardi di dollari in sovvenzioni per il produttore di chip. Secondo un report esclusivo di Reuters, TSMC è […]
PREVIOUS

Google Wallet: Nuova Funzione per Aggiungere la Sesta Patente Statale su Android

Google Wallet: supporto per ID dello stato del New Mexico A seguito dell’ultima implementazione di agosto, Google Wallet per Android ha avviato il supporto per le identificazioni dello stato del New Mexico. Accedendo all’app, è possibile selezionare l’opzione per aggiungere […]

Potrebbero interessarti

Commenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

I più popolari

Di tendenza