Google lancia PaliGemma 2
Google ha recentemente presentato PaliGemma 2, il suo nuovo modello open vision-language model (VLM), dopo aver introdotto il primo Gemma 2 durante l’evento I/O 2024 a maggio. Questa seconda versione offre diverse funzionalità avanzate e migliora notevolmente le capacità del modello originale.
Novità e miglioramenti di PaliGemma 2
La prima versione di PaliGemma consentiva operazioni come la captioning di immagini e brevi video, l’interpretazione del testo nelle immagini, la rilevazione di oggetti, la segmentazione di oggetti e il visual question answering. Con PaliGemma 2, però, il focus si è spostato verso il long captioning, che permette di generare descrizioni più dettagliate, contestualmente rilevanti, per le immagini. Queste non si limitano all’identificazione di semplici oggetti, ma si estendono a descrivere azioni, emozioni e la narrativa complessiva della scena. Il modello è fornito in diverse dimensioni, includendo una configurazione di 3B, 10B e 28B parametri, e risoluzioni di 224px, 448px e 896px.
Prestazioni avanzate e specifiche tecniche
PaliGemma 2 integra anche un’ottima capacità di riconoscimento ottico dei caratteri (OCR) e la comprensione della struttura e del contenuto delle tabelle nei documenti. Google ha riscontrato che questo modello eccelle in attività come il riconoscimento di formule chimiche, il riconoscimento delle partiture musicali, il ragionamento spaziale e la generazione di report su radiografie toraciche. Inoltre, il nuovo modello è progettato per essere un “drop-in replacement” per gli utilizzatori del primo modello, consentendo agli sviluppatori di ottenere guadagni di prestazione immediati la maggior parte delle operazioni, senza necessità di modifiche significative al codice.
Disponibilità e opzioni di implementazione
PaliGemma 2 è facilmente personalizzabile per soddisfare le esigenze specifiche di diversi progetti. I modelli pre-addestrati e il codice sono attualmente accessibili su piattaforme come Kaggle, Hugging Face e Ollama, facilitando ulteriormente l’integrazione nelle applicazioni esistenti e migliorando le capacità degli sviluppatori e delle aziende che desiderano implementare soluzioni di intelligenza artificiale avanzata.
Lascia un commento