Il modello PaliGemma di Google rappresenta una delle innovazioni più recenti nel campo dell’intelligenza artificiale, in grado di riconoscere oggetti e testi all’interno delle immagini. Con l’introduzione del nuovo PaliGemma 2, la società ha ampliato le funzionalità di questo strumento, rendendolo accessibile per applicazioni pratiche e avanzate. Questo modello non solo identifica oggetti, ma fornisce anche didascalie per le immagini e rapporti legati a video brevi.
presentazione del nuovo modello PaliGemma 2
Google ha ufficialmente presentato il modello PaliGemma nel mese di maggio. L’obiettivo del nuovo modello è sostituire la versione precedente, facilitando la transizione per gli utenti già attivi con il primo modello.
Il PaliGemma 2 è disponibile in diverse configurazioni, tra cui varianti da 3 miliardi, 10 miliardi e 28 miliardi di parametri, con risoluzioni che spaziano da 224 a 896 pixel.
Le specifiche recenti evidenziano una notevole capacità di captioning e un’analisi più profonda delle immagini. Questo modello è in grado di riconoscere non solo oggetti, ma anche volti e le loro espressioni emotive, consentendo una comprensione più sfumata delle scenografie rappresentate.
In aggiunta, il modello mostra miglioramenti nel riconoscimento di punteggi musicali, formule chimiche, profondità e nella produzione di referti per radiografie toraciche.
altre innovazioni di Google
In parallelo al lancio di PaliGemma 2, Google ha introdotto anche un modello di generazione video denominato Veo, presentato durante l’evento Google I/O di quest’anno. Gli utenti della piattaforma Vertex di Google possono provare questo strumento, progettato per generare video fino a una risoluzione di 1080p.
Lascia un commento