La recente scoperta di un gruppo di ricercatori ha messo in luce una vulnerabilità nei modelli AI di Google Gemini, sfruttando strumenti progettati dalla stessa azienda. Questa innovativa tecnica, conosciuta come Fun-Tuning, si propone di migliorare l’efficacia degli attacchi di prompt injection, consentendo l’inserimento di istruzioni nascoste nel testo letto dall’intelligenza artificiale.
fun-tuning: una nuova frontiera nella sicurezza dell’AI
Il metodo è stato sviluppato da un team dell’Università della California a San Diego e dell’Università del Wisconsin. Secondo quanto riportato, Fun-Tuning aumenta notevolmente il tasso di successo degli attacchi, permettendo agli aggressori di ottenere risposte errate o informazioni riservate dai modelli AI.
meccanismo d’azione del fun-tuning
Fun-Tuning si basa sull’aggiunta di prefissi e suffissi insoliti ai prompt che normalmente non funzionerebbero. Questi elementi “potenziano” il prompt originale, aumentando le probabilità che l’attacco abbia successo. Ad esempio, un prompt inefficace può diventare funzionale grazie all’aggiunta di espressioni come wandel ! ! ! ! e formatted ! ASAP !.
risultati dei test
I test condotti hanno rivelato un tasso di successo del 65% sui modelli Gemini 1.5 Flash e dell’82% sul modello più vecchio Gemini 1.0 Pro, superando significativamente i tassi base senza Fun-Tuning. Inoltre, gli attacchi si sono dimostrati efficaci anche su diversi modelli, evidenziando una preoccupante facilità di trasferimento delle vulnerabilità.
implicazioni per la sicurezza dei dati
La vulnerabilità deriva dal modo in cui funziona il fine-tuning nei modelli: durante la fase formativa, Gemini fornisce un punteggio “loss” che indica quanto lontano sia la risposta fornita dalla risposta desiderata. Questo feedback può essere sfruttato per ottimizzare i prompt fino a raggiungere risultati positivi.
risposta da parte di google
Sebbene Google non abbia commentato direttamente sulla tecnica Fun-Tuning, ha dichiarato che la difesa contro questo tipo di attacco è una priorità continua. L’azienda ha sottolineato che Gemini viene regolarmente testato attraverso esercizi interni per identificare potenziali minacce.
- Ricercatori dell’Università della California a San Diego
- Ricercatori dell’Università del Wisconsin
- Esempi utilizzati nel Fun-Tuning: “wandel ! ! ! !” e “formatted ! ASAP !”
- Tassi di successo: 65% su Gemini 1.5 Flash e 82% su Gemini 1.0 Pro
- Punteggio “loss” utilizzato per ottimizzare i prompt dagli aggressori
- Dichiarazione generale da parte di Google riguardo alla sicurezza dei dati
Lascia un commento