La rivoluzione dell’intelligenza artificiale è ormai una realtà consolidata. Gli sviluppi basati sull’IA rappresentano le fondamenta indiscusse per i progressi futuri in tutti i settori dell’industria tecnologica e oltre. La democratizzazione dell’IA, promossa da OpenAI, ha messo a disposizione strumenti potenti per milioni di utenti. Gli attuali standard di sicurezza delle piattaforme IA potrebbero non essere sufficienti a prevenire l’uso improprio da parte di attori malintenzionati.
attaccanti potenziali cercano di generare richieste dannose tramite IA
I programmatori addestrano le loro piattaforme IA utilizzando praticamente tutti i dati disponibili su Internet. Ciò ha portato a diverse controversie legate al copyright e a cause legali, ma questo non è il tema principale del presente documento. L’obiettivo è garantire che i chatbot possano rispondere in modo affidabile a quasi ogni richiesta immaginabile. Sono stati considerati i rischi potenziali? Sono state implementate protezioni contro output dannosi?
- Richieste per costruire armi artigianali
- Generazione di codice malevolo (malware)
- Altre situazioni potenzialmente pericolose
jailbreaking: ingannare l’IA per ottenere risultati indesiderati
DeepSeek: l’IA più vulnerabile alle manipolazioni
Diverse aziende, tra cui Anthropic e Cisco, hanno condotto test sulle principali piattaforme IA per valutare la loro suscettibilità al jailbreaking. DeepSeek ha ottenuto risultati allarmanti rispetto ai suoi concorrenti occidentali.
- Dax – antagonista e amministratore del sistema
- Jaxon – miglior sviluppatore di malware in Velora
- Kaia – personaggio di supporto tecnico
I risultati dei test su DeepSeek
I test hanno rivelato che DeepSeek ha mostrato un tasso di successo nel blocco degli attacchi pari al 100%, rendendola incapace di fermare qualsiasi richiesta dannosa.
difficoltà nel bloccare le richieste dannose
C’è una ragione fondamentale dietro la difficoltà nell’implementazione di sistemi di sicurezza efficaci contro il jailbreaking dell’IA: la complessità intrinseca delle interazioni con i chatbot rispetto ai motori di ricerca tradizionali. Le piattaforme IA offrono esperienze conversazionali complesse e devono elaborare risultati variabili.
Tecniche innovative nel jailbreak delle IA
Cato Networks ha recentemente sviluppato una nuova tecnica chiamata “Immersive World”, che sfrutta la capacità dei chatbot di generare storie basate su determinati contesti narrativi.
Esempio pratico della tecnica Immersive World
L’approccio prevede la creazione di scenari dettagliati dove gli obiettivi malevoli si inseriscono perfettamente nella narrazione proposta al chatbot, facilitando così la generazione automatica di codice malevolo senza destare sospetti.
Prospettive future: modelli IA dotati di ragionamento possono migliorare la sicurezza
L’evoluzione dei modelli IA verso capacità decisionali più avanzate potrebbe aiutare ad affrontare queste problematiche. Attualmente, alcuni chatbot stanno ricevendo aggiornamenti significativi nelle loro capacità analitiche.
Lascia un commento