Meta e la sfida della sicurezza: vulnerabilità inattesa nel nuovo modello di machine learning
Scoperta una vulnerabilità critica nel modello AI di Meta: il Prompt-Guard-86M sotto attacco
Meta ha introdotto un modello di machine learning, Prompt-Guard-86M, per prevenire attacchi di prompt injection. Tuttavia, è vulnerabile a tali attacchi tramite spazi tra lettere. Questo evidenzia l'importanza della sicurezza nell'evoluzione dell'IA.
Meta, nota per le sue piattaforme social, ha di recente introdotto il Prompt-Guard-86M, un nuovo modello di machine learning sviluppato per lavorare in sinergia con Llama 3.1. Lo scopo di questo modello è supportare gli sviluppatori nel rilevamento e nella prevenzione degli attacchi di prompt injection e delle tecniche di jailbreak, che mirano a eludere i sistemi di sicurezza. Tuttavia, ironicamente, sembra che Prompt-Guard-86M sia esso stesso vulnerabile ai medesimi tipi di attacchi che dovrebbe contrastare.
La sfida degli attacchi di prompt injection
Gli attacchi di prompt injection rappresentano una sfida persistente e non ancora risolta nel campo dell'intelligenza artificiale. Questi attacchi manipolano i modelli affinché ignorino gli input di sicurezza predefiniti. Ad esempio, accademici della Carnegie Mellon University avevano precedentemente creato tecniche per generare automaticamente prompt ostili capaci di superare tali barriere di sicurezza. Un caso emblematico è quello di un concessionario Chevrolet in California, dove una chatbot, vittima di un prompt injection, ha offerto un'auto da 76.000 dollari per solo 1 dollaro.
Analisi e scoperta di una vulnerabilità
L'attacco al Prompt-Guard-86M è stato scoperto da Aman Priyanshu, un esperto di Robust Intelligence, analizzando le differenze nei pesi di embedding rispetto a un modello base di Microsoft. Priyanshu ha rilevato che il fine-tuning applicato da Meta influenzava in modo minimo i singoli caratteri dell'alfabeto inglese. Inserendo spazi tra ogni lettera di un prompt, il classificatore risultava incapace di riconoscere i contenuti dannosi. Il CTO di Robust Intelligence, Hyrum Anderson, ha riferito a The Register che questa semplice tecnica può aumentare significativamente le probabilità di successo di un attacco, passando dal 3% a quasi il 100%.
Importanza della sicurezza nell'evoluzione dell'IA
Nonostante Meta non abbia risposto immediatamente a richieste di commento, fonti interne indicano che l'azienda sta lavorando a una soluzione per questa vulnerabilità. Anderson ha sottolineato che il modello testato da Prompt-Guard ha comunque il potenziale di resistere a prompt maliziosi. Tuttavia, l'importanza della scoperta risiede nel sollevare la consapevolezza tra le aziende sui rischi potenziali legati all'uso dell'IA. Man mano che l'intelligenza artificiale continua a evolversi, diventa cruciale implementare misure di sicurezza robuste per prevenire abusi e malfunzionamenti.
Follow us on Instagram for more pills like this07/30/2024 17:41
Marco Verro