ArtPrompt: la nuova frontiera dell'hacking con arte ASCII

L'hacking utilizza l'arte ASCII per ingannare le IA come GPT-4, superando i filtri etici. L'esperimento ArtPrompt ha rivelato che le IA possono fornire risposte dannose se ingannate con ASCII. Ciò evidenzia la necessità di migliorare la sicurezza degli LLM.

This pill is also available in English language

L'hacking è un'arte che spesso sfrutta percorsi non convenzionali per superare le barriere imposte dalla sicurezza informatica. Una recente scoperta nell'ambito degli attacchi ai sistemi di intelligenza artificiale avanzati, come GPT-4 di OpenAI, Gemini di Google, Claude di Anthropic e Llama di Meta, coinvolge l'uso dell'arte ASCII. Questa tecnica consiste nel trasformare le richieste dell'utente in immagini ASCII tali da disorientare i meccanismi di controllo delle IA, inducendole a fornire risposte che normalmente sarebbero escluse per motivi etici o legali, come istruzioni per attività illecite.

ArtPrompt, l'esperimento che sfida le IA

I ricercatori hanno ideato un metodo, denominato ArtPrompt, che si basa sulla sostituzione di termini chiave con rappresentazioni in arte ASCII all'interno delle richieste fatte ai grandi modelli linguistici (LLM). L'esperimento condotto ha dimostrato che, di fronte a richieste mascherate in questo modo, l'intelligenza artificiale tende a ignorare i propri filtri etici, fornendo risposte potenzialmente dannose. Un esempio flagrante è stato ottenuto inserendo la parola "contraffatto", rappresentata in ASCII, in un prompt, che ha portato l'IA a eludere le proprie regole e a fornire indicazioni su come diffondere denaro falso.

Le implicazioni dell'attacco ArtPrompt

L'avvenimento sottolinea una vulnerabilità nascosta nei meccanismi di sicurezza degli LLM, i quali sono progettati per interpretare le informazioni principalmente in base al significato semantico delle parole. Tuttavia, il test con ArtPrompt evidenzia che l'interpretazione dei dati può avvenire su un piano differente, non strettamente legato alla semantica del testo. Questa scoperta mette in luce un aspetto critico: quand'anche l'IA sia in grado di riconoscere il significato dietro a una rappresentazione ASCII, la sua capacità di generare risposte conforme agli standard di sicurezza viene messa in discussione dall'esistenza di priorità conflittuali, come nel caso della decifrazione della grafica ASCII rispetto all'applicazione dei filtri etici.

Risvolti e futuri studi sull'uso delle arti ASCII contro LLM

Questa ricerca apre la strada a ulteriori esplorazioni sui modi in cui le intelligenze artificiali possono essere indotte a eludere i propri protocolli di sicurezza. Se da un lato l'uso innovativo dell'arte ASCII in ArtPrompt dimostra come anche l'arte possa diventare uno strumento di hacking, dall'altro solleva questioni importanti sulla necessità di rafforzare la resilienza dei grandi modelli linguistici di fronte a tecniche di attacco inedite. Il team di ricerca sottolinea l'importanza di adeguare i sistemi AI per far fronte a sfide sempre più sofisticate, preservandone al contempo le capacità di fornire risposte sicure e affidabili.

03/22/2024 12:03

Marco Verro

ArtPrompt: la nuova frontiera dell'hacking con arte ASCII

Come l'antica forma d'arte si trasforma in uno strumento per superare i filtri di sicurezza AI

ArtPrompt, l'esperimento che sfida le IA

Le implicazioni dell'attacco ArtPrompt

Risvolti e futuri studi sull'uso delle arti ASCII contro LLM

Last pills