AI DevwWrld CyberDSA Chatbot Summit Cyber Revolution Summit CYSEC Global Cyber Security & Cloud Expo World Series Digital Identity & Authentication Summit Asian Integrated Resort Expo Middle East Low Code No Code Summit TimeAI Summit

ArtPrompt: la nuova frontiera dell'hacking con arte ASCII

Come l'antica forma d'arte si trasforma in uno strumento per superare i filtri di sicurezza AI

L'hacking utilizza l'arte ASCII per ingannare le IA come GPT-4, superando i filtri etici. L'esperimento ArtPrompt ha rivelato che le IA possono fornire risposte dannose se ingannate con ASCII. Ciò evidenzia la necessità di migliorare la sicurezza degli LLM.

This pill is also available in English language

L'hacking è un'arte che spesso sfrutta percorsi non convenzionali per superare le barriere imposte dalla sicurezza informatica. Una recente scoperta nell'ambito degli attacchi ai sistemi di intelligenza artificiale avanzati, come GPT-4 di OpenAI, Gemini di Google, Claude di Anthropic e Llama di Meta, coinvolge l'uso dell'arte ASCII. Questa tecnica consiste nel trasformare le richieste dell'utente in immagini ASCII tali da disorientare i meccanismi di controllo delle IA, inducendole a fornire risposte che normalmente sarebbero escluse per motivi etici o legali, come istruzioni per attività illecite.

ArtPrompt, l'esperimento che sfida le IA

I ricercatori hanno ideato un metodo, denominato ArtPrompt, che si basa sulla sostituzione di termini chiave con rappresentazioni in arte ASCII all'interno delle richieste fatte ai grandi modelli linguistici (LLM). L'esperimento condotto ha dimostrato che, di fronte a richieste mascherate in questo modo, l'intelligenza artificiale tende a ignorare i propri filtri etici, fornendo risposte potenzialmente dannose. Un esempio flagrante è stato ottenuto inserendo la parola "contraffatto", rappresentata in ASCII, in un prompt, che ha portato l'IA a eludere le proprie regole e a fornire indicazioni su come diffondere denaro falso.

Le implicazioni dell'attacco ArtPrompt

L'avvenimento sottolinea una vulnerabilità nascosta nei meccanismi di sicurezza degli LLM, i quali sono progettati per interpretare le informazioni principalmente in base al significato semantico delle parole. Tuttavia, il test con ArtPrompt evidenzia che l'interpretazione dei dati può avvenire su un piano differente, non strettamente legato alla semantica del testo. Questa scoperta mette in luce un aspetto critico: quand'anche l'IA sia in grado di riconoscere il significato dietro a una rappresentazione ASCII, la sua capacità di generare risposte conforme agli standard di sicurezza viene messa in discussione dall'esistenza di priorità conflittuali, come nel caso della decifrazione della grafica ASCII rispetto all'applicazione dei filtri etici.

Risvolti e futuri studi sull'uso delle arti ASCII contro LLM

Questa ricerca apre la strada a ulteriori esplorazioni sui modi in cui le intelligenze artificiali possono essere indotte a eludere i propri protocolli di sicurezza. Se da un lato l'uso innovativo dell'arte ASCII in ArtPrompt dimostra come anche l'arte possa diventare uno strumento di hacking, dall'altro solleva questioni importanti sulla necessità di rafforzare la resilienza dei grandi modelli linguistici di fronte a tecniche di attacco inedite. Il team di ricerca sottolinea l'importanza di adeguare i sistemi AI per far fronte a sfide sempre più sofisticate, preservandone al contempo le capacità di fornire risposte sicure e affidabili.

Seguici su WhatsApp per altre pillole come questa

22/03/2024 12:03

Marco Verro

Ultime pillole

Il successo dell'Italia nella sicurezza informaticaCome l'Italia ha raggiunto l'eccellenza nella sicurezza informatica globale: strategie, collaborazioni e successi internazionali

Presunta violazione dei sistemi di Deloitte da parte di IntelBrokerServer esposto: come la sicurezza di Deloitte potrebbe essere stata compromessa da un cyber attacco

Infezioni di Vo1d su box Android TV: come proteggere i tuoi dispositiviScopri le misure essenziali per proteggere i tuoi box Android TV dal temibile malware Vo1d e mantenere i tuoi dispositivi al sicuro da minacce informatiche

Attacco hacker in Libano: Hezbollah sotto tiroShock tecnologico e feriti: la guerra cibernetica colpisce Hezbollah in Libano