AI DevwWrld CyberDSA Chatbot Summit Cyber Revolution Summit CYSEC Global Cyber Security & Cloud Expo World Series Digital Identity & Authentication Summit Asian Integrated Resort Expo Middle East Low Code No Code Summit TimeAI Summit

ArtPrompt: la nuova frontiera dell'hacking con arte ASCII

Come l'antica forma d'arte si trasforma in uno strumento per superare i filtri di sicurezza AI

L'hacking utilizza l'arte ASCII per ingannare le IA come GPT-4, superando i filtri etici. L'esperimento ArtPrompt ha rivelato che le IA possono fornire risposte dannose se ingannate con ASCII. Ciò evidenzia la necessità di migliorare la sicurezza degli LLM.

This pill is also available in English language

L'hacking è un'arte che spesso sfrutta percorsi non convenzionali per superare le barriere imposte dalla sicurezza informatica. Una recente scoperta nell'ambito degli attacchi ai sistemi di intelligenza artificiale avanzati, come GPT-4 di OpenAI, Gemini di Google, Claude di Anthropic e Llama di Meta, coinvolge l'uso dell'arte ASCII. Questa tecnica consiste nel trasformare le richieste dell'utente in immagini ASCII tali da disorientare i meccanismi di controllo delle IA, inducendole a fornire risposte che normalmente sarebbero escluse per motivi etici o legali, come istruzioni per attività illecite.

ArtPrompt, l'esperimento che sfida le IA

I ricercatori hanno ideato un metodo, denominato ArtPrompt, che si basa sulla sostituzione di termini chiave con rappresentazioni in arte ASCII all'interno delle richieste fatte ai grandi modelli linguistici (LLM). L'esperimento condotto ha dimostrato che, di fronte a richieste mascherate in questo modo, l'intelligenza artificiale tende a ignorare i propri filtri etici, fornendo risposte potenzialmente dannose. Un esempio flagrante è stato ottenuto inserendo la parola "contraffatto", rappresentata in ASCII, in un prompt, che ha portato l'IA a eludere le proprie regole e a fornire indicazioni su come diffondere denaro falso.

Le implicazioni dell'attacco ArtPrompt

L'avvenimento sottolinea una vulnerabilità nascosta nei meccanismi di sicurezza degli LLM, i quali sono progettati per interpretare le informazioni principalmente in base al significato semantico delle parole. Tuttavia, il test con ArtPrompt evidenzia che l'interpretazione dei dati può avvenire su un piano differente, non strettamente legato alla semantica del testo. Questa scoperta mette in luce un aspetto critico: quand'anche l'IA sia in grado di riconoscere il significato dietro a una rappresentazione ASCII, la sua capacità di generare risposte conforme agli standard di sicurezza viene messa in discussione dall'esistenza di priorità conflittuali, come nel caso della decifrazione della grafica ASCII rispetto all'applicazione dei filtri etici.

Risvolti e futuri studi sull'uso delle arti ASCII contro LLM

Questa ricerca apre la strada a ulteriori esplorazioni sui modi in cui le intelligenze artificiali possono essere indotte a eludere i propri protocolli di sicurezza. Se da un lato l'uso innovativo dell'arte ASCII in ArtPrompt dimostra come anche l'arte possa diventare uno strumento di hacking, dall'altro solleva questioni importanti sulla necessità di rafforzare la resilienza dei grandi modelli linguistici di fronte a tecniche di attacco inedite. Il team di ricerca sottolinea l'importanza di adeguare i sistemi AI per far fronte a sfide sempre più sofisticate, preservandone al contempo le capacità di fornire risposte sicure e affidabili.

Seguici su Google News per altre pillole come questa

22/03/2024 12:03

Marco Verro

Ultime pillole

Minaccia zero-day su dispositivi Android: Samsung prepara un aggiornamento crucialeScopri come Samsung sta affrontando le vulnerabilità critiche di Android e proteggendo i dispositivi Galaxy dalle minacce informatiche

CrowdStrike: come un aggiornamento di sicurezza ha paralizzato il mondo technologicoImpatto globale di un aggiornamento di sicurezza su banche, trasporti e servizi cloud: cosa è successo e come si sta affrontando la crisi

Scacco matto alle reti criminali: l’operazione Interpol che svela l’invisibileScopri come l'operazione Interpol ha smascherato truffatori digitali e trafficanti attraverso una straordinaria collaborazione globale, sequestrando beni di lusso e falsi documenti

Le previsioni di sicurezza di Google Cloud per il 2024: come l'AI ridisegnerà il panorama della c...Scopri come l'intelligenza artificiale trasformerà la sicurezza informatica e affronterà le minacce geopolitiche nel 2024 secondo il report di Google Cloud