AI DevwWrld CyberDSA Chatbot Summit Cyber Revolution Summit CYSEC Global Cyber Security & Cloud Expo World Series Digital Identity & Authentication Summit Asian Integrated Resort Expo Middle East Low Code No Code Summit TimeAI Summit

ArtPrompt: la nuova frontiera dell'hacking con arte ASCII

Come l'antica forma d'arte si trasforma in uno strumento per superare i filtri di sicurezza AI

L'hacking utilizza l'arte ASCII per ingannare le IA come GPT-4, superando i filtri etici. L'esperimento ArtPrompt ha rivelato che le IA possono fornire risposte dannose se ingannate con ASCII. Ciò evidenzia la necessità di migliorare la sicurezza degli LLM.

This pill is also available in English language

L'hacking è un'arte che spesso sfrutta percorsi non convenzionali per superare le barriere imposte dalla sicurezza informatica. Una recente scoperta nell'ambito degli attacchi ai sistemi di intelligenza artificiale avanzati, come GPT-4 di OpenAI, Gemini di Google, Claude di Anthropic e Llama di Meta, coinvolge l'uso dell'arte ASCII. Questa tecnica consiste nel trasformare le richieste dell'utente in immagini ASCII tali da disorientare i meccanismi di controllo delle IA, inducendole a fornire risposte che normalmente sarebbero escluse per motivi etici o legali, come istruzioni per attività illecite.

ArtPrompt, l'esperimento che sfida le IA

I ricercatori hanno ideato un metodo, denominato ArtPrompt, che si basa sulla sostituzione di termini chiave con rappresentazioni in arte ASCII all'interno delle richieste fatte ai grandi modelli linguistici (LLM). L'esperimento condotto ha dimostrato che, di fronte a richieste mascherate in questo modo, l'intelligenza artificiale tende a ignorare i propri filtri etici, fornendo risposte potenzialmente dannose. Un esempio flagrante è stato ottenuto inserendo la parola "contraffatto", rappresentata in ASCII, in un prompt, che ha portato l'IA a eludere le proprie regole e a fornire indicazioni su come diffondere denaro falso.

Le implicazioni dell'attacco ArtPrompt

L'avvenimento sottolinea una vulnerabilità nascosta nei meccanismi di sicurezza degli LLM, i quali sono progettati per interpretare le informazioni principalmente in base al significato semantico delle parole. Tuttavia, il test con ArtPrompt evidenzia che l'interpretazione dei dati può avvenire su un piano differente, non strettamente legato alla semantica del testo. Questa scoperta mette in luce un aspetto critico: quand'anche l'IA sia in grado di riconoscere il significato dietro a una rappresentazione ASCII, la sua capacità di generare risposte conforme agli standard di sicurezza viene messa in discussione dall'esistenza di priorità conflittuali, come nel caso della decifrazione della grafica ASCII rispetto all'applicazione dei filtri etici.

Risvolti e futuri studi sull'uso delle arti ASCII contro LLM

Questa ricerca apre la strada a ulteriori esplorazioni sui modi in cui le intelligenze artificiali possono essere indotte a eludere i propri protocolli di sicurezza. Se da un lato l'uso innovativo dell'arte ASCII in ArtPrompt dimostra come anche l'arte possa diventare uno strumento di hacking, dall'altro solleva questioni importanti sulla necessità di rafforzare la resilienza dei grandi modelli linguistici di fronte a tecniche di attacco inedite. Il team di ricerca sottolinea l'importanza di adeguare i sistemi AI per far fronte a sfide sempre più sofisticate, preservandone al contempo le capacità di fornire risposte sicure e affidabili.

Follow us on Threads for more pills like this

03/22/2024 12:03

Marco Verro

Last pills

Zero-day threat on Android devices: Samsung prepares a crucial updateFind out how Samsung is addressing critical Android vulnerabilities and protecting Galaxy devices from cyber threats

CrowdStrike: how a security update crippled the tech worldGlobal impact of a security update on banking, transportation and cloud services: what happened and how the crisis is being addressed

Checkmate the criminal networks: the Interpol operation that reveals the invisibleFind out how Operation Interpol exposed digital fraudsters and traffickers through extraordinary global collaboration, seizing luxury goods and false documents

Google Cloud security predictions for 2024: how AI will reshape the cybersecurity landscapeFind out how AI will transform cybersecurity and address geopolitical threats in 2024 according to Google Cloud report