DeepMind rivela una falla nelle memorie IA
Una vulnerabilità critica nella IA: identificata la memorizzazione estraibile in ChatGPT
Una recente scoperta da DeepMind getta luce su una vulnerabilità critica in ChatGPT di OpenAI, denominata 'memorizzazione estraibile'. Questa lacuna permette al modello di lingua di rivelare dettagli del materiale con cui è stato istruito, potenzialmente esponendo dati sensibili. Attraverso ripetizioni continue di parole spesso innocue, ricercatori hanno indotto la IA a divulgare segmenti accidentalmente memorizzati durante il suo addestramento, sottolineando un rischio significativo per la privacy degli utenti.
Analisi dettagliata del comportamento di ChatGPT
Gli esperti di DeepMind hanno utilizzato una strategia ingegnosa, assillando il programma con delle keyword ripetute incessantemente, per esempio "poesia". La risposta di ChatGPT, all'inizio corretta, ha finito per sbilanciarsi, svelando parti del suo database di apprendimento. Per approfondire, i ricercatori hanno creato AUXDataSet, un database di quasi 10 terabyte di dati utilizzati nell'addestramento, che ha aiutato a identificare esatti corrispettivi dei testi prodotti dal modello con quelli di apprendimento.
Implicazioni per la privacy e la sicurezza dei dati
Questo vuoto di sicurezza ha pesanti conseguenze: il 17% delle 15.000 sequenze testate ha rivelato dati identificativi personali, svelando un pericoloso potenziale di abuso delle informazioni riservate. Tra gli output esaminati, sono comparsi estratti da opere letterarie, poesie integrali e contenuti non sicuri per il lavoro (NSFW), nonostante quest'ultimi dovrebbero essere preclusi dalle interazioni con l'utente da regole di sicurezza del sistema stesso.
OpenAI agisce contro le debolezze rilevate
A seguito della relazione compiuta da DeepMind ad OpenAI il 30 agosto, pare che ci siano state modifiche atte a mitigare la suddetta vulnerabilità nei sistemi affetti. In risposta, ChatGPT ha mostrato una ridotta propensione a ripetere parole in continuazione e ha migliorato i propri protocolli di avvisi per potenziali violazioni dei contenuti. La comunità IA è ora di fronte all’impellente necessità di una revisione delle sue pratiche di sicurezza, e questa scoperta serve ad alimentare tale critica valutazione dei processi di allineamento etico e privacy nei modelli IA.
Follow us on Threads for more pills like this12/11/2023 09:47
Marco Verro