Una strepitosa IA: le bastano 3 secondi di ascolto per riprodurre la voce di chiunque, allarme per le truffe
L’evoluzione del mondo digitale sta diventando sempre più preponderante nelle nostre vite e le intelligenze artificiali si stanno sviluppando in maniere che mai ci saremmo immaginati. Questo, però, sia nel bene che nel male. Le IA di per sé non sono pericolose, ma è l’utilizzo che ne viene fatto a costituire, potenzialmente, un pericolo molto grave.
Se da una parte ai più sembra che sia una tecnologia “miracolosa”, dall’altra possono essere sfruttate da chi mastica codici di programmazione tutto il giorno, come può essere il caso degli hacker più esperti. Per questo, l’ultima intelligenza artificiale di Microsoft potrebbe costituire un pericolo da non sottovalutare.
Questa IA in particolare riesce a riprodurre la voce di una persona da un audio della durata di soli tre secondi. Grazie all’assimilazione di un campione di questo brevissimo lasso di tempo, VALL-E, la nuova intelligenza artificiale di Microsoft, può riprodurre non solo la voce, ma anche il tono e i rumori ambientali circostanti.
Nello specifico, VALL-E è un modello di machine learning, ovvero che aumenta la sua efficacia ed esperienza tramite il suo utilizzo. Definita da Microsoft come un modello linguistico con codec neurale, il funzionamento della IA è basato su una tecnologia EnCodec appartenente a Meta.
Solitamente le text-to-speech modulano le forme di onde sonore per sintetizzare il linguaggio parlato, ma VALL-E fa molto più di questo. Riesce, infatti, a generare dei codec audio totalmente personalizzati, basati su una voce da replicare che riesce ad assimilare in soli tre secondi di ascolto. Come tutte le TTS, però, necessita comunque di un testo scritto per generare i suoi audio.
VALL-E: quanto è pericolosa questa intelligenza artificiale?
Si può saggiare con esperienza diretta la potenzialità della IA, sul sito ufficiale della demo di VALL-E, che potete trovare all’indirizzo https://valle-demo.github.io/. Essendo basata la sua creazione sulla libreria audio LibriLight appartenente a Meta, attualmente su VALL-E è registrata esclusivamente la lingua inglese.
È molto facile comprendere come mai questo programma è pericoloso. Come detto, bastano tre secondi per riprodurre la voce di chiunque. Anche se il tono potrebbe sembrare leggermente artificioso, sarebbe molto semplice scambiare l’audio generato da VALL-E con quello di una persona reale.
Per questo, Microsoft ha evitato di pubblicare il codice della IA. Prima di farlo, ha intenzione di sviluppare un software che possa riconoscere le creazioni audio di VALL-E rispetto ad un originale, in modo da evitare qualsiasi rischio legale che possa compromettere gli utenti e non solo.