Cose da sapere e a cui stare attenti.
Era da tempo che pensavo di scrivere questo articolo: da quando tutti abbiamo iniziato a sentir parlare di intelligenza artificiale, io e tanti miei colleghi ci siamo chiesti come sarebbe cambiato il nostro lavoro.
Partiamo da una premessa fondamentale: parlando con persone che fanno questo lavoro dagli anni 80 ho capito che questo è cambiato già diverse volte, per ragioni diverse: si è passati dall’uso dei minidisk alle audiocassette, passando per i CD per finire all’invio degli spot pubblicitari via internet. Una volta gli spot dovevano esser spediti su cassetta ed era praticamente impossibile avere una produzione il giorno prima per il giorno dopo, con buona pace dei clienti che attendevano pazientemente.
Oggi grazie ad internet non si attende più, se una pronuncia è sbagliata non è necessario aspettare giorni per avere la versione corretta. Un vantaggio? Sicuramente, anche se ci porta ad avere ritmi molto più frenetici rispetto a quelli di una volta.
Nel tempo però non è cambiato solo il supporto su cui venivano salvate le produzioni, ma anche il modo di approcciare a questo lavoro e, inevitabilmente, anche le orecchie della nostra audience si sono abituate a cose mai sentite prima. Un esempio? Ora alcuni servizi telefonici (il call center di Vodafone, ad esempio), usano voci generate artificialmente per rispondere al cliente che chiama per un problema. Il risultato è che se prima un collega veniva pagato per incidere ogni singolo messaggio del call center di Poste Italiane, oggi questi messaggi vengono generati artificialmente. Sono più brutti, sicuramente, ma non richiedono che venga convocato uno speaker vero e costano meno. Ci sono ancora aziende che vogliono gli umani a rispondere ai loro clienti (Tesla e Western Union ad esempio), ma parliamo di 2 aziende molto grosse. La restante fetta di lavoro in questo campo si è ridotta, anche se esistono aziende che, per andare in controtendenza chiedono espressamente la voce umana.
Sono un doppiatore pubblicitario dal 2005 e sono non vedente, quindi ho sempre avuto a che fare con le sintesi vocali. Ricordo chiaramente un articolo di un collega perplesso di qualche anno fa, il quale aveva paura che le sintesi vocali (più comunemente chiamate TTS o text to speech) potessero rubargli il lavoro. Era il 2005 e la tecnologia non era in grado di riprodurre la voce umana in modo troppo fedele, adesso però le cose sono cambiate ed è necessario fare attenzione.
Grazie all’intelligenza artificiale generativa oggi è possibile riprodurre le voci umane in modo veramente fedele. Il computer dunque non ha più una voce da robot ma è in grado di parlare con appoggiature naturali in diverse lingue, tra cui anche l’italiano. Mentre il text to speech tradizionale veniva realizzato concatenando i fonemi umani senza tenere conto del significato delle parole con la IA generativa la cosa cambia, il che ci porta a dover essere consapevoli dei possibili rischi a cui andiamo in contro.
A cosa stare attenti?
Dati questi progressi, ci sono un po’ di cose di cui è meglio tener conto se si lavora con la voce. Tanto per cominciare è bene sapere che oggi l’intelligenza artificiale permette di clonare una voce a partire da pochi secondi di audio.
Il procedimento è semplice: fai l’upload di un sample della tua voce (o della voce di qualcun altro) su un servizio di voice cloning, aspetti qualche secondo e ottieni una copia quasi identica della voce originale, a cui puoi far leggere quello che vuoi. Non sarà esattamente uguale alla voce originale, ma comunque il risultato potrebbe suonarti abbastanza sorprendente.
Cosa vuol dire questo per chi fa voice over?
Vuol dire che, purtroppo è già capitato che colleghi si ritrovassero clonati, anche a loro insaputa. Consideriamolo quando inviamo dei casting, anche perché mettere una base sotto alla nostra voce non risolve per forza il problema (anche la base è almeno parzialmente rimovibile). Una volta clonati la nostra voce rimane immortale e si perde il controllo di ciò che ci fanno dire, magari su YouTube.
Occhio poi, perché la maggior parte delle intelligenze artificiali sono in grado di far parlare senza accento anche se gli avete dato un sample con il vostro accento naturale. Insomma, è divertente perché tutti possiamo avere la dizione, ma dobbiamo tenere presente che la nostra voce potrebbe essere usata anche per scopi commerciali, senza che noi si percepisca nessun compenso.
Mi raccomando quindi, continuiamo a lavorare ma facciamolo con consapevolezza.