L'intelligenza artificiale risolve il "problema del cocktail party" e si rivela utile in tribunale

Nei gruppi le persone filtrano le chiacchiere intorno a loro, e ora la tecnologia può fare lo stesso

Getty Images Quattro donne sulla trentina chiacchierano con un drink in mano — Nei gruppi le persone filtrano le chiacchiere intorno a loro, e ora la tecnologia può fare lo stesso

È il solito “problema dei cocktail party”: ritrovarsi in una stanza piena di gente, con un drink in mano, cercando di sentire cosa sta dicendo l’altro ospite.

In effetti, gli esseri umani sono straordinariamente abili nel sostenere una conversazione con una persona, filtrando al contempo le voci concorrenti.

Tuttavia, forse sorprendentemente, si tratta di un’abilità che fino a poco tempo fa la tecnologia non era in grado di replicare.

E questo è importante quando si tratta di usare prove audio nei casi giudiziari. Le voci in sottofondo possono rendere difficile essere certi di chi sta parlando e cosa viene detto, rendendo potenzialmente inutili le registrazioni.

L’ingegnere elettrico Keith McElveen, fondatore e direttore tecnico di Wave Sciences, iniziò a interessarsi al problema mentre lavorava per il governo degli Stati Uniti su un caso di crimini di guerra.

“Quello che stavamo cercando di capire era chi aveva ordinato il massacro di civili. Alcune delle prove includevano registrazioni con un mucchio di voci che parlavano tutte insieme, ed è stato allora che ho capito qual era il “problema del cocktail party”, dice.

“Ero riuscito a eliminare dal parlato rumori come quelli delle automobili, dei condizionatori o dei ventilatori, ma quando ho iniziato a provare a eliminare il parlato dal parlato, si è rivelato non solo un problema molto difficile, ma uno dei classici problemi difficili dell’acustica.

“I suoni rimbalzano in una stanza ed è matematicamente orribile da risolvere.”

Keith McElveen ha fondato Wave Sciences nel 2008 per concentrarsi sul “problema del cocktail party”

Paul Cheney Keith McElveen è in piedi davanti a una lavagna bianca con in mano un pennarello — Keith McElveen ha fondato Wave Sciences nel 2008 per concentrarsi sul “problema del cocktail party”

La risposta, sostiene, è stata quella di utilizzare l’intelligenza artificiale per cercare di individuare ed escludere tutti i suoni concorrenti in base alla loro provenienza originaria nella stanza.

Questo non riguarda solo le altre persone che potrebbero parlare: c’è anche una notevole interferenza dovuta al modo in cui i suoni vengono riflessi nella stanza, con la voce dell’oratore di riferimento che viene udita sia direttamente che indirettamente.

In un perfetto anecoico camera – una totalmente priva di echi – un microfono per ogni oratore sarebbe sufficiente per captare ciò che tutti dicono; ma in una stanza reale, il problema richiede un microfono anche per ogni suono riflesso.

Il signor McElveen ha fondato Wave Sciences nel 2009, sperando di sviluppare una tecnologia che potesse separare voci sovrapposte. Inizialmente l’azienda ha utilizzato un gran numero di microfoni in quello che è noto come array beamforming.

Tuttavia, il feedback dei potenziali partner commerciali era che il sistema richiedeva troppi microfoni rispetto al costo richiesto per fornire buoni risultati in molte situazioni e non avrebbe funzionato affatto in molte altre.

“Il ritornello più ricorrente era che se fossimo riusciti a trovare una soluzione che risolvesse tali preoccupazioni, sarebbero stati molto interessati”, afferma McElveen.

E aggiunge: “Sapevamo che doveva esserci una soluzione, perché è possibile farlo anche con due sole orecchie”.

Dopo 10 anni di ricerca finanziata internamente, l’azienda ha finalmente risolto il problema e ha depositato una domanda di brevetto nel settembre 2019.

Ci sono voluti 10 anni a Wave Sciences per risolvere il “problema del cocktail party”

Keith McElveen Onde sonore sullo schermo del computer di Keith McElveen — Ci sono voluti 10 anni a Wave Sciences per risolvere il “problema del cocktail party”

Ciò che hanno inventato è un’intelligenza artificiale in grado di analizzare il modo in cui il suono rimbalza in una stanza prima di raggiungere il microfono o l’orecchio.

“Catturiamo il suono non appena arriva a ciascun microfono, torniamo indietro per capire da dove proviene e poi, in sostanza, sopprimiamo qualsiasi suono che non possa provenire dal punto in cui è seduta la persona”, afferma McElveen.

Per certi aspetti l’effetto è paragonabile a quello che si ottiene quando una macchina fotografica mette a fuoco un soggetto e sfuma il primo piano e lo sfondo.

“I risultati non sembrano cristallini se si può imparare solo da una registrazione molto rumorosa, ma sono comunque sorprendenti.”

La tecnologia ha trovato il suo primo utilizzo forense nel mondo reale in un caso di omicidio negli Stati Uniti, dove le prove che è stata in grado di fornire si sono rivelate fondamentali per la condanna.

Dopo che due sicari furono arrestati per aver ucciso un uomo, l’FBI volle dimostrare che erano stati assunti da una famiglia alle prese con una disputa per l’affidamento dei figli. L’FBI organizzò un modo per ingannare la famiglia facendole credere che fossero stati ricattati per il loro coinvolgimento, e poi si sedette a guardare la reazione.

Mentre i messaggi di testo e le telefonate erano abbastanza facili da accedere per l’FBI, di persona gli incontri in due ristoranti erano un’altra questione. Ma la corte ha autorizzato l’uso dell’algoritmo di Wave Sciences, il che significa che l’audio è passato dall’essere inammissibile a un elemento di prova fondamentale.

Da allora, altri laboratori governativi, tra cui il Regno Unito, l’hanno sottoposto a una serie di test. L’azienda sta ora commercializzando la tecnologia all’esercito statunitense, che l’ha utilizzata per analizzare i segnali sonar.

Potrebbe anche trovare applicazione nelle negoziazioni per la presa di ostaggi e negli scenari di suicidio, afferma McElveen, per garantire che entrambe le parti di una conversazione possano essere ascoltate, non solo il negoziatore con il megafono.

Verso la fine dell’anno scorso, l’azienda ha rilasciato un’applicazione software che utilizza il suo algoritmo di apprendimento per l’uso da parte dei laboratori governativi che eseguono analisi forensi audio e analisi acustiche.

Alla fine Wave vuole lanciare versioni del suo prodotto per l’uso negli smart speaker

Getty Images Una giovane madre e il suo bambino parlano con uno smart speaker sul tavolo di fronte a loro — Alla fine Wave vuole lanciare versioni del suo prodotto per l’uso negli smart speaker

In futuro, l’obiettivo sarà quello di introdurre versioni personalizzate del suo prodotto, da utilizzare in kit di registrazione audio, interfacce vocali per automobili, altoparlanti intelligenti, realtà aumentata e virtuale, sonar e apparecchi acustici.

Ad esempio, se parli alla tua auto o al tuo smart speaker, non importa se intorno a te c’è molto rumore: il dispositivo sarà comunque in grado di capire cosa stai dicendo.

Secondo l’educatrice forense Terri Armenta della Forensic Science Academy, l’intelligenza artificiale viene già utilizzata anche in altri ambiti della scienza forense.

“ML [machine learning] “I modelli analizzano i modelli vocali per determinare l’identità dei parlanti, un processo particolarmente utile nelle indagini penali in cui è necessario autenticare le prove vocali”, afferma.

“Inoltre, gli strumenti di intelligenza artificiale possono rilevare manipolazioni o alterazioni nelle registrazioni audio, garantendo l’integrità delle prove presentate in tribunale.”

E l’intelligenza artificiale ha iniziato a farsi strada anche in altri aspetti dell’analisi audio.

Samarjit Das con SoundSee che può prevedere il malfunzionamento di un’auto prima che si verifichi

Bosch Samarjit Das tiene in mano il Bosch SoundSee — Samarjit Das con SoundSee che può prevedere il malfunzionamento di un’auto prima che si verifichi

Bosch ha una tecnologia chiamata SoundSee, che utilizza algoritmi di elaborazione del segnale audio per analizzare, ad esempio, il suono di un motore e prevedere un malfunzionamento prima che si verifichi.

“Le tradizionali capacità di elaborazione del segnale audio non sono in grado di comprendere il suono come lo facciamo noi esseri umani”, afferma il dott. Samarjit Das, direttore della ricerca e della tecnologia presso Bosch USA.

“L’intelligenza artificiale audio consente una comprensione più approfondita e un’interpretazione semantica del suono degli oggetti che ci circondano, come ad esempio i suoni ambientali o i segnali sonori emessi dalle macchine, come mai prima d’ora.”

Test più recenti dell’algoritmo Wave Sciences hanno dimostrato che, anche con soli due microfoni, la tecnologia riesce a funzionare bene quanto l’orecchio umano, e ancora meglio se si aggiungono più microfoni.

E hanno rivelato anche un’altra cosa.

“La matematica in tutti i nostri test mostra notevoli somiglianze con l’udito umano. Ci sono piccole stranezze su ciò che il nostro algoritmo può fare, e su quanto accuratamente può farlo, che sono sorprendentemente simili ad alcune delle stranezze che esistono nell’udito umano”, afferma McElveen.

“Sospettiamo che il cervello umano stia usando la stessa matematica: nel risolvere il problema del cocktail party, potremmo aver scoperto cosa sta realmente accadendo nel cervello.”

Sorgente ↣ :