Fones de ouvido AI M2: tradução instantânea para vários falantes

Os fones de ouvido sem fio sempre ofereceram Pixel Buds Do recurso do Google Tradução instantânea incrível. Nos últimos anos, marcas como a Timkettle ofereceram fones de ouvido semelhantes para clientes empresariais. No entanto, todas essas soluções só podem lidar com um fluxo de áudio por vez para tradução.

Pesquisadores da Universidade de Washington (UW) desenvolveram algo realmente notável na forma de fones de ouvido com tecnologia de IA que podem traduzir a voz de vários falantes ao mesmo tempo. Imagine uma pessoa multilíngue em um bar lotado, capaz de entender as pessoas ao seu redor, que falam línguas diferentes, simultaneamente. Esta inovação representa um salto quântico na tecnologia de tradução simultânea.

A equipe se refere à sua inovação como “Tradução Espacial da Fala”, e ela é obtida usando fones de ouvido binaurais. Para quem não conhece, a tecnologia de áudio binaural tenta simular efeitos sonoros exatamente como os ouvidos humanos os ouvem naturalmente. Para gravá-lo, microfones são colocados na cabeça de um boneco, espaçados à mesma distância que as orelhas humanas em cada lado. Essa tecnologia depende da gravação de áudio de duas fontes diferentes para criar uma experiência de audição 3D.

Essa abordagem é crucial porque nossos ouvidos não apenas ouvem o som, mas também nos ajudam a medir a direção de sua fonte. O objetivo geral é produzir um ambiente sonoro natural com efeito estéreo que possa proporcionar uma sensação animada, semelhante à de um concerto. Ou, no contexto moderno, escuta espacial. Essa tecnologia aprimora a experiência do usuário ao fornecer som surround realista.

Este trabalho é cortesia de uma equipe liderada pelo Professor Shyam Gollakota, cujo histórico inclui aplicativos que permitem instalar GPS subaquático em smartwatches, transformar besouros em fotógrafos, implantes cerebrais que podem interagir com dispositivos eletrônicos, um aplicativo móvel que detecta infecções e o Plus. Essas conquistas destacam a expertise do Professor Gollakota em tecnologia inovadora.

Como funciona a tradução para vários falantes?

“Pela primeira vez, mantivemos a voz de cada pessoa e a direção de onde vinham”, explica Golkota, atual professor da Escola de Ciência da Computação e Engenharia Paul G. Allen do instituto.

A equipe compara sua tecnologia a um radar, que começa identificando o número de falantes na área ao redor e atualiza esse número em tempo real conforme as pessoas entram e saem do alcance de audição. Essa abordagem é totalmente baseada no dispositivo e não envolve o envio de fluxos de voz do usuário para um servidor em nuvem para tradução. Ah, privacidade!

Além de traduzir a fala, o grupo também mantém “as qualidades expressivas e o volume da voz de cada falante”. Além disso, ajustes direcionais e de volume são feitos conforme o alto-falante se move pela sala. Curiosamente, a Apple também está desenvolvendo Um sistema que permite que os AirPods traduzam voz em tempo real.

Como a tradução instantânea é alcançada com inteligência artificial?

A equipe da Universidade de Washington (UW) testou os recursos de tradução de fones de ouvido inteligentes com tecnologia de IA em quase uma dúzia de locais internos e externos. Em termos de desempenho, o sistema pode receber, processar e produzir o áudio traduzido em 12 a 2 segundos. Os participantes do teste parecem preferir um atraso de 4 a 3 segundos, mas a equipe está trabalhando para acelerar o processo de tradução.

Até o momento, a equipe testou apenas traduções para espanhol, alemão e francês, mas espera adicionar o Plus ao pacote. Tecnicamente, eles condensaram a separação cega de fontes, a localização, a tradução expressiva em tempo real e a entrega binaural em um único fluxo, um feito impressionante. Essa integração de tecnologias avançadas representa um salto quântico no campo da tradução simultânea.

Para o sistema, a equipe desenvolveu um modelo de tradução de fala capaz de ser executado em tempo real no chip Apple M2, obtendo inferência em tempo real. As tarefas de áudio foram realizadas por um par de fones de ouvido com cancelamento de ruído Sony WH-1000XM4 e um microfone USB binaural Sonic Presence SP15C.

E aqui está a melhor parte. “O código da máquina de prova de conceito está disponível para que outros possam desenvolver”, diz o comunicado de imprensa da fundação. Isso significa que a comunidade científica e a comunidade de software de código aberto podem aprender e desenvolver projetos mais avançados com base nas bases estabelecidas pela equipe da UW. Isso abre as portas para desenvolvimentos futuros em tecnologia de tradução usando inteligência artificial.