Inteligência artificial recria voz perdida por doença rara

Pacientes com esclerose lateral amiotrófica (ELA), uma doença rara neurodegenerativa que faz com que a maioria das pessoas perca a capacidade de falar, andar ou respirar, estão recorrendo a inteligência artificial (IA) para preservar suas vozes originais.

Diversas empresas começam a usar a IA para armazenar as vozes das pessoas enquanto  elas ainda podem falar e recriá-las para softwares de conversão de texto em fala. A novidade pode ser empregada também em pacientes com câncer de garganta, paralisia cerebral, doença de Parkinson e outras tantas enfermidades que costumam comprometer a fala.

O depósito de vozes em ‘bancos’ costumava ser algo dispendioso e demorado, mas agora, com o advento da IA, seus preços e tempo de produção sofreram uma redução substancial. 

Os pacientes relatam que ter uma voz gerada por computador que soa como a sua voz real lhes deu maior confiança e ligação com o mundo a seu redor.

A IA é responsável por um boom no uso de bancos de voz, especialmente entre pacientes com ELA. Em 2017, a Team Glason Foundation, uma entidade sem fins lucrativos que financia serviços de bancos de voz para pessoas que vivem com ELA, recebeu 172 solicitações. Em 2022, os pedidos já chegavam a 1.200. Nos EUA, em média 5 mil pessoas são diagnosticadas com ELA anualmente. 

Como funciona a técnica

Capturar a fala humana é algo incrivelmente complexo. No passado, uma pessoa poderia ter que gravar de mil a 6 mil frases para capturar todos os sons possíveis em um idioma. O processo normalmente levava de oito a 30 horas. Esses sons gravados iam para um banco de dados e o software reorganizava os sons para formar palavras e frases.

Este método é conhecido como “seleção de unidade”, e os resultados não são dos melhores.  “É inteligível, mas um tanto chocante” disse Tim Bunnell, diretor do Nemours Center for Pediatric Audit and Speech Sciences. “Nossas vozes derivadas de seleção de unidade não soam tão bem quanto uma voz humana.”, acrescenta.

O laboratório de Burnell fez a transição de métodos mais antigos de síntese de fala para métodos mais novos, como os que usam IA.

Para criar uma voz digital, o software de IA analisa a amostra de fala de uma pessoa e, em seguida, vasculha rapidamente um grande banco de dados para encontrar pessoas falando de maneiras semelhantes. Ele encontra padrões em como as vozes soam e cria uma voz digital para combinar com um falante individual.

A maioria das empresas que trabalha no ramo agora precisa apenas de algumas centenas de frases para obter dados suficientes. Mas alguns, como o Acapela Group, que tem parceria com a Team Gleason Foundation, têm algoritmos que podem construir uma voz a partir de apenas 50 frases.

O emprego de IA barateou a tecnologia do banco de voz. O Acapela Group, por exemplo, cobrava 3 mil dólares quando a empresa dependia da “seleção de unidades”, mas com a IA, o custo agora é de 999 dólares. Há empresas que oferecem o serviço por apenas 300 dólares.

O banco de voz não é coberto pelo seguro-saúde, mas a maioria das empresas do ramo cobra somente a partir do momento que as pessoas começam a usar efetivamente suas vozes sintetizadas.


Com informações do Washington Post.

Foto destacada de Markus Winkler na Unsplash

Deixe um comentário