A tecnologia de conversão de texto em voz ajuda a produzir mais audiolivros para pessoas cegas ou com baixa visão

mulher deficiente visual com fone e microfone na frente dela

Inteligência Artificial e nuvem geram uma voz sintética que se parece muito com uma locutora de Beijing.

Por Jennifer Deayton

Quando Lina Dong perdeu a visão aos 10 anos, ela foi excluída do mundo ao seu redor e do mundo imaginário que ela gostava e experenciava por meio da leitura.

Implacável, ela continuou seu trabalho escolar com a ajuda de outras pessoas que liam livros em voz alta para ela. Com o passar dos anos, ela ganhou autoconfiança, formou-se na faculdade e tornou-se uma locutora certificada – a primeiracega na China.

Dong agora ensina artes da linguagem no Centro de Serviços para Deficientes Visuais de Beijing, Hongdandan – uma instituição educacional sem fins lucrativos onde ela já teve aulas. Sabendo em primeira mão a importância da palavra falada para o aprendizado, ela também faz audiolivros para seus alunos e outras pessoas cegas ou com baixa visão.

Mas a produção pode ser lenta e limitada. Ela tem que treinar voluntários em técnicas de estúdio e para ler textos impressos da melhor forma para que os ouvintes possam entender prontamente. As sessões de gravação e edição podem durar horas.

Agora, a Hongdandan e a Microsoft desenvolveram uma nova maneira – usando inteligência artificial (IA) e a nuvem para criar uma versão sintética da voz de Dong.

Recentemente, ela alegremente ofereceu amostras de sua fala para que a Voz Neural Personalizada, um novo recurso de texto para fala dos Serviços Cognitivos do Microsoft Azure, pudesse gerar uma voz real que se aproximasse da dela. A partir daí, a plataforma de Criação de Conteúdo de Áudio produz audiolivros de alta qualidade que quase soam como se estivessem sendo lidos pela própria Dong.

Esse processo é mais eficiente e muito mais rápido do que a maneira padrão com que a Hongdandan e Dong têm feito audiolivros. E isso significa que as pessoas cegas ou com baixa visão agora podem acessar uma gama muito maior de livros e mais rápidamente do que antes.

deficiente visual mulher falando em microsofne sentada em mesa com mulheres em volta

 

“Hongdandan e eu compartilhamos o mesmo objetivo: ajudar as pessoas cegas ou com baixa visão a se adaptarem melhor à sociedade.

“Então, quando alguém tem um sonho, podemos abrir um caminho para ele.”

– Lina Dong

Dong diz que ter mais audiolivros disponíveis ajuda os alunos do centro a obter notas mais altas e habilidades valiosas que irão aumentar suas perspectivas de emprego no futuro

“Hongdandan e eu compartilhamos o mesmo objetivo: ajudar as pessoas cegas ou com baixa visão a se adaptarem melhor à sociedade. Então, quando alguém tem um sonho, podemos abrir um caminho para ele; por exemplo, para ajudar um adolescente a aprender e conseguir um emprego.”

Na China, as oportunidades de emprego há muito tempo são severamente limitadas para pessoas cegas ou com baixa visão. Tradicionalmente, muitos só conseguiam encontrar trabalho em centros de massagens terapêuticas populares em todo o país e em outras partes da Ásia. Na verdade, por muitos anos, a maioria dos livros chineses em braille tratava de técnicas profissionais de massagem.

A fundadora da Hongdandan, Zheng Xiaojie, decidiu mudar isso. Em 2006, ela montou a Biblioteca dos Olhos da Alma – um projeto que ela descreve como o “sonho de sua vida”. A ideia de produzir uma ampla gama de audiolivros de fácil acesso veio de jovens cegos ou com baixa visão.

“Eles sabiam que fazíamos filmes narrados e treinamentos profissionais para cegos”, lembra Zheng. “E eles queriam ajuda com as gravações de audiolivros sobre temas como Direito e Educação Infantil para estudar e passar nos exames.

“Naquela época, não tínhamos equipamento de gravação especializado. Configuramos um computador e usamos microfones do programa de nossos filhos. Após a gravação, apenas entregávamos os arquivos de áudio aos jovens. Então, você pode imaginar que foi um processo muito simples e básico.”

mulher de cabelo curto e óculos auxiliando crianãs com deficiência visual a ler
Fundadora da Hongdandan, Zheng Xiaojie, divide alguns áudiolivros com um grupo de crianças em idade escolar.

Hoje em dia, a biblioteca distribui conteúdo via Microsoft Azure para 105 escolas, em toda a China, para alunos cegos ou com baixa visão. Eles também podem acessar mais de 1.000 títulos no próprio aplicativo da biblioteca e um miniprograma no WeChat, a popular plataforma de mídia social da China.

A Microsoft é parceira da Hongdandan há cerca de 15 anos. E o centro produz seus audiolivros de acordo com o compromisso da Microsoft com a IA responsável, que protege contra o uso indevido da tecnologia e prioriza transparência, ética, responsabilidade, privacidade e segurança.

“A Microsoft está em contato conosco o tempo todo”, diz Zheng. “Apoiando todos os aspectos da Biblioteca dos Olhos da Alma, incluindo o serviço de voz de IA que estamos usando agora, o que antes era inimaginável para nós. Nos empregos da linha de frente, sabíamos das necessidades dos cegos, mas não sabíamos como usar métodos de alta tecnologia para resolver suas necessidades. Na verdade, a tecnologia é um método particularmente bom para a educação de pessoas cegas ou com baixa visão. Isso nos aproxima mais.”

LEIA TAMBÉM: Você está falando comigo? Azure AI dá vida a personagens icônicos com Voz Neural Customizada

Além de lecionar e ser voluntária, Dong está atualmente em um programa de pós-graduação na Universidade de Comunicação da China, onde pesquisa a criação e o uso de vozes sintéticas. “Sendo uma pessoa cega, o desenvolvimento da tecnologia mudou minha vida”, diz ela.

Então, com sua experiência e ouvido bem ajustado para vozes, como ela avalia as criações de IA da Microsoft, incluindo as dela?

“A Voz Neural Customizada da Microsoft na verdade simula uma voz real muito melhor do que vozes sintéticas mais gerais”, diz ela. “Por exemplo, há algumas mudanças de tom e mais detalhes nas vozes – esses detalhes são realmente bons.”

Dong diz que, seja real ou sintética, uma voz de áudio ideal precisa soar quente e clara, com um senso de confiança e até mesmo um sentimento de amor e carinho. “O ponto mais semelhante entre uma voz humana e a Voz Neural Customizada da Microsoft é o timbre – o timbre da Voz Neural Customizada é realmente vívido.”

Tanto Dong quanto Zheng enfatizam a importância da Biblioteca Olhos da Alma para melhorar a educação e as perspectivas de emprego para pessoas cegas ou com baixa visão. Mas eles também veem outro benefício crucial: um senso de conexão que inspira confiança e autossuficiência.

Zheng diz que muitas pessoas cegas ou com baixa visão agora podem “aproveitar as oportunidades na era da internet e encontrar as profissões e posições em que são boas. Damos a eles um canal para adquirir conhecimento e conhecer o mundo. Ter a companhia de uma voz eliminou a distância entre eles e o mundo, muitos se tornaram mais otimistas e confiantes. Eles não têm mais o sentimento de isolamento ou medo do mundo. Eles acreditam que podem fazer muitas coisas sozinhos.”

Todas as imagens são cortesia do Centro de Serviços para Deficientes Visuais da Hongdandan. ACIMA: Lina Dong em uma cabine de gravação. CENTRO: Lisa Dong (centro) dá uma aula aos alunos. 

Tags: , ,

Posts Relacionados