Instituição chinesa sem fins lucrativos usa tecnologia de conversão de texto em fala para expandir o acesso a audiolivros para deficientes visuais

mulher andando

Na China, produzir audiolivros exige muito tempo e dinheiro, por isso, as pessoas com deficiência visual acabam carecendo de textos necessários, seja para educação, trabalho ou diversão. Por esse motivo, a instituição sem fins lucrativos Hongdandan Visually Impaired Service Center usou o Custom Neural Voice, uma nova funcionalidade de conversão de texto em fala dos Serviços Cognitivos do Microsoft Azure, e a plataforma Audio Content Creation para criar rapidamente audiolivros de alta qualidade com o uso de IA.

Com a funcionalidade Custom Neural Voice, já conseguimos gerar um grande volume de audiolivros para a nossa biblioteca online, que podem ser usados em 105 escolas para deficientes visuais na China.

Xin Zeng: Diretor Executivo

Hongdandan Visually Impaired Service Center – Pequim

Lina Dong perdeu a visão quando tinha 10 anos. Com isso, ela perdeu o acesso a dois mundos: o mundo visual ao seu redor e o mundo imaginário, que ela criava por meio dos livros. Apesar das oportunidades e recursos limitados para as pessoas que sofrem da perda de visão na China, Dong cursou Rádio e TV na faculdade. Ela foi a primeira profissional cega de Rádio e TV graduada na China, em parte por causa de voluntários que liam seus livros em voz alta.

Dong agora é radialista e professora de artes linguísticas na instituição sem fins lucrativos Hongdandan Visually Impaired Service Center de Pequim. Na Hongdandan, ela ensina as crianças a expressar suas ideias usando as vozes como instrumentos.

No entanto, Dong ainda se frustrava com as limitações de seu alcance – ela queria ajudar outros deficientes visuais, independentemente de suas localizações, conhecimento de Braille ou acesso presencial à Hongdandan. Foi quando ela fez uma parceria com a Hongdandan e a Microsoft.

Com o uso da funcionalidade Custom Neural Voice, de conversão de texto em fala (TTS) nos Serviços Cognitivos do Azure, a Microsoft criou uma versão da voz de Dong por IA. A instituição sem fins lucrativos agora usa uma voz sintética, criada a partir das gravações de Dong, além de outras, para transformar texto em audiolivros cativantes – sem escrever uma única linha de código.

A capacidade de aumentar grandemente o número e a qualidade dos audiolivros promove a missão da instituição beneficente de aumentar o acesso a oportunidades culturais, como a educação, para pessoas com deficiência visual. “Com a funcionalidade Custom Neural Voice, já conseguimos gerar um grande volume de audiolivros para a nossa biblioteca online, que podem ser usados em 105 escolas para deficientes visuais na China”, explica Xin Zeng, diretor executivo do Hongdandan Visually Impaired Service Center de Pequim. E graças aos recursos de IA no Azure, isso é apenas o começo.

Mais opções para deficientes visuais

A experiência de Dong com audiolivros limitados não é uma exclusividade dela. Os temas dos audiolivros disponíveis na China são geralmente limitados. Uma pesquisa recente com deficientes visuais na China indica que quase dois terços gostariam de ter acesso a mais audiolivros de ficção e literatura. Além disso, as gravações muitas vezes soam pouco emocionais e muito robóticas – não parece o jeito natural de falar das pessoas.

Essa falta de recursos tem um efeito grave na China. O campo de massoterapia é de longe a carreira mais comum para deficientes visuais na China – “não necessariamente porque eles têm talento, mas porque os caminhos de carreira atuais disponíveis para eles estreitam seu desenvolvimento e oportunidades”, diz Crossing Wang, líder de questões filantrópicas da Microsoft na China.

O problema vai muito além das fronteiras da China. Estima-se que 285 milhões de pessoas em todo o mundo sofrem da perda de visão, incluindo 39 milhões de deficientes visuais. Apenas uma em cada 10 delas tem acesso a tecnologias adaptativas que lhes permitem viver as vidas que escolhem. “Para as pessoas com perda de visão, o som e a voz são uma maneira importante de explorar o mundo exterior, mas elas carecem de ferramentas de leitura de tela e outros recursos”, explica Zeng. “Queríamos melhorar a capacidade que elas têm de aprender, interagir e contribuir”.

Criação mais rápida de audiolivros

Um audiolivro convencional, que é lido por um voluntário ou locutor, pode levar semanas, ou até meses, para ser produzido. A Hongdandan queria acelerar o processo e aproveitar que a IA pode fazer exatamente isso.

A plataforma Audio Content Creation disponibiliza vozes previamente produzidas com o uso de IA. Usando a tecnologia TTS, essas vozes leem qualquer texto com muito mais naturalidade do que as tecnologias anteriores. A Microsoft oferece mais de 140 vozes neurais pré-produzidas em mais de 60 idiomas para clientes que desejam adicionar rapidamente funcionalidades de leitura ou dar voz a um chatbot. Essa tecnologia de conversão de texto em fala neural (NTTS) é capaz de converter texto em um audiolivro digital em questão de minutos.

Voluntários da Hongdandan e da Microsoft foram treinados para usar a plataforma Audio Content Creation, que não exige programação ou experiência técnica. Os voluntários podem ouvir gravações para sintonizar a pronúncia, o tom e muito mais, para personalizá-las conforme o estilo e o significado dos livros.

Personalização da experiência do audiolivro

A Hongdandan deu um passo além com a criação de duas vozes personalizadas e marcadas para os audiolivros que produz. Dong doou a própria voz para um deles. “Fiquei impressionada com a clareza com que ele captura as características da minha voz”, surpreende-se ela.

O processo é simples e leva uma fração do tempo que outros programas de TTS exigem. Primeiro, Dong gravou a leitura de quase 500 frases. Em seguida, o Custom Neural Voice usou esses dados da fala para treinar a voz sintética “Lina”, que soa natural, como se uma pessoa real estivesse falando. Quando o modelo de voz sintética é treinado e disponibilizado para converter texto em fala, os usuários conseguem ajustar ainda mais o áudio de várias maneiras, como entonação, volume e pronúncia.

Com esse processo simples, sem uso de código, os usuários não precisam de uma extensa tecnologia nem conhecimento de ciências da computação. Eles conseguem criar rapidamente vozes realistas e humanas com apenas um décimo dos dados que as tecnologias anteriores exigiam. “Ficamos surpresos com a rapidez com que a Microsoft conseguiu reproduzir a voz de Lina de forma tão natural com seus dados de fala e nos permitiu criar audiolivros educacionais com muito mais rapidez”, Zeng relata.

A Hongdandan fez ainda parceria com um famoso ator chinês, Zhou Xun, que também doou sua voz para criar uma experiência personalizada para os ouvintes da instituição.

mulher com deficiência visual com fone de ouvido

Mais acessibilidade para a criação de audiolivros

Os audiolivros são mais difíceis de encontrar e mais caros do que os livros impressos. Sua produção também é mais difícil e dispendiosa. As escolas para deficientes visuais antes contavam com audiolivros que pessoas reais liam e gravavam, mas suas bibliotecas de áudio serão ampliadas agora que a Hongdandan está produzindo audiolivros com NTTS. Mais de 8.000 crianças na China com alguma deficiência visual terão acesso a esses livros.

A Hongdandan abriga uma biblioteca digital para 105 escolas para deficientes visuais em toda a China. Com essa biblioteca, hospedada na plataforma de nuvem do Azure, crianças e professores podem transmitir todos os tipos de livros, desde filosofia e ficção até vendas e história.

O impacto se propaga ainda mais com o aplicativo Eyes of Soul Library, da Hongdandan, desenvolvido no Azure. Mais de 400.000 pessoas já acessaram audiolivros da Hongdandan por esse aplicativo, o site da Hongdandan, a biblioteca digital e outros recursos online. “Antes, só podíamos ouvir audiolivros quando nossos professores tinham tempo livre”, lembra Wang, aluno com deficiência visual. “Agora temos acesso fácil a diversos livros pelos nossos celulares. A tecnologia trouxe soluções para muitos problemas que não conseguíamos resolver antes. Ela ajudou mais pessoas, como nós, a ler mais livros”.

Uso responsável de IA e TTS

A Hongdandan e a Microsoft firmaram uma parceria para expandir o acesso a audiolivros – de forma ética. Os projetos de audiolivros aderem aos princípios de responsabilidade com IA da Microsoft. Por exemplo, talentos como Dong e Xun sabiam exatamente como suas gravações de voz seriam usadas. A Hongdandan também levanta a bandeira da transparência e informa aos ouvintes quando um conteúdo de áudio é criado por vozes sintéticas. Além disso, a funcionalidade Custom Neural Voice é protegida pela segurança de ponta do Azure.

Ao implantar a IA de forma responsável, a Hongdandan trabalha em prol da igualdade para pessoas que sofrem de deficiência visual. O impacto de mais acesso aos audiolivros repercute nos cenários de educação, trabalho e vida cotidiana.

Dong afirma: “Usando a minha voz digital, quero alcançar mais pessoas como eu e dizer a eles: ‘Nunca deixe de acreditar. Você é capaz de muito mais do que imagina’”.

“Ficamos surpresos com a rapidez com que a Microsoft conseguiu reproduzir a voz de Lina de forma tão natural com seus dados de fala e nos permitiu criar audiolivros educacionais com muito mais rapidez.”

Xin Zeng: Diretor executivo

Hongdandan Visually Impaired Service Center – Pequim

Tags: ,

Posts Relacionados