Na China, produzir audiolivros exige muito tempo e dinheiro, por isso, as pessoas com deficiência visual acabam carecendo de textos necessários, seja para educação, trabalho ou diversão. Por esse motivo, a instituição sem fins lucrativos Hongdandan Visually Impaired Service Center usou o Custom Neural Voice, uma nova funcionalidade de conversão de texto em fala dos Serviços Cognitivos do Microsoft Azure, e a plataforma Audio Content Creation para criar rapidamente audiolivros de alta qualidade com o uso de IA.
Com a funcionalidade Custom Neural Voice, já conseguimos gerar um grande volume de audiolivros para a nossa biblioteca online, que podem ser usados em 105 escolas para deficientes visuais na China.
Xin Zeng: Diretor Executivo
Hongdandan Visually Impaired Service Center – Pequim
Lina Dong perdeu a visão quando tinha 10 anos. Com isso, ela perdeu o acesso a dois mundos: o mundo visual ao seu redor e o mundo imaginário, que ela criava por meio dos livros. Apesar das oportunidades e recursos limitados para as pessoas que sofrem da perda de visão na China, Dong cursou Rádio e TV na faculdade. Ela foi a primeira profissional cega de Rádio e TV graduada na China, em parte por causa de voluntários que liam seus livros em voz alta.
Dong agora é radialista e professora de artes linguísticas na instituição sem fins lucrativos Hongdandan Visually Impaired Service Center de Pequim. Na Hongdandan, ela ensina as crianças a expressar suas ideias usando as vozes como instrumentos.
No entanto, Dong ainda se frustrava com as limitações de seu alcance – ela queria ajudar outros deficientes visuais, independentemente de suas localizações, conhecimento de Braille ou acesso presencial à Hongdandan. Foi quando ela fez uma parceria com a Hongdandan e a Microsoft.
Com o uso da funcionalidade Custom Neural Voice, de conversão de texto em fala (TTS) nos Serviços Cognitivos do Azure, a Microsoft criou uma versão da voz de Dong por IA. A instituição sem fins lucrativos agora usa uma voz sintética, criada a partir das gravações de Dong, além de outras, para transformar texto em audiolivros cativantes – sem escrever uma única linha de código.
A capacidade de aumentar grandemente o número e a qualidade dos audiolivros promove a missão da instituição beneficente de aumentar o acesso a oportunidades culturais, como a educação, para pessoas com deficiência visual. “Com a funcionalidade Custom Neural Voice, já conseguimos gerar um grande volume de audiolivros para a nossa biblioteca online, que podem ser usados em 105 escolas para deficientes visuais na China”, explica Xin Zeng, diretor executivo do Hongdandan Visually Impaired Service Center de Pequim. E graças aos recursos de IA no Azure, isso é apenas o começo.
Mais opções para deficientes visuais
A experiência de Dong com audiolivros limitados não é uma exclusividade dela. Os temas dos audiolivros disponíveis na China são geralmente limitados. Uma pesquisa recente com deficientes visuais na China indica que quase dois terços gostariam de ter acesso a mais audiolivros de ficção e literatura. Além disso, as gravações muitas vezes soam pouco emocionais e muito robóticas – não parece o jeito natural de falar das pessoas.
Essa falta de recursos tem um efeito grave na China. O campo de massoterapia é de longe a carreira mais comum para deficientes visuais na China – “não necessariamente porque eles têm talento, mas porque os caminhos de carreira atuais disponíveis para eles estreitam seu desenvolvimento e oportunidades”, diz Crossing Wang, líder de questões filantrópicas da Microsoft na China.
O problema vai muito além das fronteiras da China. Estima-se que 285 milhões de pessoas em todo o mundo sofrem da perda de visão, incluindo 39 milhões de deficientes visuais. Apenas uma em cada 10 delas tem acesso a tecnologias adaptativas que lhes permitem viver as vidas que escolhem. “Para as pessoas com perda de visão, o som e a voz são uma maneira importante de explorar o mundo exterior, mas elas carecem de ferramentas de leitura de tela e outros recursos”, explica Zeng. “Queríamos melhorar a capacidade que elas têm de aprender, interagir e contribuir”.
Criação mais rápida de audiolivros
Um audiolivro convencional, que é lido por um voluntário ou locutor, pode levar semanas, ou até meses, para ser produzido. A Hongdandan queria acelerar o processo e aproveitar que a IA pode fazer exatamente isso.
A plataforma Audio Content Creation disponibiliza vozes previamente produzidas com o uso de IA. Usando a tecnologia TTS, essas vozes leem qualquer texto com muito mais naturalidade do que as tecnologias anteriores. A Microsoft oferece mais de 140 vozes neurais pré-produzidas em mais de 60 idiomas para clientes que desejam adicionar rapidamente funcionalidades de leitura ou dar voz a um chatbot. Essa tecnologia de conversão de texto em fala neural (NTTS) é capaz de converter texto em um audiolivro digital em questão de minutos.
Voluntários da Hongdandan e da Microsoft foram treinados para usar a plataforma Audio Content Creation, que não exige programação ou experiência técnica. Os voluntários podem ouvir gravações para sintonizar a pronúncia, o tom e muito mais, para personalizá-las conforme o estilo e o significado dos livros.
Personalização da experiência do audiolivro
A Hongdandan deu um passo além com a criação de duas vozes personalizadas e marcadas para os audiolivros que produz. Dong doou a própria voz para um deles. “Fiquei impressionada com a clareza com que ele captura as características da minha voz”, surpreende-se ela.
O processo é simples e leva uma fração do tempo que outros programas de TTS exigem. Primeiro, Dong gravou a leitura de quase 500 frases. Em seguida, o Custom Neural Voice usou esses dados da fala para treinar a voz sintética “Lina”, que soa natural, como se uma pessoa real estivesse falando. Quando o modelo de voz sintética é treinado e disponibilizado para converter texto em fala, os usuários conseguem ajustar ainda mais o áudio de várias maneiras, como entonação, volume e pronúncia.
Com esse processo simples, sem uso de código, os usuários não precisam de uma extensa tecnologia nem conhecimento de ciências da computação. Eles conseguem criar rapidamente vozes realistas e humanas com apenas um décimo dos dados que as tecnologias anteriores exigiam. “Ficamos surpresos com a rapidez com que a Microsoft conseguiu reproduzir a voz de Lina de forma tão natural com seus dados de fala e nos permitiu criar audiolivros educacionais com muito mais rapidez”, Zeng relata.
A Hongdandan fez ainda parceria com um famoso ator chinês, Zhou Xun, que também doou sua voz para criar uma experiência personalizada para os ouvintes da instituição.
Mais acessibilidade para a criação de audiolivros
Os audiolivros são mais difíceis de encontrar e mais caros do que os livros impressos. Sua produção também é mais difícil e dispendiosa. As escolas para deficientes visuais antes contavam com audiolivros que pessoas reais liam e gravavam, mas suas bibliotecas de áudio serão ampliadas agora que a Hongdandan está produzindo audiolivros com NTTS. Mais de 8.000 crianças na China com alguma deficiência visual terão acesso a esses livros.
A Hongdandan abriga uma biblioteca digital para 105 escolas para deficientes visuais em toda a China. Com essa biblioteca, hospedada na plataforma de nuvem do Azure, crianças e professores podem transmitir todos os tipos de livros, desde filosofia e ficção até vendas e história.
O impacto se propaga ainda mais com o aplicativo Eyes of Soul Library, da Hongdandan, desenvolvido no Azure. Mais de 400.000 pessoas já acessaram audiolivros da Hongdandan por esse aplicativo, o site da Hongdandan, a biblioteca digital e outros recursos online. “Antes, só podíamos ouvir audiolivros quando nossos professores tinham tempo livre”, lembra Wang, aluno com deficiência visual. “Agora temos acesso fácil a diversos livros pelos nossos celulares. A tecnologia trouxe soluções para muitos problemas que não conseguíamos resolver antes. Ela ajudou mais pessoas, como nós, a ler mais livros”.
Uso responsável de IA e TTS
A Hongdandan e a Microsoft firmaram uma parceria para expandir o acesso a audiolivros – de forma ética. Os projetos de audiolivros aderem aos princípios de responsabilidade com IA da Microsoft. Por exemplo, talentos como Dong e Xun sabiam exatamente como suas gravações de voz seriam usadas. A Hongdandan também levanta a bandeira da transparência e informa aos ouvintes quando um conteúdo de áudio é criado por vozes sintéticas. Além disso, a funcionalidade Custom Neural Voice é protegida pela segurança de ponta do Azure.
Ao implantar a IA de forma responsável, a Hongdandan trabalha em prol da igualdade para pessoas que sofrem de deficiência visual. O impacto de mais acesso aos audiolivros repercute nos cenários de educação, trabalho e vida cotidiana.
Dong afirma: “Usando a minha voz digital, quero alcançar mais pessoas como eu e dizer a eles: ‘Nunca deixe de acreditar. Você é capaz de muito mais do que imagina’”.
“Ficamos surpresos com a rapidez com que a Microsoft conseguiu reproduzir a voz de Lina de forma tão natural com seus dados de fala e nos permitiu criar audiolivros educacionais com muito mais rapidez.”
Xin Zeng: Diretor executivo
Hongdandan Visually Impaired Service Center – Pequim