視覚障碍のある方のためのオーディオブック作成を助ける音声合成技術
AI とクラウドが、まるで北京の放送局から聞こえてくるような合成音声を生成
ジェニファー ディートン (Jennifer Deayton)
※本ブログは、7 月 30 日に公開された “Text-to-speech technology helps produce more audiobooks for people who are blind or have low vision” の抄訳を基に掲載しています。
リナ ドンさんは、10 歳で視力を失い、周囲の視覚的な世界からも、読書で得られる想像上の世界からも遮られてきました。
それでも、彼女は諦めることなく、教科書を読み上げてくれる人の助けを借りて、学業を続けました。長い年月が過ぎ、彼女は自分に自信を持ち、大学を卒業し、中国の視覚障碍者としては初となる認定アナウンサーの資格を取得しました。
現在、ドンさんは、かつて自分が通っていた非営利教育機関であるホンダンダン視覚障碍者サービスセンター (Hongdandan Visually Impaired Service Center) で言語技術を教えています。学習における話し言葉の重要性を身にしみて感じている彼女は、生徒や他の視覚障碍のある人々のためのオーディオブックの制作も行っています。
しかし、オーディオブックの制作は時間を要し、制作数にも限界があります。また、ボランティアの人たちに、録音機器の使い方や、聞き取りやすいテキストの読み方を教えなければなりません。録音と編集の作業が何時間も続くこともありました。
今回、ホンダンダンとマイクロソフトは、人工知能 (AI) とクラウドを活用して、ドンさんの声を合成するという新たな方法を開発しました。
最近になり、ドンさんは、Microsoft Azure Cognitive Services の新しい音声合成サービス Custom Neural Voice が、彼女の声に似た自然な音声を合成できるよう、自身の音声サンプルを提供しました。さらに、Audio Content Creation プラットフォームによって、あたかも彼女が読み上げているかのようなオーディオブックを制作することができました。
同センターやドンさんが過去に行っていたオーディオブックの制作方法は強化され、時間も大幅に短縮されました。これにより、視覚障碍のある人々が、これまでよりもずっと早く、より多くの種類の本にアクセスできるようになりました。
ドンさんは、より多くのオーディオブックを利用できるようにすることで、センターの生徒たちが、成績を伸ばし、将来の就職の可能性を高める貴重なスキルを身につけることができるようになると言います。
「ホンダンダンセンターと私は、視覚障碍のある方々が社会に溶け込めるよう支援するという同じ目標を持っています。夢を持つ人に対して道を開くことができます。たとえば、10 代の若者が学び、就職できるよう支援できます。」
中国では、視覚障碍のある人々の雇用機会は長年にわたって厳しい状況でした。従来は、多くの人が、自国やアジアの他の地域でよく見られるマッサージの仕事にしか就職できませんでした。実際、長い間、中国の点字書籍のほとんどはマッサージ技術に関するものでした。
ホンダンダンセンターの創設者であるテイ シャオジェ (Zheng Xiaojie) さんは、そのような状況を変えようと決意しました。2006 年には、自身の「一生の夢」だと語るプロジェクト、「Eyes of the Soul Library」を立ち上げました。多様で安価なオーディオブックを制作するというアイデアは、視覚障碍のある若年層の声によるものでした。
「彼らは、私たちが映画へのコメント付けや視覚障碍者の職業訓練を行っていることを知っていました。また、試験勉強のために、法律や幼児教育などをテーマにしたオーディオブックの録音を手伝ってほしいという要望もありました」とテイさんは思い返します。
「当時は専用の録音機器はありませんでした。コンピューターを設定し、子供向けプログラムのマイクを使いました。録音後、生徒に音声ファイルを渡しただけです。非常にシンプルなプロセスだったことがおわかりでしょう。」
現在では、同ライブラリは、Microsoft Azure を介して、中国全土の 105 校の視覚障碍のある生徒向けにコンテンツを提供しています。また、生徒たちは、同ライブラリの独自アプリで 1,000 種以上のタイトルにアクセスできるほか、中国で人気のソーシャルメディア WeChat 上のミニプログラムにも参加できます。
マイクロソフトは 15 年ほど前からホンダンダンセンターのパートナーです。また、同センターでは、テクノロジーの悪用を防ぎ、透明性、公平性、説明責任、プライバシー、セキュリティを優先するというマイクロソフトの責任ある AI へのコミットメントに従ってオーディオブックを制作しています。
「マイクロソフトは、私たちと常に緊密に連絡を取り、今使っている AI 音声サービスをはじめとして、Eyes of the Soul Library を全面的にサポートしてくれました。かつては、想像もできなかったことです。現場では、視覚障碍のある方々のニーズはわかっていても、そのニーズを解決するためのテクノロジーはわかりませんでした。実際、彼らの教育には、テクノロジーの活用が最適です。テクノロジーは私たちの距離を縮めてくれます」とテイさんは言います。
ALSO READ: Are you talking to me? Azure AI brings iconic characters to life with Custom Neural Voice
ドンさんは、教師やボランティアの活動に加え、現在は Communication University of China の大学院に在籍し、合成音声の生成と活用について研究しています。「視覚障碍者としての立場から言えば、テクノロジーの進化は私の人生を変えました」と彼女は述べます。
では、音声に関する深い経験と繊細な耳を持つ彼女は、自分自身の声を含め、マイクロソフトの AI による音声合成をどう評価しているのでしょうか?
「マイクロソフトの Custom Neural Voice は、一般的な音声合成技術よりも、実際の声をはるかに忠実にシミュレートしています。たとえば、声のトーンの変化や微妙な調整が行われていますが、これらはとても効果的です」と彼女は述べます。
「本物であれ合成であれ、理想的な音声は、温かみがあってクリアで、自信に満ちていて、さらには愛情を感じさせるものでなければなりません。マイクロソフトの Custom Neural Voice と人間の声との最も似た点は声質です。Custom Neural Voice の声はとても生き生きとしています」とドンさんは言います。
ドンさんもテイさんも Eyes of the Soul Library が、視覚障碍のある人の教育や就職の可能性を広げるために重要であることを強調しています。しかし、彼女たちはもう一つの重要な利点を見出しています。それは、人とつながっているという感覚が自信と自立心をもたらすことです。
テイさんは、視覚障碍のある多くの人が「インターネット時代の機会を活用し、自分の得意な職業やポジションを見つけることができるようになりました」と述べています。
「私たちは、知識を得て、世界を知るためのチャンネルを提供しています。声でつながる仲間がいて、世界との隔たりがなくなることで、多くの人が前向きに、自信を持てるようになり、孤立感や世界への恐怖心がなくなりました。そして、多くのことを自分一人でできるようになったと考えています。」
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。