聴覚障がいのある学生を AI を活用して支援

[2018年4月9日]

ジョン ローチ (John Roach)

ニューヨーク州ロチェスター — 成績不良の学生が一般生物学の授業の席に着くと、特殊感覚と一般感覚の専門用語を使った教授のジョーク「どの受容体が痛みを感じますか?全部です」というキャプションが、背後の大形スクリーン上の PowerPoint に、リアルタイムで表示されました。手話通訳者が数フィート離れた所に立ち、教授の言葉を米国内の聴覚障がい者が主に使用する手話であるASL(アメリカサインランゲージ)に翻訳しています。

部屋の正面にあるスクリーン上のリアルタイムのキャプションを除くと、これがニューヨーク州北部のロチェスター工科大学(RIT)の典型的な授業風景です。15,000 人の学部学生を擁するこの大規模大学のキャンパスには、およそ 1,500 人の聴覚障がいを持つ学生がいます。そのうち、700人は健常者と同じ授業を受けています。サンドラ コネリー (Sandra Connelly) 教授 の一般生物学のクラスを受講する 250 人の中にも、数 10 人の聴覚障がい者がいます。

ヘッドセットを着用したコネリー教授の背後にあるスクリーン上のキャプションは、AIを活用したコミュニケーションテクノロジである Microsoft Translator が生成したものです。このシステムは先進的な自動音声認識を活用して、口癖や口ごもりなどを含む素の話し言葉を、句読点を含んだ流暢なテキストに変換します。ぎごちなさの排除と句読点の追加により、60 カ国語以上の言語への高品質な翻訳テキストが得られます。聴覚障がいを持つ人々のコミュニティは、このようなテキストが ASL を補強する重要なものであると考えています。

マイクロソフトは RIT の一学部である National Technical Institute for the Deaf(NTID) と協力し、聴覚障がい者の学生のための音声認識と言語処理のAIテクノロジ活用を支援しています。

7年前に聴覚を失ったガーナ出身の一年生、ジョセフ アジェイ (Joseph Adjei) は「最初にこのシステムを見た時、健常者と同時に情報が得られることに大変興奮しました」と述べています。RIT に入学した時、彼は ASL に慣れていませんでした。コネリー教授の生物学の授業で背後のスクリーンに表示されるリアルタイムのキャプションにより、授業について行くことができるようになり、科学用語の正しい綴りもわかるようになったと彼は述べます。

一般生物学の授業は二学期目に入っていますが、アジェイは ASL の訓練を続けています。彼は教室の最前列に座り、手話通訳者、スクリーン上のキャプション、そして、机に置いた自分のスマホ上の文字起こし原稿の間で視線を往復させています。この組み合わせによって授業に集中することができるのだと彼は言います。ASL が理解できない時はキャプションをチェックすることで、見逃した情報を補完できます。

キャプションは生物学の授業における重要なポイント、たとえば、“I” と “eye” を取り違えたりすることもあるが、「しかし、それでも何もないよりははるかに優れています」と彼は述べます。実際、アジェイは授業以外でも健常者とのコミュニケーションのために、Microsoft Translator アプリを使っています。

「会話を行う時に速すぎて読唇術が使えないことがあります。その時は、スマホを使って話の流れを理解できます」と彼は述べます。

AI によるキャプション生成

自身も聴覚障がい者であるマイクロソフトのチーフアクセシビリティオフィサー、ジェニー レイフレリー (Jenny Lay-Flurrie) は、RIT との試行プロジェクトが障がい、特に、聴覚障がいを持つ人々へのAIによる支援の可能性を示したと述べています。Microsoft Translator が提供するキャプションは、手話に新たなコミュニケーション手段を追加し、彼女を含むより多くの人々を支援すると述べます。

このプロジェクトは、教室での試行の初期段階にあります。コネリー教授の一般生物学の授業は、Presentation Translator と呼ばれる Microsoft PowerPoint のアドインを使用したリアルタイムの AI キャプション生成サービスが利用可能な 10 講座のうちの一つです。学生は、ラップトップ、スマホ、タブレット上で稼働する Microsoft Translator アプリを使い、好みの言語のキャプションをリアルタイムで受信できます。

「言語は人類の進化の推進要因です。コラボレーション、コミュニケーション、そして学習を強化します。RIT の教室ではキャプションを使用することで、あらゆる人の学習とコミュニケーションを向上させています」と Microsoft AI and Research の音声認識言語研究グループのリーダーであるゼドン ファン (Xuedong Huang) は述べています。

ファンは1980 年代に、母国中国の 13 億の人々が西洋言語向けに設計されたキーボードで中国語をタイプ入力する必要がなくなるよう、自動音声認識の研究に取り組み始めました。数年前のディープラーニングによる音声認識の採用により人間と同等の正確性が達成され、ニュース記事を中国語から英語に翻訳する機械翻訳システムの開発に結び付きました。これにより「AI テクノロジを人々の日々の生活で活用できるという確信が持てました」とファンは述べています。

需要が増加するアクセスサービス

ゲーリー ベーム (Gary Behm) が 1974 年に RIT に入学した時、彼はおよそ 30 人の聴覚障がいを持つ学生の一人でした。今日もキャンパス中で広く行なわれているように、ASL 通訳者が教授の話し言葉を手話で通訳していました。ゲーリーは電子工学の学位を取得し、IBMでのキャリアで成功できました。米国中を転勤し、機械工学の修士号を取得し、結婚して 3 人の息子をもうけました。そのうち、2 人は聴覚障がい者であり、妻も聴覚障がい者です。

子供たちが成長し、自身のキャリアを求めるようになると、ベーム、そして彼と NTID で出会った妻は、大学へ戻ることを考えました。コンピューターに通じた機械系エンジニアであるベームは、NTID の学生をサポートするアクセステクノロジの開発に取り組み始めました。現在、NTID には 1,500 人以上の学生がおり、その約半数は RIT の他の 8 つの学部の学生です。

「開発の規模を拡大できたのは喜ばしいことですが、学生に提供するアクセスサービスに限界が生じてきました」と、現在は NTID の暫定教務副部長であり、先進的なアクセステクノロジの研究と展開を行うCenter on Access Technology(CAT) のディレクターであるベームは述べています。

手話通訳者とリアルタイムキャプション生成というアクセスサービスの組み合わせにより、聴覚障がい克服して学生が授業を受ける支援が行えます。健常者の学生は複数のことに同時に集中することができます。たとえば、教授が話しながら黒板に公式を書くと、健常者の学生は話を聞きながら公式をノートに書き写すことができます。

「しかし、聴覚障がいを持つ人々にとってそれは不可能です。注意は常に手話通訳者に向いていますが、たとえば、教授が『黒板に書いた公式を見てください』というようなことを言うと、注意を通訳者から黒板に向けなければなりません」とベームは述べます。

「通訳者に注意を戻しても、伝えられようとしていた情報はもう消えています。」

この問題を解決するために、RIT は 140 人の手話通訳者に加えて、50 人以上のキャプション作成者を採用しています。キャプション作成者は、RIT が開発した C-Print というテクノロジを使用して講義をリアルタイムで文字に書き起こし、聴覚障がい者の学生のラップトップやタブレット上に表示できるようにします。さらに、一部の学生がシェアー可能なノートを取ることにより、聴覚障がいを持つ学生が授業の間に通訳とキャプションに集中できるようにしています。

「ここでの問題は、このようなアクセスサービスの規模を拡大し続けられるかということです」とベームは述べます。

RIT の各学部に入学する聴覚障がい者の学生数が増す中で、RIT と NTID は彼らが充実したキャンパスライフを送れるようにすることにコミットしています。RIT は既に世界の教育機関で最多の手話通訳者とキャプション作成者を採用していますが、アクセスサービスへの需要は増大し続けています。これが、ベームが自動音声認識(ASR)を含む他の有望なテクノロジを検討し始めた理由です。

自動音声認

NTID の卒業生で、現在は CAT のアソシエートディレクターであるブライアン トレイガー (Brian Trager) は、2016年の春に行なわれた ASR の初期実験は期待にそぐわないものであったと述べています。センターの研究者が最初にテストしたシステムは不正確で、特に科学技術の専門用語を使用している時には何を言っているのか理解できないほどでした。

「私は、子供の頃のように、ただ頷くことしかできませんでした」と聴覚障がい者で、子供の頃は読唇術もうまく使えなかったトレイガーは言います。彼は、その頃は相手が何を言っているかわからなくてもうなずいていることが多かったのです。

「それだけではなく、テキストも読みにくいものでした。たとえば、9/11のテロについて教師が話していると、システムは ‘n-i-n-e e-l-e-v-e-n’と表示します。年号でも価格でも同じです。単に素のデータなのです。ピリオドもカンマもないため、目が疲れてしまいました。空間的に認識する方法がなかったのです」と彼は続けます。

その年の夏、CAT の研究所で働いていた学部学生が様々なテクノロジ企業の ASR 製品をテストしている中、マイクロソフトのソリューションが有望に映りました。「9/11といった数字は正しく表示されます。2001年は2001と表示されます。句読点がサポートされ、それだけでも読みやすさが大幅に向上しました。非常に快適でアクセスが容易なソリューションでした」とトレイガーは述べています。

NTIDの CAT の研究者たちは、特定分野の語彙に合わせて独自の言語モデルを構築することで音声認識を強化できる Microsoft Cognitive Service のベータ版、 Custom Speech Serviceの存在を知りました。ベータテストへの参加を申し出ると、24 時間以内にマイクロソフトの研究組織の機械学習担当主任技術プログラムマネージャーである、ウィル ルイス (Will Lewis) から返信メールが届きました。

教室向けの言語モデル

ルイスと彼のチームは、CAT の研究者に Microsoft Translator を紹介し、2017 年の秋には、チームは授業の題材に合わせた独自言語モデル構築の共同作業を開始し、PowerPointのPresentation Translatorアドインを使用した授業の試行を開始しました。

モデル構築のため、研究者たちは特定の教授の 10 年以上にわたる授業における C-Print の文字起こし原稿データベース、そしてPowerPoint のノートのマイニングを行ないました。Custom Speech Service の AI はこのデータを使用して、特定分野に固有の用語がどのように発音されるかのモデルを構築しました。講師がそれらの言葉を発音すると、システムが認識し、リアルタイムで文字起こしし、表示します。

クリス キャンベル (Chris Campbell) は NTID の卒業生であり、現在はCAT の准研究教授として、センターの ASR 展開の取り組みを統率しています。2017年の秋に、キャンベルは、NTID の学生にプログラミングの基礎を教えましたが、その時は手話を使用しました。

「NTID には手話が得意ではなく、英語に依存している学生も来ます。そこで、私のクラスでは、通訳と共に使用する ASR を試行してみました」とキャンベルは述べます。

通訳はヘッドセットを装着し、キャンベルが手話で伝えることをすべて言葉にします。Microsoft Presentation Translator がPowerPoint スライドの下、そしてMicrosoft Translator アプリを稼働する学生のパーソナルデバイス上にキャプションを表示します。キャンベルが手話を行うと、学生の目が自分、キャプション、そして、通訳の間を往復するのがわかりました。どの情報ソースに時間を費やすかは、学生のASLへの習熟度と聴力に依存します。

難聴であり、 ASL に習熟できていない学生のアマンダ ブイ (Amanda Bui) は、「通訳者とラップトップ上のキャプションの両方を使用することで、プログラミング言語の学習が容易になりました」と述べています。彼女は、カリフォルニア州フリーモントで育った時には、アクセスサービスを使用できませんでした。

あらゆる人のためのアクセシビリティ

一般生物学の教授であるコネリーは、自動キャプションテクノロジが ASL 通訳者を置き換える存在ではなく、強化する存在であると考えています。一つのジェスチャーで複数の単語を表現できる ASL は、文字を読むよりも負担が小さいからです。しかし、通訳者と共に使用することで、より多くの学生、特に ASL に習熟していないジョセフ アジェイなどの学生のアクセスを向上できます。

さらに、Microsoft Translator では、学生が文字起こし原稿を保存することも可能であり、これによりクラス全体の授業への取り組み方が変わったと彼女は述べます。

「講義中にジョークを言ってもずっと記録として残ります。講義はもう、一度やって終わりというものではありません。私にとっては終わりでもテキスト形式で残ります。生徒が私のオフィスに来る時は、『ここを聞き逃しました』といった理由で来ることはもうありません。『なぜこれが当てはまるのか理解できません』といった理由で来ます。生徒の持つ焦点が変わってしまったのです。」

健常者の学生も聞き逃した情報を得るために定期的にキャプションをチェックし、復習のために文字起こしを保存していると、コネリーは付け加えます。ASR システムを試行していた秋学期の進化生物学の授業に出ていた一人の聴覚障がいの学生が履修を止めた時、コネリーはキャプション機能を停止したのですが、健常者の学生はこれに反対しました。結局、Presentation Translator は秋学期を通じて使用されることになりました。

ジェニー レイフラリは、このようなストーリーはアクセシビリティに対する投資の価値を高めることになるため好ましいと述べています。

「純粋に製品設計の観点から言っても、アクセシビリティのために設計すれば、世界で 10 億人いると言われる障がいを持つ人々だけではなく、あらゆる人にとって価値を提供することができるのです。」

手話通訳の提供について、RIT のシニア通訳者であるシンシア コルワード (Cynthia Collward) に感謝します。

Tags:

関連記事