AI を使うことで、 目の不自由な人でも部屋の中にいる知り合いが 見つけられるように

※ 本 Story は、米国時間 1 月 29 日 に公開された ”Using AI, people who are blind are able to find familiar faces in a room” の抄訳です

ジョン ローチ (John Roach)

英国ケンブリッジ – 12 月中旬の小雨が降るある日、12 歳の全盲の少年セオが、混雑したキッチンテーブルに向かって座っています。彼の明るい茶色の髪には、カメラ、深度センサー、スピーカーを備えたヘッドバンドが取り付けられています。ヘッドバンドについているカメラがカウンターの反対側にいる人の鼻を捉えるまで、セオは頭を左右に向けています。

セオの耳の上に位置するヘッドバンドのスピーカーから、音とともに「マーティン」という名前が聞こえてきました。

「わかるまで 5 秒ほどかかったよ、マーティン」と、セオは言います。セオの顔と体は、今はマイクロソフトのケンブリッジ研究所のシニアリサーチソフトウェア開発エンジニア、マーティン グレイソン (Martin Grayson) の方に向けられています。マーティンは膝くらいの高さの黒いボックスの隣に立っています。そこには、セオがマーティンを認識するために使った機械学習モデルのプロトタイプシステムを実行するコンピューターが格納されています。

セオの母親であるエリンは、反対側の壁にもたれながら「息子がマーティンを見つけようとして顔を向けて話しかけたことは、とても素晴らしいことです」と言います。

セオが母親の方に顔を向けると、スピーカーからもう 1 回音が鳴り、「ティム」と名前が読み上げられます。

「ティム、そこにいたんだ」とセオは喜び、もう 1 人のシニアリサーチソフトウェア開発エンジニア、ティム レーガン (Tim Regan) を見つめます。ティムは、セオにコンピューターのプログラミングを教えています。セオと母親は、2 か月に 1 度のプログラミングレッスンを受けるためレーガンの家を訪れているのです。彼らは、あらゆる視覚レベルの子供たちに対応できるフィジカルプログラミング言語 Code Jumper の開発につながった研究プロジェクトで出会いました。

セオは、視覚障碍者のコミュニティの一員です。このコミュニティは、レーガン、グレイソン、そして、リサーチャーのセシリー モリソン (Cecily Morrison) と彼女のチームが率いる Project Tokyo と呼ばれるプロジェクトに協力しています。Project Tokyo は、人工知能を活用したインテリジェントなパーソナルエージェントにより、人々の既存能力を拡張することを目指した多面的な研究プロジェクトです。

このプロジェクトは、セオに周囲にいる人々を認識するためのツールを提供しています。

「僕の周囲に誰がいるかわかるのはとても素晴らしいことです。話している人だけではなく、黙っている人も含めて全員がわかります。普通の人なら顔を見ればわかりますが、僕にはそれができませんから」とセオは言います。

しかし、モリソンによれば、Project Tokyo は、最終的にはあらゆるユーザーの能力を拡大できるパーソナルエージェントを構築するという、長期的な目標に向けた取り組みです。AI の未来は、特定のタスクを完了できる総合的なシステムではなく、人々が自分に適合するように活用できる一群のリソースを提供することにあると彼女は考えています。

「『ねぇ、あなた目が見えないですよね、このシステムを使ってください』と唐突に言うことはあり得ません。伝えるとしたら、『あなたはあなたです、そして、あなたのためにこのシステムを作りました』と言えなければなりません。その人について、何でも知っている必要はありません。その人をカテゴリー分けする必要もありません。その人が自分用に調節できるシステムを提供することで、その人に適したものを提供できる、ということが重要なのです」と、モリソンは述べます。

ブラジルでのパラリンピック

Project Tokyo は、2016 年の初頭、スポーツの得点や天気予報情報の獲得、そして、物体の識別などの単純作業以上のものを達成できる AI システムを構築するという、マイクロソフトのシニアリーダーによる課題設定から始まりました。モリソンは、目の不自由な人々のためのツールを構築することが、このプロジェクトの目的として最適であると考えました。障碍を持つ人々が新テクノロジの初期導入者になることはよくあることだからです。

モリソンは、次のように述べています。「これは、単に『目の不自由な人々のためのツールを作ろう』という単純なものではありませんでした。私たちは、目の不自由な人々と協力して、未来のあるべき姿を構想しています。そこでは、 AI による新たな体験が必要です。」

モリソン、そして、マイクロソフトのレドモンド研究所で彼女の同僚であったシニアリサーチャーのエド カトレル (Ed Cutrell) が、プロジェクトを率いるよう依頼されました。目の不自由な人に向けたテクノロジを開発した経験がある二人は、まず、エージェントテクノロジによるこれらのユーザーの能力の強化・拡大の可能性について検討することにしました。

手始めに、二人はリオデジャネイロで開催されていたパラリンピック大会を訪れ、様々な視覚レベルのアスリートと観客を対象に、空港で移動する時、スポーツ会場に行く時、観光に行く時など、様々な活動における他者とのやり取りを観察しました。カトレルによると、そこでの重要な学びは、社会的コンテキストを理解することこそ、目の不自由な人々が自分の周囲の環境を理解する上で重要な役割を果たすということでした。

「私たちは、人間として、他人とのやり取りに関してとても微妙で複雑な感覚を持っています。部屋にいるのは誰か、何をしているのか、自分との関係はどうか、私にとって重要かどうかをどう判断するか、これらを知るための手がかりは私たちにとって当然に得られるものです。しかし、目の不自由な人々にとってはそうではありません」と、カトレルは述べます。

この課題に関する理解が進んだことで、目の不自由な人々の協力の下に、そのような体験を提供できる潜在的テクノロジにフォーカスした一連のワークショップが開催されることになりました。50 代半ばの音声技師であり、生涯の大半で視覚障碍と共に生きてきたピーター ボッシャー (Peter Bosher) は、自分の周囲にいる人々の情報を提供してくれるテクノロジという考え方に直ちに共感したと述べています。

「多くの人々とやり取りをしなければならない状況、特に、自分が知らない人がいる状況では、対話がきわめて難しくなります。それは、人が他人に話しかける時に、アイコンタクトやボディランゲージを多用するようになるからです。これは、視覚障碍者にとってはきわめて困難な状況です」と、ピーターは述べます。

HoloLens の改造版

構築すべき AI 体験を理解した Project Tokyo の研究者は、それを実現するテクノロジの構築に取りかかりました。手始めに、現実世界にホログラム映像を投影し、操作できるようにしてくれる複合現実ヘッドセットの Microsoft HoloLens の改造が行われました。

マイクロソフトのケンブリッジ研究所でのデモ中に、グレイソンは、「HoloLens は、他人とのコミュニケーションに関して AI エージェントが必要とする大量の情報を提供してくれます」と言います。

たとえば、このデバイスは、周囲ほぼ 180 度の視覚を提供するグレイスケールカメラ、および高精度の顔認識を提供するカラーカメラを備えています。さらに、ユーザーの耳の上にあるスピーカーにより、ユーザーの周囲の特定の場所から聞こえるように空間化された音声を提供できます。

次に、Project Tokyo チームの機械学習スペシャリストは、ユーザーの周囲で、誰がどこにいるのかについての様々な情報を提供するコンピュータービジョンのモデルを開発しました。このモデルは、グレイソンがセオによるテストのためにレーガンの家に運んだ黒い箱の中に格納された GPU (グラフィックプロセッシングユニット)上で実行されます。

1 つのモデルでは、周囲にいる人の姿勢を検出します。これにより、その人がユーザーからどのくらい離れていて、どの方向にいるかがわかります。高精細カメラの画像を連続的に分析し、人の顔を認識し、その人が名前をシステムに提供済かを判断するモデルもあります。これらの情報は、すべて音声としてユーザーに伝えられます。

たとえば、ユーザーの左側 1 メートル先に人がいることを検出した場合、システムはユーザーの左側1 メートル先から鳴っているようなクリック音を鳴らします。人の顔を認識するとさらに異なる音を鳴らし、その人が既知の人物である場合には名前を読み上げます。

ユーザーがクリック音を聞き、その人が誰かを知りたい場合には、ゴムバンドが伸びているような効果音によって、その人の顔に適切に視線を向けられるようガイドしてくれます。デバイス中央のカメラがその人の鼻を捉えると、高音のクリック音がなり、その人がシステムにとって既知の人物であれば、名前が読み上げられます。

「視線をガイドしてくれる機能を大変気に入っています。他人を見る上で適切な角度というのが私にはわかりにくいからです」とボッシャーは述べます。彼は、音声による体験について Project Tokyo のチームと設計の初期段階から協業しており、自身の経験について議論し、最新情報を知るためにケンブリッジ研究所を再び訪れました。「ボディランゲージを学ぶには最適なツールです。」

成人によるプロトタイピング

Project Tokyo チームがテクノロジの開発と改良を続ける中で、研究者はテストとフィードバック収集のために、視覚障碍を持つ成人の協力を求めました。たとえば、より直接的な対話を可能にするために、チームは HoloLens の前面からレンズを取り外しました。

一部のユーザーは、常に頭を動かす必要なしに、システムが収集した情報をできるだけ目立たないように得られることを望んでいました。常に頭を動かしているのは不自然に見えるからです。このフィードバックを得た Project Tokyo チームは、ユーザーが自分の周りにいる人を迅速に知ることができるよう支援する機能を開発しました。たとえば、全体像を提供し、事前にシステムに許可を与えているすべての人の名前を、空間化して読み上げる機能です。

もう一つの実験的機能は、誰かがユーザーを見ている時に、空間化されたチャイムで知らせるというものです。これは、通常、視力を持つ人々はアイコンタクトにより会話を始めるためです。ほかの音の場合とは異なり、チャイムでは名前を読み上げることはしません。

最新の機能について学ぶためにケンブリッジ研究所を訪れた、20 代の視覚障碍者のエミリーに対して、グレイソンは次のように説明しました。「あなたが誰かを見た時には名前を呼びます。しかし、敢えてあなたを見ている人の名前を呼ばないということで、逆にあなたの注意を引くことができます。そして、あなたがその人の方を向くと初めて名前が呼ばれる仕組みです。」

「このやり方には全面的に賛成です。これは、視覚に問題がない人々のやり方でもあります。視界の端で誰かを捉えると、たとえば、『セシリー』といったように話しかけるのです」と、エミリーは言います。

研究者がエミリーに見せた改造版 HoloLens には、カメラのバンド上に LED が備えられています。白い LED がユーザーに最も近い人の情報を示しており、その人がユーザーによって認識されると、色が緑に変わります。この機能により、コミュニケーションの相手も、そばで見ている人も、自分が認識されたことがわかるため、自然に会話を始めることができます。

LED は、人々が望んだ時には、デバイスの視界から離れて見えないようにできる機会も提供してくれます。「デバイスに見られていると気付いた時に、自分が見られないように選択することもできます。自分が今見られているか、見られていないのかを知ることもできます」とモリソンは言います。

ソーシャルスキルを教えるツール

技術研究が進むにつれ、Project Tokyo は、新たな領域に対象を拡大しています。 具体的には、目の不自由な子供たちがソーシャルスキルを身につけられるよう支援するためにテクノロジを活用するということです。

ある学術的研究によれば、目の不自由な子供たちの 3 分の 2 は、自閉症スペクトラムと同等の社会的行動を示すとされています。たとえば、多くの子供たちが会話の相手に無関心であるように見え、対話中に机の上に突っ伏してしまうことも多いとされています。

モリソンとカトレルは Project Tokyo の方向転換を行い、目の不自由な子供たちに他人との対話を適切に行えるようなボディランゲージを教えるために軽量化したシステムを使用できないかを検証することにしました。

研究者たちは既にセオのことを知っていたため、システムを子供たち向けに調整するためにセオの協力を依頼しました。たとえば、子供たちは互いに近くに座り、常にじっとしていられないという傾向があるので、それに対応した調整が必要です。

「人の名前を読み上げる時、2 人分を同時に読み上げることがありました。これを聞き分けるのはとても難しかったので、直してもらえるようにお願いしました」と、セオは思い返します。

研究者は、セオがどのようにシステムを使っているかも調査しました。たとえば、家族との食事の時、彼は頭を繰り返しわずかに揺らし、自分が話している人の名前をシステムが読み上げるようにしていました。

「これは、どこに誰がいるかの短期記憶をリフレッシュすることで、人に対する空間的注意力を維持するためだと考えています。私たちが予想していなかったことでしたが、注意力を維持するためにはきわめて有効です。そして、注意力を維持できれば、会話の話題も維持することができます」と、モリソンは言います。

視覚健常者が大半を占める世界において、セオがソーシャル対話のスキルを向上する上で、このテクノロジが貢献するであろうという研究者の仮説を裏付ける別の活用法も生まれました。

他の目の不自由な子供たちと同様、セオは会話中に一方の耳だけを上に向けて机に頭を突っ伏す傾向がありました。研究者は、人々の会話において体と顔を使うことにより、得られる社交的パワーを示すことを目的としたゲームをセオとプレイすることにしました。

このゲームでは、グループで解決すべき問題が研究者によって与えられます。セオは答えを知っています。研究者はトピックだけを知っており、セオが自分を見ている時だけ話すことができます。セオが他所を見ている時には、対話を止めなければなりません。

「彼は突然、会話を管理できることに気付いたのです。誰かを見つめることによる効果、会話を続けることによる効果、そして、それによって今まではなし得なかった新しい社交的能力が得られることに気付いたのです」と、モリソンは述べます。

今では、セオが机に頭を突っ伏して話すことはほとんどなくなりました。改造版 HoloLens を着用していてもいなくても、体と顔を対話の相手に向けるようになっています。このような変化が長期的に続くものかどうかはまだ明らかではありませんし、他の目の不自由な子供たちが同様の反応を示すかどうかも定かではありません。

「セオの体験を見ている限り、好感触を持っています。しかし、これは一つの事例に過ぎません。このシステムがなくてもそうなっていたかもしれません。これが、研究を次のフェーズに進める理由です。そこでは、より幅広い年齢層の、より多くの子供たちを対象にします」と、カトレルは述べます。

Project Tokyo の未来

Project Tokyo の研究は範囲を拡大して継続しています。たとえば、ユーザーが自分の嗜好に合わせてシステムを適合できる機械学習などの新しい方向性が追加されています。ケンブリッジ研究所の機械学習研究者であるセバスチャン チアトシェク (Sebastian Tschiatschek) は、ユーザーが聞きたい情報の種類と量をシステムに伝えることができる機能を開発中です。

このパーソナリゼーション機能の開発のために、チアトシェクは機械学習において前例のないアプローチを取らざるを得ませんでした。

「通常、私たちは問題を何らかの数学的形式で公式化します。しかし、この問題については、それは容易ではありませんでした。機能を試し、人々と対話して、彼らが好むもの、好まないものを知り、アルゴリズムを強化してきました」と、セバスチャンは述べます。

目が不自由な人でも、その視覚レベルは様々であり、情報へのニーズも異なることから、パーソナリゼーションがとりわけ重要だとセバスチャンは説明します。さらに言えば、ユーザーが既に知っている情報をシステムが提供するとユーザーはフラストレーションを感じてしまいます。

「Project Tokyo のビジョンを実現するためには、単独でも解決困難な問題を組み合わせなければなりません」と、セバスチャンは述べます。

最終的には、Project Tokyo は、すべてのユーザーが能力を拡大できるインテリジェントなパーソナルエージェントの構築という目標に向かっていくでしょう。その目標を達成するために、モリソン、カトレル、そして、その同僚たちは目の不自由な人々、特に子供たちとの連携を続けていきます。

レーガンの家でシステムのテストを行った翌日、自分のオフィスでモリソンは言いました。「セオの事例はきわめて強力なものでした。それは、彼が自分の世界をかつては不可能だった方法でコントロールすることができるようになったからです。」

Project Tokyo に参加する子供たちのグループは拡大していますが、その中には、モリソンの 7 歳の息子であるローナンも含まれています。彼は、生まれた時から全盲でした。

「同じことがローナンにも起きると思っています。早く試してみたくてたまりません」と、モリソンは期待しています。

編集者中: セオとエミリーは記事中で名字を使用しないよう希望しています。

関連記事:

Project Tokyo の追加情報 [Link TK]

多様性を備えた設計に関するセシリー モリソンのポッドキャスト

フィジカルプログラミング言語 Code Jumper の追加情報

ジョン ローチは、マイクロソフトのリサーチとイノベーションに関するライターです。彼の Twitter アカウント をフォローしてください。

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

Tags: ,

関連記事