執筆者: John Roach
※ 本ブログは、米国時間 11 月 7 日 に公開された ”The making of the HoloLens 2: How advanced AI built Microsoft’s vision for ubiquitous computing” の抄訳です。
ワシントン州レドモンド – 新しい HoloLens 2 は、初めて頭に装着されると、その使用者を自動的に認識しようとします。手の形や目と目の距離など、あらゆるサイズを正確に測定していきます。
英国ケンブリッジで HoloLens 科学チームを率いるパートナー サイエンティストの Jamie Shotton (英語) は、この機能を作るための人工知能の研究開発は「驚くほど複雑」だったが、デバイスを「本能的」に使用できるようにするには不可欠だったと言います。
「HoloLens の使い方を教えなくても、人々が使えるようにしたいと思っています。実際私たちは、モノとのやり取りを本能的に理解しています。モノを持ち上げたり、ボタンを押したり、指をさしたりと。私たちが目指しているのは、そうした動作をできる限りダイレクトに Mixed Reality に変換することです」 (Shotton)。
マイクロソフトは本日、HoloLens 2 の提供を開始したことを発表しました。このホログラフィック コンピューティング ヘッドセットにはセンサーが多数搭載されており、AI によって時間や空間を変位させ、人、場所、モノの Mixed Reality を作成して、人間の最も基本的な衝動の 1 つである知識交換を促進します。
マイクロソフトのテクニカル フェローである Alex Kipman は、このヘッドセットはインテリジェント エッジ デバイスの最高水準を定義するものだと言います。安定したインターネット接続がなくてもデータを収集して処理し、接続された際にデータの一部またはすべてをインテリジェント クラウドと共有できる AI 対応テクノロジを備えているためです。
Kipman は先日、自分のオフィスにあるデジタル ホワイトボードに、このユビキタス コンピューティング ファブリックの図をスケッチしました。
「HoloLens はこの世界観を念頭にゼロから発明された初のネイティブ デバイスです」。
HoloLens 2 の AI と、マイクロソフトのクラウド コンピューティング プラットフォーム Azure の AI 機能を組み合わせると、従業員がヘッドアップとハンズフリーでスキルを習得 (英語) できるほか、地球の反対側にいる別の言語を話す人々と同じ場所にいる感覚で共同作業をする (英語) こともできます。
マイクロソフトの Azure マーケティング担当バイス プレジデントの Julia White は、次のように述べています。「HoloLens ではとても面白いことができます。そして、クラウドでもすごく面白いことができます。この 2 つを組み合わせれば、人々ができることは大きく変わるでしょう」。
AI で Mixed Reality を
HoloLens 2 の本能的な操作を可能にするために、Shotton は同僚と協力して人の手の動きや視線を追跡する AI モデルを開発し、トレーニングしてデバイスにデプロイしました。この AI モデルを利用すれば、たとえば目の前に浮かぶホログラムを知覚し、手を伸ばしてサイズや位置を変更したりすることができます。
手の動きを追うハンド トラッキング システムを開発するにあたり、Shotton のチームは、さまざまな人の手を記録するために、内側に向けたカメラをドーム状に並べたリグを構築しました。次に、オフライン クラウド処理を使用して、あらゆる人間の手の形と動きを表現できる 3D モデルを構築しました。
この 3D モデルを基に、チームは CG を使用してリアルな手の合成画像と合成ラベルをレンダリングし、さまざまな手の形、ポーズ、動きに対応する堅牢なモデルを作成しました。
「トレーニング データは無限かつ効果的に生成できます」と Shotton は言います。
チームはこのデータを使用して、AI アルゴリズムの一種であるディープ ニューラル ネットワークのトレーニングを行いました。このニューラル ネットワークは、HoloLens に搭載されたプロセッサに適したコンパクトなサイズで、デバイスの深度センサーから取得したすべてのフレームに対して効率的に実行されます。
新しいユーザーが HoloLens 2 を装着すると、システムはこのニューラル ネットワークを使用して、ユーザーの手に合わせて 3D モデルをパーソナライズします。これにより、ホログラムを本能的に操作できるようにするために必要な精密な追跡が可能になります。
チームは、視線を追跡するアイ トラッキング モデルの開発とトレーニングにも同様のアプローチを採用しました。その際に細心の注意を払ったのが瞳孔間距離、つまり右目の瞳孔の中心から左目の瞳孔の中心までの距離です。この距離には個人差があり、近くや遠くの物の見え方に影響します。
その結果、HoloLens 2 がユーザーの前にホログラムを正確に表示し、手の動きや視線によって操作できるようにするアイ トラッキング モデルが完成しました。
「アイ トラッキング モデルがなければ、ホログラムを本能的に操作できるほど正確なレベルで現実のモノ、特に人の手に合わせることは不可能です」と Shotton は言います。
エッジとクラウドの AI
HoloLens 2 では、ハンド トラッキングおよびアイ トラッキング機能に加えて、ユーザーが移動してもホログラムを空間に固定するために必要な SLAM (Simultaneous Localization and Mapping。位置推定と環境マップの作成を同時に行う技術) などのインテリジェント機能を組み込むために、HPU (Holographic Processing Unit) 2.0 という第 2 世代のカスタム チップを使用しています。
Kipman はこうしたオンデバイスの AI 機能を「知覚 AI」と呼んでいます。
「知覚は爬虫の脳のようなもので、人の脳は命令した行動を本能的かつ無意識に実行しているのです」。
人の場合、この知能によって心臓は鼓動を、肺は呼吸を、眼球は被写界深度を測定するマイクロサッケード (眼球の不随意運動の一種) を続けます。たとえば、喉が渇いて水が欲しくなったら、目は本能的に水の入ったグラスまでの距離を測定し、手がグラスを持ち上げて口に運びます。
HoloLens 2 の知覚 AI により、人はレイテンシが気になることなくホログラムを操作できます。レイテンシとは、データをクラウドに転送して処理し、エッジに再び転送する際に生じる数百ミリ秒の遅延のことを指します。
Shotton によると、たとえば、ホログラム上でボタンを押したり、テキストを視線でスクロールしたりする場合、「遅延がたとえ数十ミリ秒でも、知覚的には大きな差があり、ターンアラウンド タイムは致命的」になります。
AI の計算をデバイス上でローカルに実行するもう 1 つの理由は、プライバシーに関する懸念です。たとえば、HoloLens 2 ではユーザー認証のために虹彩スキャンを実行しますが、この種の個人データをクラウドに送信することに抵抗がある人は少なくありません。
しかし、それ以外の多くのデータはクラウドに送るメリットがあります。クラウドでは、Azure AI や Mixed Reality のサービスを利用して、ユーザーのデバイスのデータをユビキタス コンピューティング ファブリック全体のデータと組み合わせることができます。これにより、さらに高度な計算や認知が可能になると Kipman は言います。
クラウドでのコラボレーション
スイスにあるマイクロソフトのチューリッヒ Mixed Reality & AI 研究所 (英語) のディレクターを務める Marc Pollefeys (英語) によると、インテリジェントなクラウド ベースのホログラフィック コンピューティングの大きなメリットは、HoloLens や同様の機能を備えた別のデバイスを利用している他のユーザーと情報を共有できることです。
Pollefeys は、Azure Spatial Anchors という Mixed Reality クラウド サービスの中核となるコンピューター ビジョン アルゴリズムの開発チームを率いています。この Azure サービスを利用すると、ホログラムを現実世界に永続的に固定して、適切なレベルのアクセス許可を持つユーザーならだれでも見られるようにすることができます。
たとえば、空間アンカー テクノロジを使用すれば、工場のマネージャーは運用と保守に関する重要なリアルタイムの情報を含むホログラムを組立ラインの機器の横に配置し、Mixed Reality 対応デバイスを使用する資格のある従業員がアクセスできるようにすることが可能です。
「情報を配置しても、自分のデバイスでしか表示できなければ、現実世界にホログラムを配置する意味はないでしょう。しかし、現実世界に注釈を付け、あとから社内の適切なアクセス許可を持つ人々がその情報をすべて見ることができれば、非常に大きな価値が生まれます」と Pollefeys は言います。
この機能を構築するにあたり、Pollefeys のチームは、各センサーからのデータを処理して周囲の環境に関する 3D 幾何情報を抽出し、それをクラウドで統合して関心領域のデジタル ツイン (マップ) を作成する AI コンピューター ビジョン アルゴリズムを開発しました。
HoloLens の開発では、常に環境の 3D や空間認識の機能を構築してきました。Pollefeys によると、Azure Spatial Anchors では、こうしたマップを作成して改良していき、デバイス間で共有します。そのため、個々のデバイスからマップが統合されてクラウドに保存されます。
「データを個々のデバイスのみで保持していては意味がありません。私がパズルのピースの 1 つを持っていて、他のだれかもピースの 1 つを持っているようなものです。すべてのデバイスを組み合わせて初めて全体が完成します」(Pollefeys)。
HoloLens や適切な機能を備えたスマートフォン、タブレット、ノート PC などといったさまざまな種類の Mixed Reality 対応デバイスで環境のマップを作成し、そのデータをクラウドと共有することにより、マップの密度、精度、堅牢性は時間と共に高まります。
たとえば、マネージャーが組立ラインの機器の近くにホログラムを配置した先ほどの例の場合、資格を持つ従業員が各自のデバイスでホログラムを見るたびに、工場フロアのマップが着実に改良されていきます。
この機能があれば、たとえば建築家とそのクライアントのミーティングで建物の 3D 設計図をホログラムで表示し操作する場合、各自がそれぞれ Mixed Reality 対応デバイスを使用して、自分の座席から見える角度で設計図を見ることができます。
Azure に含まれている構築済みのサービスを使用すると、HoloLens だけでなく、iOS/Android オペレーティング システムを実行するスマートフォンやタブレットなど、あらゆる Mixed Reality デバイス上でこうした種類のエクスペリエンスを実現するアプリを作成できると White は言います。
「このコラボレーション エクスペリエンスは、HoloLens だけのものではありません。また、こうした魅力的なエクスペリエンスを実現するアプリを作成するのに必要なコストや複雑さやスキルのレベルは、大幅に下がります」。
たとえば、クロス デバイスおよびプラットフォーム機能を使えば、Minecraft Earth などのエクスペリエンスを実現できます。Minecraft Earth は、人気のビデオ ゲームと Mixed Reality を融合したもので、ユーザーは現実世界に仮想の建造物を建てて配置することができます。この建造物は永続的に残り、他のユーザーが自分のデバイスから操作することができます。
「あらゆる種類のデバイスで認識、解釈できるクラウド テクノロジをベースとしているため、だれでも参加することができます」と White は言います。
人のために設計されたテクノロジ
HoloLens が想定どおりに機能するためには、このエクスペリエンスの基盤となるテクノロジが人と同じ方法で現実世界を認識する必要がある、と Kipman は指摘します。
そのため、Kipman はマイクロソフト社内の協力者と共に AI ソリューションを開発し、HoloLens 2 ヘッドセットのチップから Azure AI や Mixed Reality サービスまで、ユビキタス コンピューティング ファブリック全体にデプロイして活用しました。
Kipman は再びデジタル ホワイトボードの前に立ち、今度はユビキタス コンピューティングのビジョンをスケッチしました。この図には、多数の単語、ボックス、矢印、そしてインテリジェント デバイスの隣で会話に没頭している 2 人の棒人間が描かれています。
これこそがユビキタス コンピューティングの究極の目標だと Kipman は言います。つまり、ユーザーが自然な方法で他のユーザーと対話できるようにすることです。
この点をわかりやすく伝えるために、Kipman は鋭い視線を向けてこう言いました。「あなたはここに来たのだから、きっと私との会話がより有意義なものになったはずです」。
「この会話は電話でもできましたし、Skype でもよかったはずです。私が録音して送るという方法もありました。しかしあなたはそうはせず、わざわざここに来ることを選びました。なぜでしょうか? それが、人間だからです」。
「しかしデメリットもあります。それは、あなたと私が同じ時間に同じ場所にいなければならないことです。このテクノロジの力を借りれば、私たちは時間や空間を超えて会話をすることができます」。
関連情報:
HoloLens 2 (英語) とマイクロソフトの Mixed Reality サービスの詳細を確認する
Julia White による HoloLens 2 のデモ (英語) を視聴する
Marc Pollefeys が HoloLens と Azure Spatial Anchors について説明するポッドキャスト (英語) を聴く
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。