コンテンツへ移動

マイクロソフト、強化学習を用いた新分野の AI ソリューションを提供

ジェニファー ラングストン (Jennifer Langston)

本ブログは、2020 年 12 月 7 日 (米国時間) に公開された ”With reinforcement learning, Microsoft brings a new class of AI solutions to customers” の抄訳です。

今現在、オンラインで休暇旅行の予約をしようとする人の嗜好は、COVID-19 の流行前とは大きく異なっているでしょう。

飛行機で異国のビーチに行くよりは近場のドライブを望むかもしれません。外食の選択肢が限定されていることから、キッチンを備えた宿泊施設が好まれるかもしれません。共有ロビーがあるホテルよりもモーテルや山小屋の方が魅力的かもしれません。

多くの企業が、オンラインのレコメンデーションエンジンを使用して顧客の嗜好に合致する商品や体験を提案しています。しかし、人々の嗜好を予測する従来型の機械学習モデルは、通常、過去の体験のデータに基づいた予測を行います。これは、新たなデータで再学習しない限り、急速に変化する顧客の嗜好に追随できないことを意味します。

Azure Cognitive Services そして Azure AI platform の一部として提供されている Personalizer は、強化学習と呼ばれるより斬新な機械学習のアプローチを採用しています。強化学習では、AI エージェントがリアルタイムで環境とのやり取りを行ない、学習することができます。

この手法は、今まで主に研究室の環境で使用されてきましたが、現在では、開発者がアプリやウェブサイトに組み込んで使用できる Azure Cognitive Services、そして、エンジニアが製造プロセスの微調整に使用できる自律型システムなど、多くのマイクロソフトの製品やサービスで活用されるようになってきました。また、Azure Machine Learning も、データサイエンティストや機械学習の専門家向けにクラウドベースの強化学習サービスをプレビュー版として提供しています。

Microsoft Research ニューヨーク研究所のシニアディレクター、ラファ ホス (Rafah Hosn) は次のように述べています。「過去 2 年間に、私たちは大きな進歩を達成し、マイクロソフト社内で数多くの概念実証を行なうと共に、お客様数社における展開も進めています。今は、特定の問題解決のためにパッケージ化された汎用ソフトとして販売できる段階へと進みつつあります。」

Anheuser-Busch InBev のテクノロジ子会社、Z-Tech は Personalizer を活用し、メキシコ全域の小規模食料品店を支援するために、カスタム化されたレコメンデーション機能をオンラインマーケットプレースに提供しています。マイクロソフトの他の顧客やパートナーも、製造現場の異常を検出したり、現実世界の予期せぬ事象に対応できるロボットを開発したりするために、環境からのヒント、専門家のフィードバック、顧客の挙動からリアルタイムで学習できるモデルを備えた、強化学習を採用し始めています。

マイクロソフトが、ホームページ上で各訪問者向けに表示される製品を状況に応じて選択するために Personalizer を活用したところ、選択された製品に対する問い合わせは 19 倍に増加しました。また、社内的にも、Windows、Edge ブラウザ、Xbox において適切な提案、商品、コンテンツを選択するために、Personalizer を使用しています。これらのシナリオでは、毎月数 10 億件実行されるパーソナリゼーションに対するエンゲージメントが最大 60 パーセント増加しました。

Teams でも、通信を継続するためにミリ秒単位の遅延のトレードオフを行なわなければならないビデオ会議のジッター吸収バッファーの最適化のために強化学習が使用されてきました。Azure では、バーチャルマシンのリブートや修復の必要性を判断するために強化学習ベースの最適化手法が試行されています。

強化学習モデルはフィードバックから瞬時に学ぶことができるため、変化する状況、あるいは、予想できない状況に迅速に適合できます。COVID-19 の流行が始まった時、人々の購買と旅行の行動が一夜にして変化したことに対して、企業は対応に苦慮した、と、マイクロソフトの Personalizer 担当主任プログラムマネージャー、ジェフ メンデンホール (Jeff Mendenhall) は述べています。

「履歴に基づくモデリングや専門家の知識は突然に無意味になりました。しかし、Personalizer は強化学習によりモデルを必要に応じて分単位で更新し、その時点のユーザーの行動に応じて学習し、反応できます」と、メンデンホールは述べています。

大まかに言えば、強化学習では AI エージェントが試行錯誤により学習します。現実世界あるいはシミュレートされた世界で様々な行動を取り、望ましい結果が得られた時に報酬を得ます。望ましい結果とは、たとえば、顧客が休暇の予約を行なうボタンをクリックする、ロボットが硬貨のバッグをうまく運ぶことができるなどです。

強化学習で AI エージェントを訓練することは、子犬に芸を仕込むようなものだとホスは言います。望ましい結果を出せばご褒美がもらえるので、ご褒美を最大化できる行動を学ぶということです。しかし、複雑な現実世界のシナリオでは、取り得るアクションの膨大な選択肢から最適な順序の意思決定を選択することは、はるかに複雑になり得ます。

今週開催された、Neural Information Processing Systems (NeurIPS 2020) の第 34 回コンファレンスで、マイクロソフトの研究者は、この分野の最大の課題に対する重要な成果を示した 17 件の研究論文の発表を行ないました。Microsoft Research の研究所ネットワーク全体で、強化学習の人材に投資することで、多様な問題に対応できるアプローチのポートフォリオを構築し、ブレークスルーに向けた複数の道を探索していると、マイクロソフトは述べています。

これらの研究チームは、単に目新しいデモだけではなく、強化学習の基本要素の確実な理解と顧客にとっての現実的なソリューションの構築にフォーカスしています。

Microsoft Research ニューヨーク研究所のパートナーリサーチマネージャー、ジョン ラングフォード (John Langford) によれば、研究チームは、どのようなシナリオが強化学習に最も適しているかの検討、そして、強化学習がうまく機能した理由やその再現方法の調査に多くの時間を費やしました。

「現在、博士課程の研究で使い倒す特定目的のアプリケーションを何とか稼働させることと、何度も繰り返して使用できる有用なシステムを構築することの間には大きなギャップがあります」とラングフォードは述べています。

「マイクロソフトにおける強化学習の研究は、お客様が提示する課題をどう解決するか、そして、反復可能で信頼性が高いソリューションを構築するための基盤はどのようなものかという 2 つの分野に分類できます」と彼は付け加えます。

機械学習への異なるアプローチ

強化学習は、学習データを供給して予測モデルを訓練していくという、より一般的な機械学習手法である教師付き学習とは根本的に異なるアプローチを採用しています。

人がフランス語を学ぶ例で考えてみましょう。Microsoft Research の英国ケンブリッジ研究所で Project Paidia に従事するリサーチソフトウェアエンジニアのラルカ ジョルジェスク (Raluca Georgescu) によれば、フランス語の教科書、文法や語彙に触れることは、教師が付いている学習に近いものがあります。

強化学習のアプローチでは、人はフランスに行き、他の人々と会話することでフランス語を学びます。間違ったことを言って相手が当惑することがペナルティに相当し、店で正しくクロワッサンを注文できたことが報酬に相当すると、ラルカは言います。

強化学習エージェントは、現実世界、あるいは、様々な選択肢を安全に試行できるシミュレートされた世界の環境とやり取りすることで学習します。アクションを取り、所定の報酬システムに応じて、結果が好ましいものかどうかを判断します。フィードバックが得られると、モデルは自分の決定が正しかったかどうかを学び、自身を更新していきます。

ラングフォードによれば、これはきわめて単純な学習の形態であり、自然界で一般的に見られるものです。

「虫ですら強化学習を行ないます。物に向かって進み、フィードバックに基づいて物を避けます。きわめて基本的なレベルで環境から学ぶというのは、私たちにとってまったく自然なことですが、機械学習では複雑な要素があり、教師付き学習よりも多くの検討事項があります」とラングフォードは述べます。

今週に NeurIPS で発表された新たな研究論文では、バッチ強化学習、十分な観察による戦略的探索 (strategic exploration given rich observations)、そして、表現学習という 3 つの重要な研究分野における成果が示されています。これらのブレークスルーは、モデルの効率性向上、そして、強化学習が解決できる分野の拡大を目指したものです。

研究所から現実世界の製品へ

強化学習を使用して構築された最初の Azure Cognitive Service である Personalizer は、マイクロソフトの研究者と Azure の製品専門家との間の緊密な連携により生まれました。そこでの目標は、開発者が、機械学習の深い知識がなくても、適切な時に、適切なユーザーに、適切なコンテンツを提供できるよう支援することでした。

現在パブリックプレビュー中の Azure Cognitive Service である Metrics Advisor も強化学習を活用して、フィードバックを取り込み、顧客のデータセットへの適合性が高いモデルを構築します。これにより、センサー情報、生産プロセス、ビジネス指標における微妙な異常の検知がより容易になります。

Personalizer は、求めるビジネスや顧客満足度の結果を得るために、ウェブサイトの訪問者に対して何を表示するか、チャットボットが次に何を質問するかを自動的に選択します。これにより、消費者は、健康的な食材を購入したり、新しいゲームを試してみたりするようになります。エージェントは、多様なユーザーに対してどのようなコンテンツが有効であったかを試行錯誤を通じて学習します。

たとえば、ビデオ作品の推奨を行なう場合を考えてみましょう。顧客が見たがる作品は時刻、在宅か移動中か、デバイスのバッテリー残量などに影響されるかもしれません。Personalizer は、属性が類似する顧客が行なった選択や行動から学習します。

多国籍の飲料製造企業 AB InBev のテクノロジ子会社 Z-Tech は、メキシコ国内の小規模食料品店向けに、オンラインマーケットプレースの MiMercado でカスタム化されたレコメンデーションを行なうために、今秋、Personalizer の使用を開始しました。推薦された商品のクリックスルー率は約 100 パーセント向上し、関心を持った顧客からの受注率は 67 パーセント増加しました。

中小規模企業へのデータ主導型ソリューション提供を目指している、Z-Tech のグローバル CTO の ルイス ゴンディム (Luiz Gondim) 氏は「Azure プラットフォームの機能を調査中に、Personalizer が当社のニーズに応えられる最先端の革新的テクノロジであることがわかりました」と述べています。

過去において、MiMercado は全顧客に対して同じ商品を推奨していました。Z-Tech は、ビール、パン、ポテトチップ、ペットフードなどあらゆる物を売っている小規模食料品店向けに、パーソナライズされ、より有効な推奨を行なうために AI を活用できるのではと考えました。

Z-Tech のデータサイエンス/アナリティクス担当グローバルディレクター、リチャード シェン (Richard Sheng) 氏は Personalizer には 2 つの差別化要素があると述べます。

「強化学習は本質的にデータの所要量が小さくて済みます。これは、推奨を行なうために現時点の情報を活用し、フィードバックにより学んでいくからです。そして、既に開発され、API としてラップされたモデルをプラグアンドプレイ方式で使用することができます。これは、とても有効でした」とシェン氏は述べます。

マイクロソフトの自律型システムの研究者は、Sber のエンジニアそして研究者と協業しています。Sber は、ロシア中東欧地域最大の銀行であり、世界有数の金融機関である SberBank を運営するグローバルな金融サービスとテクノロジ企業です。目的は、カートで運ばれた硬貨のバッグを降ろして、数え、再梱包する作業のために強化学習を使ったロボットテクノロジを開発することです。

これらの成果に関する最近の研究論文では、重心が常に移動する不安定なコインのバッグを扱うという、固形物を扱うよりはるかに困難なロボティクス上の課題の解決策が詳述されています。これは、物理的な世界ではよくあるシナリオですが、従来型の制御システムやニューラルネットワークによるロボットでは対応が困難だったと、SberBank のリサーチ/イノベーション担当バイスプレジデント、アルバート エフィモフ (Albert Efimov) 氏は述べています。

「きわめて難しいプロセスを強化学習によって機械に教えることには大きな可能性があります。硬貨バッグの形状は予測不可能であり、人間ですら扱いを熟慮しなければならないこともあります。ロボットにこれを行なわせるのはとても大変なことです」とエフィモフ氏は述べています。

Sber とマイクロソフトのチームは、強化学習と機械教示の手法を使用して、まず初めにシミュレートされた環境で AI エージェントの訓練を行ないました。そこでは、多様な選択肢が試行でき、どうすればうまく行くのかを学習できます。このロボットシステムは、現実世界の環境に展開されると、最初のトライで 95 パーセントの確率でコインのバッグを正しく扱えるようになりました。

Project Paidia では、マイクロソフトの英国ケンブリッジ研究所の研究者が、Xbox のゲームスタジオの 1 社、Ninja Theory と協業しています。個々での目標は、ビデオゲームの新しい応用を実現するための最先端の強化学習の研究を推進し、人間のプレイヤーと協業できる AI エージェントを開発することです。

Microsoft Research の英国ケンブリッジ研究所でゲームにおける強化学習の応用にフォーカスしたチームを統率する主任研究員、カティア ホフマン (Katja Hofmann) によれば、強化学習を使用したエージェントは、行動を先読みし、微妙なニュアンスに対応できることで、様々なプレイスタイルで予測が困難な人間のプレイヤーと効果的に協業できる可能性があります。従来のテクノロジで開発されたボットでは、これらの複雑性に対応することは困難であり、人間と同じように反応することができませんでした。

様々な性格やスーパーパワーを持つキャラクターがチームを組んでポイントを獲得し、敵を倒すことが必要な、Ninja Theory の Bleeding Edge などのビデオゲームは、強化学習を使って、一連の報酬によって、行動を調整し、新たな状況に適切に対応できるような AI エージェントを開発するための有効なテストベッドになります。

「従来の AI ゲームテクノロジでは、人間のプレイヤーと真の意味で協力できるボットを開発することは不可能と考えられてきたため、この問題の解決はやりがいがあるものでした。ゲームの世界で実現できれば、ゲーム外の世界でも人間と協業できるエージェントを開発する最初のステップになります」とホフマンは述べます。

Project Paidia の研究チーム、そして、マイクロソフト社内の他のチームが、強化学習のヘビーユーザーがインフラと計算能力の点で何を必要とするかを Azure Machine Learning が理解できるよう支援しました。

研究チームは、強化学習のエージェントとシンプルなゲームを行なうことができるデモ、そして、Minecraft のマグマ迷路を越えられるエージェントを作成するための Azure Machine Learning のサンプルノートブックなど、人々がこのテクノロジで実験するためのツールも開発しました。

マイクロソフトの主任プログラムマネージャーのカナザワ によれば、強化学習の専門知識を持つデータサイエンティストを採用した製造業や金融サービス業の大規模企業が、今年の初めに提供開始された Azure Machine Learning の強化学習サービスを使用して、クラウド上での学習プロセスを効率的に稼働し、管理しています。

「大規模な試行錯誤を行なうお客様にとって、クラウドはそれを超大規模で行なえる点に価値があります。マイクロソフトのツールにより、お客様は、機械学習で行ないたいこと、そして、目標と報酬体系にフォーカスすればよく、必要な計算作業はすべてバックエンドで行なわれるようになります」とカナザワは述べています。

Related:

Jennifer Langston writes about Microsoft research and innovation. Follow her on Twitter.

本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。