AI として初めて麻雀 10 段を獲得、技術革新とブレイクスルーを達成
2019 年 6 月、マイクロソフトの AI Microsoft Suphx (Super Phoenix) が、日本のオンライン麻雀対戦プラットフォーム「天鳳」(https://tenhou.net/) において AI として初めて 10 段を達成しました。Suphx は、マイクロソフトの研究開発機関 Microsoft Research Asia(MSRA)が開発した麻雀 AI で、その強さは、最強レベルの人間のプレイヤーに匹敵しています。
5,000 回の対局後、Suphx が天鳳の 10 段を達成
麻雀は、歴史が長く、また幅広い地域で愛好されてきたため、地域によりルールが異なり、共通ルールのもとで長期的な成績を評価するのが難しいゲームです。「天鳳」では、明確な対局ルールと強さを具体的に示す段位システムがあります。さらに、2006 年に開設以来、すべての対戦記録や牌譜(麻雀の自摸や打牌などの動作、点数の得失などの記録)など、AI の学習にとって有用なデータを公開しており、AI の可能性を検証するのに最適な環境が整っています。
MSRA は、こうした天鳳の特長に着目し、2019 年 3 月、Suphx を天鳳に参加させました。オープンなゲームルームである「特上卓」に参加した Suphx は、今までに 5 ,000 回以上、人間のプレイヤーと対局を重ね、本年 6 月に AI として初めて 10 段を達成しました。
天鳳には、多くのプロプレイヤーを含む世界中の麻雀愛好家約 33 万人が参加しています。天鳳には、「特上卓」と呼ばれる 4 段以上のプレイヤーのみが参加できる部屋があります。最高位は 10 段ですが、さらにその上の 11 番目の段位として「天鳳位」があります。サービス開始以来、4 人麻雀で天鳳位を獲得したプレイヤーは 13 人、一度でも 10 段に到達したことがあるプレイヤーは 180 人、 現時点で 10 段を維持しているアクティブなプレイヤーはわずか 12 人です。
麻雀の各対局の勝敗は、プレイヤーの強さだけで決まるわけではなく、配牌などの運の要素に影響されるため、多くの対局を行なって、運の影響を小さくし、各プレイヤーの実力をより忠実に評価することが必要になります。このため、天鳳は、プレイヤーの真の実力を「安定段位」という指標で評価しています。プレイヤーの段位が高ければ高いほど、対局で最下位になったときのペナルティが大きくなり、一定以上のポイントが引かれると低い段位に移されるため、高い「安定段位」を維持することは困難です。
Suphx は、5,000 回以上の対局において平均 8.7 以上の安定段位を維持しています。天鳳で「特上卓」のトッププレイヤーが約 1 万回の対局を行なった段位の平均値が 7.4 であることを考慮すると、Suphx のスコアは人間のトッププレイヤーと比較して平均で 1.3 ポイント上回っており、非常に優れた成績を達成しています。天鳳には、以前からすでに 2 つの AI システムが参加していました。東京大学が 2015 年に開発した「爆打」と、ドワンゴが 2018 年に開発した「NAGA25」です。いずれも、およそ 6.5 段を維持しています。
Suphx の実力は、天鳳の公式運営にも高く評価されています。「Suphx が最強の麻雀 AI であることに疑いはありません。Suphx の対局動画をすべてアーカイブして他のプレイヤーの参考にしてもらえるようにすることも検討中です。また、麻雀コミュニティでは、現在人間のプレイヤーだけが参加できる「鳳凰卓」に Suphx が参加できるように議論しています。それによって、より高いレベルの対局が行なわれることになるでしょう。」
天鳳の創設者、有限会社シーエッグ代表取締役 CEO 角田真吾 氏は次のように述べています。「これは大きなブレイクスルーです。天鳳、麻雀コミュニティそして社会にとって、非常にエキサイティングな出来事です。Suphx は、麻雀という伝統的な文化を、より知的に発展させることに加えて、AI がより多くのことを達成できる可能性を示していると思います。」
新しい予測探索と自己対戦により不完全情報性の困難に挑戦
チェス、碁、テキサスポーカー、将棋などと比較して、麻雀はより複雑で、多くの情報がプレイヤーに隠されています。麻雀 AI の開発にあたっては、大きく以下のような課題があります。
巨大な状態空間: 52 枚のカードしか扱わないテキサスポーカーと比較して、麻雀の牌は 136 個あり、その場合分けには明らかに巨大な状態空間を必要とします。そして、麻雀では、4 人のプレイヤーの順番は固定されていません。誰かが「鳴く」ことにより、自摸(ツモ: 牌を一枚取得する)の順番が突然変わります。また、他の 3 人のプレイヤーの配牌や自摸により、状況は大きく変化します。これらの特性により、麻雀では、AlphaGo などのボードゲームで一般的に使用されているモンテカルロ木探索を直接使用することができません。
不完全情報ゲーム: チェスや碁は、プレイヤーが対戦相手の盤上の動きをすべて見ることができる「完全情報ゲーム」ですが、麻雀は多くの情報が隠されている「不完全情報ゲーム」です。より具体的に言えば、各プレイヤーには 13 個の手牌と 84 個の自摸がありますが、把握できる情報はそれぞれ自分の手牌と捨牌しかなく、他のプレイヤーの手牌やまだ自摸られていない牌の情報は知り得ません。つまり、120 牌以上の未知の情報があることを意味します。このように、不明瞭な情報が非常に多いため、麻雀 AI の開発は非常に困難です。ランダム性が高いため、プレイヤーは、対戦相手の牌や山の牌など、見えていない牌を推測しなければならず、ゲームの結果に対する運の要素を排除することができません。これは、AI の学習にとって大きな課題となります。
複雑な報酬メカニズム: 報酬のメカニズムも複雑です。「天鳳」で採用されている日本の麻雀のルールでは、特定の牌の組み合わせである「役」がなければ上がることができず、数多くの「役」があり、点数計算も複雑です。1 回のゲームは およそ 8 局から成り、8 局後の総得点で報酬が決まります。ゆえに、麻雀の熟練者は戦略的に負けることもあります。たとえば、8 局目で第 2 位のプレイヤーと大差を付けている時には、わざと第 4 位のプレイヤーに振り込んで第 2 位のプレイヤーの得点獲得を阻止し、最終的なスコアを最大化することがあります。これは、麻雀 AI の戦略構築におけるもうひとつの課題であり、時間の経過を考慮した攻撃と防御を取り込む必要があります。
MSRA の副所長であり、機械学習グループの責任者 ティエヤン リュウ (Tie-Yan Liu) 博士は次のように述べています。「麻雀というゲームの膨大な課題に対応するには、強力なコンピューティングパワーだけでなく、優れた仮説、予測、推論、ファジーな意思決定が必要です。MSRA は、Suphx に麻雀の複雑な状態と戦略を効率的に学習させるために新しいアルゴリズムを開発し、Suphx が状態を効率的に表現し、強力な戦略的学習能力と大局的な状況評価を獲得できるようにしました。」
例えば、戦略的判断を行うためには、全体的状況における統計的な認識を行う必要があります。膨大な状態空間の問題に対応するために、持続的な探索を可能にする新しい探索戦略が採用されました。ゲームの状態について Suphx にできるだけ多くの可能性を経験させるとともに、推論フェーズではポリシーを動的に調整できるようにします。これにより、膨大な状態空間の効率的な探索とリアルタイムの戦略調整が実現されます。
次に、「不完全情報ゲーム」の課題に対応するために、Suphx のモデルは、自己対戦戦略を取り入れています。「不完全情報ゲーム」では、何が最適な選択かを判断するのは困難です。自己対戦においては、対戦相手の手牌や山の中の牌などの隠れた情報をすべて知っていると仮定したもとで、Suphx の選択が適切であるかを判断します。このフィードバックに基づいて Suphx は迅速に戦略を更新できます。
さらに、麻雀の複雑な役と点数計算のメカニズムに対応するために、長期的な報酬予測ネットワークが採用されました。前後のラウンドの予測スコアの差を現在のスコアとして使用して、各対局の最終得点を適切に予測できるよう報酬予測アルゴリズムを訓練することで、より正確なフィードバックが実現されるようになりました。
これらの新たなテクノロジーのおかげで、3 月に天鳳に参加して以来、Suphx は人間のプレイヤーと比較しても非常に優れた成績を残しました。現時点でも、Suphx は、攻撃と防御のバランス、短期的損失と長期的利益の戦略的バランス、利用可能な曖昧な情報に基づいた迅速な意思決定などの点で、人間のトッププレイヤーの多くを上回っています。
Suphx は学習を続けながら性能を向上しており、開発を行う研究チームも Suphx の背後にあるアルゴリズムの改良を続けています。リュー博士は、「Suphx は麻雀における AI の課題の多くを解決しましたが、改善の余地は多くあります」と述べています。ゲーム AI の進化の歴史は、AI 研究そのものの進化と深く関連してきました。AI の研究の多くが、ゲームで勝利できる知能体を作ることに基づいています。マイクロソフトは、Suphx を通じて、AI テクノロジの限界を拡張し、この分野の進歩を継続していきたいと考えています。
より複雑な現実世界の課題解決のため、 AI 研究の限界を突破する
AI にとって、麻雀などの「不完全情報ゲーム」は、碁やチェスなどの完全情報ゲームよりも困難であり、その点では、AI のアルゴリズム開発のための理想的環境を提供します。
現実世界には多くの偶発的事象があり、多くの場合「運」が重要な要素になります。そして、知っている情報よりも知らない情報の方がはるかに多く、それでもその不完全な情報に基づいて多様な意思決定を行わなければならない場合も数多くあります。麻雀における複雑な推論と偶発的なゲームのプロセスは、「完全情報ゲーム」と比較して、人間が住む複雑な現実世界との類似性が高いと言えます。
「不完全情報ゲーム」における AI のブレイクスルーは、より複雑な現実の問題、例えばスマートドライビングや金融投資など、偶発的な事象による影響が大きいにシナリオに対応する上でも有効です。
リュウ博士は、「Suphx が多くの麻雀愛好家にとって助言者や友人のような存在になり、人間の麻雀の技術習得を支援してくれるようになることに期待しています」と述べています。将来的には、Suphx が、天鳳位のプレイヤーと対局し、推論と意思決定のレベルをさらに向上することが期待されています。これは、同時に、ゲーム AI の研究による人工知能分野全体のイノベーションも推進します。これは、人工知能が人間の生活に深く入り込んで支援し、より複雑な現実の課題を解決してくれることにもつながるでしょう。
—
本ページのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。