キレッキレダンスの裏側を公開！ AI りんな、音楽からダンスの振り付け＆動画を生成

りんな開発チーム

テクニカルカンファレンス de:code 2019 の基調講演、ご覧になったでしょうか？開発者の方々へ、本社から来日した責任者からクラウドや AI の最新情報をご紹介するとともに、ちょっとした息抜きとして、日本法人社長の平野が、キレッキレのダンスを披露しました（動画はこちら）。基調講演で平野本人が簡単に解説したとおり、この動画は、AI が、音楽からダンスを振り付けし、人が踊る様子を「想像」して生成したものです。

このブログでは、なぜこのような「ダンス」が可能になるのか、その裏側を少し技術的に説明したいと思います。

この AI は、あなたの動く姿を学習させて音楽を与えると、その曲に合わせた振り付けを生成し、あなたの見た目の映像の情報から、あなたがその振り付けで踊る様子を「想像し」映像として生成出来ます。

生成するダンスの動画には、音楽や振り付けのスケルトン情報にはない、人の生身の姿や背景、そのポーズに対応した影も描画され、AI が「学習した人が踊る姿」を「想像する」能力を有していることが見て取れます。

今回、動画の生成には、次の 2 つの役割を持つ AI を連結させています。

音楽からダンスの振り付け（スケルトン）を生成する AI
振り付けから、人が動く像を生成する AI

ダンスの振り付けの学習では、GAN（Generative Adversarial Network：敵対的生成ネットワーク)と呼ばれるテクノロジーを活用し、音楽と人の関節などの特徴の位置情報（スケルトン）の対応を学習させました。

今回のネットワークでは、「生成ネットワーク（ジェネレータ）」と呼ばれるモデルが、音楽から抽出した情報から、スケルトンを生成し、もう一方の「識別ネットワーク（ディスクリミネータ）」と呼ばれるモデルが、生成されたスケルトンの正当性を判断します。「ジェネレータ」は「ディスクリミネータ」が見分けられないような、訓練データと限りなく近いデータを生成しようと学習を進め次第に生成能力が上がっていきます。

学習の初期段階は、生成する結果が、人型にすらならない結果でしたが、学習が進むにつれ、人の形を生成できるようになり、さらにポーズのバリエーションも増えていきました。

これにより、音を与えると、それに対応するスケルトンを生成できるようになり、さらにスケルトンの一連の流れも学習し、振り付けを生成することが可能になりました。

今回の、「音から AI による振り付けを生成する」手法は、りんなチームが独自に開発したものです。

さらに、人のスケルトンと動画のビジュアル表現の対応も同じく GAN を用いて学習させました。その結果、人型だけではなく、影や背景も生成する AI に、生成した振り付けのスケルトンを与えることによって、「AI が振り付けた踊りを踊る人の姿」の動画が完成します。

私たちりんな開発チームは、この技術が、音と連動した動きの表現力を AI にもたらす第一歩になるものと確信しています。将来的には、このテクノロジーを活用して、AI の歌唱と踊りを組み合わせたパフォーマンスだけではなく、会話におけるジェスチャー表現の生成などに応用し、人がより共感できる身体表現を AI にもたらすことを目指しています。

今後も AI りんなの進化にご期待ください！

—

本コンテンツのすべての内容は、作成日時点でのものであり、予告なく変更される場合があります。正式な社内承認や各社との契約締結が必要な場合は、それまでは確定されるものではありません。また、様々な事由・背景により、一部または全部が変更、キャンセル、実現困難となる場合があります。予めご了承下さい。

キレッキレダンスの裏側を公開！ AI りんな、音楽からダンスの振り付け＆動画を生成

関連記事