ロボが自ら見つけた演奏技術は人間とソックリだった

研究チームはまず、開発した強化学習システム「Robot Drummer(ロボットドラマー)」が本当に演奏を学べるかどうかを試すため、安全かつ大量の試行ができるコンピューター上の仮想環境を使いました。この環境には、実在する人型ロボット「Unitree社製G1モデル」を再現したデジタルモデルとドラムセットが設置されています。
ロボットはこの中で、様々なドラム演奏をシミュレーションによって学習します。
演奏する楽曲の情報は、MIDI(ミディ)という形式のデータから取り出されます。MIDIとは「どの楽器が、いつ、どんな音を鳴らすか」という情報を記録した、デジタル譜面のようなものです。
そこからドラムのパートだけを抽出し、「この瞬間にどの太鼓を叩くか」という目標の列に変換します。
研究者たちはこの一連の打点の流れを「リズミック・コンタクト・チェーン(RCC)」と名付けました。
たとえば「次はスネアとシンバルを同時に叩く」といったように、ドラム演奏の動作を時間順に並べた“打撃スケジュール”のようなものです。
ロボットにはこのRCCに加えて、自分の腕や関節の角度、速度、ドラムとの位置関係といった身体感覚の情報も与えられます。
それらをもとに、「今の姿勢」から「次にすべき動き」をどうつなげるかを学習し、どの腕をどう動かせばうまく打点に間に合うかを試行錯誤しながら練習を積みました。
この学習は、8192体のロボットを同時にシミュレーション内で動かす並列環境で行われました。
曲をいくつかの区間に分けて覚える方式では、2〜3時間ほどで高い演奏精度に達し、曲全体を一括で学ぶ方式では8〜9時間かかりました。
学習後、ロボットはジャズやロック、ヘビメタルといったさまざまなジャンルの楽曲でテストされました。
評価に使われた曲には、
「リヴィン・オン・ア・プレイヤー(ボン・ジョヴィ)」
「テイク・ファイブ(デイヴ・ブルーベック)」
「イン・ジ・エンド(リンキン・パーク)」
などが含まれています
その結果、多くの曲でF1スコアが0.90(90%)以上という非常に高い成績を記録しました。
F1スコアとは、正しく叩けていて、しかも叩き漏れがほとんどない演奏精度を示す指標です。(※ごく簡単に言えば正確率と言えるでしょう)
一方で「PAInt It Black」は0.792、「Smells Like Teen Spirit」は0.712とやや低めで、これは3つ以上の同時打ちが必要な場面で、ロボットは2打までしか同時に叩けないという物理的な制約によるものです。
さらに注目すべき点は、ロボットが報酬の設計だけから「人間らしい演奏の工夫」を自分で生み出したことです。
報酬のルールは、「正しいタイミングで叩けば加点」「間違いや打ち漏れは減点」「目標に近づくと加点」といったシンプルなものです。
それでもロボットは、交差打ちやスティックの持ち替えといった演奏テクニックを自然に身につけました。
たとえば、右側にあるシンバルを叩く直前に、前のスネアを左手で処理するという動きが観察されました。
これは右手を空けておくことで、次の打点にすばやく移動できるようにした工夫です。
このように、リズムの乱れを防ぎつつ効率よく叩ける戦略をロボットが自ら見つけ出したのです。