Soraの根底にある技術
この技術の裏には、2つの先進的なAI技術の融合があります。
まず、絵を描く魔法のように機能する「拡散モデル」(ランダムな画像ピクセルを徐々に具体的な画像へと変化させる技術)。
この技術は、まるでキャンバスに散らばった絵の具が徐々に形を成していくかのように、無秩序にばらまかれた画像のピクセルを、意味のある一枚の画像へと変化させることを可能にします。
これは、画像生成ツールDALL-Eが使用するのと同じ技術です。
次に、「トランスフォーマー アーキテクチャ」(連続データを文脈化してつなぎ合わせる技術)。
この技術は、情報の海を航海する船長のように、データの流れを見極め、それらを文脈に合わせて組み立てていきます。
chatGPTをはじめとした言語を扱うAIモデルでは、この技術を使って単語を繋ぎ合わせ、私たちが理解できる文章を作り出します。
動画生成AIであるSoraでは、このトランスフォーマー アーキテクチャが、ビデオクリップを視覚的な「時空のパッチワーク」として扱い、それらを巧みにつなぎ合わせて、目を見張るような映像を生み出します。
NVIDIA の上級研究者であるジム ファン氏は、ソーシャル メディア プラットフォーム X で、Sora が世界をシミュレートできる「データ駆動型の物理エンジン」であると賞賛しました。
「データ駆動型の物理エンジン」というのは、実際の世界の物理法則を基にしたシミュレーションを行うソフトウェアの一種です。
従来の物理エンジンが数学的な公式や理論に基づいて設計されているのに対し、データ駆動型は大量のデータから学習しています。
このアプローチでは、実世界で観測された現象のデータを収集し、それらのデータをもとにして、物理現象をより正確に再現できるようにします。