進化した画像生成AI「DALL·E 2」
2021年1月、OpenAIはテキストから画像を生成する「DALL·E」を発表しました。
文字列を入力することで、その文字が意味する画像を生成してくれるのです。
例えば、「アボカドの椅子」と入力すれば、次の画像が生成されていました。
そして最近、OpenAIはこの「DALL·E」の進化版である「DALL·E2」を発表。
DALL·E2は、DALL·Eに比べてバリエーション豊かであり、より私たちの想像に近い、もしくは想像を超えた画像を生み出してくれます。
実際、DALL·E2で「アボカドの椅子」と入力すれば、次の画像が生成されます。
DALL·Eと比べると、はるかに高解像度でリアルな画像になっていますね。
しかもDALL·E2では、画像を一部編集して、犬を座らせることだって可能なのです。
DALL·E2は、画像とその画像を説明するテキストとの関係を学習しています。
それをもとに我々の希望に対しては、「拡散(diffusion)」と呼ばれるプロセスを使用して、ランダムなドットのパターンから徐々に特定の画像パターンへ迫っていくことで、テキストの希望に応じた画像を生成します。
それでは次項で、DALL·E2がテキストからどのような画像を生成するか見てみましょう。