言語化サンプリングの威力は画像でも発揮されます - ナゾロジー

言語化サンプリングの威力は画像でも発揮されます
言語化サンプリングの威力は画像でも発揮されます Fig.5は「言葉の多様さが、画像の多様さにもそのまま映る」ことを見せる図です。お題は「宇宙飛行士が馬に乗っている」。まず上段はDirect Prompting(ふつうの頼み方)で、お題からキャプション(短い説明文)を作らせ、そのキャプションを画像生成AIに渡して絵にします。すると毎回の説明文は似た方向に寄り、出来上がる画像も砂漠の風景で写実的といった狭い範囲にまとまりやすくなります。これが「同じ型にハマる(モード崩壊)」の見た目の例です。いっぽう下段はVerbalized Sampling(VS)を使います。これは「5つの説明文を、それぞれの確率つきで出して」と頼む方法で、AIがもともと頭の中に持っているいろいろな言い回し(分布)を外に引き出します。出てきた説明文は「絵本風の水彩」「ネオンが光るレトロフューチャー」「バロック絵画」「地球が迫るシネマティック」「双子の太陽の峡谷を駆ける」など、作風(スタイル)も場面(シーン)もガラリと違う内容になります。その多彩な説明文を画像生成AIに渡すと、仕上がる絵も水彩・ネオンSF・油絵・映画風アクションと、表現の種類と物語の舞台が大きく広がるのがひと目で分かります。要するにFig.5は、頼み方を「1本だけ」から「複数+確率」に変えるだけで、ことばのバリエーションが増え、それがそのまま画像のバリエーションへと波及することを示したデモです。ここに並んだ5枚は代表例で、いつも同じ5枚が出るという意味ではありませんが、Directは収束しやすく、VSは散らしやすいという傾向の違いを直感で理解できるように構成されています。Credit:Verbalized Sampling: How to Mitigate Mode Collapse and Unlock LLM Diversity

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!