データセットでありがちな問題も心配無用!
写真を使用する従来のデータセットでは、依然として公平性やAI倫理に関する課題が残りました。
これについて、人事採用AIの例で考えてみましょう。
男女関係のない職業の選考を前提とするとき、もし事前学習させるデータセットで男性の写真ばかり集めてしまったらどうでしょうか。
予め偏見をもったAIモデルができてしまい、最適な判断がなされないかもしれません。これが公平性の観点です。
また、データセットに用いる人々の写真や付与されるラベルには、文化や状況に応じた倫理的配慮をする必要があります。
もし教師ラベル付けの段階で人種差別的な用語が使用されてしまったら、AIが差別的なアウトプットをする結果に繋がってしまいます。
そして当然ながら、使用する素材について、プライバシーや権利上の問題なども考慮しなければなりません。これらは商業利用の足枷にもなっています。
そこでFDSLなら、公平性やAI倫理に関する問題も解決。
そもそもデータセットに写真を使いませんし、人間の判断によるラベル付けもされません。
画像はすべて幾何画像のため、データの偏りによる不当なアウトプットは避けられ、かつタスク処理における生成規則も数式で明確に説明がつきます。
これほどまでにクリアな解決策があったでしょうか。
以上から、FDSLは従来のAIの課題を解決できる手法として注目されています。
しかしながら、「FDSLにすることでAIの性能は落ちないの?」「現実の写真に対してちゃんと認識できるの?」といった疑問が残ると思います。
研究チームは次に、FDSLの精度を調べるため、従来の写真データセットでタスクを行った場合との結果を比較しました。
超大規模の写真データセットを超える精度
同研究チームは、フラクタル幾何だけでなく、他の図形データセットとの比較も行いながら、FDSLで用いられるデータセットの改良を進めました。
使い勝手の良いFDSLですが、数式から生成されるデータセットがもたらす精度はどこまで上がったのでしょうか。
少なくとも、写真データセットの代わりになるくらいの精度があると望ましいですよね。
写真データセットというと、前の項目で説明した「ImageNet」という1400万枚以上の写真でできたデータセットが従来の画像認識AI研究では代表的に使用されてきました。
確かに一部のラベル付けミスなど課題はあるのですが、画像認識AIの性能を相対的に評価する際は、基本的にImageNetを学習した結果が比較されます。
そこで、研究チームは各データセットの事前学習効果を比べるため、FDSLのための幾何画像データセットとImageNetのそれぞれを同じ画像認識AIモデル(Vision Transformer)で事前学習し、同一の画像認識タスクを与えました。
FDSLに用いられるデータセットには次の通り、2種類の図形の画像データセットが用意され、結果はそれぞれ目を見張るものでした。
ImageNetでは81.8%の精度だったのに対し、FDSLによる幾何画像のデータセットでは82%以上の精度となりました。
驚くことに、数式から生成された幾何画像のデータセットがImageNetの精度を超えたのです。
その差はほんの僅かですが、事実として写真よりも幾何画像によるデータセットのほうが高い性能を発揮できました。
使い勝手良し、性能良しとなると、非の打ち所が見当たりませんね。
このように利点の多いFDSLは、画像認識AIの開発に広く活用できるポテンシャルがあると言われています。
今後、産業技術総合研究所はFDSLによって、「実データや人が判断した教師ラベルを用いなくてもあらゆるタスクにおいて基盤となる『汎用学習済みモデル』を開発する予定」とのこと。
同モデルは今後、医療分野や物流現場、交通シーン解析など、さまざまな環境でAIを構築する際に役立つと考えられています。
FDSLによって、今までコストや倫理の問題で進展が生まれなかった分野でも、新たな一歩が踏み出せることでしょう。
今後の更なる活用や応用に期待できる、魅力的な新技術の登場です。
記事内容について、一部加筆・修正して再送しております。