■科学的な研究で用いられる機械学習の手法は、すべて正しい結果を導き出しているとは限らない
■そうした研究は、別の研究で異なる大きなデータセットが用いられた上で、矛盾した結果が出たときにはじめて「間違っている」ことが分かる
■ このような状況が科学に「再現性の危機」をもたらしている
多くの科学者たちがデータ分析のために用いる、まさに今をときめく「機械学習」。
その手法が、人を惑わせる結果や、あるいは完全に間違っている結果を生み出している可能性があることが示されました。
「機械学習」はどこまで信用できるのか
ヒューストンにあるライス大学のジェネベラ・アレン博士は、機械学習によるシステムの使用の増加が、「科学の危機」の一因となってしまっていると述べています。彼女は科学者らに対して、そうした技法を改善しない限りは金と時間を浪費する結果になると警鐘を鳴らしています。
過去に集められたデータを分析するために、機械学習ソフトウェアを用いる科学的な研究は増え続けています。その分野は多岐にわたり、生物医療に関するものから天文学に至るまで様々です。そして、そこで用いられるデータセットの数は膨大であり、非常に高価なものとなっています。
しかしアレン博士によると、ソフトウェアは現実世界ではなくデータセットの中にのみ存在するパターンの認識をおこなうため、システムが導き出す答えは不正確であったり間違っていることが多いのだとか。そして、そうした研究においては、そこで使われたデータセットとは別の大きなデータセットを用いた研究が、矛盾した結果を示したときにはじめて「間違い」が発見されることとなります。
アレン博士は、「現在、科学における再現性が危機に陥っているといった一般的な認識があります。批判を覚悟であえて言えば、その大部分は機械学習が原因となっているといえるでしょう」と述べています。