画像

artificial-intelligence

AIが1000以上の「あやしい科学雑誌」を検出 (2/3)

2025.09.01 21:00:36 Monday

前ページ増え続ける「あやしい科学雑誌」にどう対応するか?

<

1

2

3

>

AIはどうやって『怪しい雑誌』を見破った?

AIはどうやって『怪しい雑誌』を見破った?
AIはどうやって『怪しい雑誌』を見破った? / スタート地点として、研究チームは「信頼できる雑誌(ホワイトリスト)」と「疑わしい雑誌(ブラックリスト)」の2つのデータセットを用意します。これらは、過去のDOAJ(オープンアクセス雑誌ディレクトリ)の判定をもとに分類されています。AIに学習させるために、この2つのグループからさまざまな特徴データを抽出します。 特徴データは主に3つのグループに分かれています。ひとつは「ウェブサイトの内容」――たとえば雑誌の「目的・範囲」「編集委員の情報」「公開ポリシー」や「倫理規定」など、読者や投稿者向けのテキスト情報です。ふたつめは「ウェブサイトのデザイン」で、これはトップページの画像やHTMLコードなど、その雑誌サイトの“見た目”や“つくり”のパターンです。みっつめは「ビブリオメトリクス」と呼ばれるもので、これは論文の引用関係や著者・機関のデータなど「どんな研究が集まり、どんなふうに引用ネットワークが広がっているか」を数値化した指標です。 このようにして集めた情報をAIに一括で学習させることで、「どの特徴が“怪しさ”につながりやすいか」をAI自身が見抜けるようにしています。図の中には「機械学習モデル」や「分類器(Classifier)」といった言葉が出てきますが、これはAIが“お手本データ”を見て自分でパターンを見つけ、最終的に未知の雑誌に対して「これは怪しいかも」「これは信頼できそう」と判定する仕組みです。全体としては「雑誌データの用意 →さまざまな特徴データの抽出 →AIへの学習・分類モデルの構築 →未知の雑誌データにAIを適用して判定」という流れになっています。Credit:Han Zhuang et al . Science Advances 2025

では、今回のAI(人工知能)は、どのようにして「あやしい雑誌」を見分けたのでしょうか。

まず最初に、AIが雑誌の「あやしさ」を判断するために、2つのタイプの雑誌データを用意しました。

1つは、しっかりした基準でチェックされ、品質が保証されている「信頼できる雑誌」のリストです。

もう1つは、以前は信頼されていたものの、品質の問題があったためリストから外された「疑わしい雑誌」です。

ここで重要なのは、「疑わしい雑誌」といっても、リストから除外された理由には必ずしも悪意や悪質性があるわけではないという点です。

雑誌が休刊になったり、自主的にリストから削除を依頼した場合などもありますが、それらもすべて「疑わしい雑誌」として分類されることに注意が必要です。

AIはこれら2種類の雑誌データを学習し、それぞれの雑誌がどんな特徴を持っているのかを分析しました。

具体的には、雑誌のウェブサイト上に掲載されている「編集方針」や「編集委員リスト」、「倫理規定」などの情報や、そのサイトの文章の読みやすさ(可読性:文章がわかりやすく、誤解なく読めること)を調べました。

また、サイトのデザインや構造、例えばトップページのレイアウトやウェブページを作るためのコード(HTML)のパターンなども分析対象になりました。

さらに、AIは雑誌に掲載される論文の引用パターンにも注目しました。

論文というのは、過去の研究を引用し、その上に自分の新しい研究結果を積み上げる仕組みになっています。

質の高い雑誌では、幅広くいろいろな論文を引用していますが、疑わしい雑誌では、自分たちの過去の論文ばかりを引用し、他の研究者の論文をあまり引用しない傾向があります(自己引用と言います)。

AIは、このような引用パターンも「あやしさ」の重要な手がかりとして学習しました。

こうした様々な特徴をAIに学習させ、どのような特徴が「疑わしい雑誌」に多く見られるかを教え込んでいきます。

AIが完成すると研究者たちは、実際にインターネット上で公開されている15,191の雑誌を調べてもらいました。

ここで重要となったのは2つの指標です。

1つ目の指標が「適中率(precision)」で、これはAIが「あやしい」と判断した雑誌の中で実際に本当に怪しかった割合で、高ければ高いほど優秀となります。

もう1つが「再現率(recall)」で、これはAIが本当に存在する「あやしい雑誌」全体のうち、どのくらい見逃さずに発見できたかを表し、こちらも高いほど優秀(見逃しが少ない)です。

しきい値(どのくらい厳しく判定するかの基準、あやしさへの敏感さとも言える)をちょうど中間の50%に設定した場合、AIは15,191誌のうち1,437誌を「あやしい」と判定しました。

その後、人間によってチェックを行ったところ、AIの適中率は約76%であることが判明しました。

これは「AIがあやしいと指摘した雑誌のうち、およそ4分の3にあたり1000誌以上が実際に怪しい可能性が高い」ということを示しています。

一方で再現率は約38%で、これは「実際にあやしい雑誌の4割弱をみつけられたものの、約6割を見逃している」ということを示しています。

ここで「じゃあ、もっと厳しくしたらいいのでは?」と思うかもしれませんが、そう単純ではありませんでした。

判定をゆるくして広く拾う設定にすると、無害な雑誌まで間違って疑われる確率(誤判定)が増えてしまい、チェックする人間の負担が大きくなってしまいます。

逆にしきい値を高くして本当に怪しいものだけを報告するように設定すると、報告数が減って人間の負担も減り、高精度であやしい雑誌を指定してきますが、問題のある雑誌をたくさん見逃してしまうことがわかりました。

このような、適中率と再現率の関係を「トレードオフ」(どちらかを良くするともう一方が悪くなる関係)と呼びます。

そのため研究者たちは目的にあわせて厳しさを変更する方法を提案しています。

AIが「疑わしい」と判定した学術雑誌の実態
AIが「疑わしい」と判定した学術雑誌の実態 / まず左上(A)は、AIが「疑わしい」と判定した雑誌群(1,437誌)が、毎年どのくらいの論文を発表しているかを示す折れ線グラフです。2000年ごろから始まり、年を追うごとに発行論文数が増えていき、2019~2020年に一度減少していますが、それ以降もかなりの数が出続けていることが分かります。ここで注目すべきは、「怪しい雑誌」と呼ばれていても、実際に発表されている論文の数が無視できない規模だという点です。 次に右上(B)は、それらの“疑わしい雑誌”に掲載された論文が、他の論文からどれくらい引用されているかの合計を年ごとに表しています。こちらも年々増加しており、“あやしい雑誌”の論文が他の研究論文にも影響を与えていることがうかがえます。つまり、質の低い雑誌の論文であっても、科学のネットワークの中で無視できない存在感を持っているということです。 左下(C)は、アメリカの主要な研究資金提供団体(NIH=アメリカ国立衛生研究所など)の助成金で行われた研究が、どれだけ“疑わしい雑誌”で発表されているかを割合で示した棒グラフです。いずれの団体でも、0.1%前後の論文がこうした雑誌で報告されていることが示されています。つまり、「本物の研究費」から生まれた研究も一部が“怪しい雑誌”に流れてしまっていることを意味します。 そして右下(D)は、国ごとに“疑わしい雑誌”で発表された論文の割合を地図や棒グラフで示しています。インドやイラン、中国、ブラジル、ロシアなどの新興国でその割合が高いことが分かり、逆にアメリカやヨーロッパなどでは低い傾向にあります。これは、研究費や指導体制が手厚くない国で“怪しい雑誌”が広がりやすいという、論文本文での考察を裏付けるデータになっています。Credit:Han Zhuang et al . Science Advances 2025

さらに、このAIによって「あやしい」と判断された雑誌を細かく調べてみると、興味深い特徴が見えてきました。

これらの雑誌では、掲載される論文の数は全体的に年々増えていましたが、2019年から2020年にかけて一時的に少し減少しました。

しかし、他の論文に引用される数(被引用数)は逆に増えており、疑わしいとされた雑誌でも論文が多く出回っていることが明らかになりました。

また、これらの雑誌に掲載された論文では、自分たちの過去の論文を頻繁に引用する「自己引用」の割合が高く、他の研究者が書いた論文の引用が少ないことも特徴でした。

さらに、その論文を書いている研究者自身も、信頼されている雑誌に掲載されている研究者に比べて平均的に業績や経験が少ない傾向がありました。

このようにして、AIは雑誌のウェブサイトの見た目だけでなく、論文の引用パターンや著者の経歴まで含めて詳しく分析することで、「疑わしい雑誌」を見分ける新しい方法を生み出したのです。

次ページAIの判定はどこまで信用できる?

<

1

2

3

>

人気記事ランキング

  • TODAY
  • WEEK
  • MONTH

Amazonお買い得品ランキング

スマホ用品

AI・人工知能のニュースartificial-intelligence news

もっと見る

役立つ科学情報

注目の科学ニュースpick up !!