AIが旧約を丸裸!“単語の指紋”で聖書のゴーストライターを特定

まず研究チームは、ヘブライ語聖書最初の9つの書(エンネアテウク)から、資料選定基準(語数が十分・層が単純・学界合意が大きい)を満たした50章を選びました。
この50章はすでに聖書学者の間で「3つの執筆グループ」に分類されているものです。
聖書研究の歴史
伝統的な信仰の世界(ユダヤ教‐ラビ文学や古いキリスト教神学)では、「モーセ五書」は「モーセが五書を一気に書いた」と信じられていました。しかし十九世紀の研究者たちは語り口や神の呼び名が章ごとに微妙に違うことに気づき、「別々の筆者が寄せ集まったのでは」と疑い始めました。たとえばある章では神をヤハウェと呼び、別の章ではエロヒムと呼ぶ。物語に登場する祭りや掟も並び順が食い違う。こうしたズレは、同じ小説を何人もがリレーで書き足していくうち、クセの違いが混ざり込んだように見えました。この発見がウェルハウゼンの資料仮説(J・E・D・P)につながり、「ヤハウェ派」「エロヒム派」「申命記派」「祭司派」という四つの資料が時間差で編集されたという骨格が示されます。二十世紀に入ると考古学が加わり、古代の陶片や碑文が掘り出されたことで、地名や王の年号が本文と照合されました。さらにヘブライ語そのものも変化する“生き物”だとわかり、「この綴りは前七世紀以前には現れない」といった語形のタイムスタンプが年代測定の手がかりになりました。こうして申命記の古層(D)が南ユダの宗教改革が盛んなヨシヤ王時代に書かれ、その後バビロン捕囚で国が滅んだ痛みを反映するかたちで歴史叙述(DtrH)が追加され、最後に帰還した祭司層が礼拝規定を補う祭司資料(P)を編み込んだ、という三段階編集モデルが固まりました。
研究チームは “難しいAI学習” ではなく、単語を数えて比べるだけのシンプルな統計ルールを使いました。
まず各章に登場する単語の「元の形(たとえば “歩く”“歩いた”をまとめて“歩く”と数える)」をすべて数え、よく出てくる単語どうしの組み合わせパターンも記録します。
そのうえで「A という章は “歩く” と “王” が多いタイプ」「B は “契約” と “祭り” が多いタイプ」といった “単語の指紋” を作り、各章がどのグループに属するかを分類させました。
「3つの執筆グループ」とは以下の通りです:
①申命記グループ(D) – 『申命記』に含まれる最古層の文書群(紀元前 630〜610 年ごろ)
②申命記史家グループ(DtrH) – 『ヨシュア記』から『列王記』までの歴史書(申命記史書)を編纂した文書群(紀元前 560 年ごろ)
③祭司グループ(P) – 『創世記』17章、『出エジプト記』25–31章、『レビ記』1–9章など祭司階級に属する著者たちによって書かれた文書群(前 540〜450 年ごろ)
テストの結果、AIモデルは分析対象の50章のうち、分類可能だった49章についておよそ84%の正解率で執筆グループを判別しました。
この数字は、これまでの研究で得られている精度とほぼ同じで、十分に信頼できるレベルだと言えます。
分析によれば、申命記グループ(D)と申命記史家グループ(DtrH)の文体は互いに非常によく似ており、祭司グループ(P)とは大きく異なることも明らかになりました。
この傾向は「申命記や歴史書を担った書き手グループは祭司文書の書き手と比べてお互い近い関係にある」という従来の聖書学の見解と一致しています。
特筆すべきは、文体の違いがごく基本的な語彙の使い方にまで現れていた点です。
例えば「いいえ」「どの」「王」といった一見ありふれた単語でさえ、グループごとに登場頻度や用法に差が認められました。
研究者たちは「各グループの書き手はそれぞれ異なる言語上の指紋(フィンガープリント)を持っていました。『いいえ』『どの』『王』のような単純で一般的な単語でさえもです。
われわれの開発した手法はそうした違いを精密に検出できます」と述べています。
最初の検証でモデルの有効性を示した後、チームは次にこのAIモデルを「著者が議論となっている」聖書の章へ適用しました。
代表的な例が、『サムエル記』上・下にまたがる「契約の箱」の物語です。
ダビデ王が聖櫃(契約の箱)を都エルサレムに運ぶこの物語について、多くの学者は長らく単一の筆者による連続した記述だと考えてきました。
しかしAIによる分析は異なる結果を示しました。
『サムエル記』の契約の箱物語を調べると、サムエル記下6章は申命記史家グループ(DtrH)の“書き手のクセ”と強く一致し、AI が示した一致度は 0.84(84 %)でした。
いっぽうサムエル記上4章の対応部分は、3つのどのグループともはっきり重ならないという結果になりました。
この発見は、両者は別々の作者による可能性が高いことを意味します。
実際、一部の聖書学者は以前から『この物語は異なる出典を繋ぎ合わせたものではないか』という複数著者説を提起していましたが、今回の結果はその見解を裏付ける客観的証拠と言えるでしょう。
上記の他にも、研究チームは旧約聖書内で著者がはっきりしない様々な箇所にモデルを適用しています。
たとえば『エステル記』、『箴言』の幾つかの章、『創世記』の族長物語(アブラハムやヤコブに関する部分)、『歴代誌』の一部などです。
モデルは各テキストの単語や表現パターンを分析し、3つの既知グループのうちどのスタイルに最も近いかを判定しました。
さらにこのモデルには興味深い特徴があります。ブラックボックス型ではなく、判定根拠となる語や表現を明示的に抽出し、研究者がその判断根拠を解釈できるようになっているのです。
アルオン・キプニス博士(イスラエル・ライヒマン大学)も「この手法の大きな利点の一つは、分析結果を説明できることです。すなわち、ある章が特定の文体グループに分類された理由となった単語や表現を特定できるのです」と述べています。
AIがブラックボックスにならず、「なぜそう分類したか」を示せる点は、人文学の研究手法としても重要です。
もちろん、古代の文書を分析する上で課題もありました。
テキストの中にはごく短い断片しか残っていない場合が多いため、通常の機械学習では十分な学習データを確保できません。
研究チームはそこで大量の訓練データを必要としないカスタムAIモデルを開発しました。
具体的には各章の文の構造や単語(語根)の出現頻度を直接比較する、シンプルで直接的な統計手法を採用したのです。
このアプローチにより、数節程度の短い章であっても信頼性のある分類が可能になりました。
事実、最も短いテキストでは約10節程度しかありませんでしたが、それでも約80%の正解率で正しいグループに割り当てられたと報告されています。