機械が読み解いた『100年読み継がれる小説』の特徴

時代を超える古典作品と一時のベストセラーを言葉の使い方という表面的な要素だけで予測できるのか?
答えを得るため研究チームは、まず1909年から1923年という今から約100年前の時期に出版された英語の小説を調べることにしました。
この時代に絞ったのは、長い時間を経て現在でも評価されているかどうかを比べるためです。
調査にあたって、小説を2つのグループに分けました。
一つは、当時とても人気があった「ベストセラー小説」のグループです。
ベストセラーは発売当時に『パブリッシャーズ・ウィークリー』という雑誌が毎年出していた「年間人気ランキング」の上位10作品に入った本を選びました。
もう一つのグループは、現代になっても読者から強い支持を受けている「古典」のグループです。
では、古典をどうやって決めるのでしょうか?
今回研究チームは、Goodreads(グッドリーズ)という人気のSNSに注目しました。
Goodreadsは世界中の人が「読みたい本」や「読んだ本」を自由に登録して、お互いに本をおすすめし合えるサービスです。
そのGoodreadsで、今でも多くの読者が「読みたい」と登録していたり、「読んだ」として評価したりしている人気作品を、研究者は「古典」と定義しました(データは2024年現在、フィクションのみ)。
こうして2つのグループを比較した結果、最終的に当時のベストセラー小説124冊と、100年後の今でも読まれている古典小説92冊を分析することになったのです。
次に研究チームは、小説の中で使われている「言葉」の種類や頻度、つまり「どの言葉をどのくらいの割合で使っているか」に注目しました。
例えば、代名詞の使われる頻度や、感情を表す言葉の割合、あるいは句読点(「、」や「。」)がどれくらい使われているかといった具合です。
例えば、「私たち(we)」や「彼ら(they)」といった複数の人を指す代名詞をどのくらい使っているか、あるいは文章の1つひとつの文がどれくらいの長さなのか、といったことも数値化したわけです。
このようにして、小説が数字として比較可能なデータに変換された後で、研究者たちはいよいよ機械学習(マシンラーニング)という方法を使いました。
機械学習とは、人間が特徴を教えることで、コンピュータがデータのパターンを学習し、何かを分類したり予測したりできるようになる技術です。
今回は、SVM(サポートベクターマシン)というタイプの機械学習を使いました。
具体的には小説データの70%を使ってコンピュータに学習を行い、残りの30%を使いって本当に「古典」と「一時的なベストセラー」をコンピュータが正しく見分けられるかどうかをテストしたのです。
すると結果は驚きでした。
なんと、この方法によって、約71%という高い精度で「時代を超えた古典」か「一時のベストセラー」かを当てることができたのです。
ここで重要なのは、コンピュータは物語を一切読んでいない、ということです。
単に言葉の使い方という情報だけで、100年後にも読まれる本を高い確率で予測できたわけです。
これは、ベストセラーになるかどうかを予測する過去の研究と比べても、ほぼ同じくらい高い精度です。
これまでの研究は、発売直後のヒット作と売れない本を予測するものでしたが、今回はなんと、100年先まで読み継がれるかどうかという、はるかに難しい問題を、同じくらい正確に予測できたわけです。
この成果は、物語を一切読まずに行われたことを考えると、研究者たちの予想を超えた結果だったのです。
さて、この研究からさらに興味深い発見がいくつもありました。
機械学習モデルによって、「古典」として時代を超える作品に共通する、特別な「言葉の特徴」が明らかになったのです。
まず、「古典」として長く読み継がれる小説には、複数の人をまとめて指す言葉、「私たち(we)」や「彼ら(they)」などの代名詞が非常に多く使われる傾向がありました。
また、具体的な数字や数を表す単語、さらに少し意外ですが「食べ物」に関する単語も、やや多めに使われていました。
また、文の長さ(1つの文に含まれる言葉の数)についても、古典作品はやや長い傾向にあることも分かりました。
(※ただし分の長さについては、モデルによって統計的に明確な差が出たり出なかったりしたため、「確実に差がある」とまでは言い切れない部分もありました。)
一方、当時だけ人気を集めてすぐに忘れられてしまったベストセラー小説には、これとはまた違った言葉の特徴がありました。
ベストセラーの特徴としては、読者に直接語りかけるような「あなた(you)」という二人称の代名詞をよく使う傾向があります。
また、友達や会話、助け合いなど、人と人との交流を表す「社会的な単語」が多く使われていることが分かりました。
さらに、「句読点」(「、」や「。」のような区切りの記号)やアポストロフィ(’)など、文章を区切ったり装飾したりする記号の使用頻度もベストセラーのほうが多いという傾向がありました。
また、研究では各小説の文章がどれくらい読みやすいか、という点にも注目しました。
その結果、古典作品はベストセラー作品よりも、一般的に文章がやや難しく、大学生から大学院生レベルの読解力が求められる文章が多いことがわかりました。
この結果が私たちに伝えてくれるのは、もしかすると時代を超えて愛される作品というのは、誰が読んでもすぐに理解できて共感しやすい、というよりも、少し抽象的で複雑で、「考える余地」が残されている作品なのかもしれない、ということです。
そのような作品は、100年前の人にとっても、100年後の私たちにとっても同じように興味深く感じられるのかもしれません。
さらに研究チームは、なぜ古典小説で複数の人を指す代名詞(「私たち」や「彼ら」)が多く使われているのかについて、興味深い仮説を立てました。
彼らによると、これらの言葉を使うことで、読者は登場人物と自分自身との間に「一体感」や「共感」を感じやすくなり、それが作品が世代を超えて愛される要因の一つとなっている可能性があるというのです。
一方で、ベストセラー作品で二人称の「あなた」が多く使われる理由についても、物語が同じ時代を生きる読者に強く語りかけているからではないか、という仮説を提示しています。
たしかに、物語が今の自分に向けて語られているように感じれば、その瞬間は熱中できるでしょう。
しかし、時代が変わってしまえば、その呼びかけが「自分には関係ない」と感じられてしまい、結果として読み継がれないのかもしれません。
このようにして、研究チームはこれまで誰も気づかなかったような「言葉のレシピ」を見つけ出し、内容を読まずに言葉の使い方だけで古典作品を見分けることが可能であるという、画期的な発見をしました。
この発見は文学の研究や出版業界、さらには私たち一般の読者にとっても非常に大きな意味を持っています。
何より、この成果は、「言葉の使い方」という、私たちが普段あまり意識していない要素が、実は本が長く読み継がれるかどうかという重要な要素になっている可能性を示しています。