膨大な個人データで“犯行予兆”を割り出す仕組み

「殺人予測プロジェクト」では、膨大な個人データを用いて“将来、重大な暴力犯罪に至る可能性が高い人物”を炙り出そうとしています。
ここで鍵となるのは、一口に「犯罪履歴」といっても、決して“逮捕された”か“前科がある”かといった単純な情報だけではないという点です。
実際には「警察に何らかの形で相談したことがある」「事件の被害者や目撃者になった」「メンタルヘルスの問題を抱えている」「家庭内暴力に巻き込まれた」「自傷行為の履歴がある」など、多岐にわたる個人的情報がすべて“リスク要因”として考慮され得るのです。
たとえば、グレーター・マンチェスター警察(GMP)が同プロジェクトに提供したデータの中には、100,000人から500,000人という大量の市民情報が含まれているといわれています。
その内訳は、犯罪の容疑者や被害者のデータはもちろん、失踪騒ぎや家庭内トラブルといった警察へ一度でも接触したことのある人の情報まで及ぶ可能性があるのです。
しかも、そこで収集されるのは名前や生年月日といった基本情報にとどまらず、「最初に警察と関わったときの年齢」「これまでの生活環境」「犯罪に至った経緯」など、その人の人生背景を詳細に知りうる内容まで含まれます。
さらに特徴的なのは、精神的な健康状態、依存症や自傷行為の既往歴などが“特に強い予測因子として期待される”と内部文書で明言されている点です。
ある種のアルゴリズムでは、薬物依存や深刻なうつ病が高いレベルで関連していると推計されると、当局は「この人は今後、暴力犯罪や殺人に発展するかもしれない」と見なす材料に使うわけです。
こうした「健康マーカー」の取り扱いは、医療情報の秘匿性やプライバシー保護の観点からとりわけセンシティブであり、多くの人権団体が懸念を示す重要なポイントとなっています。
アルゴリズムそのものは、統計学と機械学習を組み合わせた複雑な仕組みです。
大量のデータをインプットし、「過去に殺人を起こした人たちのパターン」と「現在リスクがあると思われる人の特徴」を比較し、数学的な方法でリスクの高低を数値化するのです。
具体的には、前科や家庭環境、メンタルヘルス状況などを数多くの変数(変動要素)として取り込み、そこに重みづけを施して「殺人リスク」のスコアを算出します。
たとえば、同じ前科を持っていても、家庭内暴力の経歴や極度のアルコール依存症がある場合には、よりハイリスクと判断される、といった具合です。
すでにイギリス司法省の中には「OASys(Offender Assessment System)」という再犯予測ツールが存在し、実際に裁判や保釈の判断で使われています。
ただし、この既存ツールは「刑務所や保護観察を通じた実際の罪状や違反行為」を主な指標としています。
一方、この“殺人予測プロジェクト”は、それよりも幅広い領域のデータ――警察への相談実績や、心身の健康、社会的弱者としての支援履歴など――を組み合わせているため、より詳細かつ多面的なリスク分析を行おうとしているのが特徴です。
研究段階だと当局は言っていますが、過去にはデータ解析の研究成果がすぐに実務へ転用された事例が多数存在します。
今回も同様に、もしアルゴリズムの精度がある程度高いと判断されれば、判決や保釈判断、もしくは警察による「事前の要注意人物リスト」の作成に使われるかもしれません。
そうなった場合、ほんの少しでも「リスク」が示唆される情報を持っている人たちは、一気に当局の監視対象になってしまう恐れがあります。
こうしたアルゴリズムによる予測の問題点は、基盤となるデータに既存の偏見やバイアスが含まれている可能性が極めて高いことです。
たとえば、特定の地域や特定の人種・所得層の人々は、警察への検挙や通報が多いためデータベースに蓄積されやすく、その結果として高リスクに分類される確率が高まる――という「仕組みとしての不公平」が懸念されているのです。
つまり、精度と公平性のバランスをいかに取るかという、非常に難しい課題に直面しているわけです。
まとめると、このプロジェクトにおいて重要なのは「どんなデータを使っているのか」「それをどういうロジックでリスクに変換しているのか」という透明性の確保です。
個人のメンタルヘルス情報や、被害者・目撃者としての経歴まで材料にするのであれば、アルゴリズムの結果がどれほど正確かだけでなく、そこに含まれる価値観やデータのバイアスをどう扱うのかが大きなポイントとなります。
結局、数字や機械学習の“客観性”が、社会的な偏見と結びつきやすいという現実がある以上、単純に「大量のデータを使うから安全だ」と言い切れるものではないのです。