ツイートから「見えない感染」を特定?
研究チームは、2014年12月〜2020年3月1日までのツイートから、ヨーロッパの主要な7言語(英語、ドイツ語、フランス語、イタリア語、スペイン語、ポーランド語、オランダ語)で打たれた「肺炎」というキーワードを含むすべてのツイートを集め、独自のデータベースを作成しました。
「肺炎」が選ばれた理由は、新型コロナ感染症(COVID-19)の最も特徴的な疾患であることや、2020年のインフルエンザシーズンの流行がその前の数年間より軽度であったこと(「肺炎」がコロナに関連している可能性が高い)などです。
チームはその後、2019年12月〜2020年1月までの間、つまり、2019年12月31日に「最初の原因不明の肺炎症例が特定された」とWHO(世界保健機関) が発表してから、2020年1月21日に「COVID-19が重篤な伝染病である」と公式に認定されるまでの数週間において、「肺炎」と言及したツイート数を過大評価しないようデータベースを調整しました。
調整をしなければ、すでにCOVID-19と認識されたツイートやリツイート、マスメディアの報道ツイートなどが混ざってしまい、アウトブレイクの第一波が正確に特定できなくなるからです。
そして分析の結果、2020年1月の時点ですでに対象となったヨーロッパの国のほとんどで、「肺炎」に言及したツイートが増加していました。

例えば、イタリアでは、2020年の最初の数週間の「肺炎」ツイートの増加率が、2019年の同月同週より明確に高くなっています。
イタリアの最初の感染者は2020年の2月21日に確認されているので、アウトブレイクの兆候が、その数週間前にすでにツイッター上に現れていたことになります。
フランスも同じパターンを示しましたが、イギリス、スペイン、ポーランドではそれより2週間ほどの遅れが見られました。