verum ipsum factum

sudillap's blog

Google インフル トレンドの仕組み

Google インフル トレンドとは、インフルエンザ関連フレーズの検索数からインフルエンザの流行を予測するシステムで、報道でも取り上げられました。

インフルエンザ、ネット検索増えれば流行の兆し 米研究(朝日新聞 2008年12月12日9時13分)

【ワシントン=勝田敏彦】
  インフルエンザの季節、インターネットで関連の言葉が検索される件数を見ると、その流行がある程度予測できることが米国の研究でわかった。体の調子が悪くなった人が、医療情報をネットで探そうとすることを利用したもので、関連論文が相次いで発表された。

  アイオワ大などのチームは、検索大手ヤフーと協力し、今年5月までの4年分の統計から関連語が検索される件数の推移を追った。すると、ウイルス検査で陽性反応が出始める1~3週間前、死者が増え始める5週間前ごろに、検索件数が急増していた。論文は10月、米感染症専門誌(電子版)に発表された。

  検索大手グーグルのチームも、米疾病対策センター(CDC)と協力して同様の研究を行った。統計を取る検索語をうまく選ぶと、CDCが毎週発表している患者発生状況を1、2週間前に予測できるとしている。論文は11月、英科学誌ネイチャー(電子版)に発表された。

インフルトレンドの予測結果(次の図)を見ると、高い精度でインフルエンザの流行を予測できているようです。
f:id:sudillap:20130728160143p:plain
f:id:sudillap:20130728160155p:plain
上のニュースでも述べられている通り、米疾病対策センター(CDC)が患者発生状況のデータを発表するまでに、集計などで公表までに1、2週間かかっています。しかし、Google インフル トレンドでは1日遅れで流行予測ができます。


以降では、インフルトレンドではどのようにインフルエンザの流行を予測しているのかネイチャーの論文[Ginsberg,2008]をもとに計算方法の概要について紹介します。

モデル作成には次のデータを用います。

  • 過去5年間(2003年から2008年)の数千億ものGoogle検索ログ
  • 米国の地域(9つ)別にCDCが週単位で公表(流行期間のみ)した、インフルエンザ様疾患(ILI)*1で病院を訪れた外来患者数

まず、すべての検索フレーズのうち一般的な5千万種類のクエリー(検索フレーズ)を選びます。クエリーごとに検索数を週単位で合計し、それをその週の総検索数で割ることによりデータを標準化します。この値をクエリー比(query fraction)と呼びます。

インフルトレンドで採用された予測モデルは次の式です*2
$$
\text{logit}(I(t)) = \alpha \text{logit} (Q(t)) + \epsilon
$$
ここで、

  • $\alpha$:未知パラメータ
  • $I(t)$:時間$t$のインフルエンザ様疾患(ILI)で病院を訪れた人の割合
  • $Q(t)$:時間$t$のインフルエンザ様疾患(ILI)に関連するクエリー比
  • $\epsilon$:誤差項
  • $\text{logit}(p) = \log(p/(1-p))$

です。

後述するように、$I(t)$、$Q(t)$ともに過去のデータから得られますので、このモデル式に当てはめれば、未知パラメータ$\alpha$が求まり、モデルが決定されます。

$I(t)$、$Q(t)$の計算方法は次のとおりです。

通院割合$I(t)$の計算方法

CDCが週単位で公表(流行期間のみ)しているデータから計算できます。

クエリー比$Q(t)$の計算方法

5千万種類の検索フレーズごとのクエリー比$Q(t)$から上のモデル式をもとめ、モデルから予想される通院割合とCDCによる公式データとの相関係数を地域ごとに計算します*3
地域ごとに得られた相関係数の平均*4をスコアとします。
検索フレーズごとのクエリー比の一例を図に示します*5。凡例の括弧内の数字はスコアの順位です。
f:id:sudillap:20130731213441p:plain

ここまでは検索フレーズごとのクエリー比$Q(t)$を用いましたが、次のステップではスコアの高い上位$n$個の検索フレーズをひとまとめにして求めたクエリー比$Q(t)$と使ってモデルを作成します。そのモデルで予測された通院割合とCDCデータの相関を計算します。

その結果、スコアの高い上位45個の検索フレーズ*6*7を用いると、モデルによる予測値と実際のデータとの相関係数が最も高くなることが分かりました。
f:id:sudillap:20130728160147p:plain
このように作成したモデル(下図の黒線)と実際のインフルエンザ様疾患(ILI)患者割合(下図の赤線)を比べてみると両者がよく一致していることが分かります。
f:id:sudillap:20130728160151p:plain

以上のように論文ではアメリカを9つに分けた地域ごとにインフルエンザ流行を予測するモデルについて述べられていますが、現在ではさらに細かい区分(州、都市)でインフルエンザ流行状況を提供しています。

インフルトレンドによる2009年新型インフルエンザ(A型H1N1亜型インフルエンザ)の予測については[Cook,2011]を、Yahooによるインフルエンザ予測については[Polgreen,2008]を、Yahoo Japanによる取り組みついても参考文献を参照してください。

参考文献:

Ginsberg, Jeremy, et al. "Detecting influenza epidemics using search engine query data." Nature 457.7232 (2008): 1012-1014.

Polgreen, Philip M., et al. "Using internet searches for influenza surveillance." Clinical infectious diseases 47.11 (2008): 1443-1448.

Cook, Samantha, et al. "Assessing Google flu trends performance in the United States during the 2009 influenza virus A (H1N1) pandemic." PLoS One 6.8 (2011): e23610.

“インフルエンザ”の患者数と検索数に高い関連性、「Yahoo!ビッグデータ」による分析

*1:1.突然の発症、2.38℃を越える発熱、3.上気道炎症状、4.全身倦怠感等の全身症状

*2:原著論文のSupplementary Informationによると、いろいろなモデルを試した結果、このシンプルなモデルで十分の予測可能であったとのこと

*3:米国の9つの地域ごとに、5千万種のクエリーそれぞれでモデルを作成するので、合計4億5千万個のモデルを作成することになります。これをGoogleの数百台のコンピュータで処理したとのこと。

*4:正確にはフィッシャーのZ変換$z = {1 \over 2}\ln\left({1+r \over 1-r}\right)$の平均

*5:原著論文のSupplementary Informationに相関データが公開されています。

*6:具体的な検索フレーズは非公開です。公開すると興味本位による検索によってインフルトレンドの有用性が低下してしまうためです。

*7:インフルエンザ流行時のメディア報道で検索フレーズとILI患者割合の相関が損なわれる可能性があったにもかかわらず、上位45個のから得られた相関への影響はなかったとのこと。

一生の短さについて

哲学的な考察はセネカに譲るとして、レイ・カーツワイル―加速するテクノロジー (NHK未来への提言)レイ カーツワイル (著), 徳田 英幸 (著)のあとがき(「インタビューを終えて」)の中に次のような興味深い一文がありました。

当時、大学のある先生の話した話の中に、「皆さんがA4サイズの方眼紙を1枚もっているとしましょう。我々が1日無事に暮らしたら1平方ミリを切り取ってみてください。もし、君たちが80歳まで生きるとすると、君の一生を記録するのに何枚の方眼紙がいるでしょうか」という問いがあったのを覚えている。

A4用紙のサイズは、210mm×297mmなので面積は62,370平方ミリです。

もし毎日1平方ミリずつ切り取っていくとすると、一生の間で切り取れるのは

  1平方ミリ×365日×80年=29,200平方ミリ

となり、A4用紙の半分も切り取れません。

上の引用文に続けて

なんと自分の一生を記録するのには、紙の半分以下しか必要ないのである。その先生は「皆さんの一生は、大変貴重な一生ですから、あまり無駄にしないように」という趣旨のことを言われたのが強く記憶に残っている。まさに、人の命がいかに短いかを可視化させられた瞬間であった。

私も全く同感です。

ところで、1日に1平方ミリを切り取るのではなく、1時間に1平方ミリ、1分間に1平方ミリ、1秒間に1平方ミリを切り取ればどうなるか、また1立方ミリならどうなるか、計算してみます。
切り取り作業に使える時間は、1日あたり16時間としておきます。

1時間に1平方ミリ・1立方ミリ

16時間×365日×80年=467,200平方ミリ=$684^2$平方ミリ=$78^3$立方ミリ

なので、一生を記録するために、用紙であれば約70センチ四方の用紙、3次元の物体であれば一辺の長さが約8センチの物体が必要となります。

1分間に1平方ミリ・1立方ミリ

60分×16時間×365日×80年=28,032,000平方ミリ=$5,295^2$平方ミリ=$304^3$立方ミリ

なので、一生を記録するために、用紙であれば約5メートル四方の用紙、3次元の物体であれば一辺の長さが約30センチの物体が必要となります。

1秒間に1平方ミリ・1立方ミリ

60秒×60分×16時間×365日×80年=1,681,920,000平方ミリ=$41,011^2$平方ミリ=$1189^3$立方ミリ

なので、一生を記録するために、用紙であれば約41メートル四方の用紙、3次元の物体であれば一辺の長さが約120センチの物体が必要となります。

一生の間、休むまもなく毎秒毎秒1立方ミリずつ削っていったとしても、一辺が1メートルちょっとの物体しか削り切ることができないというのは個人的には意外でした。