verum ipsum factum

sudillap's blog

Suica(スイカ)の利用履歴データから個人を特定できるのか

Business Media誠によるとJR東日本が7月1日より、IC乗車券「Suica」の利用履歴を外部に販売したとのこと。

 今回販売したのは、私鉄を含む首都圏約1800駅で、Suicaを利用して鉄道を乗り降りした履歴データ。JR東日本は、累積で約4300万件のSuicaを発行しているが、Suica定期券、My Suica(記名式)、Suicaカード(無記名)、モバイルSuicaすべての乗降履歴が対象だという。

 Suicaで鉄道に乗降した駅名と日時の履歴のだけでなく、記名式のSuicaモバイルSuicaの場合は、年齢、性別も販売データに含まれる。一方、電子マネーとして利用した履歴や、利用者の氏名、電話番号はデータに含まれていない。

 Suicaには固有のIDがあるが、今回はSuicaのIDをそのまま渡すのではなく、異なるIDを振り直したと説明。そのIDごとに、乗車履歴年齢、性別のデータが分かる状態のデータを販売しているという。たとえば「No.0001:20歳の女性、7月7日10時10分にA駅で乗車、7月7日11時10分にB駅で下車、7月8日8時0分にC駅で乗車……」といった形のデータにまとまっているわけだ。

 「SuicaのIDにはひも付いていないから、個人が特定できるようにはなっていない。つまり、個人を特定できないので、(販売しているデータは)個人情報に当たらない」(広報部)

この記事によると、JR東日本SuicaのIDを振り直したから履歴データから個人は特定できないと主張しているようです。
JR東日本プレスリリース(Suica に関するデータの社外への提供について)に載っている図を見ると、一見特定はできなさそうです。
f:id:sudillap:20130726072050p:plain

しかし、このように個人情報を匿名化すると本当に個人を特定できないのか、考えてみます。

まず、この匿名化されたSuica履歴データから、自分自身の情報を見つけられるのか考えてみます。

通勤通学でSuicaを毎日利用しているユーザーであれば、駅の乗降日時は自分自身で把握していますし、週末に出かけた先でSuicaを使えばその情報も自分が一番知っています。ある程度の期間でみると、自分と全く同じ行動を取る他人はまずいませんから、Suicaの利用履歴データから自分自身の行動に合致するデータを見つけ出すことは可能です。
自分の利用履歴を見つけられれば、それと同時に自分のSuicaの固有のIDと振り直されたIDの両方が手に入ることになります。
運が良ければ、固有IDと履歴データIDを関連付ける規則を推測できるかもしれません。
JR東日本がどのようにIDを変換しているかわかりませんが、もし、IDを乱数ではなくハッシュ関数で変換していたとしたら、ハッシュ関数が判明した時点で、固有IDと履歴データの全IDを一気に結びつけることができ、個人を特定できたも同然となってしまいます。


次に公開された情報をもとにその個人の履歴データを見つけ出せるか考えます。

たとえば、あるユーザーが自分のツイッターやFacebookに次のように書き込んだとします。

1月2日 3時4分 渋谷駅なう
...
5月6日 7時8分 舞浜駅(ディズニーランド)なう
...
9月10日 11時12分 東京駅なう

この書き込みによりこのユーザーは自分の乗降の日付とおよその時間帯を他人に公表したことになります。たとえ駅の利用者が多くても、このユーザーと同じように駅を利用した人は非常に少ないはずです。さらに他の情報(乗降、年齢、生まれ月など)を追跡・加味し、これらの行動パターン・ユーザー属性をもとにSuicaの履歴データを検索すれば、このユーザーの行動パターンに合致するデータを見つけることが可能になります。
このようにSuica履歴データと出所が別の情報(ツイッター・Facebook・ブログなど)を突き合わせれば、個人の特定が可能となります。


上に挙げた例は単なる可能性だけの話ではなく、実際にアメリカで同じような出来事が起こっています。
ネットフリックスというオンラインDVDレンタル会社が、データ分析(レコメンドシステム精度向上)コンテスト用に顧客のレンタル利用データを公開しました。当然、個人情報は匿名化されていたため、このデータから個人は特定できないはずでした。しかし、ある研究者が、レンタル履歴の情報と、ネットフリックスとは関係のない映画情報サイトInternet Movie Database(IMD)に書き込まれた映画レビューとを付きあわせた結果、運悪く個人が特定されてしまいました。結果、このユーザーはネットフリックスを訴えました。
この詳しい経緯は匿名化した利用者データの公表が、なぜ、個人情報漏洩に?(2010年3月25日(木) 13時00分)がうまくまとまっていますので、詳しくはこちらを参照してください。

この有名なネットフリックスの事例からわかるように、データを匿名化していても個人を特定することは現実的に可能です。
しかし、JR東日本はデータを匿名化すれば個人を特定できないと考えているようであり、ビッグデータを販売する企業としては認識が低いと言わざるを得ません(といいますか「個人は特定できない」と断言するのは言いすぎではないかと思います)。
JR東日本プレスリリース(Suica に関するデータの社外への提供についてよくいただくお問い合わせ)には、「提供先で他のデータと紐づけたり、目的以外の利用ができないよう契約で厳格に禁止しています。」と書かれていますが、契約は別にして、技術的に可能であれば個人が特定化されてしまうリスクは常にあります。

幸い、Suicaの利用履歴データは一般公開はされないようなので、データ流出事故が起きない限り、個人が特定されることはほぼ無いだろうと言えます。なので、それほど神経質になる必要はないのではないかと個人的には思います。

参考サイト

Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims(WIRED)