ランニングのブログからの個人情報特定の可能性

  0 件のコメント
ちょっと前に、製薬会社社員がTwitter上で問題ツイートをしたら、ネット上の情報から個人名や会社まですぐに特定されて大騒ぎになった、という事件がありました。

そうか個人情報/プライバシーって意外に簡単に割り出されるものなんだ、と思って読んでいましたが、その事件では、自分で他のSNS上に個人情報を公開していたのでそうなったようです。確かにそれだとすぐ特定できるでしょうね。

では、直接特定できる情報がない場合はどうでしょうか? ランニングのブログらしく日々のランニング関係の情報を題材に考えてみました。個人情報としては、実名と自宅位置が気になるところでしょうか。もちろん最初から自分で公開されているケースは対象外です。またハッキング等での流出も対象外とします。

実名

ランニングがらみでインターネット上に実名が存在するのはどんな場合でしょうか?
  • 類推しやすいアカウント名
  • 他のSNS (特にFacebook, Google+など実名ベースのサービス)
  • 仲間のブログ記事
  • 公開されたランニング大会記録
うーん、あとは思いつきません。

自宅位置

インターネット上に、何らかの位置情報か住所が必要です。手がかりとしては、
  • GPSロガーの情報
  • 自作ランニングコースマップ
  • 写真のExifに入っているGPS情報
  • スマートフォンの位置特定アプリ/サービス
  • 写真に写っている風景/内容
  • 自分のブログ記事 (※ピンポイントでなくても)
くらいでしょうか。

直接的特定

気をつけていれば、一つの情報から直接特定されるのは避けられそうです。写真やGPSロガーのGPS情報は公開前に確認する、他のSNSへのリンクはプロファイル情報を確認してからにする、などで簡単に防げますからね。

間接的特定

では、間接的な情報を複数組み合わせるとどうでしょうか? 一般的なことですが、一つ一つの情報では対象をある程度の範囲までしか絞り込めなくても、それらを複数重ねると、どんどんその範囲は狭くなって行きます。一定以上狭くできれば、そこからの推測はかなり精度の高いものになるでしょう。この観点から、おそらく上の青字2つの情報がリスク要因として考えられます。

写真に写っている風景/内容

例えば自宅からの綺麗な景色を写してブログに載せたとします。近くに住んでいる人ならそれだけでおおよその位置は分かるでしょう。マンションなら階数までほぼ正確に分かりそうです。一階違うと景色は意外と違いそうですから。また近くに住んでいなくても、目立つビルや鉄道などのランドマークが写っていれば、地図から容易に範囲を絞り込めます。
遠くの山並みやビルなど、近場が写っていない場合はどうか? 1枚ではそのランドマークからのおおよその方向しか分かりませんが、そのような写真が他に2,3枚あれば、地図上で方向のラインの交点を求めることで、絞り込めることになります。

公開されたランニング大会記録

これを考えるのは、計算上の遊びとして面白そうです。あるランニング大会に参加したという情報が与えられた場合、インターネットに大会記録が公開されていれば、その中に実名があることまでは分かります。一つの大会だけなら特定できなくても、参加大会が増えていくと、それらすべてに参加している人数は急速に減少していくため、それが1以下となれば特定されることになります。

下のグラフは、以下の仮定で「大会数とそれすべてに参加した人の人数」を概算し、大会規模ごとにグラフにしたものです。
  • 2つの大会では2%のメンバーが重複する。(2つの大会では初心者ランナーの数が多いはずなので、重複する割合は少ないだろう、という想定。)
  • 3つ目以降は20%のメンバーが重複する。(3つも4つも参加するのは活発なランナーなので、人数は減るが重複する割合は高くなるだろう、という想定。)

このグラフを見ると、例えばオレンジ色の1,000人規模の大会であれば、4つの大会すべてに参加する人数は1以下となり、特定される計算になります。10,000人規模の大会でも、6大会の参加情報があれば十分です。

さらに実際には、住んでいる都道府県の情報、ブログの文面/内容からの性別、サブフォー/サブスリーなどのおおおそのタイム、その他の情報で推測を強化できるので、さらに少ない大会数で絞り込めるはずです。

また、上記は一定範囲の地域で開催された大会への参加を前提に考えていますが、例えばある大会だけ遠くの地域で参加した、などの要因が加わると、重複する割合は極端に小さくなるので、更に少ない大会数で特定に至るでしょう。

※最も極端な場合、正確なタイムや順位を公開していれば、大会記録を見るだけでピンポイントに実名が特定されますが。まあこれは直接的特定にあたるでしょうね。

大会記録の公開状況

では、情報源となる大会記録での実名の公開状況はどうか? いくつかサイトを見てみましたが、PDFで公開されている大会が多く、そこから人名を抽出するのが大変そうです。さらには上位10人しか公開されていなかったり、ゼッケン番号を入れると順位が出る、あるいはゼッケン番号で記録が公開されるなど、実名がわからない仕組みのサイトもありました。これらは実名の流出に配慮していると言えるでしょうね。実名公開されているサイトは意外と少なく、関東以北のポピュラーな大会では以下の通りでした。
  • 非公開: 50
  • PDF: 7
  • HTML: 7
ただし非公開の大会は、積極的に非公開としているのではなく、そもそもサイトが整備されていなくて記録もない、というパターンが多いようです。今後Web化が進むと少し状況が変わってくるかも知れません。RUNNETなどにアウトソースするなら上位10名のみ+ゼッケン検索のパターンとなるでしょうか。

結論

大会への参加に関しては、実名公開している大会は多くなく、かつ、大会記録から人名を抽出するにも大分手間がかかりますので、普通にブログを書いている人はあまり気にしなくて良さそうです。むしろ写真のExifやGPS情報に気をつけた方が良いかも。(※ただし、PDF/HTMLからの抽出と整形は、プログラムの知識があればスクリプト言語で比較的簡単にできるので、可能か不可能かというと確かに可能ではあります。)

ありそうもないことですが、全体がリスク低減方向だけに走って、あらゆる大会が実名の記録を公開しなくなるとすると、それはそれで少し寂しいように思います。

0 件のコメント :

コメントを投稿

Related Posts Plugin for WordPress, Blogger...