kiri1701’s diary

勉強したことや調べたことのまとめ用

プライバシーの保護について

最近わけあって,プライバシー保護についての研究をしているので
自分のまとめ用兼文章を書く練習としてプライバシー保護について書いていこうと思います.
『データ解析におけるプライバシー保護』[1]を参考にしています.

www.kspub.co.jp

言葉の定義

まず最初にプライバシーの話をしている最中によく出てくる用語を整理しておこうと思います.

個人情報

個人情報保護法では個人情報は以下のように定義される.

生存する個人に関する情報であって,当該情報に含まれる氏名,生年月日その他の記述などによって特定の個人を識別できるもの(他の情報と容易に照合することができ,それによって特定の個人を識別することができることとなるものを含む.),または個人識別符号が含まれるもの.

明確な範囲に関してはまだまだ議論されている最中であるが,氏名などを隠してあっても,突合することで個人を特定できそうな情報は全て個人情報となることに注意が必要である.
統計情報は,特定の個人との対応関係が排斥されている限りにおいては,個人情報ではなくなる.
暗号化だけではだめなことに注意する必要がある.

プライバシー

自己の情報をコントロールできる権利のこと.
自己の情報とは個人の私生活や秘密のことであり,これが他人から侵害されないことを保証するための権利. 間違えがちだが,プライバシーはあくまで権利のことで個人情報などのデータのことではない.

パーソナルデータ

[1]ではパーソナルデータは以下のように定義されている

従来の法律の枠組みにおいて個人情報に該当するかどうか明確になっていないが,プライバシー上の問題が存在するような種類の情報

問題になっているのはこのパーソナルデータをその事業者以外に提供する第三者提供である.個人情報の第三者提供は、原則として、本人の同意がない限りできないというルールになっているので,同意なしに提供してしまうとルール違反になる.
しかし,パーソナルデータは個人情報かどうかが曖昧であるので,同意なしに提供してしまい,後々ルール違反であることが発覚するということが多々ある.
その際,勘違いしているのが,データを匿名にしさえすれば提供して良いという考えである.匿名化をしても個人情報が復元可能な場合はそのデータも個人情報になるので,同意なしに提供してはいけない.

GDPR

一般データ保護規則というEU内での個人データやプライバシーの保護に関して様々なことを規定した規則のこと . 本人から個人情報の取扱いについての明確な同意を得ることや個人情報の取り扱いに関して透明性のある情報を提供することなどを要求している.
これに違反するとペナルティが課され,最近ではGoogleが62億円の制裁金を要求されるなどしている.

プライバシーはなぜ守られないといけないのか

個人情報は本人のものであるので,他人は勝手に個人情報を集めたり,使ったり,提供してはいけない.基本的人権の一つとして考えられているため,守られるべき当然の権利として考えられているが,詳しい話はちょっとわからない. 近年,技術の発展によりデータの利活用が進み,データ自体に価値があると考えられるようになった.その結果,データから知見を得るための分析が盛んに行われたり,そのためのデータの売買が行われたりと個人情報をどう扱い,守るかが問題になってきている.
実際プライバシーが侵害されたという事例がいくつかあるので紹介する.

プライバシー侵害の事例1

マサチューセッツ州のGroup Insurance Comission(GIC)は,135,000人の州職員とその家族について,医療保険に関連する情報を収集していた. その情報には本人の氏名,性別,郵便番号,生年月日に加えて,医療機関の訪問日,診断結果などが含まれていた. GICはそのデータから氏名を取り除いた上で,研究者に配布し,民間企業に販売していた.
一方,マサチューセッツ州ケンブリッジの選挙人名簿は民間人でも購入できた.選挙人名簿には選挙人の氏名,性別,郵便番号,生年月日に加えて,住所,登録日,支持政党などが含まれていた. Seeneyはこの2つのデータに含まれる同一個人に関するデータを性別,生年月日,郵便番号を手掛かりに結びつけることができることを指摘した.[2]
医療保険のデータが個人を特定できる情報に復元されてしまった.すなわち,氏名などを削除した医療保険に関連する情報はまだ個人情報であり,これを配布したりしたことはルール違反だったのである.

プライバシー侵害の事例2

オンラインの動画ストリーミング会社Netflixは,推薦アルゴリズムコンペティションを目的として,1999~2005年の間に約48万人の利用者が評価した映画のレイティング値約1億件を提供した. 提供データは,全データではなく一部がサンプリングされたデータで,利用者を直接的に特定する情報は提供データ中のレコードからは取り除かれていた.
Narayananらは,このような特定を防ぐ処理が施されたNetflixデータにおいて,攻撃者が犠牲者が犠牲者を一意に特定できる条件を統計的に導き,攻撃者が背景知識を持つならば,個人の特定が可能であると主張した.[3] 背景知識とは例えば,その個人が過去に与えた映画についてのレイティング値を知っており,そのレイティング値を与えた日付を詳しく知っていれば,個人のレコードを特定出来るなどである.

プライバシーを守る方法

このような攻撃者からどうやってプライバシーを守れば良いのだろうか. 特定の個人を識別することができないように個人情報を加工して、個人情報を復元することができないようにすれば良い. このように加工した情報のことを「匿名加工情報」という. 上記の事例のように名前などの個人に関わる情報を削除しただけでは、攻撃を防げるとは限らない.
そこで,加工の度合いや攻撃のリスクを評価するk-匿名性とl-多様性の概念について説明し,
k-匿名性を実現する再符号化とマイクロアグリゲーションについて説明する.

k-匿名性

k-匿名性はどれだけ特定されるリスクがあるかを考慮するための指標で これを満たすようにデータを加工することでそのデータが持つリスクをコントロール出来る.

簡単にいうと,属性情報でデータを絞り込んでいっても最終的にはk人以下には絞れないということ.
住んでる場所,年齢,職業が一致するデータがどんな絞り込み方に対しても少なくともk個あるみたいな感じ.

l-多様性

k匿名性は個人の特定に関するリスクの評価であったが, l-多様性は属性推定のリスクを測るもの. 個人の特定は起きなくても、センシティブな属性が推定されるのはリスクであると考える.
例えば,ある特殊な病気にかかっているデータがあったとして,k-匿名性を保ったとしても 個人は特定されないが,特殊な病気にかかっていることは特定されてしまうかもしれない.

住んでる場所,年齢,職業が一致するデータでかかっている病気という欄の値のバリエーションがどんな絞り込み方に対しても少なくともl個あるみたいな感じ.
これはセンシティブな属性でだけ満たされていれば良い.

再符号化

カテゴリーや順序属性のための加工法で,複数のカテゴリ値を一つのより抽象度の高いカテゴリに統合する.
年齢を1刻みから10刻みに変更したり,住所を都道府県にまとめたりする. 単に上位のカテゴリに統合するだけでなく,トップコーディングとボトムコーディングという手法もある. トップコーディングは80歳以上を一つにするなど,ある閾値以上を一つにまとめる手法. ボトムコーディングはある閾値以下をまとめる手法であり,裾に当たるような頻度の低い属性を1つにまとめることが出来るので,k-匿名性を維持するのに役立つ,

どんなレコード集合に対しても,厳密にk-匿名性を維持する手法は,かなりの組み合わせを考えないといけないので難しい.

マイクロアグリゲーション

数値属性を対象にした加工法. k-meansなどのクラスタリングによって、複数の値をまとめる手法.
クラスターにおけるレコードがk個以上になるようなクラスターを作り,そのグループの数値属性を代表値で置き換える.
年収などでクラスタリングして,300~315万が一つのグループになったとしたら310万などを代表値として,置き換えることでk-匿名性を維持する.

まとめ

プライバシーについての用語の整理と匿名加工などの一般的な手法について説明しました. 最初の用語の確認のところの個人情報は勘違いが多いところらしいので,きちんと読んでくれると嬉しいです. まだ勉強を始めたばかりなので,間違い等あれば指摘して頂けるとありがたいです.

図とかを使って説明したかったけど,その気力がなくて諦めてしまったので,余力があれば今度追加するかもしれないです.
最近プライバシー保護で注目されているDifferential Privacyについては次の記事で紹介します.

文章の構成とか書いている内容とか変な感じがするけど 投稿を続けるうちに良くなっていくと信じて頑張っていこうと思います.

参考文献

  1. 佐久間 淳,データ解析におけるプライバシー保護,講談社サイエンティフィク,2016.
  2. Sweeney, Latanya. "k-anonymity: A model for protecting privacy." International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems 10.05 (2002): 557-570.
  3. Narayanan, Arvind, and Vitaly Shmatikov. "Robust de-anonymization of large datasets (how to break anonymity of the Netflix prize dataset)." University of Texas at Austin (2008).