🟣 上級 約14分で読める

差分プライバシーの数学 — Appleはどうやって「見ずに学ぶ」のか

個人を特定せずに集合知を得る数学的プライバシー保護の仕組み

#差分プライバシー #Differential Privacy #数学 #プライバシー #iOS #キーボード

リード

iPhoneのキーボードはユーザーの入力から学習する。しかしAppleは個人の入力履歴を見ていない。どうやって?答えは「差分プライバシー(Differential Privacy)」という数学にある。

🟢 直感的な理解: ランダムノイズのトリック

差分プライバシーのコアアイデアは:データに意図的なランダムノイズを加えてから送信する

個々の回答は歪んでいるが、何百万人分を集計すると本物の傾向が浮かび上がる。

具体例で考えよう。Appleが「よく使われる絵文字を知りたい」としたとき:

  • 従来の方法: 全員の使用履歴を収集 → プライバシーリスク大
  • 差分プライバシー: 各端末でノイズを加えた応答を送信 → 集計すると傾向が見える

🔵 数学的な定義

差分プライバシーの正式な定義:

アルゴリズム M が ε-差分プライバシー を満たすとき、任意の2つのデータセット D1(個人のデータあり)と D2(その個人のデータなし)に対して:

Pr[M(D1) ∈ S] ≤ e^ε × Pr[M(D2) ∈ S]

ε(イプシロン)は「プライバシー予算」と呼ばれ、値が小さいほど保護が強い(0に近づくほど完全にランダムな応答)。

直感的な意味: あなたのデータが含まれていても含まれていなくても、出力の確率分布がほぼ変わらない = あなたの存在が統計に影響を与えない。

🔵 Appleの実装例

キーボード学習(iOS 10以降)

頻出単語・絵文字・その他の統計をiOS内で収集し、差分プライバシーを適用してAppleのサーバーに送信する。

個人の具体的な入力は一切送信されない。Appleが受け取るのは「ノイズが乗ったベクトル」のみ。

Health データ

HealthKitのある種の統計情報を改善するために使用される。

🟣 局所的差分プライバシー vs 中央差分プライバシー

差分プライバシーには2種類のアーキテクチャがある。

種類説明信頼関係
中央型サーバーで生データを受け取ってからノイズを加えるサーバー管理者を信頼する必要あり
局所型端末上でノイズを加えてから送信するサーバーを信頼しなくてよい

Appleが採用するのは**局所的差分プライバシー(Local Differential Privacy)**だ。ノイズはiPhone上で加えられ、Appleのサーバーには最初からノイズ入りデータが届く。

この設計により「Appleが通信を傍受しても個人のデータはわからない」を数学的に保証できる。

まとめ

差分プライバシーは「学習するが見ない」を数学的に実現するツールだ。AppleはiOS 10から実装しており、MicrosoftやGoogleも採用している。「プライバシーとAI改善は両立できない」という仮定を技術が覆しつつある例だ。