リード
iPhoneのキーボードはユーザーの入力から学習する。しかしAppleは個人の入力履歴を見ていない。どうやって?答えは「差分プライバシー(Differential Privacy)」という数学にある。
🟢 直感的な理解: ランダムノイズのトリック
差分プライバシーのコアアイデアは:データに意図的なランダムノイズを加えてから送信する。
個々の回答は歪んでいるが、何百万人分を集計すると本物の傾向が浮かび上がる。
具体例で考えよう。Appleが「よく使われる絵文字を知りたい」としたとき:
- 従来の方法: 全員の使用履歴を収集 → プライバシーリスク大
- 差分プライバシー: 各端末でノイズを加えた応答を送信 → 集計すると傾向が見える
🔵 数学的な定義
差分プライバシーの正式な定義:
アルゴリズム M が ε-差分プライバシー を満たすとき、任意の2つのデータセット D1(個人のデータあり)と D2(その個人のデータなし)に対して:
Pr[M(D1) ∈ S] ≤ e^ε × Pr[M(D2) ∈ S]
ε(イプシロン)は「プライバシー予算」と呼ばれ、値が小さいほど保護が強い(0に近づくほど完全にランダムな応答)。
直感的な意味: あなたのデータが含まれていても含まれていなくても、出力の確率分布がほぼ変わらない = あなたの存在が統計に影響を与えない。
🔵 Appleの実装例
キーボード学習(iOS 10以降)
頻出単語・絵文字・その他の統計をiOS内で収集し、差分プライバシーを適用してAppleのサーバーに送信する。
個人の具体的な入力は一切送信されない。Appleが受け取るのは「ノイズが乗ったベクトル」のみ。
Health データ
HealthKitのある種の統計情報を改善するために使用される。
🟣 局所的差分プライバシー vs 中央差分プライバシー
差分プライバシーには2種類のアーキテクチャがある。
| 種類 | 説明 | 信頼関係 |
|---|---|---|
| 中央型 | サーバーで生データを受け取ってからノイズを加える | サーバー管理者を信頼する必要あり |
| 局所型 | 端末上でノイズを加えてから送信する | サーバーを信頼しなくてよい |
Appleが採用するのは**局所的差分プライバシー(Local Differential Privacy)**だ。ノイズはiPhone上で加えられ、Appleのサーバーには最初からノイズ入りデータが届く。
この設計により「Appleが通信を傍受しても個人のデータはわからない」を数学的に保証できる。
まとめ
差分プライバシーは「学習するが見ない」を数学的に実現するツールだ。AppleはiOS 10から実装しており、MicrosoftやGoogleも採用している。「プライバシーとAI改善は両立できない」という仮定を技術が覆しつつある例だ。