差分プライバシーの数学 — Appleはどうやって「見ずに学ぶ」のか

リード

iPhoneのキーボードはユーザーの入力から学習する。しかしAppleは個人の入力履歴を見ていない。どうやって？答えは「差分プライバシー（Differential Privacy）」という数学にある。

差分プライバシーのコアアイデアは：データに意図的なランダムノイズを加えてから送信する。

個々の回答は歪んでいるが、何百万人分を集計すると本物の傾向が浮かび上がる。

具体例で考えよう。Appleが「よく使われる絵文字を知りたい」としたとき：

差分プライバシーの正式な定義：

アルゴリズム M が ε-差分プライバシー を満たすとき、任意の2つのデータセット D1（個人のデータあり）と D2（その個人のデータなし）に対して：

Pr[M(D1) ∈ S] ≤ e^ε × Pr[M(D2) ∈ S]

ε（イプシロン）は「プライバシー予算」と呼ばれ、値が小さいほど保護が強い（0に近づくほど完全にランダムな応答）。

直感的な意味: あなたのデータが含まれていても含まれていなくても、出力の確率分布がほぼ変わらない = あなたの存在が統計に影響を与えない。

頻出単語・絵文字・その他の統計をiOS内で収集し、差分プライバシーを適用してAppleのサーバーに送信する。

個人の具体的な入力は一切送信されない。Appleが受け取るのは「ノイズが乗ったベクトル」のみ。

HealthKitのある種の統計情報を改善するために使用される。

差分プライバシーには2種類のアーキテクチャがある。

種類	説明	信頼関係
中央型	サーバーで生データを受け取ってからノイズを加える	サーバー管理者を信頼する必要あり
局所型	端末上でノイズを加えてから送信する	サーバーを信頼しなくてよい

Appleが採用するのは**局所的差分プライバシー（Local Differential Privacy）**だ。ノイズはiPhone上で加えられ、Appleのサーバーには最初からノイズ入りデータが届く。

この設計により「Appleが通信を傍受しても個人のデータはわからない」を数学的に保証できる。

差分プライバシーは「学習するが見ない」を数学的に実現するツールだ。AppleはiOS 10から実装しており、MicrosoftやGoogleも採用している。「プライバシーとAI改善は両立できない」という仮定を技術が覆しつつある例だ。