オピニオン
【先端技術リサーチ】
プライバシー保護合成データの概説と動向
2023年06月13日 先端技術ラボ 森毅
AI・データ利活用の促進と並行して、データ保護規制の動きも拡大している。多くの組織では、保有するデータのプライバシー情報を保護した状態でデータ利活用を進める方法を模索しており、プライバシー強化技術は解決策の一つである。その一つである合成データ(Synthetic Data)は、実在する個人のデータを直接用いないことで、データ主体(data subject) (*1)のプライバシーを保護できるプライバシー強化技術として注目されている。本レポートではプライバシー保護を目的とする合成データ(プライバシー保護合成データ)に焦点を当て、技術の概説と事例をまとめた。また、活用に向けて現状と課題について整理し、今後の展望および活用を検討する組織に対する推奨事項を考察・提言した。
合成データ(Synthetic Data)は、実在するデータと同じ構造で異なる値を持つデータの総称である。近年提案されている合成データの生成手法の多くは、元データの統計的特徴を保持する手法であり、データ主体のプライバシーを保護した状態で分析に利用できるといった利点がある。一方、統計的な特徴を保持していることから、合成データから元データの特徴が推測される脅威を抱えている。脅威への対策として、差分プライバシー等の手法により、プライバシー保護をより強化した合成データ(Privacy-Preserved Synthetic Data)を生成する手法も提案されている。
プライバシー保護を目的とした合成データのユースケースは、①組織間・組織内でのデータ蓄積・共有、②外部のデータ分析者の活用、③データ販売による収益化など多岐にわたる。具体的な取り組みとして、例えば、①COVID-19患者の分析に合成データを用いる事例や、②外部企業へのデータ連携における社内承認フローを簡易化・高速化する事例などがある。
これらの取り組みが進む一方で、合成データに対する法整備が十分ではないことから、社会への普及には時間がかかると考えられる。今後は医療・行政に関する社会課題の解決といった、社会受容性の高いユースケースから活用の進展が見込まれる。
以上、技術・活用の動向を踏まえて、合成データの活用を検討する組織に向けた推奨事項として3点を提言する。
1. 迅速な活用・実践のため、代表的な技術やツールの調査や、技術検証を実施しておく。
2. 合成データの活用には技術面だけでなく、コンプライアンス・法律等の複合的な観点から評価が必要になる。必要に応じて外部専門家の意見を取り入れながら検討を行う。
3. 合成データを含む新技術を用いた分析を実施する際には、社会受容性を高めることも重要である。具体的な方策として、データガバナンスの整備・プライバシー影響調査(PIA)を実施することでデータの取り扱い・リスクに関する透明性を保つことが挙げられる。
(*1) GDPR(EU一般データ保護規則)内では「data subject(データ主体)」は「識別された、もしくは識別可能な自然人」として定義されている。本レポートでは個人データの該当者を表す単語として使用する。
プライバシー保護合成データの概説と動向