生成AIのプライバシー侵害問題を解決するか「シンセティックデータ」の登場　長谷佳明

2024年8月15日

◇シンセティックデータ（上）

　ニューヨークに本部を置く国際的な人権組織であるヒューマン・ライツ・ウオッチは2024年6月、ドイツの非営利団体LAION（Large-scale Artificial Intelligence Open Network）がインターネットから取集したデータセット「LAION-5B」に大量の個人情報が含まれている恐れがあると発表した。

　LAION-5Bは、約58億枚の画像とキャプションからなるAI用学習データで、インターネットのアーカイブを目的に収集されたコモン・クロールと呼ばれるデータを元に作られている。写真と対になるキャプションの中には、その子供の名前ばかりか、生まれた病院、場所までも含まれていた。調査は、データ全体の0.0001％（推定5800枚）に対し試験的に行われ、個人を特定できる画像が170枚あまり発見された。これは、率にして3％に及び、いかに深刻かがうかがい知れる数値である。

　LAION-5Bに関しては23年12月、米スタンフォード大学の研究「Investigation Finds AI Image Generation Models Trained on Child Abuse（児童虐待を学習させたAI画像生成モデルの調査）」の中でも、1000件以上の虐待画像が含まれることが判明している。インターネットから機械的に収集されるデータの問題点が次々に明らかになっている。

インターネットの情報は保護の対象

　問題点が指摘されながらも、生成AIの学習は、インターネットから収集されたデータに大きく依存している。クローラと呼ばれるデータ収集プログラムは、インターネットのありとあらゆるサイトを定期的に巡り、テキストや画像などのコンテンツをダウンロードしデータベース化する。

情報は21世紀の「油田」となるのか（米カリフォルニア州シールビーチの油田）＝2022年4月23日　Bloomberg

　インターネットのデータは、世界中の人が何らかの目的を持ち、発信し続けてきた結果生まれた、いわば「天然データ」である。太古の昔に生きていた生物が一生を終え、原油や天然ガスに姿を変えたように、ネットのデータも数十年にわたる現代社会の活動の産物であるともいえる。

　では、インターネットで誰もがアクセス可能な天然データに含まれる個人情報の扱いはどうなっているのか。総務省所管の個人情報保護委員会では、個人情報にまつわるよくある疑問に関し、「個人情報の保護に関する法律についてのガイドラインに対するQ&A」を公開している。

　その中で「新聞やインターネットなどで既に公表されている個人情報は、個人情報保護法で保護されるのか」との質問に対し「公知の情報であっても、その利用目的や他の個人情報との照合など取り扱いの態様によっては個人の権利利益の侵害につながるおそれがあることから、個人情報保護法では、既に公表されている情報も他の個人情報と区別せず、保護の対象としている」とするなど、インターネットの情報であっても、保護の対象となることを明記している。

　データは機械的に収集される以上、その中に個人情報が含まれてしまうことは避けられず、それを一つ一つ取り除くのも容易ではない。また残念ながら、インターネットには、好ましくない表現や画像も含まれるため、これらをAIが学習してしまう影響も懸念され、インターネットのデータは、そのままでは学習には不向きではないかとさえ思えてくる。

AIが生み出した情報をAIが学習する

　そこで、解決策となるのではと期待されているのが、データの代替品となりうる「シンセティックデータ（合成データ）」である。入手が難しかったり、取り扱いが難しかったりするAIの学習データの代替となる可能性がある。

台北で開かれたコンピューテックス会議で発言するエヌビディアのジェンセン・フアンCEO（左）とスーパーマイクロのチャールズ・リャンCEO=2024年6月5日　Bloomberg

　シンセティックデータとは、統計的手法やシミュレーション技術などにより実際のデータの特徴を精度高く模倣し作り出されるデータである。例えば、米国のスタートアップ企業「ソフトロボティクス」は、シンセティックデータを活用し、食品などをロボットが自動的に振り分ける「ピッキングマシン」用のAI開発にかかる期間を大幅に短縮した。ソフトロボティクスは、飲食店で出される「手羽先」を忠実に再現した3Dモデルを作成し、位置や形状、光の角度などが異なるリアルな画像を生成して、学習データに活用している。

　シンセティックデータは、顔のデータに特化したものなど用途に合わせて開発されてきたが、昨今は、これにも生成AIが活用され始めている。つまり、生成AIが生み出したデータによって、別のAIが学習するのである。

　人類はこれまでも、限られた資源をより効率的に使える生産方式を開発してきた。AIの学習データに関しても、力任せにネットの“ありもの”を学習させる時期は終え、より信頼性が高く、安全な手法へ代えていく転換期が来ているのではないか。

　そのようななか、エヌビディアは24年6月、シンセティックデータ生成システムの「Nemotron-4 340B」を公開した。次回はこの「Nemotron-4 340B」について詳しく見ていく。（つづく）