プラットフォーマーvs生成AI「データは誰のものなのか」③ 長谷佳明
ネット上に投稿したコンテンツが、自分の知らないところでAIに取り込まれて学習されるとしたら、違和感を覚える人も多いだろう。「レディット(Reddit)」に蓄積されたデータは、果たして「誰のもの」なのだろうか?
レディットの利用規約である「Reddit User Agreement」によれば、コンテンツの所有権は、「retain(留保)」という形で作成者に残るものの、使用やコピー、変更や翻訳、2次的著作物の作成や配布に至るまで、広範囲のライセンスをレディットに「grant(付与)」することになっている。つまり、投稿されたデータは、事実上、プラットフォーマーであるレディットのものとなり、AI開発企業にデータが渡り、AIに学習されようが、それを差し止める権利は、現時点ではユーザー側に用意されていない。
今日、個人情報を収集する際には、収集されるデータの具体的な範囲や種類、データ収集の目的などを“事前”に明らかとしたうえで個人に同意を取り、初めて入手できる。これと比べ、レディットに蓄積されている「個人が生み出したデータ」は、利用規約をたてに、その用途を明記しないまま、半ば事前承諾があいまいな状態で、収集、利用されている。事実、本稿執筆時点(2024年4月24日)の最新の「2024年2月15日改定」では、AIによるコンテンツの学習などは一切述べられていない。
「あの組織」が動く意味
このような状況に対して、巨大プラットフォーマーに対する消費者の代弁者である「あの組織」が動こうとしている。
Reddit Data APIの有料化や、グーグルへのデータの利用権に関する契約などが契機となり、2024年3月14日、FTC(米連邦取引委員会)に、第三者へのAIの学習を目的としたデータ販売に関して疑義を呈する意見書が提出されたことが判明し、IPO(新規株式公開)に影響を与えるものとして、翌日の2024年3月15日にSEC(米証券取引委員会)に目論見書の修正として速やかに報告された。 FTCの調査がいかに、株価や企業の動向に影響を与えうるのか証明する動きといえるだろう。
FTCといえば、巨大プラットフォーマーの独占に対し、公聴会でも臆することなく、鋭く切り込むことで有名なリナ・カーン委員長が有名である。
23年9月には、FTCはアマゾンを不公正な競争方法を念頭に反トラスト法違反で提訴した。具体的には、アマゾンは独占的な地位を利用し、高額な手数料を販売する企業に請求したり、アマゾンよりも安い価格を提供したりしている企業の検索結果を意図的に下位にすることで、消費者が安く商品を購入する機会を妨害するなどして、不当に利益を上げている--との疑いである。 調査段階でありながらも、FTCが動くとなると、そのインパクトは大きく、直後にアマゾンの株価は3%以上下落した。
AIのデータを巡る取り組みは、レディットに限らず、今後、同様の掲示板サービスやコミュニティーサービスを手掛けるプラットフォーマーにとって、新たな収益獲得の手段として間違いなく注目を集めていく。
一方で、個人情報と比べ、一般人がコミュニティーサイトなどで何気なく生み出してきたコメントや豆知識のような、“作品未満”のコンテンツは、従来、さほど価値があるとは思われず、権利の主張をする状況にはなかった。
データの価値は変化する
しかし、AI時代を迎え、日常的なやり取りの中で発生する文章や知識が、一つ一つの価値はさほど大きくなくても、大量に集めたり、整理したりすれば、それはAIにとって唯一無二の貴重なデータとなる。データの価値は状況により常に変化するのである。
また、データの“消費者”も変化する。レディットで友人らと楽しく趣味に関して語らった文章が、よもやAIプラットフォーマーに販売され、取り込まれるとは夢にも思ってこなかったろう。AIは21世紀のデータの“新たな消費者”となる。20世紀末からつい最近まで、データの消費者といえば、もっぱら強欲な広告プラットフォーマーらであったが、今後は、AIが人間の生み出すデータの一大消費者となっていくだろう。
もちろん、AIに文章を“売らない”選択肢は、ユーザーに与えられるべきである。この観点からも、すでにFTCは本件に関する議論を始めているようだ。AIが社会に受け入れられる技術となるためにも、インターネット上のプライバシー保護において「忘れられる権利」が議論されてきたように、データの生産者(人)の権利として、「AIに学習させない権利」の整備が急務であるといえるだろう。
(このテーマは終わり)