プラットフォーマーvs.生成AI「データは誰のものなのか」① 長谷佳明
米国最大級のオンライン掲示板サービス「レディット(Reddit)」が2024年3月、ニューヨーク証券取引所に上場した。上場初日の終値は、売り出し価格の34ドルを48%上回る50.44ドルとなり、時価総額は80億ドル(約1.2兆円)に達した。好調な株価もさることながら、レディットは昨年来の生成AIブームと関係が深い。
レディットのIPO(新規株式公開)のために提出された目論見書によると、議決権を持つ株主としてオープンAIのサム・アルトマンCEO(最高経営責任者)の名前が確認できる。アルトマン氏は、2011年からベンチャーキャピタル「Yコンビネーター」に在籍し、14年からは社長を務めるなど、19年3月にオープンAIのCEOとなる直前まで、同社の事業をけん引していた。
Yコンビネーターは、設立間もないスタートアップから、将来のユニコーン企業に育つであろう「光る原石」を見つける確かな目を持つことで有名だ。同社が手掛けるアクセラレータープログラム(専門家による事業成長のための数カ月から半年の特別支援)を経て飛躍的に成長した企業には、宿泊サービスのAirbnb、決済サービスのStripe、ストレージサービスのDropboxなどが名を連ね、レディットもその卒業生である。
データを有料化する
アルトマン氏は15年、レディットの当時の暫定CEOのスキャンダルに伴う辞任により、8日間だけであるが同社のCEOについたこともあるなど多くの接点を持つ。また、アルトマン氏は、19歳の時に設立した位置情報共有サービス企業「Loopt」を売却して得た資金などを元手に、実兄と投資会社「ヒドラジン・キャピタル」を設立しており、その出資によりレディットの大株主となるなど、個人的にもレディットとは深い関係にある。
レディットには、政治やファッション、教育をはじめ、個人的な悩みやサブカルチャーまで、さまざまな話題が投稿され、専門家や有名人も参加し、ちょっとした相談から白熱した議論までが展開される一大コミュニティーになっている。本連載でも、ビル・ゲイツ氏のAIエージェントに関する論考を引用した(2024年3月1日掲載)が、その投稿もレディットである。
また、レディットは第三者が開発するアプリケーションからレディットのデータにアクセスするための「Reddit Data API」というサービスを無料で公開していた。この目的は、レディットに不足する機能を独自アプリケーションにより補い、レディットの使い勝手を向上させ、コミュニティーを活性化することにある。
しかし、APIを介してレディットのデータを利用するユーザーには、AI開発企業もいた。日々ユーザーによって書き込まれ、蓄積される文章は、AIにとって言語の特徴や知識を獲得するための貴重なデータにもなる。
レディットのデータを学習して開発されたAIサービスは、データを生み出したレディットのユーザーに何ら利益を還元しておらず、AI企業らは一方的に大量のデータを搾取し利用する一種の“フリーライダー(タダ乗り)”に見えた。このため、23年4月、レディットはAPIの有料化の計画を発表した(後日、課金額はAPIを5000万回呼び出すごとに1万2000ドルと判明)。
グーグルもレディットのデータを利用
グーグルは、23年2月に発表した会話型AI「Bard」でレディットのデータを利用するなど、同社のデータを活用してきた。レディットのAPIの有料化に伴い24年2月、年間6000万ドルに及ぶデータ利用に関する包括的な契約を結んだ。この結果グーグルは、引き続きAIの学習をはじめ、推論の際にもレディットのデータを利用できる。
昨今は、AIのモデルがさらに巨大化(パラメーター数が増加)し、AI開発企業にとって学習データの確保が最重要課題になっている。グーグルにとっても、有効なデータの宝庫であるレディットを失うわけにはいかなかったと思われる。たとえ、そのデータがライバル企業であるオープンAIのCEOであるサム・アルトマンの息のかかった企業であったとしてでもである。(続く)