エヌビディアが開発したシンセティックデータ生成システム「Nemotron-4 340B」の実力 長谷佳明
◇シンセティックデータ(下)
シンセティックデータ(合成データ)とは、統計的手法やシミュレーション技術などにより、実世界の特徴を精度高く模倣して、新たに作り出されるデータである。前回も触れたが、シンセティックデータにも生成AIが活用され始めている。
エヌビディアは2024年6月、AIの学習用シンセティックデータ生成システム「Nemotron-4 340B」を公開した。3400億パラメータに及ぶLLM(Large Language Model、大規模言語モデル)を中心に構成され、金融、製造、小売りなどのさまざまな業界で流通するデータを模倣できる。
ニュースや経済データ、商品取引など、実世界のデータを学んだ大規模言語モデルは、知識ばかりか、やり取りされるデータの特徴もつかんでいるため、条件や状況に応じた仮想的な「通話」や「メール」「ビジネス文書」などを生み出す「生成器」になる。大規模言語モデルは、私たちが世の中の事象を漠然と捉えて「もし~が起きたらどうなるのだろう」と想像するよりもはるかに正確に事象をシミュレーションできる。その産物がシンセティックデータである。
好ましくない情報を排除
Nemotron-4は、オープンAIの大規模言語モデルGPT-3がChatGPTへと躍進したきっかけとなった「アライメント(調整)」の仕組みを応用している。ChatGPTでは、質問に対する解答例を複数出力し、評価を繰り返すことで解答の質を高めた。人間が一つ一つ解答例を確認し、その中からどれが良いか評価もできるが、時間的にもコスト的にも負担が大きいため、オープンAIは解答例と人間の評価のペアのデータから「人間らしい評価を下すAI(Rewardモデル)」を開発した。
Nemotron-4にも、独自に開発したReward(報酬)モデル「Nemotron-4 340B Reward」が組み込まれており、データが意図に沿ったものとなっているか評価し、質の悪いものを省き、質の良いものだけをそろえる機能を持つ。インターネットのデータを直接学習する代わりに、Nemotron-4が生み出すデータを活用し、個人情報や社会通念上、好ましくない表現がAIに取り込まれるのを抑制するなど、安心、安全な学習環境を構築する。
エヌビディアはNemotron-4を、メタ・プラットフォームズの大規模言語モデル「Llama3 70B(ベースライン)」のファインチューニングで評価した。その結果、人の作り出したデータを学習したメタの「Llama 3 70B(Instruct)」と同等の性能を実現しながらも、学習データの量は10分の1に抑えられるなど、驚くべきことにNemotron-4の生み出すデータは、人間が作ったデータよりも優れていた。設計次第では、AI自身がAIの「原材料」にもなりうる。シンセティックデータは、AI学習の代替データとして有望であることを示す。
データは“蓄積”から“製造”へ
エヌビディアはなぜ、Nemotron-4を開発したのか。それは、学習データの問題解決なくして、AIの発展はないと考えたからであろう。
同社は、ディープラーニングをはじめとした、今日のAI開発のためのインフラストラクチャーに長年、投資し続けてきた。ゲームで培ったGPU(Graphics Processing Unit)技術を応用し、AI向けハードウエアの代名詞に育て上げた。また、AIエンジニアらは、エヌビディアが同じく開発したGPU向け並列処理ソフトウエアCUDA(Compute Unified Device Architecture)を活用し、GPUの専門的な知識がなくとも、性能を効果的に引き出すことができる環境を整えた。エヌビディアは、常にAIの先を見据え、AIに必要なハードウエアやソフトウエアを開発し、発展を支えてきたといえる。
そして現在、AIの次の進化のボトルネックになり始めているのが、学習データの制約である。インターネット上のデータの利用に厳しい目が向けられ始め、データの質の問題も次第に明らかになった。そこで有効と考えられたのがシンセティックデータである。エヌビディアの戦略からも、AIの産業としての裾野が、ハードウエア、ソフトウエアから、いよいよデータに広がり、データも“蓄積する時代”から“製造する時代”へと変わろうとしているのがわかる。
経済学には「外部不経済」という考え方がある。ある地域や国の経済活動が、第三者の社会に対して、負の影響を与えているにもかかわらず、そのコストが市場価格に反映されていない状態を示す。たとえば、かつて熱帯雨林などで横行した焼き畑農業である。焼き畑農業は、簡単に農地を作り出せるものの、環境の回復に必要なコストが考慮されていない。AIも、インターネットから大量のデータをいとも簡単に収集できるとしても、何の配慮なく学習すれば、個人のプライバシーを侵害する可能性が高い。これまではAIの生み出す価値に対して、リスクが軽視されてきたといえる。
今後は、課題の多い「天然データ」の直接利用に代わり、シンセティックデータのような代替データが人の行動や社会システムなどをAIに学ばせるうえで活用されるようになるだろう。代替データを生み出す仕組みは、生成と評価、蓄積のように、複数の精製プロセスを経た一種の化学プラントの様相を呈し、AIの重要なインフラといえる。10年後の未来、シンセティックデータを生み出す“データ製造業”なるものが、一大産業になっているかもしれない。(おわり)