エヌビディアが開発したシンセティックデータ生成システム「Nemotron-4 340B」の実力　長谷佳明

2024年8月26日

◇シンセティックデータ（下）

　シンセティックデータ（合成データ）とは、統計的手法やシミュレーション技術などにより、実世界の特徴を精度高く模倣して、新たに作り出されるデータである。前回も触れたが、シンセティックデータにも生成AIが活用され始めている。

　エヌビディアは2024年6月、AIの学習用シンセティックデータ生成システム「Nemotron-4 340B」を公開した。3400億パラメータに及ぶLLM（Large Language Model、大規模言語モデル）を中心に構成され、金融、製造、小売りなどのさまざまな業界で流通するデータを模倣できる。

　ニュースや経済データ、商品取引など、実世界のデータを学んだ大規模言語モデルは、知識ばかりか、やり取りされるデータの特徴もつかんでいるため、条件や状況に応じた仮想的な「通話」や「メール」「ビジネス文書」などを生み出す「生成器」になる。大規模言語モデルは、私たちが世の中の事象を漠然と捉えて「もし～が起きたらどうなるのだろう」と想像するよりもはるかに正確に事象をシミュレーションできる。その産物がシンセティックデータである。

好ましくない情報を排除

　Nemotron-4は、オープンAIの大規模言語モデルGPT-3がChatGPTへと躍進したきっかけとなった「アライメント（調整）」の仕組みを応用している。ChatGPTでは、質問に対する解答例を複数出力し、評価を繰り返すことで解答の質を高めた。人間が一つ一つ解答例を確認し、その中からどれが良いか評価もできるが、時間的にもコスト的にも負担が大きいため、オープンAIは解答例と人間の評価のペアのデータから「人間らしい評価を下すAI（Rewardモデル）」を開発した。

米カリフォルニア州サンノゼで開かれたエヌビディアGPU技術カンファレンスで発言するジェンセン・フアンCEO＝2024年3月19日　Bloomberg

　Nemotron-4にも、独自に開発したReward（報酬）モデル「Nemotron-4 340B Reward」が組み込まれており、データが意図に沿ったものとなっているか評価し、質の悪いものを省き、質の良いものだけをそろえる機能を持つ。インターネットのデータを直接学習する代わりに、Nemotron-4が生み出すデータを活用し、個人情報や社会通念上、好ましくない表現がAIに取り込まれるのを抑制するなど、安心、安全な学習環境を構築する。

　エヌビディアはNemotron-4を、メタ・プラットフォームズの大規模言語モデル「Llama3 70B（ベースライン）」のファインチューニングで評価した。その結果、人の作り出したデータを学習したメタの「Llama 3 70B（Instruct）」と同等の性能を実現しながらも、学習データの量は10分の1に抑えられるなど、驚くべきことにNemotron-4の生み出すデータは、人間が作ったデータよりも優れていた。設計次第では、AI自身がAIの「原材料」にもなりうる。シンセティックデータは、AI学習の代替データとして有望であることを示す。

データは“蓄積”から“製造”へ

　エヌビディアはなぜ、Nemotron-4を開発したのか。それは、学習データの問題解決なくして、AIの発展はないと考えたからであろう。

　同社は、ディープラーニングをはじめとした、今日のAI開発のためのインフラストラクチャーに長年、投資し続けてきた。ゲームで培ったGPU（Graphics Processing Unit）技術を応用し、AI向けハードウエアの代名詞に育て上げた。また、AIエンジニアらは、エヌビディアが同じく開発したGPU向け並列処理ソフトウエアCUDA（Compute Unified Device Architecture）を活用し、GPUの専門的な知識がなくとも、性能を効果的に引き出すことができる環境を整えた。エヌビディアは、常にAIの先を見据え、AIに必要なハードウエアやソフトウエアを開発し、発展を支えてきたといえる。

エヌビディアのチップ。生成AIの発展とともに需要が急増＝2024年3月14日　Bloomberg

　そして現在、AIの次の進化のボトルネックになり始めているのが、学習データの制約である。インターネット上のデータの利用に厳しい目が向けられ始め、データの質の問題も次第に明らかになった。そこで有効と考えられたのがシンセティックデータである。エヌビディアの戦略からも、AIの産業としての裾野が、ハードウエア、ソフトウエアから、いよいよデータに広がり、データも“蓄積する時代”から“製造する時代”へと変わろうとしているのがわかる。

　経済学には「外部不経済」という考え方がある。ある地域や国の経済活動が、第三者の社会に対して、負の影響を与えているにもかかわらず、そのコストが市場価格に反映されていない状態を示す。たとえば、かつて熱帯雨林などで横行した焼き畑農業である。焼き畑農業は、簡単に農地を作り出せるものの、環境の回復に必要なコストが考慮されていない。AIも、インターネットから大量のデータをいとも簡単に収集できるとしても、何の配慮なく学習すれば、個人のプライバシーを侵害する可能性が高い。これまではAIの生み出す価値に対して、リスクが軽視されてきたといえる。

　今後は、課題の多い「天然データ」の直接利用に代わり、シンセティックデータのような代替データが人の行動や社会システムなどをAIに学ばせるうえで活用されるようになるだろう。代替データを生み出す仕組みは、生成と評価、蓄積のように、複数の精製プロセスを経た一種の化学プラントの様相を呈し、AIの重要なインフラといえる。10年後の未来、シンセティックデータを生み出す“データ製造業”なるものが、一大産業になっているかもしれない。（おわり）