テクノロジー 最前線! AIの世界

エヌビディアが開発したシンセティックデータ生成システム「Nemotron-4 340B」の実力 長谷佳明

◇シンセティックデータ(下)

 シンセティックデータ(合成データ)とは、統計的手法やシミュレーション技術などにより、実世界の特徴を精度高く模倣して、新たに作り出されるデータである。前回も触れたが、シンセティックデータにも生成AIが活用され始めている。

 エヌビディアは2024年6月、AIの学習用シンセティックデータ生成システム「Nemotron-4 340B」を公開した。3400億パラメータに及ぶLLM(Large Language Model、大規模言語モデル)を中心に構成され、金融、製造、小売りなどのさまざまな業界で流通するデータを模倣できる。

 ニュースや経済データ、商品取引など、実世界のデータを学んだ大規模言語モデルは、知識ばかりか、やり取りされるデータの特徴もつかんでいるため、条件や状況に応じた仮想的な「通話」や「メール」「ビジネス文書」などを生み出す「生成器」になる。大規模言語モデルは、私たちが世の中の事象を漠然と捉えて「もし~が起きたらどうなるのだろう」と想像するよりもはるかに正確に事象をシミュレーションできる。その産物がシンセティックデータである。

好ましくない情報を排除

 Nemotron-4は、オープンAIの大規模言語モデルGPT-3がChatGPTへと躍進したきっかけとなった「アライメント(調整)」の仕組みを応用している。ChatGPTでは、質問に対する解答例を複数出力し、評価を繰り返すことで解答の質を高めた。人間が一つ一つ解答例を確認し、その中からどれが良いか評価もできるが、時間的にもコスト的にも負担が大きいため、オープンAIは解答例と人間の評価のペアのデータから「人間らしい評価を下すAI(Rewardモデル)」を開発した。

米カリフォルニア州サンノゼで開かれたエヌビディアGPU技術カンファレンスで発言するジェンセン・フアンCEO=2024年3月19日 Bloomberg
米カリフォルニア州サンノゼで開かれたエヌビディアGPU技術カンファレンスで発言するジェンセン・フアンCEO=2024年3月19日 Bloomberg

 Nemotron-4にも、独自に開発したReward(報酬)モデル「Nemotron-4 340B Reward」が組み込まれており、データが意図に沿ったものとなっているか評価し、質の悪いものを省き、質の良いものだけをそろえる機能を持つ。インターネットのデータを直接学習する代わりに、Nemotron-4が生み出すデータを活用し、個人情報や社会通念上、好ましくない表現がAIに取り込まれるのを抑制するなど、安心、安全な学習環境を構築する。

 エヌビディアはNemotron-4を、メタ・プラットフォームズの大規模言語モデル「Llama3 70B(ベースライン)」のファインチューニングで評価した。その結果、人の作り出したデータを学習したメタの「Llama 3 70B(Instruct)」と同等の性能を実現しながらも、学習データの量は10分の1に抑えられるなど、驚くべきことにNemotron-4の生み出すデータは、人間が作ったデータよりも優れていた。設計次第では、AI自身がAIの「原材料」にもなりうる。シンセティックデータは、AI学習の代替データとして有望であることを示す。

データは“蓄積”から“製造”へ

 エヌビディアはなぜ、Nemotron-4を開発したのか。それは、学習データの問題解決なくして、AIの発展はないと考えたからであろう。

 同社は、ディープラーニングをはじめとした、今日のAI開発のためのインフラストラクチャーに長年、投資し続けてきた。ゲームで培ったGPU(Graphics Processing Unit)技術を応用し、AI向けハードウエアの代名詞に育て上げた。また、AIエンジニアらは、エヌビディアが同じく開発したGPU向け並列処理ソフトウエアCUDA(Compute Unified Device Architecture)を活用し、GPUの専門的な知識がなくとも、性能を効果的に引き出すことができる環境を整えた。エヌビディアは、常にAIの先を見据え、AIに必要なハードウエアやソフトウエアを開発し、発展を支えてきたといえる。

エヌビディアのチップ。生成AIの発展とともに需要が急増=2024年3月14日 Bloomberg
エヌビディアのチップ。生成AIの発展とともに需要が急増=2024年3月14日 Bloomberg

 そして現在、AIの次の進化のボトルネックになり始めているのが、学習データの制約である。インターネット上のデータの利用に厳しい目が向けられ始め、データの質の問題も次第に明らかになった。そこで有効と考えられたのがシンセティックデータである。エヌビディアの戦略からも、AIの産業としての裾野が、ハードウエア、ソフトウエアから、いよいよデータに広がり、データも“蓄積する時代”から“製造する時代”へと変わろうとしているのがわかる。

 経済学には「外部不経済」という考え方がある。ある地域や国の経済活動が、第三者の社会に対して、負の影響を与えているにもかかわらず、そのコストが市場価格に反映されていない状態を示す。たとえば、かつて熱帯雨林などで横行した焼き畑農業である。焼き畑農業は、簡単に農地を作り出せるものの、環境の回復に必要なコストが考慮されていない。AIも、インターネットから大量のデータをいとも簡単に収集できるとしても、何の配慮なく学習すれば、個人のプライバシーを侵害する可能性が高い。これまではAIの生み出す価値に対して、リスクが軽視されてきたといえる。

 今後は、課題の多い「天然データ」の直接利用に代わり、シンセティックデータのような代替データが人の行動や社会システムなどをAIに学ばせるうえで活用されるようになるだろう。代替データを生み出す仕組みは、生成と評価、蓄積のように、複数の精製プロセスを経た一種の化学プラントの様相を呈し、AIの重要なインフラといえる。10年後の未来、シンセティックデータを生み出す“データ製造業”なるものが、一大産業になっているかもしれない。(おわり)

インタビュー

週刊エコノミスト最新号のご案内

週刊エコノミスト最新号

9月24日・10月1日合併号

NISAの見直し術14 長期・分散・積み立てが原則 「金融リテラシー」を高めよう■荒木涼子16 強気 「植田ショック」から始まる大相場 日経平均は年末4万5000円へ■武者陵司18 大恐慌も 世界経済はバブルの最終局面へ  実体経済”に投資せよ■澤上篤人20 中長期目線 「金利ある世界」で潮目変化  [目次を見る]

デジタル紙面ビューアーで読む

おすすめ情報

編集部からのおすすめ

最新の注目記事