週刊エコノミスト Online 最前線! AIの世界

AIとGPUの今後を考える-莫大な投資を無駄にしないために 長谷佳明

AIに力を入れるメタ・プラットフォームズ(インタビューを受けるザッカーバーグCEO)=2024年7月18日 Bloomberg
AIに力を入れるメタ・プラットフォームズ(インタビューを受けるザッカーバーグCEO)=2024年7月18日 Bloomberg

 メタ・プラットフォームズのザッカーバーグCEOは、2024年10月の第3四半期の決算発表で、10万基以上ものGPU(Graphics Processing Unit)を使ったコンピューターで、AIに関する次世代のオープンモデル「Llama4」を学習中であることを公表した。現行の「Llama3」は、24年3月に公開した同社のブログの中で、2万4578基を用いて学習したと公表している。1年もたたないうちに、AI学習のインフラは約4倍の規模に拡大したことがうかがえる。使われていたGPUはエヌビディアの「H100」であった。

 AIに関するコンピューターで高性能GPUは欠かせない存在になった。そして、そのGPUで圧倒的シェアを握っているのがエヌビディアだ。メタの事例がそうであるように、今後もAIに関するGPUはエヌビディアに依存するのだろうか。

AIは互換性を問われない

 GPUのそもそもの役割であるゲームなどのグラフィックス処理においては、マイクロソフトのようなオペレーティングシステムベンダーの開発する「DirectX」、Epic Gamesのようなゲームプラットフォーマーの「アンリアルエンジン」などに仕様が握られており、その下で動くGPUは、互換性を担保せねばならず、エヌビディア一択ではない。

 しかし、AIの世界は異なる。AIのモデルの学習結果はパラメーターの数字列であり、計算さえできれば、学習方法は問わない。AIのモデルの表現形式には、ONNX(Open Neural Network Exchange)と呼ばれるフォーマットがあり、これに対応しさえすれば、さまざまなGPUの環境で推論も動作する。

 大規模なモデルになればなるほど、学習に必要な計算量は膨大なものとなる。エヌビディアの環境を用いれば、GPUとライブラリー(特定の機能や操作を実行するためのコードの集合体)に任せて並列処理が効果的に働くため、状況に合わせてエンジニアが一つ一つ手作業でチューニングするなどの手間が省ける。

グーグルもAI半導体を開発 Bloomberg
グーグルもAI半導体を開発 Bloomberg

 エヌビディアは、GPUの性能もさることながら、GPU間を高速なネットワークで接続するなど拡張可能なアーキテクチャーと、CUDA(Compute Unified Device Architecture)を基盤としたソフトウエアを、10年もの歳月をかけて熟成させてきた。その完成度は高く、今のところ他社の追随を許していない。

他社もエヌビディアを追うが…

 AMD(アドバンスト・マイクロ・デバイセズ)は、16年からエヌビディアのCUDAに相当するROCm(Radeon Open Compute)と呼ばれる、AMDのGPU向けのライブラリーをオープンソースとして提供している。オープンソースで成功させるには、ユーザーを増やさなければならない。しかし、ユーザーを増やすには、ライバルを凌ぐ性能や時に低価格が必要になるが、それを達成することは簡単ではない。ROCmは、CUDAの誕生から10年後の誕生であり、現状のエヌビディア相当のソフトウエアの成熟度に達するには、投資と時間がなおも必要になるだろう。時間がかかれば、エヌビディアはさらに先に行ってしまうジレンマに陥っているのではなかろうか。

 グーグルやアマゾンなどのメガクラウドベンダーも、自社のサービス向けに、AI用半導体を以前から開発している。グーグルは16年5月、AIの推論用に特化した「Tensor Processing Unit(TPU)」を発表している。今でこそ、学習用も開発しているが、当初は、比較的軽量な推論を対象としていた。膨大な演算が必要となるモデルの学習はエヌビディアのGPUに任せ、今後AIの普及に伴い利用が増加する推論に高いニーズを見いだしたのではないかと推測される。

 しかし、この状況は、ChatGPTの登場により方向転換を余儀なくされた。AIは大規模言語モデルをはじめとした規模の時代を迎え、推論にも、大量のリソースが必要になったからである。これは、メガクラウドベンダーにとっても想定外であったに違いない。

アマゾンはアンソロピックを後押し

 ただ、他社も手をこまねいて見ているのではなく、例えばアマゾンは、20年12月にAI学習用半導体「Trainium」を発表、23年11月には次世代のAI学習用半導体「Trainium2」を発表するなど、メガクラウドベンダーらは常に戦略をアップデートしている。Trainium2の成熟度が増せば、アマゾンは徐々に自社製GPUへの置換を進めると予想されるが、AMDと同じく、ハードウエアだけでなく、その上のソフトウエアへの投資も重ねて必要になることから、AI市場の成長と顧客ニーズを今後も慎重に見極めた判断が求められる。

アマゾンも自社製GPUの技術を磨く Bloomberg
アマゾンも自社製GPUの技術を磨く Bloomberg

 アマゾンは12月3日、同社のクラウドサービスの年次イベント「re:Invent」で、数十万のTrainium2からなるAIスーパーコンピューター「Project Rainier」をアンソロピック社向けに開発中であると発表した。かつて、マイクロソフトがオープンAIに専用のAIスーパーコンピューターを構築し、開発を後押ししたように、今度はアマゾンが、オープンAIのライバルであるアンソロピック社の開発を後押しした形だ。この背景には、アマゾンは、2023年9月に40億ドル、2024年11月にも追加で40億ドルと、アンソロピックを戦略的パートナーと考え、継続的に投資し続けている点がある。

 アマゾンの自社製GPUもアンソロピックのような超大口顧客がつけば、かなりの規模の安定的な需要となる。アマゾンにとっては自社製GPUの技術を磨く、またとない実践の場となり、それと同時にマイクロソフトに対抗するAIのモデルを獲得できうるなど、一度で二度おいしい“好機”となる。

開発状況を共有する必要性も

 AIのマーケットの主戦場は、世界中で発表されるデータセンターへの新たな投資が物語るように、GPUやコンピューターのインフラに偏っている。先行投資が吉と出るか凶と出るかは、モデルの“成長”いかんにかかっている。なおもAIのモデルが貪欲に学習し、学習のための演算を必要とし、推論にも相応のリソースが求められるならば、先行投資は、AIの生み出す、新たな知力として社会に還元され、実を結ぶだろう。

 しかし、今や問題の本質は、AIインフラ投資が壮大な空振りに終わらないかだ。GPUも学習するモデルや、推論する課題なくして、活用は進まない。まるで、休日だけ使われれる自家用車のごとく、開店休業中のデータセンターが世界中で生まれるかもしれない。最新GPUも数年もすれば、“型落ち”になり、投資を回収できない不良資産になりかねない。GPUも必要な量をいかにタイミングよく、獲得し利用するかがカギになる。

 AIの最前線は、プロプライエタリモデル(非公開モデル)を開発するオープンAIやアンソロピック、オープンモデルを開発するメタ・プラットフォームズのような企業が主体となっており、以前のように学術研究の場で惜しげもなく、最新動向を披露しあうという状況ではなくなっている。

 常に相手に探りを入れて様子をうかがいながら、小出しに必要最低限の情報を共有している状況になっており、極めて見通しが悪い。莫大な投資が無駄にならないように、手の内を明かさないまでも、各社の技術をリードするものらが、互いの最新の開発状況や方向性を共有し、時に協調する“ホットライン”の開設も打ち手の一つとして考えられる。

 SAPやオラクルなどのソフトウエアベンダーがあらかじめ、製品のリリース計画をユーザー企業と共有するように、AI企業らも、不確定要素が多いことは承知のうえで開発ロードマップや計画を公開し、信頼性や透明性を醸成する時期が来ているといえるだろう。

インタビュー

週刊エコノミスト最新号のご案内

週刊エコノミスト最新号

1月14日・21日合併号

中国・動乱前夜16 学生20万人が深夜サイクリング 指導部が警戒する「動乱」の兆し■安藤大介19 インタビュー 柯隆 東京財団政策研究所主席研究員 米中対立は激化必至 習政権に解見つからず20 経済成長 GDP押し下げるトランプ関税 長引く不動産不況に追い打ち ■三浦 祐介22 消費不振長期化 不動 [目次を見る]

デジタル紙面ビューアーで読む

おすすめ情報

編集部からのおすすめ

最新の注目記事