AIとGPUの今後を考える-莫大な投資を無駄にしないために 長谷佳明
メタ・プラットフォームズのザッカーバーグCEOは、2024年10月の第3四半期の決算発表で、10万基以上ものGPU(Graphics Processing Unit)を使ったコンピューターで、AIに関する次世代のオープンモデル「Llama4」を学習中であることを公表した。現行の「Llama3」は、24年3月に公開した同社のブログの中で、2万4578基を用いて学習したと公表している。1年もたたないうちに、AI学習のインフラは約4倍の規模に拡大したことがうかがえる。使われていたGPUはエヌビディアの「H100」であった。
AIに関するコンピューターで高性能GPUは欠かせない存在になった。そして、そのGPUで圧倒的シェアを握っているのがエヌビディアだ。メタの事例がそうであるように、今後もAIに関するGPUはエヌビディアに依存するのだろうか。
AIは互換性を問われない
GPUのそもそもの役割であるゲームなどのグラフィックス処理においては、マイクロソフトのようなオペレーティングシステムベンダーの開発する「DirectX」、Epic Gamesのようなゲームプラットフォーマーの「アンリアルエンジン」などに仕様が握られており、その下で動くGPUは、互換性を担保せねばならず、エヌビディア一択ではない。
しかし、AIの世界は異なる。AIのモデルの学習結果はパラメーターの数字列であり、計算さえできれば、学習方法は問わない。AIのモデルの表現形式には、ONNX(Open Neural Network Exchange)と呼ばれるフォーマットがあり、これに対応しさえすれば、さまざまなGPUの環境で推論も動作する。
大規模なモデルになればなるほど、学習に必要な計算量は膨大なものとなる。エヌビディアの環境を用いれば、GPUとライブラリー(特定の機能や操作を実行するためのコードの集合体)に任せて並列処理が効果的に働くため、状況に合わせてエンジニアが一つ一つ手作業でチューニングするなどの手間が省ける。
エヌビディアは、GPUの性能もさることながら、GPU間を高速なネットワークで接続するなど拡張可能なアーキテクチャーと、CUDA(Compute Unified Device Architecture)を基盤としたソフトウエアを、10年もの歳月をかけて熟成させてきた。その完成度は高く、今のところ他社の追随を許していない。
他社もエヌビディアを追うが…
AMD(アドバンスト・マイクロ・デバイセズ)は、16年からエヌビディアのCUDAに相当するROCm(Radeon Open Compute)と呼ばれる、AMDのGPU向けのライブラリーをオープンソースとして提供している。オープンソースで成功させるには、ユーザーを増やさなければならない。しかし、ユーザーを増やすには、ライバルを凌ぐ性能や時に低価格が必要になるが、それを達成することは簡単ではない。ROCmは、CUDAの誕生から10年後の誕生であり、現状のエヌビディア相当のソフトウエアの成熟度に達するには、投資と時間がなおも必要になるだろう。時間がかかれば、エヌビディアはさらに先に行ってしまうジレンマに陥っているのではなかろうか。
グーグルやアマゾンなどのメガクラウドベンダーも、自社のサービス向けに、AI用半導体を以前から開発している。グーグルは16年5月、AIの推論用に特化した「Tensor Processing Unit(TPU)」を発表している。今でこそ、学習用も開発しているが、当初は、比較的軽量な推論を対象としていた。膨大な演算が必要となるモデルの学習はエヌビディアのGPUに任せ、今後AIの普及に伴い利用が増加する推論に高いニーズを見いだしたのではないかと推測される。
しかし、この状況は、ChatGPTの登場により方向転換を余儀なくされた。AIは大規模言語モデルをはじめとした規模の時代を迎え、推論にも、大量のリソースが必要になったからである。これは、メガクラウドベンダーにとっても想定外であったに違いない。
アマゾンはアンソロピックを後押し
ただ、他社も手をこまねいて見ているのではなく、例えばアマゾンは、20年12月にAI学習用半導体「Trainium」を発表、23年11月には次世代のAI学習用半導体「Trainium2」を発表するなど、メガクラウドベンダーらは常に戦略をアップデートしている。Trainium2の成熟度が増せば、アマゾンは徐々に自社製GPUへの置換を進めると予想されるが、AMDと同じく、ハードウエアだけでなく、その上のソフトウエアへの投資も重ねて必要になることから、AI市場の成長と顧客ニーズを今後も慎重に見極めた判断が求められる。
アマゾンは12月3日、同社のクラウドサービスの年次イベント「re:Invent」で、数十万のTrainium2からなるAIスーパーコンピューター「Project Rainier」をアンソロピック社向けに開発中であると発表した。かつて、マイクロソフトがオープンAIに専用のAIスーパーコンピューターを構築し、開発を後押ししたように、今度はアマゾンが、オープンAIのライバルであるアンソロピック社の開発を後押しした形だ。この背景には、アマゾンは、2023年9月に40億ドル、2024年11月にも追加で40億ドルと、アンソロピックを戦略的パートナーと考え、継続的に投資し続けている点がある。
アマゾンの自社製GPUもアンソロピックのような超大口顧客がつけば、かなりの規模の安定的な需要となる。アマゾンにとっては自社製GPUの技術を磨く、またとない実践の場となり、それと同時にマイクロソフトに対抗するAIのモデルを獲得できうるなど、一度で二度おいしい“好機”となる。
開発状況を共有する必要性も
AIのマーケットの主戦場は、世界中で発表されるデータセンターへの新たな投資が物語るように、GPUやコンピューターのインフラに偏っている。先行投資が吉と出るか凶と出るかは、モデルの“成長”いかんにかかっている。なおもAIのモデルが貪欲に学習し、学習のための演算を必要とし、推論にも相応のリソースが求められるならば、先行投資は、AIの生み出す、新たな知力として社会に還元され、実を結ぶだろう。
しかし、今や問題の本質は、AIインフラ投資が壮大な空振りに終わらないかだ。GPUも学習するモデルや、推論する課題なくして、活用は進まない。まるで、休日だけ使われれる自家用車のごとく、開店休業中のデータセンターが世界中で生まれるかもしれない。最新GPUも数年もすれば、“型落ち”になり、投資を回収できない不良資産になりかねない。GPUも必要な量をいかにタイミングよく、獲得し利用するかがカギになる。
AIの最前線は、プロプライエタリモデル(非公開モデル)を開発するオープンAIやアンソロピック、オープンモデルを開発するメタ・プラットフォームズのような企業が主体となっており、以前のように学術研究の場で惜しげもなく、最新動向を披露しあうという状況ではなくなっている。
常に相手に探りを入れて様子をうかがいながら、小出しに必要最低限の情報を共有している状況になっており、極めて見通しが悪い。莫大な投資が無駄にならないように、手の内を明かさないまでも、各社の技術をリードするものらが、互いの最新の開発状況や方向性を共有し、時に協調する“ホットライン”の開設も打ち手の一つとして考えられる。
SAPやオラクルなどのソフトウエアベンダーがあらかじめ、製品のリリース計画をユーザー企業と共有するように、AI企業らも、不確定要素が多いことは承知のうえで開発ロードマップや計画を公開し、信頼性や透明性を醸成する時期が来ているといえるだろう。