オープンソース化で生成AI開発に何が起きているか　長谷佳明

2023年11月20日

　産業技術総合研究所、国立情報学研究所、東京工業大学などからなる大規模言語モデルに関する研究開発を行うグループ「LLM-jp」は2023年10月、日本語に特化したモデルの開発を発表した。

　一般に、高性能な大規模言語モデルの構築を目指す場合、2020年にオープンAIが公開したGPT-3（Generative Pre-trained Transformer）が目標にされる。尺度はモデルの「パラメーター数」で、大きければ大きいほど性能は向上するとされる。GPT-3と同じ1750億か、相応のサイズとして1000億がターゲットにされることが多い。

　LLM-jpが開発するモデルもGPT-3にならい、パラメータ数は1750億だ。出所が明らかで透明性の高い日本語データを準備し、産業技術総合研究所が持つAIスーパーコンピューター「AI橋渡しクラウド（AI Bridging Cloud Infrastructure、ABCI）」を学習に活用する。開発したモデルは公開する予定だ。LLM-jpのホームページに掲載された趣旨説明によると「完全にオープンで商用利用可能なモデルの継続的な構築」としていることから、用途を研究に絞らず商用利用を認める可能性が高い。

　また、国の予算で整備された開発基盤を使うことから、無償で公開される可能性もあり、将来的に企業が生成AIを活用したサービスやビジネスを作り出す際の選択肢の一つになるだろう。

一大ムーブメントを巻き起こしたリナックス

　海外では、英国のスタビリティAI社が2022年8月、画像生成AI「ステーブルディフュージョン」をオープンソースとするなど、自社で開発した大規模言語モデルを惜しげもなく公開する動きが始まっている。この動きは日本にも広がり、2023年8月にLINEが、オープンソースとして大規模言語モデルを公開している。

　筆者は2000年代前後の学生時代、リーナス・トーバルズ氏が開発したコンピューターOSのLinux（リナックス）をはじめとするオープンソース・ソフトウエアの一大ムーブメントの中で過ごした。大学の研究室の計算機は、オープンソース・ソフトウエアによって構築され、ソフトウエアのパッケージには「Debian（デビアン）」と呼ばれるオープンソースのシステムが活用されていた。

　Debianの優れたライブラリー管理システムは、その後、他のオープンソースのプロジェクトにも多大な影響を与え、プログラミング言語の「Python（パイソン）」のライブラリー管理システム「pip」も同様の仕組みが実装されている。生成AIにも、オープンソースの波が押し寄せていることを強く感じる。

クラウドサービスもオープン化

　オープンソースといえば、ソフトウエア開発のソースコードを管理保存するため、「GitHub」や「GitLab」のようなクラウドサービスが活用されてきた。生成AIをはじめとするオープンソースのAIプロジェクトにも、これらサービスは引き続き利用されているが、最近は「ハギングフェイス（Hugging Face）」というサービスが利用されるケースが増えてきた。ハギングフェイスは、米国の同名のスタートアップ企業（「ハギングフェイス（Hugging Face）」）が運営するAIの開発やコミュニティーを運営するためのクラウドサービスだ。

　生成AIをはじめ、AIのモデルは大規模化する傾向にある。学習済みのモデルのデータは、数ギガバイト（GB）にも及ぶことがあるが、GitHubのような従来のサービスでは、100メガバイト（MB）を超えるファイルのアップロードには利用制限がかけられ、追加の費用が必要になった。

　一方、ハギングフェイスは、無料プランでもギガバイト級のファイルのアップロードが可能である。また、従来のソースコード管理サービスと異なり、オンライン上でAIをデモするための実行環境も用意され、追加料金を払えば、GPU（Graphics Processing Unit）を備えた高速な専用環境も利用できる。

　ハギングフェイスは、このほか、ステーブルディフュージョンで利用されているライブラリーや生成AIで根幹となるAI部品を開発、公開しており、米国のリサーチ会社CBインサイツ（2023年6月時点）によると、すでに10億ドルを超える評価額を有するユニコーン企業に数えられている。この分野でもオープン化が優位性を保つカギになることを示している。