生成AIの誕生① 「敵対的生成ネットワーク」がもたらした発展 長谷佳明
2023年に入ってから、新聞やテレビなどのメディアで、チャットGPTをはじめとした「生成AI」に関するニュースが話題を集めている。生成AIはビジネスに新たなブレークスルーを起こそうとしている。2回にわたり、生成AIの誕生と進化について紹介する。
なぜ「Generative」なのか
生成AIとは、まるで人が作り出したかのような文章や画像などを作り出すAIのことをいう。語源は、英語の「Generative Artificial Intelligence」(ジェネレーティブ=生成的な=人工知能)に由来する。
「生成的な」に近い表現には、「productive」(生産的な)や「creative」(創造的な)という表現もあるが、あえて、「generative」(生成的な)を用いた背景には、generativeは、「新しい生命を生み出すさま」という意味を持つことも関係していると思われる。
生成AIは、学習したデータから“新たな”コンテンツを生み出す。まるで生物が遺伝子情報を活用し、時に突然変異を加え、次の世代を生み出すように、生成AIは学習したデータをよりどころとしながらも、乱数などの機械的な変異を加えつつ、次のコンテンツを生み出す。このため、捉え方によっては「生殖的」な特徴を持つといえる。
「本物」と「偽物」を競わせる
生成AIという言葉は、2023年に入り日本ではメディアをにぎわしたものの、その歴史は古く、2012年の第3次AIブームの初期にさかのぼる。
生成AIが、研究者の間で大きな注目を集めたのは、2014年のイアン・グッドフェロー氏らによる研究である。グッドフェロー氏は、当時、カナダ・モントリオール大学のヨシュア・ベンジオ教授のもとで学ぶ研究者であった。ベンジオ教授は、ディープラーニング(深層学習)の長年の研究により、コンピューターに関するノーベル賞ともいわれる「チューリング賞(2018年度)」を受賞することになる著名な教授の1人である。
グッドフェロー氏らは、研究論文「Generative Adversarial(敵対的) Nets」の中で、後に「敵対的生成ネットワーク(GAN、Generative Adversarial Network)」と呼ばれることになるAIの新たなモデルを提案した。
敵対的生成ネットワークとは、画像や音声などのデータを新たに作り出すAIと、それが「本物」のデータか、AIによって作られた「偽物」のデータかを判別するAIとを繰り返し競わせることで、本物に迫るデータを作り出す手法である。ディープラーニングを用いた従来の手法と比べ、画像生成であれば、格段に画像が鮮明になりリアリティーが増すなど、生成AIの研究が活性化するきっかけとなった。
エヌビディアの貢献
敵対的生成ネットワークの研究は、その後、「生成AI」としてAI研究の一角をなすようになり、改良や応用が進められた。
なかでも有名なものが、2018年に発表された「StyleGAN」である。StyleGANは、アメリカの半導体メーカー・エヌビディアの研究者らによって発表されたフォトリアルな人の顔画像を生成するAIである。世の中に実在しないAIの作り出した人の顔であるのにもかかわらず、一見すると、実在する人と区別のつかないような写真風の画像を作り出し、研究者らに衝撃を与えた(冒頭の写真)。生成AIは、文章生成よりも先に、画像生成で先行していた。
エヌビディアは、現代のAIの研究において欠かすことができないGPU(Graphics Processing Unit)を開発するメーカーとしても有名である。
GPUは元々、その名の示す通り、CPU(中央演算処理装置)に代わり、グラフィックス処理を高速化することを目的に開発されたチップであったが、近年は、AIで多用される行列計算との相性の良さから、AIの基盤技術にもなっている。また、エヌビディアは、チップの開発にとどまらず、AIの開発に合わせたソフトウエア、さらには、多くのAI研究者を抱え、自らがAIの「実践者」としてグラフィックスチップ企業から、AIコンピューティング企業へと急成長した企業である。
ただ、敵対的生成ネットワークは、確かにAI研究者の間で注目を集め、生成AIの新たな可能性を切り開く一翼を担ったものの、活用例の多くは画像生成や音声生成にとどまっていた。ビジネスで活用するにも、活用先が限定的で、「リアリティー」だけでは、現在の生成AIの爆発的なブームを巻き起こすようなことはなかったのである。
次回は、研究分野に過ぎなかった生成AIがブームを巻き起こすことになった核心に迫る。