前回、ChatGPTのような生成系人工知能(以下、生成系AI)技術が注目され、家庭教育にも応用可能であることを示しました。本稿では、生成系AIの最新の動向と様々な技術が次々と登場している点に触れます。特に、マルチモーダルAIや自律系AIが示す新しい展望は、我々の未来に大きな影響を与えるでしょう。そしてこれらの技術の進化の先に「シンギュラリティ」が起こりえるのかも検討したいと思います。
生成系AIの現状:オープン化・高速化・多様化・自律化
近年、生成系AIは目覚ましい進化を遂げています。特にOpenAIのGPT-4のような大規模言語モデル(Large Language Model, 以下LLM)は、膨大なテキストデータから学習し、司法試験や医師試験で合格に足る成績を達成したり、人間の指示に基づいてプログラムを生成したりすることも可能※1です。しかしGPTシリーズの内部の仕組みは非公開※2であるため、透明性の欠如、安全性の懸念、イノベーションの制限など、多くの懸念が浮き彫りになってきました。AIの動作原理や学習データが不明確であると、性能の変動の原因も不明確になるため、特定のモデルをベースに開発したAI製品が動作しないなど、技術の進化や社会の受け入れに影響を及ぼす可能性が出てきます。
そんな中、メタ社(旧Facebook)は新しいAIモデル「Llama 2」を公開しました。Llama 2は、OpenAIやGoogleのモデルと比較して、軽量で透明性が高く、カスタマイズが容易※3であるため、迅速にAI製品を開発可能です。メタはLlama 2の全ての詳細を共有しているため、開発者はモデルの設計や訓練方法を正確に理解できます。
また、高速化と軽量化のトレンドも注目されます。LLMは通常、大量のGPUメモリを必要とします。例えばメタがリリースしたOPT-175Bモデル※4を動かす際には、350GB以上のGPUメモリが必要※5です。これは、NVIDIA A100 (80GB) のような高性能GPUが5つ必要となり、GPUだけで1,400万円を超えます※6。ところが、FlexGenという生成エンジンを用いることによりGPU1つでもLLMを動かすことが可能になってきました。FlexGenのオフローディング(分散処理)により、LLMのサイズがGPUのメモリを超えても、CPUメモリやディスクを使用して処理が可能になります。圧縮技術を利用すると処理できるデータ量は大幅に向上し、既存の生成エンジンの100倍以上高速になります※7。
さらに、lmsys.orgが、Llamaをベースに開発したオープンソースのVicunaは、GPUすら必要としません。Vicuna-7Bであれば約30GB、Vicuna-13Bであれば約60GBのCPUメモリで動作し、家庭用のPCでも動作可能なレベルになっています。なお、Vicuna-13Bの性能はChatGPTの90%に匹敵する※8と謳われています。
このようなAIの高速化や軽量化技術はここ数ヶ月で次々にリリースされており、今後もしばらくは続きそうです。
マルチモーダルAIと自律系生成AI
生成系AIはChatGPTが取り上げられることが多いですが、他にも多数存在します。中でもマルチモーダルAIは、複数のモード(テキスト、画像、音声など)のデータを処理するAIを指します。例えば、テキストから画像を生成するOpenAIのDALL-E 2※9、StabilityAIのStable Diffusion※10、Midjourney※11などが挙げられます。また1枚の画像から物語を生成するfffiloni/Image-to-Story※12や、テキストから音楽を生成するMubert_Text_to_Music※13など、多岐にわたるアプリケーションが存在します。
特筆すべきは、AutoGPT※14やBabyAGI※15、Open Interpreter※16などの自律系生成AIです。これらのAIは、指定された目的に基づいてタスクを自動生成し、目標を達成するまで自律的に動作します。これらのツールが、専門家でなくても安価あるいは無料で利用可能になっているのです。
AGI(Artificial General Intelligence、汎用人工知能)と現在の生成系AIの違い
最後に、現在の生成系AIの先にシンギュラリティは存在するのか検討します。まず、現在のすべてのAIは「狭義のAI」や「特定のタスク専用のAI」として分類されており、特定のタスク(例:文章生成や画像認識など)に特化しています。しかし、AGIには、これらのタスクを超えて、人間が持つあらゆる知的能力を模倣・実行すること※17が求められています。AIが人間レベルの汎用性を有すると、自らを改善し、さらに高度なAIを生み出す能力を持つ可能性があるため、AGIの実現はシンギュラリティ到来のマイルストーンとなりえます。
現代のAI技術は多くの点で驚異的な進歩を遂げていますが、その能力にはまだ限界があります。例えば、意思や欲望、自己認識の能力や、日常的な自律的学習、直感や道徳的・倫理的判断、物理的なインタラクションの能力など、多くの面で制約が存在します。これらの制約は、単にデータを増やすことや、推論を強化するだけで突破することは難しいと考えられます。また、リアルワールドの複雑さや変化の大きさ、データの品質や量、そもそもデータ化が難しいものなどの制約も存在します。そのため、現在のモデルの進化には限界があり、AGIの実現はその限界を超えた先の話だろうと私は考えます。
ただし、LLMは、ある学習計算量を超えると、性能が急激に向上することが確認されています※18。これは、個々の動作を超えて、高度で複雑なシステムが生じる創発性によるものだと言われています。今後もマシンの性能向上やデータ量の増加、人間との共同作業によって、今では考えられないような高度で複雑なAIが生まれる可能性はあります。将来は未確定ですが、現在使用に値するレベルのAIが手軽に使える世の中になっていることは間違いありませんので、我々はその仕組みを理解し上手に利用することで、それぞれの理想的な世界を構築していくことに役立てられると考えます。
※1 “GPT-4”, OpenAI
※2 Will Douglas Heaven “オープンAIが「GPT-4」を発表、性能向上も詳細は非公表に”, MITテクノロジーレビュー,Accessed 15 Sept. 2023.
※3 Heikkilä, Melissa “メタの大規模言語モデルが問う「オープンであること」の価値”,MITテクノロジーレビュー, 16 Aug. 2023, Accessed 15 Sept. 2023.
※4 Meta Research. “Metaseq/Projects/OPT at Main · Facebookresearch/Metaseq.”
※5 shanestorks. “Question on Hardware Requirements for OPT-175B · Issue #144 · Facebookresearch/Metaseq.” GitHub, 10 Jan. 2022, Accessed 15 Sept. 2023.
※6 価格コム(kakaku.com)による (2023年9月)
※7 Foundation Model Inference. “FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU [Paper].” GitHub, 22 July 2023, Accessed 15 Sept. 2023.
※8 The Vicuna Team. “Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org.”, Lmsys.org, 30 Mar. 2023
※9 “DALL·E 2.” OpenAI,
※10 “Stable Diffusion.” Computer Vision and Learning research group at Ludwig Maximilian University of Munich (formerly Computer Vision Group at Heidelberg University). 2022
※11 “Midjourney.” Midjourney
※12 “Image to Story – a Hugging Face Space by Fffiloni.” Filoni, Sylvain. Huggingface.co
※13 “Mubert-Text-To-Music.” Mubert
※14 The Official Auto-GPT Website
※15 “BabyAGI.” nakajima, yohei
※16 “● Open Interpreter.” killianLucas
※17 “汎用人工知能”, Wikipedia.org, ウィキメディア財団, 16 July 2023, Accessed 15 Sept. 2023.
※18 Wei, Jason, and Yi Tay. “Characterizing Emergent Phenomena in Large Language Models.” Blog.research.google, 10 Nov. 2022, Accessed 15 Sept. 2023.