前回の第一四半期の間の主要な人工知能ニュースを集めてみました。 これまでは昨年末に公開されたチャットGPTをはじめとする生成AIが依然として話題のようです。 その他にも注目すべきAI技術や業界及び動向をお伝えします。
1月
グーグル、「チャットGPT」に対する公式立場表明
グーグルが「OUR FOCUS-Why we focus on AI(and to whatend)」というAIに対する自分たちの観点を表明した文書を発表しました。 簡単に要約すると、AI開発は慎重で責任感を持つべきだということです。 ただ、発表の時期的に外部からの視線はチャットGPTの登場で危機感を感じたグーグルの牽制という解釈が多いです。
References
https://ai.google/our-focus/
https://korea.googleblog.com/2023/01/ai-our-perspective-focus-principle.html
ディープマインド、適応型人工知能「エイダ(AdA)」発表
ディープマインドが人間と同じくらいの速さで正確に問題を解決する適応型人工知能エイダ(AdA)を公開しました。 従来の強化学習AIとは異なり、実験を通じて学習する方法を学んだそうです。 まるで人間や動物が遊びを通して学ぶように課題を遂行する能力を向上させ、新しい課題にも早く適応できると言います。
References
https://sites.google.com/view/adaptive-agent/?pli=1
https://arxiv.org/abs/2301.07608
https://www.techtimes.com/articles/287019/20230131/deepminds-ada-ai-system-solves-new-tasks-quickly-accurately-humans.htm
グーグル、新しいイメージ生成AIミューズ(Muse)公開
ミューズは、従来のダリ(DALL-E)、イマジン(Imagen)よりもはるかに速く高品質の画像を生成します。 しかも、イメージの品質と正確性も他のモデルより優れているそうです。 グーグルは「細分化された言語理解が可能になり、オブジェクト、空間関係、ポーズなど視覚的概念を理解することができ、テキストだけでマスキング作業が可能になる」と説明しました。
References
https://arxiv.org/abs/2301.00704
https://muse-model.github.io
http://www.newstheai.com/news/articleView.html?idxno=3696
マイクロソフト、音声合成人工知能バリ(VALL-E)を発表
VALL-Eはたった3秒の音声サンプルだけで人の音声だけでなく、感情トーンと録音環境まで模倣します。 つまり電話の音声サンプルを使えば、合成音声も電話のように聞こえるのです。 これをMSは「ニューラルコーデック言語モデル(Neural Codec Language Models)」と名付け、(従来の波形操作による音声合成方法ではなく)テキストと音響プロンプトで個別のオーディオコーデックコードを生成する方式です。
References
https://arxiv.org/abs/2301.02111
https://valle-demo.github.io
https://www.thedailypost.kr/news/articleView.html?idxno=91008
2月
グーグル、バード(Bard)公開
Googleはラムダ(LaMDA)ベースの実験的なインタラクティブな人工知能バードを公開しました。 バードはラムダの軽量モデルバージョンで、チャットGPTの対抗馬とされていました。 ただ公開以後、エラーが発生して株価が大幅に下落するハプニングがあり、先日検索ではなく別途のチャットサービスで米国と英国で優先発売されました。
References
https://bard.google.com
https://blog.google/technology/ai/try-bard/
https://blog.google/technology/ai/bard-google-ai-search-updates/
https://www.technologyreview.com/2023/03/21/1070111/google-bard-chatgpt-openai-microsoft-bing-search/
マイクロソフト、チャットGPT導入して新しくなったビング(Bing)公開
MSがチャットGPT機能が導入された新しいビングを公開しました。 これを「検索の再発明、ウェブのための副操縦士(your copilot for the web)」と紹介しました。 この他にもMSはオープンAIに100億ドルを追加投資すると知られていて、以降のオフィスなど全製品群にGPT技術を適用する計画だと明らかにしました。
References
https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new-ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
https://www.itworld.co.kr/news/276655#csidxa068bf634d0830c9b213c3120a547d9
メタ、AI言語モデルのツールフォーマー(Toolformer)公開
メタ(META)がツールの使い方を自ら学習できるAI言語モデルツールフォーマーを公開しました。 API呼び出し機能を通じて検索、電卓、カレンダー、翻訳機のような外部ソフトウェアツールを使用できる機能を備えたのです。 これを通じて自然言語処理で莫大な能力を見せてくれますが、算術や事実確認のような他の基本作業には困難だった既存の言語モデルの限界を克服しようとする試みです。
References
https://arxiv.org/abs/2302.04761
https://arstechnica.com/information-technology/2023/02/meta-develops-an-ai-language-bot-that-can-use-external-software-tools/
https://www.aitimes.com/news/articleView.html?idxno=149518
3月
オープンAI、次世代大型言語モデルGPT-4を公開
GPT-4はマルチモーダル機能を加えた大型言語モデルです。 テキストとイメージの両方に反応でき、チャットGPTよりも大きく、優れたモデルです。 ただ、発売と共に導入ラッシュが行われ爆発的な関心を呼び起こしましたが、以前とは異なりオープンAIが技術情報のほぼ公開せず、多くの批判を受けました。
References
https://openai.com/product/gpt-4
https://openai.com/research/gpt-4
https://arxiv.org/abs/2303.08774
https://www.technologyreview.com/2023/03/14/1069823/gpt-4-is-bigger-and-better-chatgpt-openai/
オープンAI、チャットGPTプラグイン公開
既に知られているように、チャットGPTは2021年までのデータで学習しました。 つまり、その後の情報は知らないという限界がありましたが、今回の外部APIを連動させたことで様々な機能を追加できるチャットGPTプラグインが公開されました。 これで従来よりもはるかに多様な機能を遂行できるようになっただけでなく、信頼性と正確性も向上したといいます。
References
https://openai.com/blog/chatgpt-plugins
https://platform.openai.com/docs/plugins/introduction
https://github.com/openai/chatgpt-retrieval-plugin
https://www.zdnet.com/article/chatgpt-is-getting-access-to-the-internet-heres-what-that-means-for-you/
グーグル、マルチモーダル言語モデル「パーム-E(PaLM-E)」を公開
グーグルが言語と視覚認識機能を備えたマルチモーダル言語モデルのPaLM-Eを公開しました。 以前公開した大規模言語モデルPaLMにビジョンモデルとロボット制御を追加したのです。 今や言語モデルがテキストを越えてイメージ、オーディオ、映像情報を理解しロボットを制御するなど活用範囲が大きく増えるものと見られます。
References
https://ai.googleblog.com/2023/03/palm-e-embodied-multimodal-language.html
https://palm-e.github.io
https://palm-e.github.io/assets/palm-e.pdf
마이マイクロソフト、マルチモーダル大型言語モデルKosmos-1を公開
MSが自然言語処理だけでなく、視覚機能も備えたマルチモーダル大型言語モデル(Kosmos-1)を公開しました。 つまり、これまでオープンAI技術を積極的に活用する一方で、MS内部で独自開発も同時に進めてきたのです。 コスモス-1はイメージを分析して質問に答えられますが、視覚的知能(IQ)を測定するレーヴン漸進的マトリックス(Raven's Progressive Matrices)でも一部の成果(22~26%正解率)を出すなど言語モデルの非言語的推論遂行の可能性を示しました。
References
https://arxiv.org/pdf/2302.14045.pdf
https://github.com/microsoft/unilm
https://techrecipe.co.kr/posts/51346
ビル・ゲイツ「AIは私の生涯で2番目に革命的な技術」
ビル・ゲイツが自分のブログを通じて人工知能、特に生成AIを現時代で最も重要な革新として挙げました。 「自分の生涯で(彼がMSを設立するのに影響を与えたりもした)GUI(Graphic User Interface)以後、大きな衝撃を受けた革命的な技術だ」と明らかにしました。 これにより、世界が根本的に変化すること(「Artificial intelligence is as revolutionary as mobile phones and the Internet」)と期待を表明する一方、AI技術の恩恵を平等を享受できるようなルールが必要だと強調しました。
References
https://www.gatesnotes.com/The-Age-of-AI-Has-Begun
https://www.bbc.com/news/technology-65032848
おわりに
ビル・ゲイツだけでなく、全世界で生成AIが私たちの生きる世界をどのように変化させるか期待と憂慮を共に表明しています
先日、ディープラーニングの代母と呼ばれるフェイフェイ・リー(Fei-Fei Li)もスタンフォードHAI(Human Centered Artificial Intelligence)が発表した報告書「Generative AI:Perspectives from Stanford HAI」*を通じて生成AIを「AIの偉大な変曲点(AI's Great Inflection Point)」と言及しています。 「人間が見ることができる機械」の発展に多大な貢献をしてきた彼女が、今は「人間が見ることができないものを見ることができるAI」を作ることを考えられる時点だとし、大きな期待感を示したのです。 ただ、それと同時にAIの偏向性、悪意的な使用の可能性に対する懸念を示しました。 新しい機会を完全に実現するためには、格別な注意と危険度の評価が必ず必要だという指摘です。
最近、あふれ出ているAI関連のニュースを見守りながら、多くのことを考えるしかありませんでした。 AI技術の急速な発展により、人類はこれからきらびやかなバラ色の道を歩むことになるのか、それとも暗くて悲惨な未来を迎えるのか? 今、我々はこれを決定するかもしれない重大な岐路に立たされているのです。
* https://hai.stanford.edu/sites/default/files/2023-03/Generative_AI_HAI_Perspectives.pdf