これは大規模言語モデル (LLM) の全盛期です。 最近、言語モデルの規模は指数関数的に拡大しています。2020年にOpenAIによって発表されたGPT-3には1,750億個のパラメーターがありました。2021年には、ディープマインド・ゴーファー(Gopher)は2,800億個に達し、国内のネイバー・ハイパークローバ(HyperClova)は2,400億個のレベルに達しました。MS-NVIDIA の MT-NLG (メガトロンチューリング自然言語生成モデル) でさえ、5,300 億ユニットという非常に大きなモデルです。
では、なぜ大手テクノロジー企業はチキンレースに近い競争を繰り広げているのでしょうか。(AI コミュニティでは、新しいムーアの法則についても話題になっています。*)その理由は、性能向上のための研究開発の過程で、大型モデルの有用性を実感したからです。** もちろん、最近では他のアプローチも登場していますが、LLMではこの大きなトレンドを止めるには不十分のようです。
大規模な言語モデルは絶対的に良い(良い)のでしょうか?
しかし、LLM開発の副作用に対する懸念も高まっています。
まず、AI言語技術が日常生活に応用されるにつれ、さまざまな倫理的問題が発生しています。 これは、言語モデルによって学習された膨大な量のデータには、人間が生み出したさまざまな形の差別、憎悪、偏見を含む有害なテキストも含まれているためです。これを学習したAIが、攻撃的な言葉を使ったり、虚偽の情報を送ったりして問題になったケースは、すでに数多く見てきました。
また、モデルのトレーニングには膨大なエネルギー消費と二酸化炭素排出量が必要です。 機械学習は、化石燃料(あまり知られていないが)と同じくらい、地球環境に悪影響を及ぼしています。人工知能倫理学者のティムニット・ゲブル(ティムニット・ゲブルー)(彼はLLMの危険性を指摘し、グーグルから解雇された)の論文によると 「言語モデルが受け取るデータが増えるにつれ、2017年以降、エネルギー消費量と二酸化炭素排出量(カーボンフットプリント)は爆発的に増加しています。」それでおしまい。***
決定的に (みんなのためにAIのふりをしているけど) LLMは急速に独占され、権限を与えられつつあります。 大規模な言語モデルの開発には多額の資本と投資が必要であり、結局のところ、それを処理できるのは大手テクノロジー企業(利益追求を目的とした)だけです。このような傾斜した環境では、一人ひとりが入手できるデータや計算能力のレベルによっては、テクノロジーのギャップはますます拡大するに違いありません。
OPEN (OPEN) という名前のオープンAIであるGPT-3でさえ、最近はMSによって独占されています。
変化を求める新しい運動
しかし、この状況を変えたい人がいます。ハギングフェイス(ハギングフェイス)を中心としたビッグサイエンス(ビッグサイエンス)プロジェクトには、世界中から1,000人を超えるAI研究者が自発的に力を合わせました。彼らは既存のLLM (有害な) 開発手法から離れ、BLOOM (BLOOM: BigScience 大規模オープンサイエンスオープンアクセス学際言語モデル) と呼ばれる新しいLLMを作成しました。
さらに、Bloomの規模は既存の有名なLLMに匹敵します。GPT-3 よりも1760億個大きいパラメーターがあります。Bloomは、これほどの規模を持つオープンソースのマルチリンガル (マルチリンガル) モデルとしては初めてだと言われています。
それでは、Bloomが試した変更を詳しく見てみましょう。
不可視
ほとんどのLLMは、コードやモデルを透明に開示していません。(Google、Metaなどもオープンソースについて話していますが、制限されていることが多く、これは純粋な意図ではないと思います。)その結果、LLMがどのように学習し、機能するのかを部外者が明確に理解することは困難でした。一方、ブルームは、トレーニングデータ、開発プロセス記録、モデル性能評価方法に関するすべての資料を透明性のある方法で開示していました。
この動きは小さいけど大きい (?)独占的だった業界の慣行のせいで、騒ぎが起こりました。人工知能の研究は、排他性をなくすべきであることを、行動を通じて示しました。彼らは開発プロセスのログをまとめてオンラインで公開しており、誰でもデータやモデルを無制限にダウンロードして使用することができます。
しかし、ブルームには、LLMに関連する倫理的問題から完全に抜け出すことは難しいという制限もあります。なぜなら、トレーニングデータからすべてのエラーやバイアスを取り除くことは難しいからです。代わりに、彼らはこの弱点を誇らしげに認め、その弱点がどこから来たのか、どのようなデータなのか、どのように使われているのかを明らかにする方法を選びました。
さらに、本格的な開発に先立ち、ビッグサイエンス倫理憲章(BigScience倫理憲章)と責任あるAIライセンス(責任あるAIライセンス)が発表されました。**** 倫理モデルの開発と使用の指針となる原則を事前に確立しました。もちろん、悪意のある悪用を防ぐことは難しいかもしれませんが、少なくとも、透明で開かれた環境の中で、原則に基づいた自律的な規制という新しい文化を築くことはできます。
汎用性
ブルームはオンラインで無差別に収集されたデータを使用しませんでした。代わりに、世界中から多様なデータを選択して提供するためのさらなる努力が払われました。多様性を保つため、データは多言語のウェブクローリングによって収集され、フィルタリングされ、プライバシーを保護するために処理されました。特に、関連する言語コミュニティグループ(Masakhane、LatinX、Machine Learning Tokyoなど)がデータソースを提案し、参加した研究者が学術出版物を含む大量のデータセットを直接選択したと言われています。*****
さらに、他の英語中心のLLMとは異なり、Bloomは世界中で46の言語をサポートしています。英語は学習データの約 30% しか占めていません。フランス語、ベトナム語、北京語、インドネシア語、13の地域インド言語、20のアフリカ部族言語を含む合計46の自然言語と13のプログラミング言語をサポートしています。
そして、これは自然言語処理の未来を変える可能性のある重要な点です。
これまで、LLMは主に英語で開発されてきました。なぜなら、英語が主流なインターネット上のデータから学んできたからです。しかし、この傾向により、この世界の多くの (特に第三世界か少数の言語の) 言語は、自然言語処理の将来から当然除外されるでしょう。
ブルーム、小さいけれど貴重な種
ブルームは、世界に小さいながらも貴重な種(人工知能の民主化の花になりうる)をまきました。しかし、この小さな種が美しく育って咲くためには、今後多くの試練を乗り越えなければなりません。現実的には、Bloomが現在の大手テック企業が主導するLLMシーンに大きな変化をもたらすことは難しいでしょう。
また、従来のLLMと同様に、Bloomには固有の制限があります。たとえば、悪用されたり、攻撃的な言葉や悪意のある言葉が吐き出されたりする可能性があります。しかし、このセクションでは、Huggingfaceのマーガレット・ミッチェル(Teamnet Gebruに続いてGoogleのAI倫理部門から解雇された)からの次の回答が希望を与えてくれます。
「ブルームは、従来の言語処理モデルと同様に、差別的な表現を生成したり、言語処理能力の精度が低下したりするなどの問題を引き起こす可能性もあります。 ただし、Bloomはオープンソースであるため、多くのユーザーはBloomの長所と短所を批判的に疑問視し、最終的には問題を迅速に改善するのに役立ちます。」 ******
* https://huggingface.co/blog/large-language-models
** https://moon-walker.medium.com/왜-최신-language-model은-급격하게-커지는-것일까-f686fb3d5799
***「引用」 https://www.technologyreview.kr/google-ai-ethics-research-paper-forced-out-timnit-gebru/
*** https://dl.acm.org/doi/epdf/10.1145/3442188.3445922
**** https://bigscience.huggingface.co/blog/bigscience-ethical-charter
**** https://bigscience.huggingface.co/blog/the-bigscience-rail-license
*****「引用」 http://www.aitimes.com/news/articleView.html?idxno=145494
******「見積もり」 https://www.codingworldnews.com/news/articleView.html?idxno=11086
参考文献
[1] https://bigscience.huggingface.co
[2] https://huggingface.co/bigscience/bloom
[3] https://bigscience.huggingface.co/blog/bloom
[4] https://bigscience.notion.site/bigscience/BigScience-214dc9a8c1434d7bbcddb391c383922a
[5] https://montrealethics.ai/category/columns/social-context-in-llm-research/
[6] 言語モデルがもたらす分類上のリスク https://facctconference.org/static/pdfs_2022/facct22-19.pdf
[7] ファンデーションモデルの機会とリスクについて https://arxiv.org/abs/2108.07258
[8] Googleが黒人女性のAI倫理研究者を解雇した理由 https://www.technologyreview.kr/google-ai-ethics-research-paper-forced-out-timnit-gebru/
[9] イーロン・マスクが「MSとGPT-3の独占は間違った行為だ」と非難した背景とは http://it.chosun.com/site/data/html_dir/2020/10/02/2020100200695.html
[10] ブルームは10年で最も重要なAIモデルです https://towardsdatascience.com/bloom-is-the-most-important-ai-model-of-the-decade-97f0f861e29f
[11] GPT-3、なぜプランを選んだのですか...マイクロソフトに独占的なライセンスを付与しましたか? http://www.aitimes.kr/news/articleView.html?idxno=17878
[12] オープンソース言語モデル「BLOOM (ブルーム)」のローンチ...オープンAIとグーグルに挑戦 http://www.aitimes.com/news/articleView.html?idxno=145494
[13] それは自然言語処理の民主化でしょうか?...オープンソース・グループ、GPT-3 独占に対する新モデルを発表 http://www.aitimes.com/news/articleView.html?idxno=137604
[14] AI時代に必要なのはオープンな「ソース」ではなく、オープンソースの「アクセス権」 https://www.itworld.co.kr/news/246010
[15] 資本主義時代の言語モデル、AIパワー http://weekly.khan.co.kr/khnm.html?mode=view&code=114&artid=202206031124071