近年、大規模データを用いたディープラーニングベースの自然言語処理研究が活発に行われています。企業、学界を問わず、誰もが飛び込んでいます。GoogleやMetaなどの大手テクノロジー企業や、BigScience(BigScience)などのパブリックコラボレーションプロジェクトは、目覚ましい成果を上げています。
この成果の背景には、豊富なコーパスデータから事前に学習されたトランスフォーマー(Transformer)があります。*設置されています。それ以来、多くのバリアントが登場し、パフォーマンスは急速に向上しました。また、これらの言語モデルのほとんどは、大量のコーパスデータを用いた教師なし学習です。**を使用しているため、データ収集が非常に重要になっています。
しかし、これほど急速に発展してきた言語モデル研究には残念な点があります。特に、この国で生まれ、韓国に住んでいる私たちの視点から見ると。大まかに言って、韓国語モデルの学習には以下の2つの理由から多くの困難がありました。
まず、まず第一に、韓国語の言語的特徴は英語とは大きく異なります。私たちにとって一般的に日本語の方が英語よりも習得しやすいように、英語を学習してきた人工知能は、韓国語よりもスペイン語の方がはるかに簡単に処理できるはずです。これについては以前のコンテンツですでに説明したので、詳細は以下の記事をチェックしてください。
-なぜ人工知能は韓国語をより難しくしているのですか?
2つ目の理由は、トレーニングデータの量がモデルのパフォーマンスに直接関係していることです。一般に、韓国語などのリソースの少ない (リソースの少ない) 言語では、パフォーマンスの向上は比較的限定的です。これについては、大規模言語モデルや多言語モデルに関する過去のコンテンツでも見てきたので、そちらもチェックしてみてください。
-オープンソース言語モデル BLOOM は AI 民主化の花になることができるのか?
-言語の天才となったAI、多言語 (ポリグロット) モデル (1)
-言語の天才となったAI、多言語 (ポリグロット) モデル (2)
しかし、韓国語の自然言語処理研究のレベルが上がるにつれて、韓国語を中心としたモデルが研究されたり公開されたりするケースは増え続けています。韓国電子通信研究院 (ETRI)、Naver、Kakaoなどの国内有数の機関や企業が、次々と新しいモデルを発表しています。コルベルト、ハイパークローバ、KoGPT、EXAONEなどさまざまなモデルが次々と登場し、現在も研究が続けられています。
そこで、この機会に、これまでに明らかになった韓国語モデルの概要を共有したいと思います。大まかに言うと、エンコーダモデル (BERT)*** シリーズ)、デコーダーモデル (GPT)**** シリーズ)、エンコーダ-デコーダモデル (seq2seq***** それらを3つのモデルグループ(シリーズ)に分けて集めました。
次回の記事では結果を順を追って紹介していきますので、お楽しみに。
* https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
** https://en.wikipedia.org/wiki/Unsupervised_learning
*** https://en.wikipedia.org/wiki/BERT_(language_model)
**** https://en.wikipedia.org/wiki/OpenAI#GPT
***** https://en.wikipedia.org/wiki/Seq2seq
参考文献
[1] https://arxiv.org/abs/2112.03014
[2] https://aiopen.etri.re.kr/service_dataset.php
[3] https://github.com/SKTBrain/KoBERT
[4] https://github.com/monologg/HanBert-Transformers
[5] https://github.com/SKT-AI/KoGPT2
[6] https://huggingface.co/gogamza/kobart-base-v2
[7] https://arxiv.org/abs/2101.11363
[8] https://koreascience.kr/article/CFKO202130060717834.pdf
[9] https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5
[10] https://arxiv.org/abs/2105.09680
[11] https://arxiv.org/abs/2109.04650
[12] https://huggingface.co/kakaobrain/kogpt
[13] https://s-space.snu.ac.kr/handle/10371/175838
一緒に見るのに良いコンテンツ
言語の天才になったAI、多言語 (ポリグロット) モデル (1)言語の天才になったAI、多言語 (ポリグロット) モデル (2) オープンソース言語モデル BLOOM は AI 民主化の花になることができるのか?なぜ人工知能は韓国語をより難しくしているのですか?