この記事は、前回の記事「韓国語プレ韓国語モデル (韓国語モデル) (1)」からの続きです。最初にチェックしてからこのコンテンツを見ることをお勧めします。
韓国語以前の韓国語モデルを見る (1) 見に行く
海外と同様に、大量のコーパスを通じて事前に学習したTransformerをもとに韓国語でモデルを勉強する例はたくさんあります。コバート、コルバート、ハンバート、コエレクトラ、コGPT、ハイパークロバなど、さまざまなモデルが発表されています。この記事では、最初にリリースされた主なモデルと機能を時系列で簡単にまとめ、次にそれらをエンコーダー(エンコーダー)、デコーダー(デコーダー)、エンコーダー(デコーダー)、エンコーダーデコーダー(Encoder-DecoderModel、seq2seq)シリーズに分けて整理します。
韓国語モデルクロニクル
2019
コルバート(トランスフォーマーの韓国語双方向エンコーダー表現)
これは、韓国電子通信研究院(ETRI)が公開した最初の韓国語事前学習モデルです。韓国のニュースや百科事典から抽出された23 GBのデータで学習させたモデルで、パラメーターサイズは1億Mであることが知られています。形態素とワードピースのトークナイザーが使用され、語彙 (語彙) のサイズは30,349 (形態素) と30,797 (ワードピース) でした。クロスワードである韓国語の特徴を反映していたため、BERTよりも優れた性能を示したと発表されました。
参考文献
https://arxiv.org/pdf/1810.04805.pdf
https://medium.com/towards-data-science/pre-trained-language-models-simplified-b8ec80c62217
https://wikidocs.net/166826
https://itec.etri.re.kr/itec/sub02/sub02_01_1.do?t_id=1110-2020-00231&nowPage=1&nowBlock=0&searchDate1=&searchDate2=&searchCenter=&m_code=&item=&searchKey=b_total&searchWord=KorBERT
https://www.etnews.com/20190611000321
コバート(トランスフォーマーの韓国語双方向エンコーダー表現)
SKTが公開しているウィキペディアやニュースなどから集めた5000万文から学んだモデルです。韓国語における不規則な言語変化の特徴を反映させるため、データに基づくトークン化 (SentencePieceトークナイザー) の手法を適用し、語彙サイズは8002、モデルのパラメーターサイズは92Mでした。
参考文献
https://sktelecom.github.io/project/kobert/
https://github.com/SKTBrain/KoBERT
2020
ハンバート(トランスフォーマーのハングル双方向エンコーダー表現)
このモデルは、2Block AIが公開した70GBの一般文書と特許文書でトレーニングされました。自社開発のMoranトークナイザーを使用したことが知られており、語彙サイズは54,000、モデルパラメータサイズは128Mです。
参考文献
https://twoblockai.files.wordpress.com/2020/04/hanbert-ed8ca8ed82a4eca780-ec868ceab09cec849c.pdf
https://www.stechstar.com/user/zbxe/study_SQL/72557
https://github.com/monologg/HanBert-Transformers
KogPt(韓国ジェネレーティブ・プレジェネレーティブ・トランスフォーマー2)
これはSKTが発表したオープンソースベースの韓国語学習型GPT2モデルです。GPT2と同様にトランスフォーマー・デコーダー構造になっていて、学習には次のトークン予測を使います。韓国語版ウィキペディア、ニュース、ナムウィキ、ネイバーの映画レビューなどのさまざまなデータから抽出された1億5200万文で学習したと言われており、トークナイザーはCBPE(文字バイトペアエンコーディング)を使用し、会話でよく使われる絵文字や絵文字を追加して認識能力を向上させたと言われています。語彙サイズは51,200個、ベースモデルサイズは1億2500万個のパラメータです。
参考文献
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf
https://sktelecom.github.io/project/kogpt2/
https://github.com/SKT-AI/KoGPT2
コバート(韓国の双方向変圧器と自動回帰変圧器)
これは、SKTが既存のKobartとKogPT2に続いてリリースしたBARTモデルの3番目の韓国語バージョンです。KobArtはBARTと同様のエンコーダー-デコーダー構造で、事前学習にはノイズ除去オートエンコーダー方式を採用しました。韓国語版ウィキペディア、ニュース、本、みんなの星占い、青瓦台全国請願など、以前よりもさらに多様な0.27Bのデータを使って学びました。
参考文献
https://arxiv.org/pdf/1910.13461.pdf
https://github.com/SKT-AI/KoBART
https://www.ajunews.com/view/20201210114639936
2021
コリアアルバート(韓国ライトバート)
サムスンSDSがリリースしたモデルで、ALBERTのように仮面言語モデルと文順序予測法が事前学習に適用されました。韓国語版ウィキペディア、ナムウィキ、ニュース、本のあらすじなど約43ギガバイト (GB) のデータ、32,000語サイズの語彙を学び、1200万のベースモデルと1800万の大型モデルがリリースされました。
参考文献
https://www.samsungsds.com/kr/insights/techtoolkit_2021_korealbert.html
https://arxiv.org/pdf/2101.11363.pdf
https://arxiv.org/pdf/1909.11942.pdf
https://www.inews24.com/view/1316425
https://www.itbiznews.com/news/articleView.html?idxno=65720
https://www.itbiznews.com/news/articleView.html?idxno=66222
キー5
これは、韓国電子技術研究院(KETI)がリリースしたテキストからテキストへの転送トランスフォーマー(T5)をベースにしたモデルの韓国語版と英語版です。93 GB の韓国語コーパスと英語コーパスを使った T5 モデルと同様のマスクフィル方式で事前トレーニングされたことが知られています。前処理にはセンテンスピース・トークナイザーが使用され、語彙数は64,000語でした。その結果、韓国語と英語のコーパスの合計92.92GBを、モデルのサイズや使用目的に応じてさまざまな方法で選択して使用できるように、さまざまなサイズのモデルをリリースしました。
参考文献
https://arxiv.org/abs/1910.10683
https://huggingface.co/tasks/fill-mask
https://github.com/google/sentencepiece
https://koreascience.kr/article/CFKO202130060717834.pdf
https://zdnet.co.kr/view/?no=20210427130809
コグプト・トリニティ
これは、SKTがリリースしたモデルを使用して社内で構築された1.2BのKOデータデータセットで学習されたことが知られています。モデルのサイズはKogPT2と比較して大幅に増加した1.2Bで、語彙サイズは51,200で、次のトークン予測で事前にトレーニングされています。
参考文献
https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5
ハイパークローバ
ネイバーが公開している大規模モデルを用いて、ニュース、カフェ、ブログ、ナレッジイン、ウェブ文書、コメントなどのNaverを通じて収集した文書や、みんなのコーパスや韓国語版ウィキペディアなどのさまざまな文書から抽出された膨大な量のデータを学習しました。トレーニングに使用されるデータは561.8Bのトークンで構成されており、1.3B、6.9B、13.0B、39.0B、82.0Bなど、さまざまなサイズのモデルがあります。
参考文献
https://www.etnews.com/20210525000052
https://tv.naver.com/v/20349558
https://arxiv.org/abs/2109.04650
クルーバート
KLUE-BERTは、ベンチマークデータであるKLUEのベースラインとして使用されるモデルで、みんなのコーパス、CC-100-KOR、Namu Wiki、ニュース、請願書などの文書から抽出された63 GBのデータで学習されました。形態素ベースのサブワード・トークナイザーが使用され、語彙サイズは32,000、モデル・サイズは111Mです。
参考文献
https://huggingface.co/klue/bert-base?text=%EB%8C%80%ED%95%9C%EB%AF%BC%EA%B5%AD%EC%9D%98+%EC%88%98%EB%8F%84%EB%8A%94+%5BMASK%5D+%EC%9E%85%EB%8B%88%EB%8B%A4。
https://github.com/KLUE-benchmark/KLUE
https://cpm0722.github.io/paper-review/an-empirical-study-of-tokenization-strategies-for-various-korean-nlp-tasks
KoGPT
カカオブレインがリリースし、GPT3をベンチマークした韓国モデルです。200Bトークンの韓国語データから学習した6Bの超大型モデルで、語彙サイズは64,512です。
参考文献
https://github.com/kakaobrain/kogpt
https://huggingface.co/kakaobrain/kogpt
https://www.kakaocorp.com/page/detail/9600
http://www.aitimes.com/news/articleView.html?idxno=141575
セット 5
T5に続き、ETRIから発表されたもので、T5のマスクフィルとGPT3のネクストトークン予測を同時に事前学習したモデルです。Wikipedia、新聞記事、放送台本、映画・テレビシリーズの台本などから抽出した136 GBのデータを使って学習しましたが、これはSentencePieceのトークナイザーに基づくと45,100語サイズで、モデルのサイズは60Mです。
参考文献
http://exobrain.kr/pages/ko/result/assignment.jsp #
https://www.etnews.com/20211207000231
エクサワン(すべての人のためのエキスパートAI)
LG AI Researchが公開しているテキスト、音声、画像をもとに学習したマルチモーダル(マルチモーダル)モデルです。6000億のコーパスと言語・画像を組み合わせて2億5000万枚以上の高解像度画像を学習し、約3000億個のパラメータを持つなど、韓国最大規模です。言語を画像に、画像を言語に変換するなど、人間のコミュニケーションに関するさまざまな情報を学習して扱うマルチモダリティ(マルチモダリティ)能力を備えています。
参考文献
https://www.lgresearch.ai/blog/view?seq=183
https://www.aitimes.kr/news/articleView.html?idxno=23585
https://arxiv.org/pdf/2111.11133.pdf
3種類の韓国語モデル
エンコーダ中心モデル:BERT シリーズ
デコーダー中心モデル:GPT シリーズ
エンコーダ/デコーダモデル:seq2seq ファミリー
一緒に見るのに良いコンテンツ
韓国語以前の韓国語モデルを表示 (1)言語の天才になったAI、多言語 (ポリグロット) モデル (1)言語の天才になったAI、多言語 (ポリグロット) モデル (2) オープンソース言語モデル BLOOM は AI 民主化の花になることができるのか?なぜ人工知能は韓国語をより難しくしているのですか?