최근 대규모 데이터를 이용하는 딥러닝 기반 자연어처리 연구가 활발합니다. 기업, 학계를 막론하고 모두가 뛰어들고 있죠. 구글, 메타 등 빅테크 기업들은 물론 빅사이언스(BigScience) 같은 공개 협업 프로젝트를 비롯해 많은 곳에서 주목할만한 결과들을 보여주고 있습니다.
이런 성과의 배경에는 방대한 말뭉치 데이터를 통해 사전 학습된 트랜스포머(Transformer)*가 자리하고 있습니다. 이를 기점으로 수 많은 변형 모델들이 등장하며 빠르게 성능이 향상되어 왔거든요. 또한 이러한 언어모델 대부분이 대용량 말뭉치 데이터를 통한 비지도 학습**을 사용하기 때문에 데이터 확보가 매우 중요해졌습니다.
그렇지만 이렇게 빠르게 발전한 언어모델 연구에도 아쉬운 점은 있습니다. 특히 이 땅에 태어나, 한국어를 쓰며 살아가는 우리 입장에서 보자면 말이죠. 크게 보면 아래의 두 가지 이유로 인해 한국어 언어모델 연구에는 많은 어려움이 존재해왔습니다.
첫째, 우선 한국어는 언어적 특성이 영어와 많이 다릅니다. 일반적으로 우리에게 영어보다는 일본어가 비교적 배우기 쉬운 것처럼, 영어 기반으로 학습해 온 인공지능도 한국어보다는 스페인어가 훨씬 처리하기 쉬울 수 밖에 없겠죠. 이에 대해서는 이미 지난 콘텐츠를 통해 다룬 적이 있으니 자세한 내용은 아래 글을 참고해주세요.
- 인공지능이 한국어를 더 어려워하는 이유?
둘째, 결정적으로 학습데이터의 양이 모델 성능에 직결되기 때문입니다. 일반적으로 한국어 같은 저자원(Low-resource) 언어는 상대적으로 성능 향상에 한계가 있을 수 밖에 없죠. 이에 대해서도 대형 언어모델 및 다국어 모델과 관련한 지난 콘텐츠들을 통해 살펴본 바 있으니 역시 참고해주세요.
- 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?
- 언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)
- 언어 천재가 된 AI, 다국어(Polyglot) 모델 (2)
다만 이제는 한국어 자연어처리 연구의 수준이 올라가면서 한국어 중심의 모델을 연구하거나, 발표하는 사례도 계속해서 늘어나고 있습니다. 한국전자통신연구원(ETRI), 네이버, 카카오 등 국내의 선도적인 기관, 기업들이 속속 새로운 모델을 공개하고 있죠. KorBERT, HyperCLOVA, KoGPT, EXAONE 등 다양한 모델들이 속속 등장했고 지금 이 순간에도 계속해서 연구되고 있습니다.
그래서 이번 기회를 통해 지금까지 공개된 한국어 언어모델들을 정리해서 공유해보려 합니다. 크게 Encoder Model(BERT*** 계열), Decoder Model(GPT**** 계열), Encoder-Decoder Model(Seq2seq***** 계열)의 3개 모델 계열로 구분하여 모아봤죠.
그 결과는 이어서 다음 포스팅에서 차근차근 소개해드릴 예정이니 기대해주세요.
* https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)
** https://en.wikipedia.org/wiki/Unsupervised_learning
*** https://en.wikipedia.org/wiki/BERT_(language_model)
**** https://en.wikipedia.org/wiki/OpenAI#GPT
***** https://en.wikipedia.org/wiki/Seq2seq
References
[1] https://arxiv.org/abs/2112.03014
[2] https://aiopen.etri.re.kr/service_dataset.php
[3] https://github.com/SKTBrain/KoBERT
[4] https://github.com/monologg/HanBert-Transformers
[5] https://github.com/SKT-AI/KoGPT2
[6] https://huggingface.co/gogamza/kobart-base-v2
[7] https://arxiv.org/abs/2101.11363
[8] https://koreascience.kr/article/CFKO202130060717834.pdf
[9] https://huggingface.co/skt/ko-gpt-trinity-1.2B-v0.5
[10] https://arxiv.org/abs/2105.09680
[11] https://arxiv.org/abs/2109.04650
[12] https://huggingface.co/kakaobrain/kogpt
[13] https://s-space.snu.ac.kr/handle/10371/175838
함께보면 좋은 콘텐츠
언어 천재가 된 AI, 다국어(Polyglot) 모델 (1)언어 천재가 된 AI, 다국어(Polyglot) 모델 (2) 오픈소스 언어모델 BLOOM, AI 민주화의 꽃이 될 수 있을까?인공지능이 한국어를 더 어려워하는 이유?