바야흐로 대형 언어 모델(Large Language Model, 이하 LLM)의 전성시대입니다. 최근 언어 모델의 규모는 기하급수적으로 커져가고 있죠. 2020년 오픈AI가 발표한 GPT-3가 1,750억개의 파라미터를 가졌었는데, 2021년 딥마인드 고퍼(Gopher)가 2,800억 개, 국내의 네이버 하이퍼클로바(HyperCLOVA)도 2,400억 개 수준에 이릅니다. 심지어 MS-엔비디아의 MT-NLG(Megatron-Turing Natural Language Generation Model)는 5,300억 개에 달하는 초대형 모델입니다.
그렇다면 빅 테크 기업들은 왜 이렇게 치킨 레이스에 가까운 경쟁을 벌이고 있는 것일까요?(AI 커뮤니티에서는 새로운 무어의 법칙이란 말이 나올 정도입니다.*) 그 이유는 그동안 성능을 높이기 위한 연구개발의 과정에서 큰 모델의 효용성을 깨달았기 때문이죠.** 물론 최근 다른 접근 방법들도 나타나고는 있지만, LLM이란 이 거대한 흐름을 멈추기에는 역부족인 것 같습니다.
대형 언어 모델은 절대선(善)인가?
하지만 LLM 개발로 인한 부작용에 대한 우려의 목소리도 함께 높아지고 있습니다.
우선 AI 언어 기술이 일상에 적용되면서 다양한 윤리 문제가 발생하고 있습니다. 언어 모델이 학습하는 방대한 데이터에는 그동안 인간이 만들어 온 각종 차별과 혐오, 편견 등이 담긴 유해한 텍스트도 포함되어 있기 때문이죠. 우리는 이것을 학습한 AI가 불쾌한 언어를 쓰거나, 거짓 정보를 내보내 문제가 된 사례를 이미 여러차례 목격한 바 있습니다.
또한 모델을 훈련시키는 데에는 엄청난 에너지 소비와 탄소 배출이 뒤따릅니다. (조금 덜 알려졌을 뿐) 화석연료 못지않게 머신러닝도 지구환경에 부정적 영향을 미치고 있는 거죠. (LLM의 위험성을 지적했다 구글에서 해고당한) AI 윤리 학자 팀닛 게브루(Timnit Gebru)의 논문에 따르면 "언어 모델이 점점 더 많은 데이터를 제공받으면서, 2017년 이후 에너지 소비량과 탄소 발자국(Carbon Footprint)이 폭발적으로 증가하고 있다"고 합니다.***
결정적으로 (모두를 위한 AI라고 포장하고 있지만) LLM은 빠르게 독점화, 권력화 되어가고 있습니다. 대형 언어 모델의 개발에는 대규모 자본과 투자가 필요하고, 이를 감당할 수 있는 것은 결국 (이윤 추구가 목적인) 빅 테크 기업들 뿐이니까요. 이런 기울어진 운동장에서는 각자가 확보할 수 있는 데이터 및 컴퓨팅 파워의 수준에 따라 기술 격차는 점점 더 커질 수 밖에 없습니다.
심지어 공개(OPEN)란 이름을 단 오픈AI의 GPT-3 조차 최근 MS가 독점권을 획득해버렸을 정도이니까요.
변화를 위한 새로운 움직임
하지만 이런 상황에 변화를 가져오려는 이들이 있습니다. 허깅페이스(Huggingface)가 중심이 된 빅사이언스(BigScience) 프로젝트를 위해 전 세계 1,000여 명의 AI 연구자들이 자발적으로 힘을 합친 것이죠. 이들은 기존 LLM의 (유해성을 내포한) 개발 방식에서 벗어나 블룸(BLOOM: BigScience Large Open-Science Open-access Multilingual Language Model)이라는 이름의 새로운 LLM을 만들어냈습니다.
게다가 블룸은 기존 유명 LLM들에 필적하는 규모까지도 갖췄습니다. GPT-3보다 큰 1,760억 개의 파라미터를 가지고 있죠. 이런 규모를 갖추고도 오픈 소스로 공개되는 다국어 기반(Multi-lingual) 모델은 블룸이 처음이라고 합니다.
그럼 지금부터 블룸이 시도한 변화에 대해 좀 더 알아보겠습니다.
투명성
대부분 LLM은 코드나 모델을 투명하게 공개하지 않습니다. (Google, Meta 등도 오픈 소스를 말하기는 하지만 제한적인 경우가 많고, 순수한 의도라고 보기는 힘들 것 같습니다.) 따라서 외부에서는 LLM이 어떤 방식으로 학습하고, 작동하는지 명확히 파악하기 어려웠죠. 반면 블룸은 학습 데이터에 관한 자료, 개발 과정의 기록, 모델 성능 평가 방법 등 모두를 투명하게 공개했습니다.
이러한 행보는 배타적이었던 업계의 관행에 작지만 큰(?) 파문을 불러일으켰습니다. AI 연구에서 배타성은 없어져야 한다는 것을 행동으로 보여준 것이죠. 이들은 개발 과정의 로그를 정리하여 온라인에 공개하였고, 데이터와 모델은 누구나 다운받아 제약없이 사용할 수 있습니다.
다만 블룸도 LLM과 관련한 윤리적 문제에서 완전히 자유롭기는 힘들다는 한계는 있습니다. 학습용 데이터에서 모든 오류와 편향을 걸러내는 것은 어려우니까요. 대신 이들은 이런 약점을 당당히 인정하고 대신 어디에서 온, 어떤 데이터가, 어떻게 사용되었는지를 명확히 밝히는 방법을 택했습니다.
또한 본격적인 개발에 앞서 윤리 헌장(BigScience Ethical Charter)과 책임감 있는 AI 라이선스(Responsible AI License)도 발표했습니다.**** 미리부터 윤리적인 모델 개발과 사용을 위한 가이드가 될 원칙을 마련한 것이죠. 물론 악의적인 오남용까지 막기는 힘들겠지만, 최소한 투명하고 공개된 환경에서 원칙에 따라 자율적으로 규제하는 새로운 문화를 만들 수는 있을 겁니다.
다양성
블룸은 온라인으로 무차별하게 수집한 데이터를 사용하지 않았습니다. 대신 전 세계의 다양한 데이터를 선별하여 공급하는 추가적인 노력을 기울였죠. 다양성을 위해 다국어 웹 크롤링으로 데이터를 수집하고, 이것을 필터링하고, 프라이버시 보호를 위한 처리를 했습니다. 특히 해당 언어권 커뮤니티 그룹(Masakhane, LatinX, Machine Learning Tokyo 등)이 데이터 소스를 제안하게 하고, 참여 연구원들이 학술 출판물을 포함한 상당량의 데이터 세트를 직접 선택했다고 합니다.*****
또한 블룸은 영어 중심인 다른 LLM과 달리 전 세계의 46개 언어를 지원합니다. 학습 데이터 중 영어의 비중은 고작 30% 정도이죠. 프랑스어와 베트남어, 북경어, 인도네시아어, 인도의 지방 언어 13개, 아프리카 부족 언어 20개 등을 포함한 총 46가지 자연어와 13가지 프로그래밍 언어를 지원합니다.
그리고 이것은 자연어처리의 미래를 변화시킬 수도 있는 중요한 포인트입니다.
지금까지 LLM은 영어를 위주로 발전해왔습니다. 영어가 지배하는 인터넷에 있는 데이터로 학습해왔으니까요. 그러나 이런 추세라면 자연스럽게 이 세상의 수 많은 (특히 제3세계나 소수) 언어들은 자연어처리의 미래에서 배제될 수 밖에 없을 겁니다.
BLOOM, 작지만 소중한 씨앗
블룸은 (AI 민주화의 꽃이 될 수 있는) 작지만 소중한 씨앗을 세상에 뿌렸습니다. 하지만 이 작은 씨앗이 자라나 아름답게 꽃 피우려면 앞으로 수 많은 시련을 이겨내야 하겠죠. 현실적으로 지금 당장 블룸이 빅 테크 기업들이 주도하는 LLM 씬에 큰 변화를 가져오기는 힘들 겁니다.
그리고 블룸 역시 기존 LLM처럼 태생적 한계가 있습니다. 예를 들어 오용되어서 불쾌하거나 악의적인 언어를 쏟아낼 가능성도 있죠. 다만 이 부분에서는 (팀닛 게브루에 이어 구글 AI 윤리부서에서 해고된) 허깅페이스의 마거릿 미첼이 한 다음과 같은 대답이 희망을 가질 수 있게 합니다.
"블룸도 기존 언어 처리 모델과 같이 차별적 표현을 생성하거나 언어 처리 능력의 정확성이 떨어지는 등의 문제를 일으킬 수 있다. 하지만 블룸은 오픈소스이기 때문에 많은 사용자가 블룸의 강점과 약점에 비판적인 의문을 제기할 것이며, 궁극적으로 빠른 문제 개선에 도움이 될 것이다." ******
* https://huggingface.co/blog/large-language-models
** https://moon-walker.medium.com/왜-최신-language-model은-급격하게-커지는-것일까-f686fb3d5799
*** “Quote” https://www.technologyreview.kr/google-ai-ethics-research-paper-forced-out-timnit-gebru/
*** https://dl.acm.org/doi/epdf/10.1145/3442188.3445922
**** https://bigscience.huggingface.co/blog/bigscience-ethical-charter
**** https://bigscience.huggingface.co/blog/the-bigscience-rail-license
***** “Quote” http://www.aitimes.com/news/articleView.html?idxno=145494
****** “Quote” https://www.codingworldnews.com/news/articleView.html?idxno=11086
References
[1] https://bigscience.huggingface.co
[2] https://huggingface.co/bigscience/bloom
[3] https://bigscience.huggingface.co/blog/bloom
[4] https://bigscience.notion.site/bigscience/BigScience-214dc9a8c1434d7bbcddb391c383922a
[5] https://montrealethics.ai/category/columns/social-context-in-llm-research/
[6] Taxonomy Risks of posed by Language Models https://facctconference.org/static/pdfs_2022/facct22-19.pdf
[7] On the Opportunities and Risks of Foundation Models https://arxiv.org/abs/2108.07258
[8] Why Google fired a black female AI ethics researcher https://www.technologyreview.kr/google-ai-ethics-research-paper-forced-out-timnit-gebru/
[9] What is the background of Elon Musk's accusation that “MS and GPT-3 monopoly is a wrong act” http://it.chosun.com/site/data/html_dir/2020/10/02/2020100200695.html
[10] BLOOM Is the Most Important AI Model of the Decade https://towardsdatascience.com/bloom-is-the-most-important-ai-model-of-the-decade-97f0f861e29f
[11] GPT-3, why did you choose a plan... Did you grant Microsoft an exclusive license? http://www.aitimes.kr/news/articleView.html?idxno=17878
[12] Launch of the open source language model “BLOOM (BLOOM)”... Challenge open AI and Google http://www.aitimes.com/news/articleView.html?idxno=145494
[13] Is it the democratization of natural language processing?... Open source group unveils new model against GPT-3 monopoly http://www.aitimes.com/news/articleView.html?idxno=137604
[14] What is needed in the AI era is not an open “source” but an open source “right of access” https://www.itworld.co.kr/news/246010
[15] Language models, AI power in the capitalist era http://weekly.khan.co.kr/khnm.html?mode=view&code=114&artid=202206031124071