언어의 한계가 세계의 한계다.(The limits of my language means the limits of my world.)
20세기를 대표하는 철학자 비트겐슈타인이 한 말입니다. 그의 말처럼 인간은 언어로 사고하고, 그 언어의 틀 안에서 살아가죠. 우리는 한국인이니 한국어의 틀 안에서 사고하며 살아갈 것이고, 당연히 우리가 파악하는 세상은 영미권 사람들의 그것과 다를 수 밖에 없을 겁니다.
그러니 더욱 넓고 깊게 세상을 파악하려면 언어로 내 외연을 확장해야 합니다. 하지만 새로운 언어를 익힌 다는 것은 쉬운 일이 아니죠. 그 언어를 제대로 이해하려면, (단순히 어휘를 늘리는 것이 다가 아니라) 그 언어가 속한 국가와 지역, 문화와 사람에 대해서도 알아야 하니까요.
세계는 넓고, 언어는 많다. 그러나 …
전 세계적으로 약 7,100여 개 언어가 있다고 합니다. 그 만큼 아직까지 세상에 공유되지 못한 인류의 지식과 정보는 많이 남아 있겠죠. 인간의 언어 습득 능력의 한계가 안타까울 따름입니다.
한편 온라인 세계는 영어가 지배하고 있습니다. 흔히들 인터넷을 열려있는 정보 공간이라 말하지만, 아마도 영어 사용자에게 한정된 이야기인 것 같네요. 실제로 영어를 쓰지 않는 많은 사람들에게는 엄청난 지식과 정보의 격차가 존재하는게 현실입니다.
영어 위주 자연어처리의 아쉬움
그동안 기계 번역, 언어 모델 등 NLP 연구는 영어 위주였습니다. 아무래도 미국을 비롯한 서구권을 중심으로 발전해왔으니 당연한 일이겠죠. 그러다 보니 영어, 스페인어 등 일부 언어를 제외한 대부분의 언어들은 NLP 연구에서 소외될 수 밖에 없었습니다.
대부분의 다국어 AI 모델 역시 영어에 의존하고 있습니다. 예를 들어 독일어-한국어 번역을 하는 경우 일단 독일어에서 영어로 바꿔주고, 다시 영어에서 한국어로 바꿔주는 식이죠. 예전에는 심심치 않게 볼 수 있던 기계 번역기의 엉뚱한 오역도 이로 인한 영향이 컸을 겁니다.
한편 세계화로 인해 NLP 기술의 중요성은 점점 더 커지고 있습니다. 누구에게나 언어의 장벽을 넘어 소통해야 할 일이 점점 더 많아지고 있죠. 하지만 안타깝게도 여전히 전 세계 대부분의 사람들은 AI 번역과 같은 기술 발전의 혜택에서 소외되고 있는 것이 현실입니다.
AI 언어 모델을 학습시킬 수 있는 데이터가 적은 언어를 Low-resource 언어라 합니다. 그런데 잘 알려져 있다시피 NLP 연구에는 상당한 양의 언어 데이터가 필요하죠. 그러다 보니 (전 세계 7,100여 개 언어 중) 일반적으로 많이 사용되는 소수의 선택된 언어를 쓰는 사람들만이 AI 언어 도구를 사용할 수 있게 된 것입니다.
실제로 메타(Meta) AI에 따르면 "전 세계 인구의 20% 이상은 상용화된 번역 기술 서비스를 받을 수 없다." *고 합니다. Low-resource 언어를 사용하는 사람들의 자유로운 소통을 가로막는 디지털 격차가 존재하는 것이죠. 이것이 언어 때문에 전 세계적인 지식, 정보, 문화의 교류에서 소외되고 있는 이들을 위한 솔루션이 절실한 이유입니다.
마무리하며
본격적으로 다국어 AI에 관해 살펴보기에 앞서 NLP 연구에서 영어 이외의 다양한 언어들이 중요해지고 있는 이유를 살펴봤습니다. 실제로 최근 들어 언어 및 번역 모델을 다국어 기반으로 전환하는 시도가 많아지고 있죠. 이상의 안타까운 상황을 생각하면 지금까지 소외되어 온 전 세계의 더 많은 사람들을 위해 반가운 소식입니다.
이어서 다음 포스팅에서는 실제 업계의 연구개발 사례를 통해 이 주제에 관해 좀 더 들여다보겠습니다.
* 인용 https://www.ciokorea.com/t/22000/AI/243970#csidxaf4c5dbdb5bf6318b0d338efe81a7fa
References
[1] https://www.washingtonpost.com/news/worldviews/wp/2015/04/23/the-worlds-languages-in-7-maps-and-charts/
[2] https://www.ethnologue.com/guides
[3] https://edu.krlo.co.kr/2018/05/09/q-001/
[4] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time/