영국 작가 더글러스 애덤스의 재치 있는 블랙 유머가 돋보이는 SF 작품 ‘은하수를 여행하는 히치하이커를 위한 안내서*’에는 바벨 피쉬**라는 신기한 생물이 등장합니다. 작은 노란색의 물고기로 귀에 집어 넣으면 어떤 언어로 이야기한 것이라도 즉시 이해할 수 있게 되죠. 어쩌다 보니 우주를 여행하게 된 평범한 지구인인 주인공에게는 꼭 필요한 존재입니다.
그런데 이 바벨피쉬라는 신통한 녀석, 왠지 그 이름이 친숙하지 않나요? 바로 예전에 포털 사이트 야후에서 제공했던 무료 기계번역 서비스였죠. 사실 당시 저는 유명한 야후 검색 서비스 광고의 강아지처럼 번역 서비스에서는 물고기를 내세웠구나 짐작했습니다. 하지만 알고 보니 이 유명한 SF 작품 속 외계 생물의 이름을 딴 것이더군요.
그런데 현실에서도 이 바벨 피쉬와 유사한 것이 있습니다. 바로 자동 번역, 즉 기계 번역이 그렇죠. 가상의 존재인 바벨 피쉬 대신 컴퓨터를 이용해 자동으로 언어를 번역합니다.
그런 의미에서 오늘은 마치 바벨 피쉬처럼 언어의 장벽없이 소통할 수 있는 세상을 만들고 있는 기계 번역의 발전 연대기를 톺아보겠습니다. 오늘날 기계 번역이 인공지능을 만나 딥러닝과 방대한 언어 데이터를 바탕으로 높은 성능을 보여주기까지 많은 연구자들의 깊은 고민과 시행 착오, 기술의 발전 과정을 요약하여 살펴봅니다.
기계 번역의 시작
사실 기계 번역의 역사는 꽤나 오래되었습니다. 아이디어 자체만 놓고 보면 17세기의 철학자 데카르트까지 거슬러 올라가야 할 정도죠. 하지만 컴퓨터로 언어를 번역하는 현대적인 개념의 기계 번역은 1949년 미국의 수학자 워렌 위버****가 제안하였고, 이를 기점으로 1950년대 들어 본격적인 연구가 시작됩니다.
하지만 당시 수준은 단순히 사전으로 단어를 찾아 목적 언어의 것으로 바꾸고, 문법에 따라 재구성해주는 정도였습니다. 그로 인해 연구는 곧 벽에 부딪혔고, 사람들의 기대와 달리 빠른 속도의 기술 발전은 힘들었죠. 결국은 이를 계기로 컴퓨터가 언어를 분석해 이해해야 한다는 새로운 아이디어가 등장하게 됩니다.
규칙 기반 기계 번역
1980년대에 이르기까지 기계 번역은 대부분 규칙 기반 기술을 이용했는데, 실제 언어의 구조와 문법을 바탕으로 규칙을 만들어 번역하는 방법입니다.
규칙 기반 기계 번역은 실제 언어의 문법에 기반한 알고리즘으로 번역의 정확성을 높일 수 있었습니다. 하지만 언어학을 이해하고 번역 규칙을 시스템화하려면 연구 과정에서 언어학자들의 역할이 중요하고, 그만큼 개발에는 시간과 비용이 많이 필요했죠. 또한 우리가 실생활에서 흔히 사용하는 문법에 맞지 않은 문장은 제대로 번역하기 어려운 한계가 있었습니다.
다만 이 시기를 거치며 형태학적, 구문론적, 의미론적 분석 등 자연어처리에 필요한 기초 연구들을 통해 이후 기계 번역의 발전에 많은 영향을 주었습니다.
통계 기반 기계 번역
1990년에 접어들며 IBM이 통계적 방법을 기계 번역에 도입하며 혁신적인 변화가 일어납니다.
통계 기반 기계 번역은 원문과 번역문의 병렬 말뭉치를 이용해 단어나 구문의 빈도수 등 통계 모델을 학습하는 방법입니다. 따라서 통계를 낼 수 있는 언어 데이터가 충분하면 비교적 정확한 번역이 가능하기 때문에 구글을 필두로 많은 기업들이 기계 번역 연구에 뛰어들면서 기계 번역기의 전성기를 열 수 있었습니다.
하지만 통계 기반 기계 번역에도 한계는 있습니다. 충분한 데이터가 축적되지 않으면 번역 품질이 떨어지고, 특히 어순과 문법 구조가 다른 언어를 번역하기 어렵다는 단점이 있습니다.
신경망 기반 기계 번역
통계 기반 기계 번역이 주류로 자리잡은 듯 보였으나, 2000년대 이후 딥 러닝과 결합하며 또 다른 차원의 거대한 혁신이 일어납니다.
신경망 기반 기계 번역은 기존의 접근 방법들과 달리 실제 인간의 사고 방식을 모방하여 기계가 문장의 의미를 이해한 정보를 기반으로 번역 결과를 만듭니다. 그 결과 문장의 의미와 미묘한 뉘앙스 차이까지 인식해 훨씬 더 자연스러운 번역 결과를 보여줄 수 있죠. 최근 구글, 마이크로소프트, 네이버, 카카오 등 자동 번역 서비스를 제공하는 기계 번역기는 기본적으로 이 모델을 기반으로 기존의 문제점들을 보완하고 있습니다.
기존의 통계 기반 기계 번역은 전체 문장의 맥락에 대한 이해가 부족할 수 밖에 없는 방법적 한계가 있었습니다. 하지만 신경망 기계 번역은 사람의 뇌가 학습하는 과정을 본 딴 머신 러닝 기술로 전체 문맥 상 의미 차이를 파악해 문장 단위로 자연스러운 번역 결과를 보여줄 수 있게 된 것입니다.
앞으로의 기계 번역
지금도 신경망 기반 기계 번역을 개선하기 위한 노력은 계속되고 있습니다. 전 세계적으로 번역에 대한 수요가 늘어나며, 방대한 언어 데이터가 축적되고 있고, 인공지능을 학습시키는 머신 러닝 기술이 향상되면서 기계 번역은 빠른 속도로 발전하고 있죠. 또한 트위그팜(https://twigfarm.net)이 LETR 기술을 이용하는 것처럼 고객의 고유 데이터 및 특정 분야나 기업의 전문용어를 데이터화하여 고객 맞춤형 번역을 제공할 수도 있습니다.
이처럼 기계 번역은 수십 년 간의 연구개발을 통해 이미 상당한 수준에 이르렀습니다. 심지어 머지않아 인간 번역사를 대체할 수도 있다는 전망까지 나올 정도이죠. 불과 몇 년 전까지만 해도 기계 번역기의 다양한 오역 사례들이 웃음거리로 회자되었던 것을 생각하면 정말 엄청난 발전 속도입니다.
그렇지만 지금도 숙련된 인간 번역사처럼 텍스트에 담긴 언어문화적 가치와 고유의 스타일까지 번역하기는 어려운 것 같습니다. 그만큼 기계 번역에는 앞으로도 풀어야 할 과제와 가야할 길이 많이 남아있다는 의미겠죠. 다만 인공지능의 발전과 함께 최신의 신경망 모델에서는 다양한 언어의 번역을 위한 새로운 방법들이 계속 시도되고 있는 만큼 언어의 장벽없는 미래도 그리 멀지는 않은 것 같습니다.
References
[1] 기계 번역 https://en.wikipedia.org/wiki/Machine_translation#cite_ref-6
[2] 규칙 기반 기계 번역 https://en.wikipedia.org/wiki/Rule-based_machine_translation
[3] 통계 기반 기계 번역 https://en.wikipedia.org/wiki/Statistical_machine_translation
[4] 신경망 기계 번역 https://ko.wikipedia.org/wiki/신경망_기계_번역
[5] https://www.sciencetimes.co.kr/news/기계번역-어디까지-진화했나/
[6] 경희대학교 대학원보, 과학학술 [제243호 과학학술: 인공지능 번역] 인공지능 번역의 트렌드
[7] 인공신경망 VS 통계기반 번역, 뭐가 다를까? https://zdnet.co.kr/view/?no=20161223190944
[8] [알아봅시다] 기계번역의 시대 http://www.dt.co.kr/article_list.html?gcd=3&scd=300&ig=391817&cpage=3&sel_y=2016&sel_m=06&sel_d=03
함께보면 좋은 콘텐츠
[AI 이야기] 인간을 닮아가는 기계 번역인공지능 번역기 학습시키기: 01. 말뭉치, 왜 필요한가? 언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?