우린 지금 보고, 듣고, 읽을 거리가 넘쳐나는 콘텐츠 빅뱅의 시대에 살고 있습니다. 특히 예전에는 콘텐츠가 만들어진 지역에서 주로 소비되었다면, 이제는 콘텐츠를 즐기는데 국경은 큰 의미가 없게 되어 버렸죠. 이제는 유럽에서 K 드라마 ‘이상한 변호사 우영우’를 보고, 한국에서 스페인 드라마 ‘종이의 집’을 정주행 하는 것이 자연스럽게만 느껴집니다.
물론 어느 날 갑자기 마법처럼 이런 세상이 온 것은 절대 아닙니다. 이전에는 상상만 하던 일들이 현실이 되기까지 기계번역 기술의 지속적인 발전이 있어 왔죠. 덕분에 엄청난 양의 대규모 콘텐츠도 빠른 속도로 (게다가 더 낮은 비용으로) 번역할 수 있게 되었거든요. 이런 강력한 장점을 가진 기계번역의 도입은 전 세계적으로 콘텐츠 산업의 전성 시대를 여는데 결정적인 역할을 했습니다
저희도 몇 년 전부터 이 거대한 흐름에 주목해왔습니다. 이에 개발해 온 것이 콘텐츠 현지화 툴 LETR WORKS고요. 지금은 정식 오픈을 앞두고 보다 나은 모습으로 선보이기 위해 막판 스퍼트를 올리고 있죠. 별 홍보 없이도 많은 분들이 관심을 보여주셨고, 오픈 알림까지 신청하며 기다려 주시는 것을 생각하면 당연한 일이지만요.
이 글에서는 이런 분들을 위해 LETR WORS의 핵심 기술인 하이브리드 번역 엔진과 이것이 콘텐츠 현지화 과정에 어떻게 도움이 되는지 미리 소개해드리려 합니다.
기존 번역기의 한계와 번역 엔진의 중요성
최근 구글, 파파고 등 기계번역 엔진은 빠른 속도로 발전하고 있습니다. 예전처럼 엉뚱한 번역 결과를 내놓아 어이없게 만드는 일은 점점 보기 힘들어지고 있죠. 수 많은 사용자들로부터 수집한 엄청난 양의 데이터를 기반으로 학습한 덕분에 이제 일반적인 문장 정도는 정확하게 번역해내는 것을 확인할 수 있습니다.
하지만 기계번역의 놀라운 발전 속도에도 불구하고 여전히 아쉬운 점은 있습니다. 아직은 기계가 내놓는 결과를 보면 잘 못 번역하거나, 어색하게 번역한 문장을 심심치 않게 볼 수 있는 것 또한 사실이거든요. 이렇듯 기계번역은 뚜렷한 장점에도 불구하고 결과물의 한계 또한 분명해 아직은 사람의 교정을 필요로 하는 것이 현실입니다.
그리고 이런 상황에서 중요해진 것이 바로 번역 엔진의 성능입니다. 기계번역의 품질이 떨어지게 되면 이후에 사람이 고칠 것이 더 많아지면서 시간과 비용이 늘어나기 때문이죠. 반면 높은 품질과 낮은 오류를 보장하는 고성능 번역 엔진은 자동번역과 휴먼번역의 시너지를 극대화함으로써 탁월한 퍼포먼스를 기대할 수 있습니다.
사용자 데이터 기반 맞춤형 번역기의 등장
우선은 이해를 돕기 위해 일반적인 기계 번역기의 플로를 살펴보겠습니다. 아래 그림을 보면 사용자가 원문을 입력하면, 기계가 원문을 번역하고, 번역 결과를 제공하는 통상적인 기계 번역기의 사용 흐름을 확인할 수 있습니다.
그동안 기계 번역기가 많이 고도화되었다고 하지만, 특정 번역기의 성능에 전적으로 의존하는 데에는 한계가 있습니다. 그래서 일반적인 문장은 정확하게 번역할 때도 많지만, 때때로 중요한 용어를 오역하거나 번역이 어색하여 이해하기 어려운 경우도 많이 볼 수 있습니다.
이런 이유로 몇 년 전부터 사용자의 데이터를 기반으로 번역기를 좀 더 특화시키려는 노력들이 나타났습니다. 대표적인 사례로 구글도 AutoML Translation이란 서비스를 제공하기 시작했죠. 사용자가 데이터, 즉 번역된 언어쌍을 업로드하면 커스텀 번역 모델을 이용할 수 있도록 지원하는 것입니다. 하지만 구글의 AutoML Translation은 우리가 사용하기에 아쉬운 단점들이 몇 가지 있습니다.
첫째, 구글 번역 모델 기반에서만 동작합니다. 즉 사용자의 데이터, 용어를 넣어도 결국은 구글 번역기만 사용이 가능하죠. 최근에는 파파고를 비롯한 다른 번역기들도 성능이 많이 올라갔고, 언어나 분야에 따라 구글보다 다른 번역기가 더 적합한 경우도 많다는 점을 감안하면 아쉬운 점입니다.
둘째, 영어 위주로 동작합니다. 시작부터 영어 중심으로 발전해왔다는 점을 고려하면 당연하다고 볼 수도 있지만요. 예를 들면 한국어-영어 또는 영어-한국어 학습은 가능하지만, 한국어-일본어 학습은 불가능한 것으로 알려져 있습니다.
셋째, 많은 데이터가 필요합니다. 커스텀 번역기를 잘 만들려면 정말 많은 데이터를 갖고 학습시켜야 하는데, 사용자들이 보유한 데이터의 수는 충분하지 않은 경우가 대부분입니다. 일반적으로 기계 번역기를 잘 만들려면 몇 백만 문장 이상이 필요한데, 대부분 사용자들이 갖고 있는 데이터는 몇 만 문장 정도에 그치는 경우가 많습니다.
LETR WORKS의 심장, 하이브리드 번역 엔진
어쨌든 구글, 파파고 등 거대 테크 기업들을 중심으로 기계 번역은 급속도로 발전한 것이 사실입니다. 그렇다면 이렇게 치열한 경쟁이 펼쳐지는 분야에서 생존하기 위해 우리는 어떤 무기를 갖춰야 할까. 이때 떠오른 아이디어가 바로 하이브리드(Hybrid)입니다. 보통 하이브리드라고 하면 자동차를 떠올리지만 원래는 잡종, 혼종을 뜻하는 단어로 ‘특정한 목표를 달성하기 위해 두 개 이상이 요소가 합친 것’을 가르키죠.* 트위그팜에서는 이런 하이브리드 개념을 기계번역에 도입해 기술을 연구했습니다. 실제로 이를 기반으로 개발한 하이브리드 번역기는 기존 번역기들과는 차별화된 기술과 노하우가 들어가 있습니다.
먼저 하이브리드 번역의 작동 플로를 간단하게 정리한 아래 그림을 먼저 살펴 보시기 바랍니다.
위에서 보았던 일반적인 기계 번역기의 프로세스와 많이 달라 보이지 않나요. 그럼 이제부터 본격적으로 기존의 방법과 차별화된 하이브리드 번역만의 특징에 대해 소개해드리겠습니다.
첫째, 용어집을 사용합니다. 보통 번역 메모리(Translation Memory,TM)**라고 하는 원문을 기반으로 한 기존의 번역 데이터를 가져와 사용하는 것이죠. 특히 전문 번역이나 콘텐츠 번역의 경우 해당 분야에서 사용하는 용어가 제대로 적용되는 것이 중요한데, 하이브리드 번역은 용어집 인식률과 적용율이 높습니다. 덕분에 원문이 들어가면 그에 정확하게 매칭되는 용어가 적용된 번역 결과를 제공해주게 됩니다.
둘째, 다양한 번역기를 사용합니다. 용어집을 적용할 뿐만 아니라 이 용어들 기반으로 구글, 파파고 등 다양한 번역기를 활용할 수 있죠. 물론 저희가 자체적으로 만들어가고 있는 신경망 기반 번역기를 활용할 수도 있고요. 각 번역기마다 특성이 다르고, 잘 번역할 수 있는 언어나 분야가 다르다는 점을 이용해 번역 품질을 더 높일 수 있는 겁니다.
셋째, 영어 위주가 아닙니다. 기계에게 새로운 언어를 학습시킬 때 중간에 영어를 거치지 않아도 됩니다. 즉 한국어-일본어, 한국어-중국어, 중국어-일본어 등 영어를 건너뛰는 방식을 지원하는 겁니다. 하이브리드 번역은 이런 차별점들을 기반으로 이미 국내 특허 등록을 완료하였고, 해외에도 특허 출원을 해 놓았습니다.
마지막으로 이런 기술들을 사용해 정확하고, 자연스러운 번역이 가능한 하이브리드 번역의 예시를 보여드리며 마무리하겠습니다. 아래 표를 보시면 구글, 파파고 같은 기존 번역기에 용어집을 적용해 번역 품질을 높일 수 있다는 것을 확인할 수 있습니다.
앞으로 하이브리드 번역은 어디까지 발전할 수 있을까요? 이 기술을 적용해 곧 출시를 앞두고 있는 LETR WORKS가 현장에서 어떤 반응을 불러올지도 너무 기대됩니다.
좀 쑥스럽게도 자화자찬이 너무 길어진 것 같습니다. 다만 기계번역은 지금도 빠른 속도로 발전하고 있는 만큼 앞으로 더 연구하고 발전시킬 부분이 많이 남아있습니다. 저희는 하이브리드 번역을 계속해서 고도화시키는 것은 물론 더 정확하고,자연스러운 고품질 번역이 가능한 기술과 제품을 개발하기 위해 노력해나가겠습니다.
* https://ko.wikipedia.org/wiki/하이브리드
** https://ko.wikipedia.org/wiki/번역_메모리
References
[1] https://www.bloter.net/newsView/blt202006250040
[2] https://youtu.be/TvQP7Eu9XVg
[3] https://translate.google.com/intl/ko/about/forbusiness/
[4] https://cloud.google.com/translate/automl/docs/
[5] https://cloud.google.com/translate/docs/advanced/glossary
[6] https://cloud.google.com/blog/products/ai-machine-learning/google-cloud-ai-translation-services-works-for-documents?hl=en
[7] https://www.ncloud.com/product/aiService/papagoTranslation
[8] https://guide.ncloud-docs.com/docs/papagotranslation-overview
Good content to watch together
Why You Should Use LETR Hybrid Translator Instead of Google[AI Story] Machine Translation (Machine Translation) Resembling HumansIntroducing LETR API (2) Solutions and ServicesIntroducing the LETR API (3) Use cases and examples