인공 신경망 번역(Neural Machine Translation, NMT)의 등장으로 기계번역의 성능이 많이 향상됐습니다. 그에 따라 사람들의 기계 번역기 사용도 많이 늘어났죠. 논문 같은 전문 자료를 볼 때 뿐만 아니라 해외 뉴스를 보거나 여행을 갈 때 같은 일상에서도 자주 사용하고 있습니다.
그런데 이렇게 자주 사용하는 번역기! 정말 정확하게 번역하고 있는 걸까요?
갓글도 놓치는 이것
갓글이라 불릴 정도로 구글은 인공지능을 포함한 여러 분야에서 많은 공헌을 하고 있는데요. 이런 구글의 번역기도 한계는 존재합니다. 그 예시로 아래 두 문장을 구글 번역기로 번역해봤습니다.
예시 1 > 겨울에도 아아를 마시고 싶어.
☝ '아아'는 '아이스 아메리카노'의 줄임말로, 특정 세대뿐만 아니라 전 연령대의 사람들이 자주 사용하는 단어입니다. 그런데 구글 번역기는 '아아'를 소리나는 대로 'aa'로 번역해 버렸네요 🥲
예시 2 > By design secure key derivation functions use salt(random number, which is different for each key derivation) + many iterations(to speed-down eventual password guessing process).
✌️ IT 보안에 관한 위 문장에서 'key derivation functions'는 '키 유도 함수' 라는 보안 용어인데, '키 파생 기능' 이라고 직역을 했습니다.
이상과 같이 구글 번역기조차 줄임말, 신조어, 전문용어 등 번역은 부자연스럽게 직역하거나, 심지어 오역을 하는 경우도 심심치 않게 볼 수 있습니다
기계 번역의 한계점에서 등장한 하이브리드 번역기
하이브리드 번역이란?
두 가지 이상의 번역 방식을 접목한 것을 하이브리드 번역이라고 합니다. 이는 LETR 번역기의 가장 큰 장점이기도 한데요. 인공 신경망 번역(NMT)과 규칙 기반 번역(Rule Based Machine Translation, RBMT)을 접목함으로써 자연스러움과 정교함이 조화된 번역이 가능합니다.
RBMT은 언어학적 구조 기반의 번역 방식이라 사전과 문법 번역에 중요한 역할을 합니다.* 그런데 NMT 방식에 RBMT의 장점인 사전과 문법적 요소를 추가한 전·후처리를 해줌으로써 번역 품질을 올릴 수 있습니다.
일반적으로 기계번역은 단어들을 직역하거나 영문 약어를 그대로 표시합니다. 그런데 분야에 따라 같은 약어도 의미가 달라질 수 있어 분야별 맞춤 번역이 필요하죠. 특히 여러 단어가 합쳐진 용어는 (각 단어를 직역해서는 안되고) 반드시 해당 분야의 전문 용어로 번역되어야 합니다.
그리고 이를 위해서는 별도의 용어 사전을 사용하는 하이드리드 번역이 필수적입니다.
용어사전 구축
하이브리드 번역에는 용어사전 구축이 NMT 모델만큼 중요합니다. 그래서 분야별 전문용어들을 선별하고, 검수해 용어집으로 구축하죠. 국립연구원에서 발표한 '전문 용어 정리 방법론 연구지'**에서는 전문용어를 정리할 때 5 가지 특성을 고려해 구축해야 한다고 조언합니다.
· 용어의 일의성: 하나의 용어는 하나의 개념을 지칭해야 하며 또한 하나의 개념은 하나의 명칭으로 정의한다.
· 용어의 투명성, 명시성 : 용어를 통해 그 개념이 무엇인지 유추할 수 있을 만큼 명시적이고 직접적으로 표현한다.
· 용어의 간결성: 개념이 명시적으로 드러나는 한, 불필요하거나 너무 과도한 정보를 명칭에 담지 말아야 한다.
· 용어의 일관성: 동일한 범주에 속하는 개념을 지칭하는 용어는 가능한 한 동일한 형식을 갖춰야 한다.
그렇다면 이렇게 구축한 용어집을 가지고 하이브리드 번역을 하면 어떻게 될까요?
간단한 전문용어 사전을 구축해 실제 일반 기계 번역기(구글 번역기)와 비교해 LETR 하이브리드 번역기의 결과는 어떻게 다른지 비교해 봤습니다.
Google 기계 번역 VS LETR 하이브리드 번역
먼저 하이브리드 번역에 사용할 용어사전을 아래와 같이 구축합니다. 이 사전의 이름은 'LETR-ICT사전'이라고 하겠습니다.
그럼 앞서 구글 번역기로 번역했던 두 문장을 LETR-ICT 사전을 사용하는 하이브리드 번역기로다시 번역해 보겠습니다.
문장1 > 겨울에도 아아를 마시고 싶어.
💡 '아아'를 '아이스 아메리카노'로번역한 것을 볼 수 있습니다. 게다가 LETR 번역기는 특정 용어사전을 쓰지 않아도 자주 사용되는 신조어는 올바르게 번역하는 것을 확인할 수 있습니다.😎
그러니 자주 쓰는 신조어가 있다면, 신조어 사전을 만들어 사용하는 것도 좋은 방법이겠죠?🤘
문장 2 > By design secure key derivation functions use salt (random number, which is different for each key derivation) + many iterations (to speed-downeventual password guessing process).
💡 앞서 구글 번역기에서 문제가 됐던, 'key derivation function'의 번역이 '키 파생 기능'이 아닌 '키 유도 함수'로 번역되었습니다.
그럼 용어사전에 있는 다른 용어들에 대한 번역은 어떤지 확인해보겠습니다.
문장3 > Application layer gateway is a software component that manages specific application protocols such as SIP and FTP.
💡 구글 번역기는 'Application'을 '응용 프로그램'으로 번역한 반면, LETR는 사전에 저장된 '응용 계층 게이트웨이'라는 더 적합한 용어로 번역한 것을 확인할 수 있습니다.
문장4 > 안테나에 메타물질을 적용하면 무선인체영역통신에 활용하기 더 적합하도록 성능이 개선됨을 보여주는 연구결과가 최근에 보고되었다.
💡 '무선 인체 영역 통신'은 사람의 몸 자체 또는 주변에서 정보 교환이 이루어질 수 있도록 구성한 통신기술***을말합니다. 이 용어의 올바른 영어 번역은 'Wireless Body Area Networks'죠. 그런데 LETR 번역기는 용어 사전을 참조해 정확히 번역했지만, 구글 번역기는 각 단어들을 그대로 직역(e.g. 통신=Communication)해 버렸네요.
문장 5 > Trivial File Transport Protocol is a very simple file transfer protocol, with the functionality of a very basic form of FTP.
💡 각 어절의 첫번째 알파벳이 대문자로 된 영문 대명사(혹은 고유명사)의 경우, 대부분의 기계번역기는 요청한 언어로 번역하지 못하고 원문 그대로 내보내는 경우가 많습니다. 위 문장 역시 구글은 'Trivial File Transport Protocol'을 영문 그대로 번역한 것을 볼 수 있죠. 물론 이런 구글의 번역이 틀렸다고 할 수는 없지만, 과연 제대로 된 번역이라고 할 수 있을까요?
구글이 제대로 번역하지 않은 이런 용어가 해당 언어에 맞게 번역된다면 훨씬 더 보기 좋지 않을까요? 😎
문장 6 > 도**** 5는 우리나라의 5G통신망을 나타낸 도면이다.
💡 구글 번역의 경우 '도 5'를 '5'로 오역한 것을 볼 수 있습니다. 반면 LETR 번역기는 'FIG.5'로 번역해 도표라는 의미를 제대로 살렸네요.
마무리하며
간단한 예시들을 통해 하이브리드 번역을 사용하면 일반 기계 번역보다 고품질의 번역을 할 수 있다는 것을 보여드렸습니다. 하이브리드 번역은 일반 기계 번역에 흔한 오역이나 직역의 문제를 바로잡을 수 있기 때문이죠. 게다가 분야별 전문 용어를 사용해 더 정교한 번역까지도 할 수 있습니다.
다만 하이브리드 번역이 잘 동작하려면 다음과 같은 조건이 충족되어야 합니다. 용어사전의 구축과 함께 해당 용어를 잘 참조해 번역하는 전ㆍ후처리까지 제대로 되어 있어야 하죠. 그래야 진정한 하이브리드 번역이라고 말할 수 있습니다.
**** 도: 특허 문서에서 많이 쓰이는 단어로 그림ㆍ도표ㆍ도면을 의미
함께보면 좋은 콘텐츠
언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?