지난 포스트에서도 간단히 살펴봤지만 신경망 기계 번역은 2010년대 들어 등장한 비교적 새로운 접근입니다. 컴퓨터 성능의 향상과 딥 러닝 기술의 발전, 그리고 결정적으로 방대한 언어 데이터의 구축이 가능해지면서 엄청난 변화를 가져왔죠. 오늘날 빅 데이터의 폭발적 성장을 바라보고 있자면 앞으로 얼마나 더 놀라운 혁신이 일어나 인간 커뮤니케이션을 변화시킬 수 있을지 기대됩니다.
신경망 기계 번역의 원리
신경망 기계 번역은 데이터로 컴퓨터를 학습시킨다는 점에서는 통계 기반 접근법과 유사합니다. 다만 훨씬 더 많은 양의 데이터와 딥 러닝을 활용해 일종의 인공 신경망을 구축한다는 점에서 근본적인 차이가 있죠. 인공 신경망은 마치 수 많은 신경 세포의 연합으로 이루어진 고등 생물의 뇌를 닮았습니다.
최근의 인공지능 기술은 다양한 문제 해결을 위한 인공 신경망들이 만들어지고, 이들이 연결되어 거대하고 복잡한 네트워크 구조를 구축하며 발전해왔습니다. 신경망 기계 번역도 이런 다양한 인공 신경망들 중 하나라고 볼 수 있죠. 짧은 시간 동안 다양한 발전 단계를 거치며 엄청난 속도로 진화했다는 점에서 우리 인간 두뇌의 진화 과정이 연상될 정도입니다.
신경망 기계 번역은 마치 아기가 언어를 배우는 것과 비슷한 방식으로 발전합니다. 컴퓨터가 학습할 데이터를 많이 주고, 스스로 학습하게 만들고, 이를 기반으로 번역기가 번역할 수 있도록 키워가죠. 당연히 처음에는 실수도 하지만, 이를 기억해두고, 다시 해보기를 반복하면서 계속 발전합니다.
인간 능력의 한계를 넘어?
최근의 시스템은 데이터에서 무엇을 찾아야 할지 인간이 알려줄 필요가 없다고 합니다. 인공지능이 스스로 분석해 패턴을 찾아내고, 직접 문제를 해결해가는 방식이죠. 이를 보면 인공지능이 가지고 있는 무한한 가능성에 기대감은 더 커져갈 수 밖에 없습니다.
기계 번역은 딥 러닝과 빅 데이터를 통해 계속해서 성능의 한계를 넘어서고 있습니다. 인간은 평생을 걸려도 습득할 수 없는 방대한 양의 정보를 학습하고, 인간을 뛰어넘는 문제 해결 능력을 보여주죠. 기본적으로 우리는 그저 기계가 학습할 정제된 데이터를 주기만 하면 그 밖의 작업은 기계가 알아서 처리할 수 있습니다. 이러니 우리가 신경망의 심층에서 이뤄지는 복잡한 처리 과정을 모두 파악하기도 어렵습니다.
하지만 그럼에도 불구하고 기계는 결국 인간이 만들어 준 알고리즘과 학습 데이터를 통해 발전할 수 밖에 없습니다. 그렇다면 기계가 인간 능력의 한계를 넘어서기 보다는 인간 능력을 강화시켜 준다고 보는 것이 더 정확한 것 같습니다.
인간 능력 확장의 도구로
그렇다고 지금 당장 기계 번역이 인간 전문가의 수준을 넘어서기는 쉽지 않아 보입니다. 모든 언어는 수 천년의 세월을 거쳐 진화해오는 과정에서 각기 복잡하고 고유한 특성을 갖게 됐기 때문이죠. 따라서 정확한 번역을 하려면 해당 언어권의 문화를 이해해야 하고, 전체적인 문맥 파악과 적절한 배경 정보를 토대로 유추하는 고도의 사고 과정이 필요합니다. 즉 고품질의 자동 번역 능력을 뽐내는 인공지능 번역기가 나오려면 아직 좀 더 시간이 필요합니다.
그렇다면 당분간은 인간의 번역 작업을 도와주는 효율적인 도구로써 기계 번역을 생각해보면 어떨까요? 텍스트는 언어의 차이 외에도 구어체와 문어체, 일반 문서와 전문 문서 등 생각보다 다양하기 때문에 그 특성에 따라 번역 품질에도 차이가 발생할 수 밖에 없죠. 대신 특정 전문 분야의 문서는 데이터, 즉 말뭉치만 잘 구축해 놓으면 상당히 정확한 번역 결과를 얻을 수 있습니다.
실례로 트위그팜에서도 특정 분야에서 많이 사용하는 단어와 문장을 추출한 데이터베이스인 번역 사전을 활용해 특히 법률, 금융, 기계, 의료 등 전문 분야 문서에서 번역 품질을 크게 향상시킬 수 있었습니다. 즉 인간을 대체하기 보다는 범용 번역기의 한계를 특화된 번역 시스템으로 극복하고, 오탈자와 같은 휴먼 에러를 방지함으로써 번역 작업을 더 정확하고 효율적으로 만들고 있습니다.
인간 커뮤니케이션의 미래로
바벨탑 이야기만 보더라도 언어의 장벽 없는 세상은 인류의 오랜 숙원인 것 같습니다. 오죽하면 컴퓨터는 상상도 할 수 없던 17세기의 철학자 데카르트마저 일종의 기계 번역 모델을 제안했을 정도니까요. 하지만 기술의 발달로 물리적 경계가 사라지고 있는 오늘날까지도 언어의 장벽으로 인한 소통의 어려움은 여전히 존재합니다.
이런 현실에서 기계 번역은 사람 사이의 커뮤니케이션을 가로막는 언어의 장벽을 무너뜨리고, 서로 소통하며 이해하길 바라는 모두를 위한 훌륭한 도구가 될 수 있습니다. 인공 신경망으로 더 정확해지고 있는 기계 번역과 인공지능의 발전은 인류의 오래된 상상을 현실로 만들고 있죠. 이미 기계 번역기는 다방면에서 소통의 보조 수단으로써 충분한 도움이 되고 있습니다.
물론 문장에 내포된 깊은 의미나 문학적인 표현의 번역을 기대한다면 아직은 많이 부족할 수 있습니다. 그렇지만 인공지능 기술의 발전과 함께 AGI(Artificial General Intelligence)라 불리는 강인공지능의 시대가 오게 되면 현재 기계 번역이 가진 한계와 문제들은 완전히 해결될지도 모릅니다.
한정된 수명을 가진 우리 인간이 모든 언어와 지식을 습득하는 것은 불가능합니다. 하지만 인간이 가진 섬세한 커뮤니케이션 능력과 함께 기계 번역 기술을 잘 활용한다면 미래에는 훨씬 더 멋진 일들이 일어나리라 믿습니다.
서로 다른 언어를 쓰는 다양한 사람들의 자유로운 소통, 전 세계의 방대한 컨텐츠의 교류, 나아가 미래 인간과 인공지능의 소통에 이르기까지.
References
[1] 딥러닝과 기계번역 https://terms.naver.com/entry.naver?docId=3580263&cid=59088&categoryId=59096
[2] 인공 신경망 https://ko.wikipedia.org/wiki/인공_신경망
[3] 뇌 https://ko.wikipedia.org/wiki/뇌
[4] 강병규 이지은, "신경망기계번역의 작동 원리와번역의 정확률 - 중한번역을 실례로" (중어중문학회, 2018, 253~295)
[5] [시장전망] AI 통번역의 진화 https://www.itdaily.kr/news/articleView.html?idxno=83486
[6] 김순미, AI시대 인간번역과 기계(NMT)번역의 공존-경영학 ‘확장(Augmentation)전략’ 중심 (한국통역번역학회, 2018, 1~32)
함께보면 좋은 콘텐츠
[AI 이야기] 기계 번역이 인공지능을 만나기까지언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?