A Lively chat platform via Live translation
시작하며
AI가 ‘울 댕댕이 ㅅr릉해❤️’와 같은 온라인 구어체에 대응하기 위해서는 두 가지의 방법을 취할 수 있다. 첫번째는 변칙적인 데이터를 일괄되게 정제하는 것이다. 예를 들어 앞서 든 예시에서는 ‘우리 강아지 사랑해’와 같이 정제된 문장으로 바꿀 수 있다.
이 방법의 장점은 뚜렷하다. 기존의 모델은 대부분 정제된 문장으로 훈련된다. 변칙적인 표현을 정제된 표현으로 바꿀 수만 있다면 기존의 모델과 데이터를 활용할 수 있는 것이다. 하지만 장점이 뚜렷한 만큼 단점도 뚜렷하다. 변칙이 많을 수록 정제된 표현으로 바꾸기 힘들어진다는 점이다.
온라인에서는 특정 단어나 밈이 자주 사용될수록, 파생되는 단어도 많아지고 변화되는 정도도 심화되는 경향이 있다. 고양이와 강아지를 합쳐서 ‘댕냥이’라는 말이 등장하거나, 골든 리트리버를 뜻하는 단어로 ‘골댕이’라는 단어가 심심찮게 발생하는 곳이 온라인이다. ‘댕댕이’는 또한 ‘멍댕이’로도, ‘댕멍이’로도 표기되기도 한다. 이 많은 변칙을 다 ‘강아지’라고 일관되게 바꿀 수 있을지가 관건이 되며, 최악의 경우 시시때때로 발생하는 변칙을 확인하기 위해 끊임없이 온라인을 모니터링해야 한다.
변칙적인 온라인 구어체에 대응하는 두 번째 방법
또 하나의 선택지는 막대한 양의 데이터로 승부보는 방법이다. 그리고 ChatGPT가 택한 방법은 이쪽이다. ‘댕냥이’든 ‘냥댕이’든, 수백, 수만개의 데이터에 특정 단어가 나타나면 그 데이터를 기반으로 단어의 의미를 유추할 수 있게 된다.
이 방법의 장점은, 또 다른 변칙에도 유연하게 반응할 수 있다는 것과 변칙이 적용된 문장이 보통의 문장들과 다르다는 것을 모델이 알아차릴 수 있다는 점이다. 무슨 말이냐 하면, ChatGPT에 온라인 구어체를 제시하고 읽기 쉽게 해석해달라고 하면 그 온라인 구어체가 뭔가 심히 이상하게 변형된 문장이라는 것을 인식하고 본래의 의미를 찾아낼 수 있다는 것이다. (출처: https://www.insight.co.kr/news/430720 )
단점은 이 방법을 사용하기 위해서 막대한 데이터와 컴퓨팅 파워가 요구된다는 점이다. 그리고 이것이 온라인 구어체를 다루기 까다로운 이유이다.
하지만 산이 있으면 오르는 사람도 있는 법. 레터의 연구진은 적은 데이터로도 성능 좋은 모델을 얻어내기 위해 두 가지 방법론을 적용해서 온라인 구어체에 특화된 번역기를 만들어낸다. 그 중 하나의 방법을 소개하자면, 바로 데이터 증강(Data augmentation)이다. 데이터 증강이란, 보유하고 있는 데이터셋을 다양한 방법으로 변형을 가해서 다양한 학습 데이터를 얻어내는 법이다. 이는 특히 컴퓨터 비전(이미지 처리) 분야에서 많이 사용된다. 이미지를 조금만 확대하거나 돌려도, 컴퓨터는 변형된 이미지가 원본과 다른 이미지라고 인식한다. 이미지를 돌리거나(Rotation), 뒤집거나(Flip), 확대나 축소(Zoom), 이동(Shift), 밝기나 색을 바꾸는 등, 다양한 방법이 시도될 수 있다.
그에 비해 언어는 데이터의 증강이 다소 제한적이다. 고양이는 거꾸로 봐도 고양이지만, 언어는 그렇지 않기 때문이다.
“안녕하세요” vs “요세하녕안”
언어에서는 대표적으로 네 가지 방법이 사용된다. 특정 단어를 유의어로 대체하거나(Synonym Replacement), 임의 단어를 삭제·삽입하거나 (Random Deletion/ Random Insertion), 임의의 두 단어의 위치를 바꾸거나(Random Swap), 역번역(Back Translation)을 해 데이터를 불린다.
하지만 이 네 가지의 방법론이 모두 한국어에 잘 들어맞지는 않는다. 역번역은 번역 과제에서 제시되는 방법이므로 논외로 치고, 경험적인 실험으로 RD(Random Deletion)와 RS(Random Swap)의 과정이 보통의 한국어 말뭉치에 적절한 것으로 밝혀졌다. 나머지 SR(Synonym Replacement)나 RI(Random Insertion)은 사용 시 각별한 주의가 필요하다. (출처: https://github.com/catSirup/KorEDA/tree/master/)
레터 연구진은 여기서, 온라인 구어체는 약간의 기계적 처리로도 유의어를 수없이 많이 만들어낼 수 있음에 주목했다. 같은 의미의 단어를 여러 표기로 사용하는 특성 덕분에 오히려 데이터를 크게 불릴 수 있는 것이다. 이에 원문에 다양한 종류의 노이즈를 추가해 데이터의 덩치를 키웠다. 이렇게 증강된 데이터에 더해, 레터 연구진만의 특별한 비법을 더해 맞춤형 번역기를 학습시킨 결과 드라마틱한 결과를 확인할 수 있었다. 한국어-중국어 번역 모델과 한국어-일본어 번역 모델 모두 타 번역 서비스 3사를 모두 뛰어넘는 성능을 보였다.
구체적으로 만든 방법은 3편에 계속…
함께 보면 좋은 콘텐츠
🔗온라인 구어체에 대응하는 방법 1.변칙적인 말뭉치 데이터를 정제하기
Editor l 고원희 연구원