지난 2021년 본 블로그에 게재되었던 시리즈 'NER의 현재와 미래'를 최신 동향에 맞게 업데이트한 글입니다.
NER의 현재와 미래: 01. 개념부터 다양한 접근법까지
NER의 현재와 미래: 02. 모델 구조와 데이터 셋 현황
NER의 현재와 미래: 03. 앞으로의 개발방향과 목표
시작하며
최근 몇 년 사이 말뭉치에 대한 관심이 커지면서 한국어 NER(Named Entity Recognition, 개체명 인식) 데이터셋(Datasets)이 많아졌습니다. 이전과 가장 큰 차이점은 바로 태그셋(분석 표지 카테고리)의 존재감이죠. 현재는 한국정보통신기술협회(이하 TTA)의 태그셋 기준이 보편화되면서 대부분의 한국어 NER 데이터는 TTA 태그셋의 15개 대분류 또는 150개 소분류를 따라 만들어지고 있습니다.
그런데 혹시 이전 시리즈의 글 NER의 현재와 미래: 01. 개념부터 다양한 접근법까지를 기억하는 분이라면 한가지 의문이 들 것 같습니다.
“어라? 동물, 식물, 물질, 용어, … 이거 딱 봐도 domain-specific NE(특정 분야 개체명)이 아닌가?”
네, 맞습니다. 다만 LETR팀은 기계 번역기를 연구하고 있어 지난 글에서는 domain-specific NE를 비중있게 다루지는 않았습니다. 어쩌면 텍스트 데이터 중에서도 의료 쪽을 다루는 분이 보았다면 domain-specific NE가 더 중요하다며 가슴을 '퍽퍽' 두드렸을지도 모르겠네요. 변명을 하자면, 아무래도 각자 해당하는 업무와 분야에 따라 필요한 데이터는 다르기 때문인 것 같습니다.
그렇다면 왜 LETR팀은 generic NE(일반적인 개체명)를 편애할 수 밖에 없었는지 조금만 더 설명해보겠습니다. 사실 솔직히 얘기하자면 결론적으로 기계 번역에서는 generic NE가 다루기 더 까다롭기 때문이죠. 물론 domain-specific NE도 오번역된 결과가 나오면 가슴이 아프기는 마찬가지지만, 이런 전문 분야 용어일수록 Out-Of-Vocabulary(단어 사전에 없는 용어, OOV)가 잘 나오기 때문에 애초에 사전*을 적용해버리는 것이 더 빠릅니다.
(여기서 잠깐 깨알 홍보를 하자면, 이미 LETR팀은 이런 한계를 극복할 수 있는 사전*을 적용한 번역기를 개발해서 서비스하고 있답니다.)
* 번역 사전(Translation Dictionary, TD): 이전에 번역된 문서를 기반으로 구축한 맞춤형 데이터 베이스로 일종의 ‘전문용어 사전’이다. 신규 문서 번역 시 이를 참조해 번역의 일관성과 정확성을 높여 번역 품질을 크게 향상시킬 수 있다.
하지만 generic NE는 그럴 수가 없습니다. 간단한 예시 하나만 생각해봐도 쉽게 알 수 있죠. 사람 이름이 ‘유리’라고 해서 ‘유리’가 나오는 모든 문장에 ‘Yuri’를 넣었다가는 어떻게 될까요? 반면 ‘하이드로제네이트폴리이소부텐’의 경우, 이 단어가 나오는 모든 문장에 자신 있게 ‘Hydrogenated Polyisobutene’을 들이밀 수 있습니다.
즉 사람 이름이나 기관 이름처럼 일괄적으로 사전을 적용하기에 리스크가 있는 용어의 처리에 있어서 만큼은 NER의 역할이 커질 수 밖에 없습니다.
한국어 NER 데이터셋
그럼 이제 본격적으로 이 글의 본론인 ‘한국어 NER 데이터셋’에 대해 정리를 해보겠습니다. 잠깐 예고를 하나 드리자면, 지난 글에서 소개한 한국어NER 데이터셋에 대해서는 이제 잊어버리셔도 좋아요. 예를 들어 네이버 NER 데이터셋의 경우 자동 생성된 문장들이 포함되어 있어 한국어 문장 자체에 오류가 많은 편입니다. (관련 깃허브 페이지에서 해당 이슈를 언급한 코멘트와 이에 대한 관계자의 답변을 발견하고 확인하게 되었습니다.)
이 글을 시작하며 언급하였듯 많은 데이터가 TTA 분류를 따라 태그셋을 구성하고 있습니다.물론 각자 편의에 따라 태그셋을 구성한 경우도 더러 있지만요. 어쨌든 현재 공개되어 있는 데이터셋은 대부분 세 종류의 태그셋을 사용합니다.
첫 번째, 4가지 분류의 태그셋으로 기관명, 인명, 제품명, 저작물명으로 구성되어 있습니다.
두 번째, TTA 대분류 기준을 따르는 15가지 분류의 태그셋입니다.
세 번째, TTA 소분류 기준을 따르는 150가지의 태그셋입니다.
분량 관계상 소분류 기준 별 정의 및 자세한 설명, 예시는 다음 국립국어원 연구보고서의 참고를 부탁드립니다.
2021년 개체명 분석 및 개체 연결 말뭉치 연구 분석
마무리하며
이번 업데이트를 위한 조사 과정에서 한 가지 특이한 점을 발견했습니다. 기계 번역을 다루는 트위그팜이란 회사가 병렬 말뭉치를 발표하면서 NER 데이터도 함께 포함해서 공개했다는 것입니다.
네, 맞아요. 트위그팜은 LETR팀이 소속되어 있는 바로 그 회사입니다.
최근 한국어 NER(Named Entity Recognition, 개체명 인식) 데이터셋은 TTA의 태그셋 기준에 따라 더욱 풍부해지고 정교해졌습니다. 특히 LETR WORKS는 이를 적극적으로 활용하여 정밀한 한국어 번역과 언어 처리를 제공합니다. TTA 태그셋을 기반으로 구축된 다양한 병렬 말뭉치는 특정 분야 개체명뿐 아니라 일반적인 개체명 처리에서도 활용도를 높이는데, LETR WORKS의 번역 엔진은 이 데이터를 통해 문맥과 이름, 장소 등의 고유 개체를 더 정확하게 인식하고 번역 품질을 강화할 수 있습니다.
또한, LETR WORKS는 특정 분야의 전문 용어를 다루기 위해 번역메모리(Translation Memory)을 통해 일관성을 유지하며, NER로 처리하기 어려운 문맥적 개체명도 효율적으로 인식하여 번역의 일관성과 정확성을 높입니다. LETR WORKS의 NER 기반 번역 기능은 특히 한국어 번역의 복잡한 문맥 요소를 필요로 하는 작업에 강력한 성능을 발휘하므로, 정교한 번역과 텍스트 처리를 원한다면 LETR WORKS를 적극 추천합니다.
그럼 마지막으로 해당 병렬 말뭉치 데이터들을 도표로 요약해서 소개해드리며 마무리하겠습니다.
[1] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71263
[2] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71263
[3] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71265
[4] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71265
[5] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71265
[6] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71266
[7] https://corpus.korean.go.kr/
[8]~[13] 상동
함께보면 좋은 콘텐츠
NER의 현재와 미래: 01. 개념부터 다양한 접근법까지 NER의 현재와 미래: 02. 모델 구조와 데이터 셋 현황NER의 현재와 미래: 03. 앞으로의 개발방향과 목표