2022년 새해가 밝았습니다. 새로운 시작에 앞서 우선 지나간 한 해를 정리해보고자 합니다.
지난 2021년 7월 이 공간을 오픈하고 지금까지 여러분이 가장 많이 찾아주신 컨텐츠들을 따로 모아봤습니다. 더불어 직접 글을 쓰고, 정리한 LETR팀이 해당 컨텐츠의 본문 중에서 뽑은 문장과 함께 다시 한번 소개드립니다. 혹시 지난해 못보고 지나쳤거나, 다시 한번 보고 싶은 글이 있다면 이번 기회에 확인해보시죠.
* 각 컨텐츠 제목 또는 이미지를 클릭하시면 해당 페이지로 연결됩니다!
NER의 현재와 미래: 01. 개념부터 다양한 접근법까지
‘NER은 자연어 처리(Natural LanguageProcessing, 이하 NLP) 전반에 걸쳐 중요한 역할을 합니다. 자연어 처리를 이용한 정보 검색과 요약, 질문 답변, 지식 베이스 구축 등 다방면에 사용되고 있습니다. 특히 기계 번역(Machine Translation, 이하 MT)의 품질을 높이며, 사용자에게 맞춤형 번역을 제공할 수 있도록 도와주는 역할을 합니다.’
'예를 들어, 'TWIGFARM'을 글자 그대로 해석하면 ‘트위그팜’이 아닌 ‘나뭇가지 농장’이라고 해석됩니다. 그런데 이러면 번역 오류가 일어날 뿐만 아니라 사용자에게도 불편한 경험을 안겨줄 수 있습니다. 반면 TWIGFARM을 회사명으로 제대로 인식할 수 있다면, 번역 품질 뿐만 아니라 사용자 경험까지도 함께 향상될 수 있습니다.'
NER의 현재와 미래: 02. 모델 구조와 데이터 셋 현황
‘현재 한국어에만 특화된 공식적인 NER 라이브러리는 찾기 어려우며, 대부분 다국어로 학습된 모델에서 한국어를 찾을 수 있습니다.’
'한국의 NER 데이터는 그 수가 매우 부족한 상황입니다. 현재 공개된 한국어 NER 데이터 셋은 총 세 가지이며, 모두 상업적 이용은 제한되어있습니다.'
인공지능 번역기 학습시키기: 01. 말뭉치, 왜 필요한가?
‘그런 이유로 현재 번역기의 성능을 높이는 가장 확실한 방법은 데이터를 잘 만드는 겁니다. 번역기를 학습시키는 교과서 역할을 할 양질의 데이터가 있으면 자연스레 번역기의 성능도 좋아지게 되죠. 예를 들어 한영 번역기를 학습시키는 데이터는 한국어-영어로 구성된 문장 쌍입니다. 이런 문장 쌍을 전문 용어로 말뭉치라고 합니다.’
NER의 현재와 미래: 03. 앞으로의 개발방향과 목표
'NER은 정보 검색 등 매우 중요한 역할을 하기에 자연어처리 분야에서 활발한 연구가 진행되고 있습니다. 특히 사람 이름, 기관명, 지역명 등을 자동으로 감지할 수 있기 때문에 번역 상의 오류를 방지하여 번역 품질이 향상될 뿐만 아니라 분야에 따른 맞춤 번역을 통해 사용자의 만족도을 크게 높일 수 있습니다.'
'하지만 그럼에도 불구하고 한국어에 특화된 NER 데이터 셋은 아직까지 미비한 상황입니다. 이에 LETR팀은 데이터 양이 턱없이 부족한 한계를 극복하기 위해 한국어 위주의 데이터 셋을 구축하고, 이를 기반으로 학습한 더 높은 성능의 한국어 NER 모델을 구축하여 보다 정확하고 자연스러운 번역이 가능하게 만들고자 합니다.'
[AI 이야기] 인간을 닮아가는 기계 번역
'최근의 인공지능 기술은 다양한 문제 해결을 위한 인공 신경망들이 만들어지고, 이들이 연결되어 거대하고 복잡한 네트워크 구조를 구축하며 발전해왔습니다. 신경망 기계 번역도 이런 다양한 인공 신경망들 중 하나라고 볼 수 있죠. 짧은 시간 동안 다양한 발전 단계를 거치며 엄청난 속도로 진화했다는 점에서 우리 인간 두뇌의 진화 과정이 연상될 정도입니다.'
'그렇다고 지금 당장 기계 번역이 인간 전문가의 수준을 넘어서기는 쉽지 않아 보입니다. 모든 언어는 수 천년의 세월을 거쳐 진화해오는 과정에서 각기 복잡하고 고유한 특성을 갖게 됐기 때문이죠. 따라서 정확한 번역을 하려면 해당 언어권의 문화를 이해해야 하고, 전체적인 문맥 파악과 적절한 배경 정보를 토대로 유추하는 고도의 사고 과정이 필요합니다.'
언어처리 엔진 LETR는 왜 텍스트 언어에 집중할까?
'예전이나 지금이나 일에서 가장 중요한 산출물은 문서입니다. 지금도, 20년 전에도, 그리고 심지어 200년 전에도 마찬가지였죠. 모든 일의 계획부터, 진행, 마무리까지 사람들이 의사소통을 하고, 기록해서 기억하고, 전달하려면 문서 작성이 필요합니다.'
'그래서 우리는 텍스트 언어에 집중하고 있습니다. 글은 앞으로도 사라지지 않을 지속가능한 가치라 굳게 믿기 때문이죠. 누구나 한국어는 물론 다른 언어로 쓰인 콘텐츠까지 편안하게 이용할 수 있도록 실제 번역 및 콘텐츠 관리에 활용할 수 있는 다양한 기술과 서비스를 만들어냅니다.'
[우리 곁의 AI] 인공지능은 예술가의 꿈을 꾸는가 (3)
'스푸너: 로봇이 교향곡을 쓸 수 있어? 로봇이 캔버스에 멋진 명화를 그릴 수 있냐고?(Can a robot write a symphony? Can a robot turn a canvas into a beautiful masterpiece?)
서니: 당신은 할 수 있나요?(Can you?)'
'이 영화가 개봉한지 20년도 지나지 않았지만 이미 글을 쓰고, 작곡을 하고, 그림을 그리는 인공지능이 등장했습니다. 그럼에도 괜한 인간부심인지, 마음 한 편에서는 ‘인공지능, 너를 예술가로 인정해야 할까?란 의문을 버릴 수가 없습니다. 인간만이 할 수 있다 굳게 믿어왔던 예술인데, 이제 기술은 기계와 인간이 만든 작품을 명확히 구분하기 힘든 수준에 이르렀습니다.'
[AI 이야기] 인간 VS 인공지능 (3)딥러닝의 시대를 연 알렉스넷(AlexNet)
'딥러닝은 인간의 뇌가 학습하는 원리를 따릅니다. 힌튼은 인간의 뇌가 작동하는 방식처럼 AI도 지식을 프로그래밍화하는 것이 아니라 스스로 배우게 해야 한다고 믿었죠. 물론 컴퓨터 성능의 비약적 향상과 빅데이터의 발전이 그의 신념을 뒷받침한 덕분이기도 합니다.'
'알렉스넷은 딥러닝의 전성기를 연 변화의 시작이었습니다. 아주 복잡한 이미지나 영상일지라도 적절한 알고리즘 구조, 충분한 데이터에 기반한 학습, 컴퓨터의 성능만 뒷받침되면 탁월한 시각 인지 능력을 보여줄 수 있다는 것을 증명했으니까요.'
인공지능이 한국어를 더 어려워하는 이유?
'그런 점에서 기존에 영어 중심으로 발전해 온 자연어처리 및 기계번역의 특성상 한국어가 어려운 것도 이해가 됩니다. 한국인이 영어보다 일본어를 비교적 쉽게 배울 수 있는 것처럼, 기계도 영어와 유사한 프랑스어, 스페인어가 더 수월하겠죠. 또한 다른 언어에 비해 상대적으로 한국어 데이터가 아직은 많이 부족한 것도 불리한 부분입니다.'
기계 번역 성능을 평가하는 BLEU 스코어
'BLEU는 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 언어에 구애받지 않고 사용할 수 있으며, 계산 속도가 빠르다.’는 장점이 있죠. 즉 기계가 번역한 문장이 사람이 번역한 정답 문장과 유사할수록 더 높은 평가 점수를 기록합니다.'
함께보면 좋은 콘텐츠
2021 LETR 연말정산 (2)우리가 좋아한 컨텐츠2021 인공지능 및 자연어처리 주요 뉴스 (1)2021 인공지능 및 자연어처리 주요 뉴스 (2)