지난 1편(월간 인공지능 1호-1편)에서 클로바 노트와 구글 Docs의 음성-텍스트 변환 과정을 살펴 보았습니다. 2편에서는 이어서 생성 결과물을 비교해 보겠습니다.
🎙️비교 테스트 결과_화자 인식
구글 Docs의 변환 기능과 비교할 때 클로바 노트의 가장 큰 장점은 바로 화자를 분리하여 화자별로 대사를 작성해준다는 점입니다. 다자 간 대화에서 여러 명의 목소리를 각각의 화자로 분류하여 인식하고, 화자별로 대사를 작성한다는 점이 가장 편리했습니다. 반면, 구글 Docs의 변환 기능은 화자를 분류하지 않고 대사만 텍스트로 생성해 주므로, 여러 용도로의 활용성을 고려하면 아쉬움이 남을 수밖에 없었습니다.
대부분 사용자가 텍스트 변환 후 다시 읽으면서 기억을 되살리거나, 내용의 요점을 찾아 요약하는 등의 용도로 활용하므로 자체적인 화자 분류 기능은 매우 편리할 수 있습니다. 만약, 영상 등 콘텐츠에서 대사를 추출하는 것이 중요한 용도라면, 화자를 정확하게 분류해 주는 기능이 이후 작업을 훨씬 간편하게 해 줄 것입니다. 그런 측면에서 화자 분류 기능을 제공하는 클로바 노트가 훨씬 더 유용할 수 있다는 점을 확인할 수 있었습니다. 다만 단일한 화자가 진행하는 프로그램, 즉 강의를 들을 때나 1인이 진행하는 짤막한 다큐멘터리 영상 같은 경우에는 구글 Docs를 활용해도 무방하겠죠.
<화자 단위로 분류하여 음성-텍스트 변환 결과물을 생성한 클로바 노트><화자 분류 없이 음성-텍스트 변환 결과물을 생성한 구글 Docs>
그렇다면 클로바 노트에서 화자 인식의 정확도는 어땠을까요?
4분 분량의 영상에서 진행자와 참석자 3명의 47회의 대화 혹은 멘트(진행자의 진행 멘트)가 있었는데 이 중 39회를 분류해 냈습니다. 4군데를 분류하지 못했는데 모두 화자의 멘트가 이어지는 중 다른 화자가 맞장구를 치거나 짧게 끼어드는 대목이었습니다.
<사례1>에서는 진행자의 멘트 중 참석자2가 ‘네 맞습니다.’라고 맞장구를 치는 장면이 있었는데 워낙 짧은 발언이라 화자가 다르다는 점을 인식하지 못한 것으로 보입니다.
<사례2>에서는 진행자와 참석자4가 ‘과찬입니다.’ ‘그렇습니다.’ ‘고맙습니다.’의 단답형 대화를 주고받는 대목이 있었는데, 이 대목에서 각 발언의 화자를 정확하게 인식하지 못했습니다.
위와 같이 화자를 인식하지 못한 사례는 2군데 더 있었는데, 맞장구나 짧은 단답형 대화라는 공통점이 있었습니다. 이렇듯 클로바 노트에서는 ‘맞장구’, ‘추임새’를 제외한 모든 대화에서 화자를 정확히 인식하고, 화자별로 대사를 생성해 내어 사용자가 보다 편하게 대화의 맥락을 이해할 수 있도록, 사후편집도 보다 편리하게 할 수 있도록 음성-텍스트 변환 서비스를 제공하고 있음을 알 수 있었습니다.
🔍비교 테스트 결과_음성 인식률
그러면 클로바 노트와 구글 Docs는 영상에서 진행자와 각 참석자의 대화, 또는 발언을 모두 인식하였을까요? 먼저 문장, 또는 절(구) 단위로 체크해 보기로 하였습니다.
4분 분량의 영상에서 대화를 분석한 결과, 총 47회의 대화, 75문장으로 구성되었습니다.
클로바 노트는 일부 단어를 다르게 인식하거나 끝말을 정확히 인식하지 못하는 경우가 있기는 하였으나 문장이나 절 단위로 놓치는 경우는 2군데 있었습니다. 두 군데 모두 고유명사(힙합 아티스트의 이름)이 포함된 부분으로, 대사를 주고받는 과정에서 힙합 음악이 배경음으로 재생되고 있던 대목이었습니다.
<사례3>과 같이, 진행자와 참석자2가 대화를 나누는 과정에서 아주 빠르게 대화가 진행되고, 배경으로 힙합 음악이 깔려 있던 대목에서 ‘~라고 혹시 아시나요?’라는 어구와 ‘귀에 때려박는!’이라는 대사(문장으로 분류)를 놓쳤습니다. 그 외에 단어를 놓치거나 잘못 인식하는 대목은 종종 있었지만 문장이나 어구, 어절 단위로 놓치는 부분은 없었습니다.
전체 75문장 중 2개 어절로 구성된 짧은 문장 하나를 놓쳤을 정도이니 99%라는 매우 높은 정확도를 기록했다고 볼 수 있습니다. 이는 구글 Docs와 비교하면 훨씬 압도적인 결과입니다.
반면, 구글 Docs는 전체 75문장 중 47개 문장만을 인식하였습니다. 약 63%의 문장만을 제대로 인식한 결과입니다.
그 원인을 파악해 보려 했는데, 정확한 분석은 어려웠지만 대체로 말의 속도가 빠르거나, 대화가 빠르게 이어지는 대목에서 음성 인식률이 대체로 낮아지는 듯한 느낌을 받았습니다. 또 목소리 톤이 낮아지거나, 작은 목소리로(상대적으로) 얘기할수록 대체로 인식을 못하는 경향이 있는 듯 하였습니다. 따라서, 0.7배속으로 영상을 재생하여 인식률을 높일 수 있는지 테스트를해 보았는데요. 결과적으로 인식률이 높아지지 않았습니다. 오히려 45개 문장을 인식하여 1배속 재생 때보다 인식한 문장이 더 줄어드는 결과가 나왔습니다.
<클로바 노트와 구글 Docs의 문장 단위 인식률 비교>
결론적으로 클로바 노트와 구글 Docs의 음성 인식–텍스트 변환의 문장 단위 인식률을 비교하면 클로바 노트는 매우 높은 수준을 기록하였고, 구글 Docs는 상대적으로 낮은 인식률을 보였습니다.
또한 클로바 노트는 텍스트 생성 시 마침표나 물음표와 같은 문장 부호를 함께 생성해 주는 데 반해(물론 대화체 문장등 일부 문장의 경우에는 문장부호를 놓치거나 생략하는 경우도 있었습니다), 구글 Docs는 문장 부호를 생성하지는 않았습니다. 이 또한 생성 텍스트의 가독성 측면에서 클로바 노트가 보다 우수하다고 할 수 있겠습니다.
결론적으로, 구글 Docs는 한국어 기준, 다자간 일상 대화나 여러 화자가 등장하는 토크쇼 형식의 영상에서 음성 인식의 경우, 업무나 리뷰에 사용하는 것 자체가 어렵겠다는 결론을 내리게 되었습니다. 문장 단위 인식률이 낮고 가독성이 좋지 않아 전체 대화의 맥락을 파악하기가 쉽지 않았기 때문입니다.
✅비교 테스트 결과_음성과 생성 텍스트의 정확도
마지막으로 가장 중요한 정확도를 테스트해 보았습니다. 정확도가 높다면 그만큼 업무 활용도나 활용 시 효율성이 높아질 것입니다. 가장 이상적인 사례는 정확도 100%를 달성하는 것이겠지요. 만약 정확도 100%가 보장된다면 인공지능 기술로 텍스트를 생성한 후 별도의 확인이나 수정 없이 그대로 업무에 활용할 수 있습니다. 사람의 확인 없이 그대로 활용 가능하다면 그야말로 혁신이겠지요. 만약 영상 콘텐츠의 자막처리에 이를 활용할 수 있다면 획기적으로 업무시간을 줄일 수 있을 겁니다.
하지만 아직까지는 100% 정확도를 보장할 수 없고, 그렇기에 누군가는 생성물이 실제 대사와 일치하는지 확인을 거쳐 보정을 해야 합니다. 즉 사람의 손길을 거쳐야 한다는 의미인데, 100%까지는 아니더라도 정확도가 높다면 사후 작업의 효율성이 훨씬 좋아질 것입니다. 손쉽게 수정, 편집할 수 있다면 말이죠.
먼저 구글 Docs에서는 생성 텍스트의 정확도를 굳이 측정하지 않았습니다. 이미 문장 인식과 생성 자체의 성공률이 63% 수준으로 너무 저조하여 업무에 활용하기 어렵겠다는 결론을 내렸기 때문입니다. 다만 이는 한국어, 다자간 대화(토크쇼 형식)라는 조건을 적용할 때의 결과이므로, 다른 언어, 다른 상황에서는 다시 테스트를 해 보아야 업무 적용이 가능할지 여부를 판단할 수 있을 것입니다.
클로바 노트 생성문의 경우, 실제 대사와 비교하여 잘못 인식한 부분을 찾아 보았더니 32군데가 나왔습니다. 전체 문장 수가 75문장이니까 32군데가 틀렸다면 2문장 중 1건 이하의 오류로 볼 수 있는데요. 이중 단어나 어절을 잘못 생성한 오류가 18건, 특정한 어절이나 단어를 생략한 오류가 8건, 고유명사를 잘못 생성한 오류가 5건, 평서문과 의문문을 구분하지 못한 오류가 1건 있었습니다.
<클로바 노트의 생성 오류 유형>
유형별로 보면 단어를 잘못 인식하는 경우는 총 18건으로 가장 많았습니다. ‘아니,’를 ‘아니요’로 생성하거나, ‘다른 걸’을 ‘다른 건’으로 생성하는 등 음성을 굳이 확인하지 않아도 내용을 쉽게 유추할 수 있는 사소한 오류도 있었고, ‘과찬입니다’를 ‘과천입니다’로 생성하거나 ‘인생 2회차를’을 ‘인생 위해차를’로 생성하는 등 의미를 다르게 받아들일 수 있는 오류도 있었습니다.
재미있는 부분은 ‘과학고등학교’의 줄임말인 ‘과고’라던지, ‘룸메이트’의 줄임말인 ‘룸메’라는 단어는 정확히 인식하였다는 점이 신선했습니다. 또 참가자 중 한 명이 속사포 랩 한 소절을 소개하는장면도 있었는데, 100% 정확하지는 않더라도 비교적 비슷하게 인식,생성한 결과도 흥미롭습니다.
생성 시 어절이나 단어가 생략되어 버린 경우는 총 8건이었는데, 문장의 끝맺음이 생략되어 버린 경우가 가장 많았습니다. ‘분명히 있습니다.’에서 ‘있습니다’를 생략하는 것과 같은 경우입니다. 실제 영상을 통해 다시 들어보니 이러한 오류는 충분히 납득이 되었습니다.
화자가 말을 하다 말 끝을 흐리는 경우도 있고, 미처 말이 끝나기 전에 다른 화자가 끼어드는 경우도 있습니다. 이런 경우, 끝맺음을 정확히 인식하지 못할 가능성이 있을 것이라 생각됩니다. 2-3개 어절, 또는 2개 어절로 이루어진 문장이 통째로 생략되는 경우도 있었는데 내용에 고유명사가 포함되어 있고, 빠르게 대화를 주고받는 장면이었습니다.
고유명사를 잘못 인식한 오류(5건)도 충분히 이해할 수 있었습니다. 특히, 특정 인물의 이름을 발음할 때, 발음이 어려운 이름이거나 외래어가 섞인 경우(아티스트의 활동명, 개인 창작자 닉네임 등)는 오류가 발생할 수 있겠지요.
그 외에 평서문과 의문문을 구분하지 못한 경우도 여러 건 있었지만, 그 중 의미 전달에 문제가 있을 수 있는 경우는 1건 찾을 수 있었습니다. 그 외에는 평서문과 의문문을 비교적 정확하게 구분해 냈고, 문장부호까지 생성하였습니다. 사용자는 편하게 읽으면서 맥락을 이해하고, 손쉽게 오류를 수정할 수 있겠지요.
결론적으로, 총 단어 수를 기준으로 오류가 얼마나 발생했는지를 집계해 보았더니 621개 단어로 구성된 대화에서 약 32건의 오류가 발생하였습니다. 따라서 약 95%의 정확도를 달성했다고 볼 수 있습니다. 사소한 오류가 아닌, 의미 전달이 잘못될 정도의 오류는 14건으로 전체 오류의 절반도 되지 않았으니 업무 효율 향상에 크게 기여할 수 있는 솔루션이라고 판단하게 되었습니다.
⚖️최종 결과 비교
네이버에서 서비스하는 클로바 노트는 모든 측정 부문에서 90% 이상의 정확도를 보여주었으며, 이 정도의 성능이라면 한국어, 다자 간 대화라는 조건 하에서 업무에 매우 유용하게 활용할 수 있을 것으로 생각됩니다.
하지만 구글 Docs는 동일한 조건에서 업무나 생활에 활용하기는 다소 어려워 보입니다. 화자분리 인식이 되지 않는 점은 그렇다 치더라도, 평상 속도 대화에서63%(문장 단위 기준)의 문장만을 생성하면서 그 정확도도 상당히 떨어지기에 전체 대화의 맥락을 파악하기가 쉽지 않기 때문입니다.
금번에는 실제 음성을 인식하고, 이를 기반으로 텍스트를 생성하는 STT 솔루션을 비교해 보았는데요. 클로바 노트의 경우 오디오 파일을 업로드하면 파일 내의 음성을 자동으로 인식하여 텍스트로 생성해 주는 서비스도 제공합니다. 이와 유사한 인공지능 서비스를 제공하는 솔루션으로 소닉스(Sonix)가 있는데, 다음화에서 클로바 노트와 소닉스, 그리고 저희 솔루션인 레터웍스까지 함께 비교 분석해 보도록 하겠습니다.
지금까지 읽어 주셔서 감사합니다. 다음 번 월간지능 2호에서 뵙겠습니다!💡