월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)

2025-04-07

앞서 2편에서는 영상 콘텐츠를 업로드하는 과정을 통해 클로바 노트와 소닉스, 그리고 저희 레터웍스의 편의성과 인터페이스, 기능성을 비교해 보았는데요.

이번 포스팅에서는 세 솔루션이 생성한 결과물의 성능을 비교 분석해 보겠습니다.

‍

🗂️생성 텍스트의 분류 기준

클로바 노트와 소닉스는 전체 음성을 인식하여 화자 단위로 분류합니다. 참석자1 (Speaker1), 참석자2(Speaker2) 등으로 화자 중심으로 분류하고, 이를 기준으로 생성된 텍스트를 보여 주는 방식입니다.

‍

<화자 단위로 분류하여 생성 택스트를 보여주는 소닉스(좌)와 클로바노트(우)>

‍

반면에 레터웍스는 화자가 아닌 문장 단위로 분류합니다. 또 한 문장이 너무 긴 경우에는 글자수를 기준으로 끊어서 보여줍니다. 레터웍스가 문장 단위, 글자수 단위로 분류하는 이유는 영상 자막 업무 시 자막을 분할할 때 화자 기준이 아닌 글자수 기준으로 나누기 때문입니다. 즉 영상 자막 업의 편의를 위해서 화자가 아니라 문장과 글자 수 기준으로 생성 택스트를 분류하고 있는 것이지요.

‍

<문장 단위, 글자수 단위로 분류하여 생성 텍스트를 보여주는 레터웍스>

‍

이러한 특성은 각기 장단점이 있습니다. 클로바 노트와 소닉스는 화자 중심으로 생성된 텍스트를 분류하므로 전체 내용의 맥락을 파악하기 쉽고, 화자의 특성을 인지하기에 효과적입니다. 반면 문장과 글자 수 기준으로 분류하는 레터웍스는 영상 자막 업무를 하기에 보다 유용할 수 있습니다.

각 솔루션의 인식 정확도 비교에는 이러한 특성을 살리기로 하였습니다. 클로바 노트와 소닉스는 화자 단위의 인식 정확도를, 레터웍스는 문장 단위의 인식 정확도를 측정하여 서로 비교해 보았습니다.

‍

🗨️화자/문장 단위 인식의 정확도

먼저 클로바 노트입니다. 화자 인식의 오류는 모두 6군데 발생하였습니다. 오류 유형은 2가지로 구분할 수 있었는데요. 특정 화자의 발언 도중 맞장구를 치거나 단문 형태로 질문을 하는 경우에 발생한 인식 오류가 첫번째입니다. 이를 오류유형 1이라 하겠습니다. 다음으로 화자의 발언이 끝나고 다른 화자의 발언으로 이어질 때, 즉 화자가 변경되는 시기에 발생한 오류가 있었는데요. 이를 오류유형2라 하겠습니다. 전체적으로 오류유형 1이 4건, 오류유형2가 2건 발생하여 총 6곳의 오류가 있었습니다.

4분 분량의 영상에서 6곳의 오류라면 오류가 많다고 느낄 수 있겠습니다만, 테스트를 직접 진행한 입장에서 오류가 많다는 생각이 들지는 않았습니다. 6건의 오류 모두 3-4개 어절로 이루어진 문장을 통째로 잘못 인식하는 심각한 오류라기보다는, 한두 문장으로 이루어진 짧은 발언을 잘못 인식한 사소한 오류로 볼 수 있었거든요.

‍

<크로바 노트의 화자인식 오류유형 사례>

‍

소닉스도 클로바 노트와 마찬가지로 화자 인식 측면에서 심각한 오류는 없었습니다. 다만 사소한 오류는 6건 찾을 수 있었습니다. 유형1의 오류가 4건, 유형2의 오류가 2건으로 총 6건이었습니다. 우연의 일치인지 몰라도 두 솔루션에서 동일하게 6건의 오류를 찾을 수 있었네요. 하지만 오류의 내용은 하나만 겹치고 나머지는 서로 달랐습니다.

‍

<소닉스의 화자인식 오류 사례>

‍

마지막으로 레터웍스는 화자 단위로 생성 결과물을 분류하지 않아 직접 비교하기는 어려웠습니다. 그런 까닭에 레터웍스의 인식 오류는 문장 전체, 또는 중요한 어절을 인식하지 못한 경우, 그리고 길지 않은 문장을 엉뚱한 곳에서 끊어버린 곳을 찾아 오류로 규정하기로 하였습니다. 그 결과 앞선 두 솔루션과 동일하게 6곳에서 오류가 발생하였음을 확인할 수 있었습니다.

6건 중 2개 이상으로 구성된 어절을 인식하지 못한 오류가 3건, 단문 미인식이 2건, 잘못된 분절이 1건이었습니다.

<레터웍스의 잘못된 분절, 단문 미인식 오류 사례>

‍

결과적으로, 세 종류의 솔루션에서 화자/문장 단위 인식의 정확도 테스트에서는 각각 6건의 인식 오류를 발견할 수 있었습니다. 공교롭게도 동일한 결과가 나왔는데요.

총 4분 분량의 영상에서 참석자 4명(진행자 1명과 초대손님 3명으로 구성)의 대화 또는 멘트가 47회 있었는데 그 중 6회씩의 오류가 있었으므로 87%의 정확도를 달성했다고 볼 수 있겠습니다.

또한 긴 문장 전체를 놓친 심각한 오류는 없었으며, 발언 도중에 특정 화자가 끼어드는 경우, 화자가 바뀌면서 빠르게 대화가 진행되는 경우에 주로 오류가 발생한다는 사실을 확인할 수 있었습니다.

‍

<세 솔루션의 화자(문장) 인식 정확도 비교>

‍

<세 솔루션의 오류 유형>

‍

이렇게 해서 화자/문장 단위 인식의 정확도를 확인해 보았습니다. 세 솔루션 모두 87%의 정확도를 보여 주었는데, 요즘 기술 발전 속도를 보면 100%의 정확도를 달성할 날이 멀지 않은 느낌입니다.

마지막으로 생성된 텍스트 결과물의 정확도를 비교해 볼 차례인데요. 다음 4편에서 최종 정확도 결과와 오류 유형을 살펴보도록 하겠습니다.

월간 인공지능 2호도 이제 마무리를 향해 달려 가네요. 지금까지 읽어 주셔서 감사드리고, 마지막 편도 즐겁고 편안하게 읽어 주시기를 바라겠습니다!

‍

전체 목록 보기

다음 노트 살펴보기

WORKS note

월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(3편_생성 결과물 비교)

2025-04-25

WORKS note

월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(2편_인터페이스 비교)

2025-04-23

WORKS note

월간 인공지능 2호 영상 기반 음성-텍스트 변환 솔루션 비교하기(1편_인터페이스 비교)

2025-04-21