지난 1편에서 클로바 노트와 소닉스, 레터웍스의 영상-텍스트 변환 과정을 통해 인터페이스를 비교해 보았는데요.
2편에서는 생성 후 편집 업무를 위한 인터페이스까지 종합적으로 비교해 보도록 하겠습니다.
🖥️3가지 솔루션 결과물의 사후작업을 위한사용자 인터페이스 구조 비교
클로바 노트의 변환 결과물 화면은 크게 4단으로 구성되어 있습니다. 좌측 메뉴, 중앙에 음성기록, 우측 메모, 그리고 하단의 오디오 메뉴입니다.
① 메뉴 : 녹음, 파일 업로드 등 변환을 위한 기본적인 기능과 ‘노트’ 단위로 관리할 수 있는 기능을 제공하는 메뉴들로 구성되어 있습니다.
② 음성기록 : 생성된 변환 결과물(텍스트)을 표출해 주는 부분입니다.음성을 화자별로 분류하여 생성하고 있음을 확인할 수 있습니다.
③ 메모 : 사용자가 음성기록을 읽으면서 메모할 수 있는 기능을 제공하는 부분입니다. 음성기록의텍스트를 사용자가 직접 편집할 수 있고, 메모란에 메모할 수도 있습니다. 클로바 노트에서는 AI 요약 기능도 함께 제공하고 있는데 메모란에서 해당 기능을 활용하여 요약 내용을 읽어볼 수도 있습니다.
④ 오디오 : 음성을 직접 재생하여 들으면서 텍스트와 비교하거나 확인할 수 있는 기능을 제공하는 섹션입니다. 일반적인 오디오 재생 플레이어처럼 재생과 멈춤 등의 기능이 제공됩니다.
클로바 노트는 영상을 직접 업로드하는 방식이 아니라, 오디오 파일을 업로드하여 이용할 수 있습니다. 즉 영상 기반이 아닌 오디오 기반의 솔루션이라 할 수 있으며, 그래서 오디오 기능이 제공되지요. 이것이 바로 영상 변환 솔루션인 소닉스, 레터웍스와 가장 큰 차이점입니다.
소닉스의 변환 결과물 화면은 크게 3단으로 구분됩니다. 각종 기능을 모아 놓은 메뉴가 상단에 배치되어 있고 좌측에 영상, 우측에 생성된 텍스트 결과물로 구성되어 있습니다.
① 메뉴 : 다양한 기능을 제공하는 메뉴로 구성됩니다. 다른 언어로 변환하는 기능, 즉 번역 기능부터 자막 설정 기능과 함께 인공지능 기술을 활용한 요약 기능과 분석 기능 등이 제공됩니다. 또 영상 재생 기능도 제공되는데, 일반 영상 플레이어들의 기능을 제공하고 있음을 확인할 수 있어요.
② 비디오 : 메뉴의 영상 재생 기능을 활용하면 전체 화면 좌측에 배치된 영상 화면에서 볼 수 있습니다. 하단에는 설정, 자막과 관련된 기능과 옵션을 제공합니다.
③ 텍스트 생성 결과물 : 소닉스가 생성한 텍스트 결과물이 여기에 배치됩니다. 화자별로 분류하여 생성된 텍스트 결과물을 표출하고 있으며, 사용자가 쉽게 편집할 수 있습니다. 상단에 사용법을 안내하는 도움말을 통해 초보자도 쉽게 활용할 수 있다는 장점이 있고, 화자(대사)별로 메모를 남길 수도 있습니다. 만약 자막 편집 업무를 한다면 ‘완료 체크하기’ 기능도 활용할 수 있는데 업무에 활용하면 편리하겠다는 생각이 드네요.
마지막으로 레터웍스의 변환 결과물 화면은 영상 편집 솔루션인 소닉스와 비슷하면서도 약간의 차이가 있습니다. 먼저 소닉스의 주요 기능들이 화면 상단 메뉴 섹션에 집중되어 있는 반면, 레터웍스의 메뉴는 상단과 하단으로 분리되어 있습니다. 상단 메뉴는 검색, 설정 등 간단한 기능을 제공하고, 하단 메뉴는 비디오 조정 기능을 제공합니다. 또 생성된 텍스트 결과물을 둘로 나누어 보여주는 특성이 있습니다. 원문을 보여주는 섹션과 자막을 편집하는 섹션으로 구분되어 있는 것인데요. 비디오를 재생하여 소리를 듣고, 생성 결과물의 원문을 읽으면서 자막 업무를 한다면 좀 더 편리할 수 있겠네요. 전체적으로 구성이 좀 복잡하다는 느낌이 드는 건 어쩔 수 없지만, 사용자 편의를 위해 섬세하게 화면을 분할하여 보여주고 있다는 점을 알 수 있습니다.
① 메뉴 : 검색, 화면 구성(배치)을 조정할 수 있는 레이아웃, 설정 등 간단한 기능들로 구성되어 있는 상단부 메뉴 섹션입니다.
② 비디오 : 하단의 비디오 조정 기능을 통해 영상의 원하는 부분을 재생하여 볼 수 있습니다.
③ 원문 : 텍스트 생성 결과물을 보여 주는 부분입니다. ‘원문’ 섹션에서는 결과물을 볼 수만 있고 편집을 할 수는 없습니다.
④ 자막 편집 : 원문을 보면서,영상의 음성을 직접 들으면서 편집을 할 수 있는 섹션입니다. 사용자가 생성 결과물을 활용할때 직접적으로 사용하는 부분이라 할 수 있으며, 해당 텍스트가 몇 초 동안 재생되는지, 몇 글자로 이루어져 있는지 등 세부 사항을 확인할 수 있어요. 자막업무를 하고 있다면 소닉스처럼 ‘완료’ 기능을 활용할 수있어 편리합니다.
⑤ 비디오 조정 : 영상 재생, 멈춤 등 기능과 함께 시간대별로 상세하게 음성 분석 결과를 보여주는 메뉴입니다. 영상의 음성과 시간을 함께 확인할 수 있으며, 원하는 위치로 편리하게 이동, 재생할 수 있어 편집 업무에 유용합니다. 소닉스 또한 유사한 인터페이스와 기능을 제공합니다.
👆3가지 솔루션의 인터페이스 종합 비교_용도, 변환 과정, 기능성측면
먼저 클로바 노트는 음성, 즉 오디오 기반 솔루션이라 영상 편집과 관련된 인터페이스를 제공하지 않는다는 측면에서 소닉스, 레터웍스와 차이가 있습니다. 그런 만큼 비교적 심플하고 간단한 인터페이스를 제공하고 있으며, 사용법을 잘 몰라도 편리하게 이용할 수 있다는 장점이 있었습니다. 소닉스와 레터웍스는 영상 콘텐츠의 자막 업무에 주로 활용되는 영상 기반 솔루션이라는 공통점이 있었습니다. 따라서 오디오 중심의 업무가 필요하다면 클로바 노트를 사용하면 간편하고, 비디오 중심의 업무가 필요한 경우에는 소닉스나 레터웍스를 활용하는 것이 적절합니다. 소닉스는 둘 다 지원하므로 더욱 다양한 업무 활용이 가능하겠네요.
<오디오 파일 위주의 클로바 노트, 비디오 파일 위주의 레터웍스, 둘 다 가능한 소닉스>
파일을 업로드하는 과정은 세 솔루션 모두 쉽고 간단했습니다. 직관적인 인터페이스를 제공하고 있으면서 업로드 가능한 파일 종류 등에 대해서도 안내하고 있어 별도의 도움말을 찾아볼 필요 없이 편리하게 활용할 수 있었습니다.
제공하는 언어는 차이가 있었는데요. 클로바 노트는 한국어, 영어, 일본어, 중국어의 4개 언어를 지원하고, 레터웍스는 4개 언어에 추가로 3개 언어(베트남어, 인도네시아어, 포르투갈어)를 더 지원합니다. 소닉스는 다양한 언어를 지원하는 것이 강점인 만큼 수십 종류의 언어를 지원한다는 점이 인상적이었습니다.
결과물 생성에 걸리는 시간은 클로바 노트와 레터웍스가 비슷하였고, 소닉스는 두 솔루션 대비 시간이 조금 더 걸렸습니다. 아마도 국내 기반, 해외 기반 서비스라는 차이가 있기 때문일 수 있는데요. 4분짜리 짧은 영상의 테스트여서 크게 불편할 정도는 아니었지만, 영상이나 오디오의 분량이 많거나 파일 용량이 크다면 소닉스의 생성 속도가 다소 느린 점 때문에 사용자가 불편을 느낄 수도 있을 것 같습니다.
마지막으로 변환 생성 후 편집 작업의 인터페이스와 편의성(기능 위주)을 비교해 보았습니다. 클로바 노트는 인터페이스를 심플하게 구성하고 있으면서도, 텍스트 수정, 하이라이트, 메모, 북마크 등 사용자에게 유용한 기능을 모두 제공하고 있습니다. 또, 다시 듣기를 원하는 부분을 곧바로 재생하여 음성과 텍스트를 비교할 수 있으므로 업무에 편리하게 활용할 수 있습니다.
<클로바 노트가 사후 편집을 위해 제공하는 여러 기능들>
소닉스와 레터웍스는 비슷하면서도 차이를 보였는데요. 가장 큰 차이는 '생성 결과물을 단일하게 표출하는가?, 아니면 원문과 편집 모드로 분리하여 보여주는가?' 입니다. 원문과 사용자의 작업물을 직접 비교할 수 있다는 점에서, 레터웍스의 편의성이 더 뛰어나다고 할 수 있겠습니다. 다만 편집의 기능적 측면에서는 둘 다 모두 우수합니다. 편집에 필요한 필수 기능은 물론, 부가 기능까지 빠짐없이 제공하고 있기 때문입니다.
<소닉스(좌)와 레터웍스(우)의 사후 편집 인터페이스 구조>
다음으로 영상 조정 기능을 비교해 보겠습니다. 레터웍스는 화면 하단에 영상 조정 기능(영상 내 음성 분석 기능)을 제공하는데요. 소닉스 역시 레터웍스와 유사하게 하단에 영상 조정 기능을 제공합니다. 생성 초기 화면에는 보이지 않지만 SUBTITLES 버튼을 클릭하면 영상 시간대별로 텍스트를 보여주는 영상 조정 인터페이스가 나타납니다.
<SUBTITLES 버튼을 클릭하면 나타나는 소닉스의 영상 조정 인터페이스>
레터웍스 역시 영상 조정 기능을 제공하면서 하단에 사용자 인터페이스가 배치되어 있습니다. 미세한 자막 조정에 활용할 수 있어 편리한 기능입니다.
<레터웍스의 영상 미세 조정 인터페이스>
클로바 노트에서 제공하는 기능보다 더 세밀한 조정이 가능하여 두 솔루션 모두 세심한 조정이 필요한 작업에도 편리하게 활용할 수 있습니다.
마지막으로 음성의 분류 단위 측면에서 비교해 보면 클로바 노트와 소닉스는 화자 단위로 분류하고 있습니다. 목소리의 화자를 인식하여 참가자1, 참가자2와 같이 분류하고 있는 것입니다. 반면 레터웍스는 화자 단위가 아니라 문장, 또는글자수 단위로 분류하고 있다는 점을 알 수 있는데요. 영상 자막은 한 화면에 표출할 수 있는 글자 수에 제한이 있죠. 그래서 사후 편집 작업(자막 작업)의 편의를 위해 화자 단위가 아닌 글자 수 단위, 또는 문장 단위로 분류하고 있습니다. 어떤 분류가 좋고 나쁘다의 차원을 떠나, 영상 자막 편집 작업이 주요한 용도인 솔루션인지, 영상 자막 뿐 아니라 다양한 작업(중요한 회의 내용 녹음, 편집 등)에 활용할 수 있는 솔루션인지를 파악할 수 있습니다.
<활용 목적, 기능성에 따른 세 솔루션의 공통점과 차이점>이번 포스팅에서는 STT/VTT 솔루션에 영상 콘텐츠를 업로드하는 과정을 통해 편의성과 인터페이스, 기능성 등 여러 측면에서 비교해 보았는데요. 이어서 3편에는 화자/문장 분류의 적정성과 생성 텍스트의 정확도를 통해 성능을 비교 분석해 보도록 하겠습니다.
긴 글 읽어주셔서 감사합니다!
월간 인공지능 1호’ 내용이 궁금하신 분을 위해 링크를 제공해 드릴게요!
월간 인공지능 1호 ‘음성-텍스트 변환솔루션 비교하기’(1편) 바로가기
👉 https://www.letr.ai/ko/blog/speech-to-text-solutions-1
월간 인공지능 1호 ‘음성-텍스트 변환솔루션 비교하기’(2편) 바로가기
👉 https://www.letr.ai/ko/blog/speech-to-text-solutions2