여러분 안녕하세요!
지난달 ‘월간 인공지능 1호’에서는 영상을 직접 재생한 소리를 통해 음성을 인식하고 이를 텍스트로 변환하는 솔루션, 즉 음성인식(Speech-to-Text, STT) 솔루션을 비교해 보았는데요.
이번에는 영상을 업로드하면 영상 내 음성을 텍스트로 변환해 주는 솔루션, 영상 기반 음성인식(Video-to Text, VTT) 솔루션의성능을 비교해 보도록 하겠습니다.
🤖VTT 솔루션 선정
먼저 지난번 STT 솔루션 분석에서 우수한 성능을 보여준 네이버 클로바 노트를 선정하였습니다. 국내를 대표하는 IT 기업에서 개발한 솔루션인 만큼 방대한 자연어(한국어) 데이터를 활용해 우수한 기술을 적용하고 있을 것으로 생각되며, 특히 한국어에 강점을 가진 솔루션이라 할 수 있을 것입니다.
그리고 STT와 VTT 솔루션인 소닉스를 선정하였습니다. 소닉스는 미국 기업 소닉스가 제공하는 동명의 서비스로, 미국에서 개발된 솔루션이지만 영어,스페인어, 독일어 등 10개가 넘는 다국어의 전사(Transcription)를 지원하며, 자막 생성 기능도 제공합니다. 특히 자체 개발한 음성 인식 알고리즘을 활용하고 있어, 다양한 언어의 오디오, 비디오 파일을 텍스트로 변환하는 서비스를 제공하는 것으로 알려져 있습니다. 성능이 우수하다면 다양한 언어로 창작된 영상 콘텐츠의 현지화, 다양화 업무에 유용하게 활용할 수 있겠네요.
마지막으로 레터웍스를 선정하였습니다. 레터웍스는 VTT 기능 외에도 다국어 번역과 팀 단위 협업, 자막 생성 등 영상 콘텐츠의 현지화, 다양화를 위한 여러 기능을 제공합니다. 그중에서 다국어 자막, 청각 약자용 자막 작업 시 필수적인 절차인 전사(Transcription)기능을 위해 VTT 기능을 제공하고 있지요. 따라서, 국내 대표 솔루션, 해외 대표 솔루션과의 성능 비교를 통해 객관적으로 활용성을 안내해 드릴 수 있겠다는 생각으로 선정하게 되었습니다.
✨테스트 환경
앞선 STT 테스트와 동일한 4분 분량의 영상 콘텐츠를 활용하였습니다. 유튜브 영상 중 과학 관련 주제로 전문 진행자 1명과 과학자 3명, 총 4명이 출연하여 토크쇼 형태로 주고받는 형식의 콘텐츠였으며, 37분의 전체 분량 중4분의 분량만을 테스트에 활용하였습니다.
STT 테스트와의 차이점은 영상을 직접 재생하고 재생 시 발생한 소리를 솔루션이 인식하는 방식이 아닌, 파일을 직접 업로드하는 방식으로 테스트하였다는 점입니다. 영상이나 오디오 파일을 업로드하면 솔루션이 해당 영상의 소리를 자동으로 분석하여 음성을 텍스트를 변환 생성해 주는 방식입니다.
<테스트에 활용한 영상의 일부 장면>
🔊클로바 노트의 오디-텍스트 변환 인터페이스
클로바 노트의 인터페이스는 상당히 간편하다는 느낌을 받을 수 있었습니다. 좌측 기본메뉴의 ‘새 노트’ 버튼(아이콘)을 클릭하면 화면 중앙에 파일을 첨부할 수 있는 인터페이스가 표출되면서 분량과 파일 형식에 대해서도 간단히 안내하고있습니다.
<클로바 노트의 파일 업로드 인터페이스>
언어는 기본적으로 한국어로 지정되어 있는데, 영어, 일본어, 중국어 등을 선택할 수 있습니다. 마우스를 언어 선택 영역으로 가져가면 언어와 관련되어 친절하게 설명해 주는 것을 볼 수 있지요.
다만 영상 파일을 지원하는 것이 아니라 오디오 파일을 지원하는 특성이 있습니다. 영상 콘텐츠의 전사(transcription)에 직접 활용하려는 사용자에게는 아쉬운 부분입니다. 영상 파일이 아닌 오디오 파일만 지원하므로, 클로바 노트를 영상-텍스트 변환에 활용하려면 먼저 영상 파일을 오디오 파일(m4a, .mp3, .aac, .amr, .wav)로 변환하고, 변환한 오디오 파일을 업로드해야 합니다.
오디오 파일을 업로드하면 자동으로 소리를 분석하여 텍스트 변환 결과물을 생성합니다. 4분짜리 분량의 영상이라 결과물 생성까지 몇 초 걸리지 않았고, 화자별로 분리된 텍스트를 대화 형식으로 표출해 주었습니다.
<클로바 노트의 텍스트 변환 생성 결과물 예시>
🌐소닉스의 영상-텍스트 변환 인터페이스
소닉스는 유료 서비스라서 평가판 계정(trial account)을 만들어 테스트해 보았습니다. 클로바 노트처럼 직관적이면서 간편해 보이는 인터페이스가 인상적이었습니다. 다만 국내 서비스가 아닌 관계로, 메뉴와 각종 설명 등은 영어로 제공되고 있습니다. 설정이나 웹브라우저의 번역 기능을 통해 메뉴를 한국어로 변환하면 보다 편리하게 활용할 수 있으니 참고해 주세요.
<눈에 잘 띄는 UPLOAD 버튼>
기본 메뉴에서 주로 사용할 ‘UPLOAD’ 버튼이 눈에 잘 띄게 진한 색상으로 표시되어 있습니다. 버튼을 클릭하면 파일 업로드 메뉴로 이동합니다. PC에 저장된 파일을 업로드할 수도 있고, 줌/유튜브와 같은 영상 플랫폼에서 링크로 연결하거나, 드롭박스나 구글 드라이브 같은 클라우드 서비스와 연동하여 업로드할 수도 있습니다. 또, 영상 파일 뿐 아니라 다양한 오디오 파일을 함께 지원하고 있어보다 다양한 활용이 가능해 보였습니다.
<다양한 비디오/오디오 파일 형식, 다양한 연결을 통한 업로드를 지원하는 소닉스>
테스트 시에는 동일한 영상 콘텐츠를 활용했습니다. 드래그 앤 드롭으로 파일을 업로드하니 다음 단계인 언어 선택으로 넘어갔습니다. 정확히 세어보지는 않았지만 수십 종류의 언어를 지원하고 있습니다. 한국어 음성으로 제작된 영상을 업로드하면서 한국어를 선택하면 한국어 텍스트를 생성합니다. 한국어 음성 기반의 영상을 업로드라면서 영어를 선택해 보았더니 자동으로 번역을 해 주지는 않고, 영상 내에서 사용된 영어만 인식하여 일부의 텍스트만 생성하더군요. 다만 텍스트 변환(생성) 후 기계번역기를 활용한 번역 기능을 제공하고 있습니다.
<다양한 언어를 선택할 수 있는 소닉스>
언어 선택까지 끝마치면 영상을 텍스트로 변환하는데 약간의 시간이 걸립니다. ‘준비-전사-완료’의 3단계를 거쳐 계정 가입 시 등록한 이메일로 보내주는데, 완료되기까지 3-4분의 시간이 소요되었습니다.
<영상-텍스트 변환의 작업 진행 상태를 확인할 수 있는 인터페이스>
변환이 완료되면 텍스트 수정, 편집 등의 작업을 할 수 있습니다. 이 때 음성과 텍스트의 정확도를 보여 주는 점도 인상적입니다. 일종의 정확도 수준이라 할 수 있는데요. 인공지능 기술을 활용하여 생성한 텍스트 결과물이 실제 영상의 음성과 어느 정도 일치하는지 개략적으로 파악할 수 있습니다.
<생성된 결과물의 정확도를 측정하여 제시해 주는 소닉스>
이번 테스트에서는 텍스트 생성 결과물의 정확도를 92% 정도로 측정하였네요. 솔루션 자체 측정 결과이지만, 추후 편집이나 수정 시 업무 시간이 얼마나 걸릴지 대략 예상할 수 있다는 점에서 유용하다고 생각됩니다.
결과물 생성 후 편집이나 수정 작업을 편리하게 할 수 있도록 좌측에 영상을, 우측에 생성한 텍스트를 보여 줍니다. 사용자는 영상을 직접 재생하여 음성을 들으면서 텍스트가 정확한지 확인할 수 있고, 곧바로 수정 작업을 하거나 필요 없는 텍스트를 삭제하는 등 편집 작업을 편리하게 할 수 있습니다.
<죄측에 영상을, 우측에 화자별 텍스트를 보여주는 소닉스의 변환 생성 결과물(예시)>
🔠레터웍스의 영상-텍스트 변환 인터페이스
레터웍스는 영상이나 웹툰 콘텐츠의 현지화, 다양화를 위한 솔루션인데요. 이중 영상 자막이나 더빙 작업 시 가장 기본이 되는 VTT 기능을 제공하고 있으며, 클로바 노트나 소닉스처럼 간편한 인터페이스를 제공하고 있습니다.
먼저 영상 업로드를 위해 ‘새 프로젝트’ 버튼을 클릭합니다. ‘새 프로젝트’ 버튼 역시 다른 솔루션처럼 눈에 잘 띄도록 노란색으로 표시되어 있습니다.
<영상 업로드를 위한 ‘새 프로젝트’ 버튼>
‘새 프로젝트’ 버튼을 클릭하면 프로젝트 유형을 선택할 수 있습니다. 소닉스에서는 ‘Upload file – Add details – Wetranscribe’의 단계를 거쳤는데 레터웍스는 ‘프로젝트 유형 – 파일 업로드 – 정보 입력’의 단계로 진행됩니다.
첫 단계는 텍스트, 영상, 이미지 중 업로드할 파일의 유형을 선택하는 단계인데, 어떤 유형의 파일을 업로드할 수 있는지 예시와 아이콘을 통해 보여줍니다. 앞선 두 솔루션처럼 직관적이고 편리한 인터페이스로 구성되어 있지요.
<직관적으로 쉽게 이해할 수 있는 레터웍스의 인터페이스>
영상 테스트를 위해 ‘영상’ 버튼을 클릭했더니 파일을 업로드할 수 있는 화면으로 변경됩니다. 영상 파일은 가장 범용적으로 사용되는 MP4 형식만을 지원하고 있습니다.
파일을 업로드하면 마지막으로 정보를 입력하는 메뉴로 변경됩니다. 번역을 할 것인지, 전사(transcription)를 할 것인지 선택하고, 언어 선택, DRM을 적용할 것인지의 여부, 그 외에 효과적인 팀 작업을 위한 프로젝트 기간 설정, 자막 시간/글자당 기준 등 상세한 설정을 할 수 있는데, 이는 애초에 영상 자막 작업을 위한 솔루션이므로 세부적인 기준을 미리 결정하여 생성에 적용하도록 할 수 있는 기능입니다.
언어의 경우, 클로바 노트처럼 한국어, 일본어, 영어를 지원하고, 추가로 베트남어, 인도네시아어, 포르투갈어를 지원하고 있습니다. 소닉스는 수십개의 언어를 지원하고 있으므로 다양한 언어의 영상 자막 번역이 필요하다면 소닉스가 더 유용할 수 있습니다. 레터웍스 역시 향후 지원하는 언어를 늘려갈 계획입니다.
<업무 종류, 언어, DRM 등 자막 작업을 위한 세부 기능을 선택할 수 있는 레터웍스>
모든 선택사항을 확인하고 ‘만들기’ 버튼을 클릭하면 ‘프로젝트를 만들고 있습니다.’라는 안내와 함께 프로젝트를 생성합니다. 4분짜리 짧은 영상이라 생성까지 시간이 오래 걸리지는 않았습니다. 클로바 노트와는 비슷한 시간이 소요되었고, 소닉스보다는 좀 더 빠르게 생성하는 느낌이었습니다. 짧은 영상이라 세 솔루션 모두 비교적 신속하게 생성하였지만 긴 영상이나 영상파일의 용량이 큰 경우에는 생성 시간에 상당한 차이가 발생할 수도 있을 것 같네요.
<레터웍스의 프로젝트 생성 대기 안내 화면과 생성 완료된 프로젝트>
프로젝트 생성을 완료하면 프로젝트명을 클릭하여 생성 결과물을 확인할 수 있습니다. 생성 결과물의 인터페이스는소닉스와 유사합니다. 좌측에 영상이, 우측에 생성 결과물이 보여요. 클로바 노트나 소닉스와 차이가 있다면 별도로 화자 분류를 하지 않고, 문장 단위, 또는 자막으로 사용할 수 있는 글자(단어) 단위로 분류한다는 점입니다.영상 자막에서 화자 구분은 분명히 필요합니다. 하지만 자막이 주로 화면 하단에 배치되는 만큼, 한 화면에서 보여줄 수 있는 글자수에 제한이 있다는 제약과, 시청자가 자막을 읽을 만한 충분한 시간을 제공할 필요가 있다는 특성에 따라 화자와 문장, 글자(단어) 수 등 다양한 요소를 고려하여 분리하는 것입니다.
또 화면에서 원문과 트랜스크립션(transcription)을 구분하여 보여줍니다. 생성한 텍스트 원문과 영상의 음성(대사)을 서로 비교할 수 있어 편집 작업 시 보다 유용할 수 있습니다.
<좌측에 영상, 중앙에 원문, 우측에 편집 모드를 보여주는 레터웍스 변환 생성물(예시)>
지금까지 영상 파일을 텍스트로 변환하는 과정을 통해 각 솔루션의 기본적인 인터페이스를 살펴 보았습니다. 다음 2편에서는 생성 결과물의 사후작업(편집업무 등)을 위한 사용자 인터페이스를 종합적으로 비교해 보겠습니다.
감사합니다. 2편에서 만나요!
월간 인공지능 1호’ 내용이 궁금하신 분을 위해 링크를 제공해 드릴게요!
월간 인공지능 1호 ‘음성-텍스트 변환솔루션 비교하기’(1편) 바로가기
👉 https://www.letr.ai/ko/blog/speech-to-text-solutions-1
월간 인공지능 1호 ‘음성-텍스트 변환솔루션 비교하기’(2편) 바로가기
👉 https://www.letr.ai/ko/blog/speech-to-text-solutions2