여러분 안녕하세요! 길고 추운 겨울을 지나 따뜻한 봄이 왔네요.
저희 레터웍스는 최신 인공지능 서비스를 업무에 적용하여 작업을 효율화하는 방법을 살펴보고, 여러 서비스를 비교해 보는콘텐츠를 시리즈 형태로 포스팅하려 합니다.
특히, 영상 콘텐츠의 자막, 더빙, 편집과 관련된 업무를 하시는 분들의 많은 관심 부탁드려요!
오늘은 첫번째로, 중요한 회의에서 회의록을 작성하거나 영상 자막 작업을 할 때 가장 기본이 되는 음성인식 전사(transcription) 작업을 도와주는 솔루션을 살펴보려 하는데요.
회의나 대화시 음성을 인식하여 텍스트로 변환해 주는 솔루션을 통상 음성인식 (Speech-to-Text, STT) 솔루션이라 합니다. 금번 포스팅에서는 편의 상 STT 솔루션이라 하겠습니다. 먼저, 한국어 STT 솔루션에는 어떤 것이 있고, 그 성능은 어떠한지 테스트해 보겠습니다.
또, 영상을 업로드하여 영상 내 대사를 텍스트로 변환해 주는 솔루션은 영상 기반 음성인식(Video-to-Text. VTT) 솔루션이라 할 수 있을 텐데요. [월간 인공지능 2호]에서는 한국어를 지원하는 VTT 솔루션에 어떤 것이 있는지, 성능과 함께 비교해 보도록 하겠습니다.
🗣️STT 솔루션
대화 또는 기기 주변의 음성을 실시간으로 인식하여 글자로 변환해 주는 솔루션이 있습니다. 이 중 한국어를 지원하면서 개발 관련 전문 지식 없이도 쉽게 활용할 수 있는 솔루션으로는 네이버 클로바 노트, 구글 Docs의 음성 입력, MS Word의 음성입력(음성으로 받아쓰기) 기능 등이 있습니다. 물론 국내 대표 IT 기업인 카카오에서도 한국어에 강점을 갖춘 경쟁력을활용하여 카카오I라는 서비스를 제공히지만, 주로 개발자를 위한 API 서비스로 제공되므로 비전문가보다는 전문가 위주 서비스라 할 수 있겠습니다.
이번에는 이들 솔루션 중 네이버 클로바 노트와 구글 Docs의 음성 입력 기능을 활용하여 인식의 정확도를 비교하고, 업무 효율에 얼마나 도움이 될지 테스트해 보기로 하였습니다.
두 솔루션 모두 용도에 따라 다양한 방식으로 활용할 수 있습니다. 중요한 회의,비즈니스 대화를 녹음하거나 기록할 때, 영상 등 콘텐츠를 재생하여 소리를 직접 들으면서 대사를 텍스트로 변환하거나 녹음할 때 효과적입니다.
특히, 전문 지식 없이도 간편하게 사용할 수 있다는 점이 가장 큰 장점인데요. 클로바 노트는 사이트에 접속하여 로그인만 하면 쉽게 사용할 수 있습니다. 가장 큰 장점은 별도의 유료상품을 구매하지 않더라도 사용할 수 있다는 점입니다. 개인 사용자의 경우, 매월 300분 동안 무료 사용이 가능하고, 한달이 지나면 300분을 다시 제공해 주는 방식입니다. 다만 현재는 무료 사용이 가능하지만, 향후에는 유료로 번경될 수도 있다고 하니 참고해 주세요!
<좌측 : 클로바 노트의 메뉴,우측 : 구글 Docs의 주요 메뉴와 음성인식기능>
구글 Docs는 MS Word나 한글(HWP)처럼 문서 편집을 할 수 있는 프로그램입니다. 문서 작성, 편집, 서식 설정과 변경 등 문서 작업을 할 수 있는 일종의 워드프로세서로서, 녹음과 음성 인식 위주의 기능을 제공하는 클로바 노트와는 차이가 있습니다. 다만, 구글 Docs 내 음성 입력 기능을 활용하면 녹음은 되지 않지만 음성을 실시간으로 텍스트 변환할 수 있어 유용하게 활용할 수 있지요.
즉, 클로바 노트는 음성 인식과 녹음 기능에 특화된 솔루션이고, 구글 Docs는 문서 작성, 편집 솔루션이라 성격이 서로 다릅니다. 하지만, 구글 Docs에서 실시간 음성-텍스트 변환 기능을 활용할 수 있고, 두 솔루션 모두 누구나 쉽게 사용할 수 있도록 쉬운 인터페이스를 제공하고 있다는 공통점이 있습니다.
그래서 클로바 노트와 구글 Docs의 음성-텍스트 변환 기능을 활용하여 업무 효율을 상시킬 수 있을지 비교하여 테스트 해보기로 하였습니다.
✨테스트 환경
동일한 환경에서 테스트하기 위해 유튜브 영상을 활용하였습니다. 실제 회의나 대화 환경에서는 서로 다른 기기를 사용해야 하는데, 기기 사양이나 소프트웨어 환경, 기기와 화자와의거리 등 요인 때문에 정확한 측정이 어렵다고 생각하였기 때문입니다. 따라서 동일한 기기에서 유튜브 영상을 두 번 재생하고, 한번은 클로바 노트에서, 한번은 구글 Docs의 음성-텍스트 변환 기능을 실행하여 비교해 보기로 하였습니다.
영상은 제가 즐겨 보던 유튜브 영상에서 골랐습니다. 과학 관련 주제로, 4명이 출연하여 토크쇼 형태로 대화를 주고받는 형식의 콘텐츠입니다. 선택한 영상 콘텐츠는 공중파 TV에도 출연하는 전문 진행자 분이 진행을 맡고, 개성 있는 목소리와 정확한 발음으로 전달하는 세 분의 과학 전문가가 출연한 프로그램이었습니다.
실제 콘텐츠는 37분짜리 영상이지만 편의를 위해 테스트에는 4분 가량의 분량만을 활용하였습니다. 진행자를 비롯하여 4명의 음성이 고르게 등장하는 부분을 선택하였고, 진행자와 각 출연자가 일대일로 질문과 답변을 주고 받지만, 중간 중간에 다른 출연자들이 대화에 살짝 끼어 들거나, 맞장구를 치는 등 자연스러운 토크쇼의 형태입니다.
<테스트 방식 및 테스트에 활용한 영상 관련 정보>
<테스트에 활용한 영상의 일부 장면>
🎧클로바 노트를 활용한 음성 – 텍스트 변환 과정
클로바 노트는 대단히 편리했습니다. 메뉴 좌측의 직관적인 인터페이스가 눈에 띄었는데,사용 방법을 자세히 찾아 읽지 않아도 버튼 아이콘 만으로 어떤 기능인지 한 눈에 알아볼 수 있었습니다. 좌측의 마이크 아이콘을 클릭하면 녹음이 시작됩니다. 녹음 세팅은 서비스 설정 메뉴에서 마이크 설정을 할 수 있으며, 간편하게 세팅을 변경할 수 있습니다.
<클로바 노트의 직관적인 녹음 버튼(좌측)와 설정기능(우측)>
마이크 버튼을 클릭하고 영상을 실행하면 영상에서 진행되는 각종 대화 등 음성을 인식하여 녹음을 진행합니다. 그리고 하단에 녹음 관련 인터페이스가 나오면서 시간 등 정보와 취소/종료 등 기능이 제공됩니다.
<클로바 노트의 녹음 인터페이스>
녹음이 끝나면 인식한 음성을 텍스트로 변환하는 과정으로 넘어갑니다. 변환까지 약간의 시간이 소요되었지만, 4분 분량의 대화라서 그리 오랜 시간이 걸리지 않았습니다.
변환까지 다 끝나니 텍스트로 변환된 결과물이 생성되었습니다. 참석자1, 참석자2 등 화자별로 시간과 대화 내용이 생성되어 수월하게 읽을 수 있었고, 하단에 녹음된 내용을 다시 들으면서 텍스트 변환이 정확하게 되었는지 한 눈에 확인할 수 있었습니다.
녹음된 파일은 재생과 멈춤, 재생 속도 조절 등 기능을 활용할 수 있고, 음성 파일을 다운로드 받을 수도 있습니다. 음성 기록이나 메모 또한 다운로드 받을 수 있었습니다. 편집 기능을 통해 텍스트를 수정할 수도 있고, 참석자 숨기기/보기, 점유율(참석자 별 대화 점유율)과 같은 통계 기능도 제공하였습니다.
영상 녹음과 텍스트 변환을 주요 기능으로 제공하는 솔루션인 만큼, 업무 시 회의록 작성이나 중요한 대화 기록/추후 열람 등에 편리하게 활용할 수 있을 것 같았고, 영상 콘텐츠에서 음성을 추출하는 전사(transcription) 작업에도 유용해 보입니다.
<클로바 노트의 텍스트 변환 결과 생성물(예시)과 후작업을 위한 기능>
💬구글 Docs를 활용한 음성–텍스트 변환 과정
구글 Docs에서도 음성–텍스트 변환은 비교적 쉽게 활용할 수 있었습니다. 다만, 기본적으로 구글 Docs가문서 편집 프로그램인 만큼, 클로바 노트처럼 녹음 기능, 화자를 분리하여 화자별로 텍스트를 생성하는 기능 등을 제공하지 않는 점은 아쉬웠습니다. 직접 사용해 보니 여러 화자가 등장하는 회의나 대화보다는, 단일 화자가 진행하는 강의나 세미나, 다큐멘터리 영상의 음성–텍스트 변환 용도로 활용하는 것이 더 적합해 보였습니다.
기능 활용방법은 매우 간단합니다. 상단 메뉴의 ‘도구>음성인식’을 선택하면 마이크 버튼이 생성되는데 이 마이크 버튼을 활용하여 실시간으로 음성을 텍스트로 변환시킬 수 있었습니다.
마이크 버튼을 클릭하면 아이콘이 빨간 색으로 변경되면서 녹음이 시작됩니다. 그리고 영상을 재생하였더니 실시간으로 텍스트를 생성하더군요. 대화가 진행됨에 따라 텍스트가 어절 단위로 튀어 나오듯 생성되는 장면이 인상적이었습니다. 다만, 화자별로 구분하여 생성하지 않고, 문서 작성하듯 텍스트를 생성하는 점은 아쉬웠습니다.
<구글 Docs의 음성 입력 기능과 마이크 버튼, 변환 시 버튼의 변화>
<음성을 재생하면 실시간으로 인식하여 텍스트로 생성>
이렇게 음성-텍스트 변환 과정을 통해 전체적인 인터페이스를 살펴 보았는데요. 국내/해외를 대표하는 솔루션인 만큼, 공통적으로 쉽고 편리한 인터페이스를 제공하는 점이 눈에 띄었습니다. 본격적인 테스트는 다음 2편에서 화자 인식과 음성 인식, 생성 텍스트의 정확도 비교를 통해 진행하도록 하겠습니다.
2편에서 다시 만나요!