動画字幕とテキストの深い関係について
動画のキャプションに文章が入ることはほとんどありません。
これが何を意味するのか混乱する前に、「文」がどのように定義されているかを見てみましょう。
「文」とは、考えや気持ちを言葉で表現することです 完成したコンテンツを表す最小単位ただし、字幕は数秒以内に読む必要があるため、15〜16文字で表現する必要があります。しかし (もちろん) スペースを含めて何文字言っているかは誰も気にしません。
簡単なゲームをしましょう。これから話す会話の文字数を数えましょうか。先ほど提案した16文字の標準では、非常に短い文しか含めることができないことにすぐに気付くでしょう。スペースを含む 16 文字の例を次に示します。
「テストが終わったけど、トッポギを食べる?」
たった4語でも、16文字を一度に完成させることができます。アンケートやタイトルを1つだけ間違えたとしても、文字数の基準を超えます。「テスト」を「テストマップ」と言い、「トッポキ」、「トッポキ」、「トッポキ」、「食べたい」、「食べに行きますか?」と言ってください。それを言った瞬間、16文字以上になります。
それ以外にも、私たちが日常生活で使う言葉を取り上げて書き留めれば、驚くほど多くの文字を話していることがわかります。つまり、動画の字幕のほとんどが 文単位ではなく語句単位に分割するというか、これを疑問視している人がいるかもしれない、という感じです。彼は「長くは話さないよ」と言った。例えば、次の会話を見てみましょう。
A: ソンヨンはどこ?
B: バスルームで。
C: すぐに出て来るように伝えてください。
上記の3人の友人は皆、自分の考えや気持ちを言葉で完全に表現しています。それらはすべて16文字を超えず、句読点もよく使われています。しかし、忘れてはいけません。「文」は句読点コードの標準ではなく、「完成した内容を表す最小単位」です。A と B が会話をしていなければ、C の単語は完全だと理解できるだろうか。
証拠を提示したので、もう一度言います。動画のキャプションに文章が使われることはほとんどありません。
語句単位に分かれているか、文脈や文脈でいくつかの単語が省略されているかにかかわらず、字幕を1行区切るだけでは内容を理解するのが難しくなります。動画の字幕を見てわかるのは、単純にそれが得意だからです。これは、断片化されたフレーズを文脈の中で密接に結びつけることで、完全な内容として受け入れるほど賢いからです。
知能と言えば、人工知能はどうですか?人工知能は、何もしないから何気なくできるものなのでしょうか?
質問のニュアンスでお気づきかもしれませんが、人工知能に知能を伝えるには、少し(多分多分)の努力が必要です。Letterの研究者たちは、人工知能に動画のキャプションを理解させる方法を2つ見つけました。これらは「文の境界検出 (文の境界検出)」と「文脈認識 (文脈認識) な自然言語理解」です。前者はセグメント化されたフレーズを1つの完全な単位にまとめ、後者は文脈の中でしか理解できない単語を文脈にグループ化します。これにより、賢い人にしかできないフレーズを人工知能が密接に結び付けることも可能になりました。
具体的な例を挙げて、ある教派に立っている教師が次のように言う場面を想像してみましょう。
「みんな、SATが終わったら、何をしているの?最近は、SATが終わった後の残りの時間に読める本をいくつか紹介するつもりです。」
(ソース:https://www.youtube.com/watch?v=14CCvCd8d2A)
上記のスピーチを字幕として書く場合は、すべての字幕を16文字以下にカットする必要があり、字幕は次のように完成できます。
원문 |
번역문 |
얘들아 수능 끝났는데 | |
너네 뭐 하고 지내니? | |
요즘 내가 너네 수능 끝나고 | |
남는 시간 동안 읽을 만한 책을 | |
좀 추천을 해줄게. | |
とても素敵できれいにカットされています。しかし、これらの字幕がそのまま各翻訳者に含まれているとどうなるでしょうか?このようになるでしょう:
원문 |
번역문 |
얘들아 수능 끝났는데 | Hey, guys, SATs are over |
너네 뭐 하고 지내니? | What are you guys doing? |
요즘 내가 너네 수능 끝나고 | Now that I'm done with your SATs |
남는 시간 동안 읽을 만한 책을 | Books to read in your spare time |
좀 추천을 해줄게. | Let me make a recommendation |
どんなに強力な翻訳者であっても、フレーズ的に不完全な内容が入ってくると、必ず不完全な翻訳が生成されます。それでは、これらの字幕を適切にプッシュ&プルして、1つの完全なコンテンツユニットに分割して、翻訳者に納めましょう。
원문 |
번역문 |
얘들아 수능 끝났는데 너네 뭐 하고 지내니? | Hey, guys, what are you guys doing now that the CSATs are over? |
요즘 내가 너네 수능 끝나고 이제 남는 시간 동안 읽을 만한 책을 좀 추천을 해줄게. | Let me give you some recommendations for books to read in your spare time after your CSATs. |
壊れていた以前の翻訳よりもずっと良く見えます。
それを可能にしているのが「文境界検出(文境界検出)」です。分節化されたフレーズを集め、それらをつなげて文章を美しくする役割を果たします。
ただし、テキストを完成させただけでは、動画の翻訳がすぐにスムーズになるわけではありません。
動画には流れがあるので、前にある言葉を飛ばして先に進むことが多いです。このときに必要なのは、2つ目の解決策である「文脈認識 (文脈認識) な自然言語理解」です。先ほど、ソンヨンを待っている3人の友人同士の会話で見たように、情報交換や受け取りをしている状況で、目の前で情報が話されても、二度と言おうとはしない。それはただの短い発話ではない。この技術は長時間の焼成にも必要です。次の例を見てみましょう。
원문 |
번역문 |
그래서 보통은 이런 자세일 때 이렇게 바깥으로 무릎이 나가게 됩니다 | |
하지만 사실 바깥으로 나가도 그렇게 예쁜 자세는 되지 못해요 | |
上記の文の文脈を考慮せずに短い文章を翻訳すると、次のようになります。
원문 |
번역문 |
그래서 보통은 이런 자세일 때 이렇게 바깥으로 무릎이 나가게 됩니다 | Therefore, usually, in this posture, the knees tend to move outward like this. |
하지만 사실 바깥으로 나가도 그렇게 예쁜 자세는 되지 못해요 | However, in reality, even if I go outside, I can't maintain such a pretty posture. |
二文目では、「外に出る」という主語を意識せず、主語「私」を使うことで、本来の意図した翻訳結果やニュアンスが全く違うことがわかります。これに文脈情報を加えた機械翻訳は、以下のようになります。
원문 |
번역문 |
그래서 보통은 이런 자세일 때 이렇게 바깥으로 무릎이 나가게 됩니다 | So usually when you're in this pose the knees will go out like this. |
하지만 사실 바깥으로 나가도 그렇게 예쁜 자세는 되지 못해요 | But even if the knees are out it doesn't look good. |
前のコンテキストから得られる情報が自然に取り込まれていることがわかります。
このように、Letterでは様々な技術を用いて動画字幕向けに最適化された機械翻訳を行っています。
編集者 l 研究員コ・ウォンヒ