ライブ翻訳による活気あるチャットプラットフォーム
異常なオンライン談話に対処する最初の方法
機械翻訳者が商業的に使われるためには、その両方を満たす必要があります。一つは翻訳の質、二つ目は翻訳のスピードです。その点で、オンラインチャットウィンドウでの翻訳は難しい課題です。これは、オンラインチャットには他のどの翻訳タスクよりも厳しい品質とスピードが求められるためです。「迅速な翻訳」が必要であるという事実は、チャットのリアルタイム性について考えるとすぐにわかります。「正確な翻訳」が必要な理由は、チャットの本質である「リアルタイム」にもあります。
翻訳を編集せずにチャットが相手に直接公開される可能性が高いため、質の高い機械翻訳者が必要です。私たちが流暢ではない外国語でメールを書いているとしましょう。まず、母国語で書いて、あちこちで機械翻訳を試して、表現したいニュアンスをできるだけうまく捉えるように心を込めて編集します。当然のことながら、時間と労力を費やすほど、翻訳されたテキストの品質は向上します。しかし、チャットプラットフォームでは、すぐに相手とコミュニケーションを取る必要があります。つまり、機械翻訳者が作成した機械翻訳テキストは、追加の編集や手間をかけずにそのまま表示する必要があります。機械翻訳者のパフォーマンスが悪いと、コミュニケーションがスムーズにならず、大きな誤解を招くことさえあります。
「正確」で「速い」。これら 2 つの作業だけでは、実際には研究者にとっては大変な作業です。しかし、ドラゴンの写真を撮ることで、中級レベルの難易度を最高レベルの難易度に上げるものがあるので、チャットはオンラインで配信される口語的な言語であるのが実情です。匿名性が保証されているオンラインプラットフォームでは、スペルや間隔を気にせず、気分や状態を表現するために絵文字やその他の文字を使っても構わない人が多いです。例えば、「持ってないから食べられない」という意味の以下の例を見てみましょう。「食べられない」というフレーズには、電話のキーボードをタップするだけで入力できるタイプミスが含まれています。また、自分の話し方や気分を反映させるために、意図的に母親向けのバリエーションもあります。これを受けて、G社、N社、D社、O社の機械翻訳者は以下のように翻訳します。
원문 |
업서어 못 먹쥬 |
G사 | I can't eat it. |
N사 | I can't do that. |
D사 | I can't eat upstairs. |
O사 | I can't eat it because I'm not hungry. |
N社、D社、O社はすべて間違った翻訳を思いつき、G社の場合は「何もないから」という意味の単位が抜けていました。これは間違いなく、市場に出回っている機械翻訳者の業績が悪いからではありません。チャットでよく使われる話し方をまだ学んでいないというだけです。もし、原文を「持ってないから食べられない」という上品できれいな文章に変えたら。3種類の機械翻訳者はすべて(「私がとても好きな食べ物」という隠れたニュアンスを翻訳できなくても)原文の内容に忠実な翻訳を導き出します。
원문 |
없어서 못 먹지요. |
G사 | I can't eat it because I don't have it. |
N사 | I can't eat it because I don't have it. |
D사 | I don't have it, so I can't eat it. |
O사 | I can't eat because it's not here. |
それ以外にも、いろいろな文章を追加して実験してみると、従来の機械翻訳者はオンラインの口語表現が苦手であることがすぐにわかります。
市場に出回っている機械翻訳者の弱点の秘密は「データ」です。
言語モデルは基本的にあなたが食べた味を再現します。韓国語を食べた言語モデルは韓国語を再現し、英語を食べた言語モデルは英語を再現します。これは声調の微妙な変化にも当てはまります。口語言語を多く学習したモデルは口語言語でのパフォーマンスが良く、書き言葉を多く学習したモデルは書き言葉でのパフォーマンスが良好です。しかし、私たちの課題であるオンライン口語表現は「微妙な」レベルを超え、使用パターンが劇的に変化しています。市場に出回っている機械翻訳者が困惑するのは無理はありません。言語モデルの観点からは、ハングル語と外国語が混ざり合っているように感じられるでしょう。これに対する解決策は実は簡単です。ローマでは、ローマ法とオンラインの口語をオンラインで学ぶことができます。
しかし、オンラインで口語を学ぶことは実際には簡単なことではありません。単純な「犬」という言葉も、「子ネズミ」、「ネズミ」、「馬鹿」、「ダン」など、さまざまな表現があります。「愛してる」という言葉も同じです。この意味を伝えるために、「シャランヘ」、「スラングヘ」、「スラングヘ」、「スランヘ」といった様々なアノマリーがインターネット上で配信され、動詞の位置や使い方によってこれに語尾の変化が加えられています。単語レベルだけ見てもこんな感じですが、文レベルに行くと、その変化の幅は想像を超えています。「犬が大好き」の意味を伝えるには、例として挙げた異常な言葉を組み合わせるだけでも、すでに35通りの書き方があります。そして、これら35種類のバリエーションのすべてに、「犬が大好き」という1つの意味しかありません。
この珍しいオンライン談話に対処する方法は2つあります。1 つ目は異常データをバッチ処理されたデータに変換する方法で、もう 1 つは... <2편에 계속>
一緒に見るのに良いコンテンツ
🔗 オンライン口語への対応方法 2.ChatGPTが選んだ「ワウ・ダン・ハエ ❤️」への回答
編集者 l 研究員コ・ウォンヒ