ライブ翻訳による活気あるチャットプラットフォーム
はじめに
「ブーダンブーハエ ❤️」などのオンライン口語表現にAIが反応するためには、2つの方法があります。1つ目は、異常データを一括で絞り込むことです。例えば、上の例では、「愛犬大好き」のような洗練された文章に置き換えることができます。
この方法の利点は明らかです。既存のモデルのほとんどは、洗練された文章でトレーニングされています。異常な表現を洗練された表現に変えることができれば、既存のモデルやデータも使用できます。ただし、利点は明らかですが、欠点も明らかです。ポイントは、アノマリーが多ければ多いほど、洗練された表現に変えにくくなるということです。
ネット上では特定の単語やミームが頻繁に使用されるため、派生語が増える傾向にあり、変化の度合いも強まっている。猫と犬を合わせたときに「ダンダン」という言葉が出てきたり、「ゴールデンダン」という言葉がゴールデンレトリバーを意味する言葉だったりするネット上の場所があります。「ダンダン」は「ダンダン」や「ダンダン」とも呼ばれています。重要なのは、これらの異常をすべて一貫して「子犬」に変えられるかどうかであり、最悪の場合、随時発生する異常をチェックするために、継続的なオンラインモニタリングが必要になります。
異常なオンライン談話に対応する2つ目の方法
もう1つの選択肢は、大量のデータを使って試合を観戦することです。そして、これがChatGPTが選んだ方法です。何百、何万というデータに特定の単語が出てきたら、それが「ダング」であろうと、そのデータから単語の意味を推測することは可能です。
この方法の利点は、別のアノマリーに柔軟に対応できることと、アノマリーを適用した文が通常の文と異なることにモデルが気付くことができることです。つまり、オンライン口語をChatGPTに提示し、読みやすい方法で解釈してもらうと、オンライン口語が極端に奇妙に修正された文章であることを認識し、本来の意味を見つけることができるということです。 (ソース: https://www.insight.co.kr/news/430720 )
欠点は、この方法を使用するには膨大な量のデータと計算能力が必要になることです。そしてこれが、オンライン口語表現を扱うのが難しい理由です。
しかし、山があれば登れる人もいる。Letterの研究者たちは、データが少なくても性能の良いモデルを得るために、2つの方法論を応用して、オンライン口語表現に特化した翻訳者を作ります。その方法の 1 つがデータ拡張 (データ拡張) です。データオーグメンテーションは、既存のデータセットをさまざまな方法で変更することで、さまざまな学習データを取得する方法です。特にコンピュータービジョン (画像処理) の分野でよく使われています。画像を拡大したり、少し回転させたりしても、コンピューターは変更された画像が元の画像と異なることを認識します。回転 (回転)、反転 (回転)、反転 (回転)、反転 (ズーム)、シフト (シフト)、画像の明るさや色の変更など、さまざまな方法を試すことができます。
それに比べて、言語でのデータの拡張にはいくらか制限があります。なぜなら、猫は後ろから見ると猫だが、言語はそうではないからだ。
「ハロー」対「ヨセ・ハニンアン」
言語では、4つの代表的な方法が使用されます。データは、特定の単語を同義語に置き換える (シノニム置換)、ランダムな単語を削除して挿入する (ランダム削除/ランダム削除)、任意の 2 つの単語の位置を変える (ランダムスワップ)、または逆翻訳 (逆翻訳) することで呼び出されます。
ただし、これら4つの方法論すべてが韓国語にうまく適合するわけではありません。逆翻訳は翻訳プロジェクトで提示された方法であるため問題から外され、実証実験として、RD (Random Reasoning) と RS (Random Swap) のプロセスが通常の韓国語コーパスに適していることがわかりました。残りのSR (シノニム置換) または RI (ランダム置換) を使用する場合は特に注意が必要です。 (ソース: https://github.com/catSirup/KorEDA/tree/master/)
ここで、Letterの研究者は、オンラインでの口語表現は、わずかな機械的な処理でも無数の同義語を生成する可能性があると指摘しました。同じ意味を持つ単語を複数の表現で使うという特徴があるおかげで、データはかなり大きいと言えるでしょう。データのサイズを大きくするために、元のテキストにさまざまな種類のノイズが追加されました。この拡張データに加えて、レターリサーチャー特有の特別な秘密を追加することで、カスタマイズした翻訳者を学習した結果、劇的な結果を確認できました。韓国語-中国語翻訳モデルと韓国語-日本語翻訳モデルの両方が、他の3つの翻訳サービスをすべて上回りました。
その具体的な作り方は第3話に続く...
一緒に見るのに良いコンテンツ
🔗 オンライン口語への対応方法 1.異常コーパスデータを絞り込む
編集者 l 研究員コ・ウォンヒ