ニューラル機械翻訳 (NMT) の登場により、機械翻訳のパフォーマンスは大幅に向上しました。その結果、人々の機械翻訳者の利用は大幅に増加しています。新聞などの専門資料を読むときだけでなく、外国のニュースを見たり、旅行に出かけたりといった、日常の生活でもよく使っています。
しかし、それはとてもよく使われる翻訳機です!翻訳は本当に正確ですか?
これは神の投稿でさえ見逃しているものです
GoogleはGodglと呼ばれるほど、人工知能を含むさまざまな分野で多くの貢献をしています。このようなグーグルの翻訳者にも限界があります。例として、Google翻訳で以下の2文を翻訳しました。
例 1 > 冬でもアラが飲みたい。
☝ 'ああ'は「アイスアメリカーノ」の略称で、特定の世代だけでなく、あらゆる年齢層の人々によく使われる言葉です。ちなみにグーグルトランスレーターは 「ああー」その名のとおり 'aa'🥲 に翻訳しました
サンプル 2 > 安全な鍵導出関数は設計上、salt (鍵の導出ごとに異なる乱数) +何度も繰り返す (最終的なパスワード推測プロセスを短縮するため) を使います。
✌️ ITセキュリティに関する上記の文章から 「主要な導出関数」は 'キー導出関数' これはセキュリティ用語ですが、 'キー導出機能' それは文字通りの翻訳でした
前述のように、Google Translator でも、略語、新語、専門用語など、不自然に文字どおりだったり、誤って解釈されたりする翻訳を簡単に確認できます。
機械翻訳の限界から生まれたハイブリッド翻訳者
ハイブリッド翻訳とは
2つ以上の翻訳方法を組み合わせたものをハイブリッド翻訳と呼びます。これもLETR翻訳者の最大の利点です。人工ニューラルネットワーク翻訳 (NMT) とルールベースの機械翻訳 (RBMT) を組み合わせることで、自然さと洗練さを兼ね備えた翻訳が可能になります。
RBMTは言語構造に基づく翻訳方法であるため、辞書や文法の翻訳において重要な役割を果たします。* ただし、RBMTの利点であるNMT方式に前処理要素と後処理要素を追加することで翻訳品質を向上させることができます。
一般的に、機械翻訳は単語を文字通りに翻訳したり、英語の略語をそのまま表示したりします。ただし、同じ略語の意味は分野によって異なる場合があるため、分野ごとにカスタマイズした翻訳が必要です。特に、複数の単語を組み合わせた用語 (各単語が直訳であってはならない) その分野の専門用語に翻訳する必要があります。
そのためには、別の用語集を使ったHydreadの翻訳が不可欠です。
用語集の作成
ハイブリッド翻訳では、用語集の作成はNMTモデルと同じくらい重要です。そこで、各分野の専門用語を選び、検証し、用語集を作成します。国立研究所が発行した「技術用語方法論研究論論論論論論論論文」**専門用語を整理する際には、5つの特徴を考慮して構築する必要があるとアドバイスしています。
· 用語の統一性: 用語は単一の概念を指す必要があり、概念は単一の名前で定義されます。
· 用語の透明性と明確さ : 概念を明確かつ直接表現して、言葉から概念が何であるかを推測できるようにしてください。
· 用語の簡潔さ: 概念が明確に明記されている限り、不必要または過剰な情報を名前に含めないでください。
· 用語の一貫性: 同じカテゴリの概念を指す用語は、できるだけ同じ形にする必要があります。
もしそうなら、このように作成された用語集を使用し、ハイブリッド翻訳を行うとどうなりますか?
簡単な専門用語辞書を作って練習しよう 一般機械翻訳者(グーグルトランスレーター)LETRハイブリッド翻訳者の結果がどう違うかを比較してくださいやってみた。
グーグル機械翻訳 対 LETR ハイブリッド翻訳
まず、ハイブリッド翻訳に使用する用語集を以下のように作成します。この辞書の名前 「レターICTディクショナリ」そう言っておくよ。
Googleトランスレータで以前に翻訳した2つの文を、LETR-ICT辞書を使ったハイブリッドトランスレータで再翻訳してみましょう。
センテンス 1 > 冬でもアラが飲みたい。
💡 「ああー」를 「アイスアメリカーノ」英語に翻訳されているのがわかります。さらに、LETR翻訳者は、特定の用語の辞書を使わなくても、よく使われる新語が正しく翻訳されていることを確認できます。😎
ですから、よく使う造語があるなら、新語の辞書を作って使うのがいいですよね?🤘
センテンス 2 > 安全な鍵導出関数は設計上、salt (鍵の導出ごとに異なる乱数) +何度も繰り返す (最終的なパスワード推測プロセスの速度を下げるため)。
💡 以前はGoogleトランスレータの問題でしたが、 「キー導出関数」の翻訳 'キー導出関数'ない 'キー導出関数'に翻訳されました
次に、用語集の他の用語の翻訳がどのようになっているかを確認しましょう。
センテンス 3 > アプリケーション層ゲートウェイは、SIPやFTPなどの特定のアプリケーションプロトコルを含むソフトウェアコンポーネントです。
💡 グーグルトランスレーターとは 「アプリケーション」A 「アプリケーション」そのように翻訳されたのに対し 手紙事前に保存 「アプリケーション層ゲートウェイ」より適切な用語として翻訳されていることがわかります。
センテンス 4 > 最近、メタマテリアルをアンテナに適用すると性能が向上し、ワイヤレス人体エリア通信での使用に適していることを示す研究結果が報告されています。
💡 「ワイヤレス人体エリア通信」人体の内部または周囲で情報を交換できるように設計された通信技術です***つまり、この用語の正しい英語訳は 「ワイヤレス・ボディ・エリア・ネットワーク」ジョー。しかし、LETRの翻訳者は用語集を参考に正確に翻訳しましたが、Googleの翻訳者はそれぞれの単語 (例:コミュニケーション=コミュニケーション) をそのまま翻訳しました。
センテンス 5 > トリビアル・ファイル・トランスポート・プロトコルは非常にシンプルなファイル転送プロトコルで、非常に基本的な形式のFTPという利点があります。
💡 各フレーズの最初の文字を大文字にした英語の代名詞(または固有名詞)の場合、ほとんどの機械翻訳者は要求された言語に翻訳できず、元のテキストをそのままエクスポートすることがよくあります。結局のところ、上の文は Google です。 「トリビアル・ファイル・トランスポート・プロトコル」英語訳をそのまま見ることができます。もちろん、Googleの翻訳が間違っているとは言えませんが、 これは本当に適切な翻訳ですか?
Googleが適切に翻訳しなかったこれらの用語は、その言語に従って翻訳された方がずっと良く見えるのではないでしょうか。😎
センテンス 6 > 図**5は、韓国の5G通信ネットワークを示す図です。
💡 グーグル翻訳の場合 「フィギュア 5」를 '5'一方、LETRの翻訳者は、次のように誤解されていたことがわかります 「図5」と訳すことで、図の意味をちゃんと生かしました。
仕上げ中
ハイブリッド翻訳を使用すると、通常の機械翻訳よりも高品質の翻訳ができることを簡単な例を通して示しました。 これは、一般的な機械翻訳に共通する誤訳やリテラル翻訳の問題をハイブリッド翻訳で修正できるためです。 さらに 特定の分野に特化した専門用語を使ったより洗練された翻訳あなたにもできます。
ただし、ハイブリッド翻訳をうまく機能させるには、次の条件を満たす必要があります。 用語の辞書を作成し、関連する用語を注意深く参照して翻訳する前にㆍポストプロセッシング今まではちゃんとやらなければいけません。 そうして初めて、真のハイブリッド翻訳であると言えます。
****: 特許文書でよく使われる言葉で、写真、図、図面を意味する
一緒に見るのに良いコンテンツ
言語処理エンジンであるLETRがテキスト言語に焦点を当てているのはなぜですか?