イギリスの作家ダグラス・アダムスによる気の利いたブラックユーモアが際立つSF作品「天の川のヒッチハイクガイド」に、バベルフィッシュ**と呼ばれる不思議な生き物が登場します。小さな黄色い魚のように耳に入れると、どんな言語でも話されていることをすぐに理解できるようになります。結局のところ、宇宙を旅した普通の地球人である主人公にとって、それは欠かせない存在です。
しかし、バベルフィッシュという名の賢い男の名前はおなじみではありませんか?以前はポータルサイトYahooが提供していた無料の機械翻訳サービスでした。実は当時、有名なヤフーの検索サービス広告に出てくる子犬のように、翻訳サービスは魚を提供していたのだろうと推測していました。ところが、この有名なSF作品に出てくるエイリアンの生き物にちなんで名付けられたことが分かりました。
しかし、実際には、このバベルフィッシュに似たものがあります。これは自動翻訳、つまり機械翻訳の場合です。架空の存在であるバベルフィッシュの代わりに、コンピューターを使って言語を自動的に翻訳します。
そういう意味で、今日は、バベル・フィッシュのように言葉の壁なくコミュニケーションできる世界をつくる機械翻訳の発展の歴史を振り返りたいと思います。今日は、多くの研究者が抱える深い懸念、試行錯誤、そして機械翻訳が人工知能と出会い、ディープラーニングと膨大な言語データに基づいて高いパフォーマンスを発揮するまでの技術開発プロセスをまとめます。
機械翻訳の始まり
実際、機械翻訳には長い歴史があります。発想そのものを見てみると、17世紀の哲学者デカルトにまでさかのぼります。しかし、言語をコンピューターで翻訳する現代の機械翻訳の概念は、1949年にアメリカの数学者ウォーレン・ウィーバー****によって提案され、1950年代に本格的な研究が始まりました。
しかし、当時のレベルは、辞書で単語を検索し、ターゲット言語の単語に変更し、文法に従って再編成するだけでした。その結果、研究はすぐに壁にぶつかり、人々の予想に反して速いペースで技術を開発することは困難でした。やがて、コンピューターは言語を分析して理解すべきだという新しい考えが浮かび上がりました。
ルールベースの機械翻訳
1980年代まで、機械翻訳は主にルールベースのテクノロジーを使用していました。ルールベースのテクノロジーとは、実際の言語の構造と文法に基づいてルールを作成して翻訳する方法です。
ルールベースの機械翻訳は、実際の言語文法に基づくアルゴリズムを使用して翻訳精度を向上させることができました。しかし、言語学を理解し、翻訳ルールを体系化するためには、研究プロセスにおける言語学者の役割が重要であり、開発には多くの時間と費用が必要でした。また、実生活で一般的に使われている文法と一致しない文章を正しく翻訳することが難しいという制限もありました。
しかし、この時期を通じて、形態学、構文、意味論などの自然言語処理に必要な基礎研究は、その後の機械翻訳の開発に大きな影響を与えました。
統計ベースの機械翻訳
1990年に入ると、IBMは機械翻訳に統計的手法を導入し、革命的な変化が起こりました。
統計ベースの機械翻訳は、原文と翻訳文の対訳コーパスを利用して、単語やフレーズの出現頻度などの統計モデルを学習する方法です。そのため、統計を生成するのに十分な言語データがあれば比較的正確な翻訳が可能なため、Googleをはじめとする多くの企業が機械翻訳の研究に参入することで機械翻訳の全盛期に入ることができました。
ただし、統計ベースの機械翻訳には制限もあります。十分なデータが蓄積されないと翻訳品質が低下し、特に語順や文法構造が異なる言語を翻訳するのが難しいというデメリットがあります。
ニューラルネットワークベースの機械翻訳
統計ベースの機械翻訳が主流になったようですが、2000年代以降、ディープラーニングと組み合わせると、別のレベルの大きな革新が起こりました。
従来のアプローチとは異なり、ニューラルネットワークベースの機械翻訳は、実際の人間の考え方を模倣し、機械が文章の意味を理解したという情報に基づいて翻訳結果を作成します。その結果、文章の意味や微妙なニュアンスの違いさえも認識することで、より自然な翻訳結果を示すことができます。最近、Google、Microsoft、Naver、Kakaoなどの自動翻訳サービスを提供する機械翻訳者は、基本的にこのモデルに基づいて既存の問題を補完しています。
従来の統計ベースの機械翻訳には、文全体の文脈を理解することが避けられないという方法論的な限界がありました。しかし、ニューラルネットワークによる機械翻訳は、人間の脳の学習過程を追う機械学習技術であり、今や文脈全体における意味の違いを特定し、自然な翻訳結果を文章ごとに示すことができるようになりました。
機械翻訳の未来
現在でも、ニューラルネットワークベースの機械翻訳を改善する取り組みが続けられています。世界中で翻訳需要が高まり、膨大な言語データが蓄積され、人工知能を学習するための機械学習技術が進歩するにつれて、機械翻訳は急速に発展しています。また、ツイッグ・ファーム (https://twigfarm.net)LETR技術を使うのと同じように、特定の分野や企業のお客様独自のデータや技術用語をデータに変換することで、お客様固有の翻訳を提供することもできます。
このように、何十年にもわたる研究開発を経て、機械翻訳はすでにかなりのレベルに達しています。人間の翻訳者が間もなく置き換えられる可能性すらあります。ほんの数年前まで、機械翻訳者の誤訳に関するさまざまな例が笑いながら議論されていたことを考えると、これは途方もない発展のペースです。
しかし、今でも、文章に含まれる言語、文化的価値観、独自のスタイルを、熟練した人間の翻訳者のように翻訳することは難しいようです。これはおそらく、機械翻訳にはまだまだ多くの課題と解決すべき道が残っているということでしょう。しかし、人工知能の発達とともに、さまざまな言語を翻訳する新しい方法が最新のニューラルネットワークモデルでテストされ続けているため、言語の壁のない未来はそれほど遠くないようです。
参考文献
[1] 機械翻訳 https://en.wikipedia.org/wiki/Machine_translation#cite_ref-6
[2] ルールベースの機械翻訳 https://en.wikipedia.org/wiki/Rule-based_machine_translation
[3] 統計ベースの機械翻訳 https://en.wikipedia.org/wiki/Statistical_machine_translation
[4] ニューラルネットワーク機械翻訳 https://ko.wikipedia.org/wiki/신경망_기계_번역
[5] https://www.sciencetimes.co.kr/news/기계번역-어디까지-진화했나/
[6] 慶喜大学科学研究大学院ジャーナル [No.243: 人工知能翻訳] AI翻訳の動向
[7] 人工ニューラルネットワークと統計ベースの翻訳、違いは何ですか? https://zdnet.co.kr/view/?no=20161223190944
[8] [調べてみよう] 機械翻訳の時代 http://www.dt.co.kr/article_list.html?gcd=3&scd=300&ig=391817&cpage=3&sel_y=2016&sel_m=06&sel_d=03
一緒に見るのに良いコンテンツ
[AI Story] 機械翻訳が人間らしくなる人工知能翻訳者の指導:01.なぜ死体が必要なのか? 言語処理エンジンであるLETRがテキスト言語に焦点を当てているのはなぜですか?