はじめに
人工知能の始まりはかなり昔のことです。先端技術なので最近登場したようですが、ご存知の方もいらっしゃると思いますが、人工知能の研究*も1940年代後半のコンピューターの出現とともに始まったことが知られています。
そのため、人工知能の存在はよく知られています。人々はすでにさまざまな形の人工知能を想像しています。画面上では、高度な人工知能が戦争を起こして人間を支配したり、翻訳者を通じて未知の宇宙人と自由にコミュニケーションをとったりします。しかし、人工知能に対する漠然とした想像から生まれる期待や恐れと比較すると、私たちの実際の生活に大きな影響を与えていないことも事実です。
しかし、人工知能の存在が間近に迫っていることを感じさせる大きな出来事が起こりました。人間数が最も多い9番目のチームであるイ・セドルは、囲碁の試合でAlphaGoに敗れました。これまで、チェスでは機械が人間を打ち負かしていましたが、囲碁では発生件数がはるかに多いため、人間を超えることは難しいと考えられていました。
ディープラーニング技術は人工知能の限界に対する偏見を打ち破り、AlphaGoを見事に輝かせました。マシン上で大量のデータを学習することで、問題を解決する確率を高めることです。AlphaGoは、長い時間をかけて蓄積されてきた囲碁の掲示板 (チェス) *の学習からスタートし、広範囲にわたる自己学習によってパフォーマンスが大幅に向上しました。
AI 翻訳とコーパス
複雑な戦略的思考を必要とする囲碁では、人工知能が人間を簡単に上回っています。しかし、なぜGoogle翻訳者とPapagoは人間の翻訳者を上回るのではなく、まだ多くの翻訳ミスを犯しているのでしょうか。
とにかく、有限数のケースを計算しなければならないGoと比べると、言語の世界ははるかに広いです。言語表現は、時間、地域、さらには人や状況によっても変化します。人間が適切な表現を判断するための基準を作ったとしても、変数が多すぎるため、機械が自分で判断するのは難しいはずです。
とりわけ、Goの速報のように、機械学習用のデータが十分ではありません。しかし、専門分野の英語訳で、用語が限られていて、データ量が比較的多いほうがより良い状況にあります。一方で、英語以外の言語や日常生活で使われる口語に関するデータはまだ不足しています。
そのため、現在の翻訳者のパフォーマンスを向上させる最も確実な方法は、優れたデータを作成することです。翻訳者学習の教科書となるような質の高いデータがあれば、翻訳者のパフォーマンスは自然と向上します。例えば、韓国語と英語の翻訳者を学習するためのデータは、韓国語と英語から成る一対の文章です。専門用語では、この一対の文をコーパスと呼びます。
もちろん、優れたモデルを想定する必要がありますが、機械翻訳者のパフォーマンスを向上させるためには、優れたコーパスを構築することも非常に重要です。そのため、LETRもできる限り高品質なコーパスを確保するために多大な努力をしています。
これで、人工知能翻訳者を学ぶためのコーパスについて私が準備した最初の話は終わりです。
次に、コーパスの生成、つまりコーパスを構築する実際のプロセスについて説明します。
参照
人工知能の歴史 https://ko.wikipedia.org/wiki/인공지능#역사
紀要:囲碁またはオルガンの記録(出典:標準韓国語辞書)
コーパスまたはコーパス(コーパス)は、自然言語研究のために特定の目的で抽出された言語のサンプルのセットです。 https://ko.wikipedia.org/wiki/말뭉치