人間のコミュニケーションは、明確なアルゴリズムに基づく機械の方法とは異なり、非常に複雑です。 単純に単語の意味だけでコミュニケーションするわけではないためです。 実際には文脈という状況定義によって作動するので、構文、綴りはもちろん句読点一つでも意味や解釈が変わることがあります。
更に人間の言語は長い間、進化してきて今も変化し続けています。 同じ言語圏でも地域と世代によって、口語と文語で使用する言語が違います。 たとえば、イギリス式、アメリカ式、オーストラリア式の英語がすべて異なり、既成世代は若い世代が使う新語を理解することが困難です。
機械が人の言語を理解するように、自然言語処理
人間の間でもそうですが、コンピューターが人の言語を聞き取れるようにするにはどれほど難しいでしょうか?
逆にほとんどの人もコンピューターの言語ともいえるコードまたは機械語を理解していません。 基本的に機械の言語は数多くの0と1の組み合わせで成り立っているためです。 最近、私たちが「Siri」や「OK Google」と言えば、すぐに機械が人間の言語を聞き取り、答えるのが不思議なだけです。
で、このような機械と人間の間のコミュニケーションはどのようにして可能になるのでしょうか? ディープラーニング*に基づくAIの登場とともに、自然言語処理(Natural Language Processing、以下NLP)**の技術が発展したことで可能になりました。 NLP技術が適用された機械は人間の言葉や文字を解析し、判断し、命令を履行することもできるようになったのです。
このようなNLP分野は速いスピードで発展しているAI技術が積極的に活用されている代表的な分野です。 1950年代から研究され始め、規則基盤および統計基盤の方法を経て進化してきました。 そして2000年代以降、ディープラーニングと結合して今日に至ることができました。
韓国語の自然言語処理が特に難しい理由
ところが、英語をはじめとする他の言語に比べて韓国語は自然言語処理がもっと難しいようです。 一体「なぜ?」という疑問と残念な思いを抱いてその理由について調べてみましょう。
1. 韓国語は膠着語***です。
膠着語は語根****と接辞*****によって単語の機能が決まります。****** そのような理由で、分かち書き単位である語節単位でトークン化する場合は、文章で発生可能な単語の数が非常に増えることになります。 ******* 基本的に助詞のない英語に比べるとこのようなケースの数が圧倒的に多くなるのは必然です。
例えば「彼女」という単語一つだけでも「彼女が、彼女を、彼女の、彼女と、彼女で、彼女から、彼女のように」のように様々な場合が存在します。 そのため、韓国語ではトークン化を通じて接辞や助詞などを分離することが重要な作業になることもあります。*******
2. 語順は重要ではありません。
한韓国語は語順が変わっても意味が通じます。 例えば、「私は学校で勉強をしています。」と「私は勉強を学校でします。」と同じ意味です。 このように単語の順序を変えたり、更には主語を省略しても問題がない場合もあります。
これは明らかに、私たちが実生活で使用する時には便利です。 一方、自然言語処理を更に難しくする理由でもあります。 特定の単語の後にどんな単位が現れてもいいので、確率に基づいた言語モデルが次の単語を予測しにくくします。*******
3. 分かち書きが正しくできません。
韓国語は英語に比べて分かち書きを正しく使っておりません。 まず、ネイティブスピーカーの私たちでも徹底的に正しく使うのは難しいほど分かち書きの規則は難しいですが、分かち書きを全くしなくても意味の伝えるには問題がありません。 実際、分かち書き自体が近代以降になって導入され、これに対する標準ルールも変化し続けてきました。
結局、韓国語は分かち書きがよく守られていない場合が多く、自然言語処理が更に難しいです。
4. 疑問文と平書文の区分が難しいです。
実際に文章符号がなく、テキストを見ただけでは意味を区分するのは不可能なほどです。 例えば「ご飯食べた。」と「ご飯食べた?」で句点とはてなマークを除いて見れば区別ができないことがわかります。
おわりに
上記の内容だけを見ると、韓国語が特に自然語処理が難しい言語のように見えます。 しかし、この世の中に多様な言語が共存するだけに、韓国語に劣らない言語も多いです。 例えば、同じアジア圏の言語であるタイ語の******は、分かち書きもはてなマークもなく、更に句点もありません。
そのような点で、従来の英語中心に発展してきた自然言語処理およびAI翻訳の特性上、韓国語が難しいことも理解できます。 韓国人が英語より日本語を比較的簡単に学べるように、機械も英語に似たフランス語、スペイン語の方が楽でしょう。 また、他の言語に比べて相対的に韓国語データがまだ多く不足していることも不利な部分です。
ある言語には、その言語を使用する国や民族の特性と文化が反映されているそうです。 そのような点で、韓国語の自然言語処理やAI翻訳は今よりも先が楽しみです。 最近になって本格的なデータ化事業を通じて韓国語データが豊富になってきており、韓国語に対する理解度が高い韓国の研究員たちが引き続き努力しているのです。
* https://ja.wikipedia.org/wiki/ディープ_ラーニング
** https://ko.wikipedia.org/wiki/自然語_処理
*** https://ko.wikipedia.org/wiki/膠着語
**** https://ja.wikipedia.org/wiki/語根
***** https://ja.wikipedia.org/wiki/接辞
****** 引用 https://ko.wikipedia.org/wiki/膠着語
*******引用https://wikidocs.net/22533
******** https://ja.wikipedia.org/wiki/タイ語
References
[1] https://media.fastcampus.co.kr/knowledge/data-science/nlp-korean-4reasons/
[2] https://kh-kim.gitbook.io/natural-language-processing-with-pytorch/00-cover/04-korean-is-hell
[3] https://wikidocs.net/22533
[4] https://www.bloter.net/newsView/blt201712050015