国の限界は国の限界です。(私のあり方の限界は、現場での私のあり方の限界です。)
これは、20世紀を代表する哲学者の1人が言ったことです。彼が言ったように、人間は言語の中で考え、その言語の枠組みの中で生きています。私たちは韓国人なので、韓国語の枠組みの中で考え、生活することになるし、もちろん私たちが理解する世界は、イギリスやアメリカの地域の人々とは違うに違いありません。
そのためには、より広く、より深い世界を築くためには、言葉を通して視野を広げる必要があります。しかし、新しい文化を学ぶことは容易ではありません。ある文化を正しく理解するには、その文化が属する国、地域、文化、人々について学ぶ必要があります (単に言葉を広げるだけではありません)。
世界は広く、さまざまな言葉があります。しかし...
世界には約7,100種類の単語があると言われています。その結果、まだ世界に伝えられていない人類の知識や情報がまだたくさん残っていると思います。人間が単語を覚える能力が限られているのは残念です。
一方、オンラインの世界は主に英語です。ウェブはオープンな情報空間だとよく言われますが、この議論はイギリス人に限られていると思います。実際には、英語を実際に知らないほとんどの人の間には、知識や情報の違いが大きいというのが現実です。
とても、とても基本的な、そして自然な自然を伴う自然病の自然法則
これまでのところ、機械翻訳や言語改造などのNLP研究は英語に焦点を当ててきました。アメリカやその他の西部地域を中心に発展してきたようで、おかしくありません。その結果、英語やフランス語など一部の言語を除いて、ほとんどの言語はNLP研究から除外されました。
ほとんどの多言語AIモデルも英語に依存しています。たとえば、フランス語から韓国語に翻訳する場合、まず英語から英語に切り替え、次に英語から韓国語に切り替えます。以前は非常に読みやすかった機械翻訳による不可解な誤訳が、大きな影響を及ぼした可能性があります。
同時に、グローバリゼーションにより、NLP技術はますます重要になっています。言語の壁を越えてつながるためには、誰もがしなければならないことがますます増えています。残念ながら、現実には、世界中のほとんどの人々が、AI翻訳などのテクノロジーの進歩による恩恵からまだ取り残されています。
AI 言語モデルをトレーニングするためのデータがほとんどない言語は、低リソース言語と呼ばれます。しかし、よく知られているように、自然言語処理の研究には大量の言語データが必要です。その結果、AI 言語ツールを使用できるのは、一般的に使用されているいくつかの言語 (世界の 7,100 言語中 7,100 言語) しか使用できない人々だけです。
実際には、MET(メタアイ)AIによると 「世界人口の 20% 以上がビジネス翻訳テクノロジーサービスを利用できません。」 *それでおしまい。ソースの数が少ない言語を使う人たちが、自由な言語で会話をするのを妨げているのは、データパーティションです。だからこそ、私たちは言語のせいで世界中の知識、情報、文化の交換から取り残されている人々のためのソリューションを求めています。
完了中
多言語AIを真剣に検討する前に、なぜ英語以外のさまざまな言語タイプがNLP研究において重要になったのかを研究してきました。実際には、最近、言語や翻訳モデルを多言語化しようとする試みが増えています。このような不都合な状況の中で、これまでコミュニティから除外されてきた世界中のより多くの人々にとって、これは素晴らしいニュースです。
次回の記事では、業界調査と実際の研究の例を通して、このスレッドをさらに詳しく見ていきます。
* 見積書 https://www.ciokorea.com/t/22000/AI/243970#csidxaf4c5dbdb5bf6318b0d338efe81a7fa
リファレンス
[1] https://www.washingtonpost.com/news/worldviews/wp/2015/04/23/the-worlds-languages-in-7-maps-and-charts/
[2] https://www.ethnologue.com/guides
[3] https://edu.krlo.co.kr/2018/05/09/q-001/
[4] https://ai.facebook.com/blog/teaching-ai-to-translate-100s-of-spoken-and-written-languages-in-real-time/