2022年の新年は明るかったです。新しいスタートを切る前に、過ぎ去った一年についてまとめたいと思います。
2021年7月にこのスペースをオープンして以来、これまでで最も訪問されたコンテンツを収集してきました。また、記事を自ら執筆・整理したLETRチームが、コンテンツ本文から選んだ文章でもう一度紹介したいと思います。この1年間まだ読んでいない方や、また読みたい記事があれば、この機会にぜひチェックしてみてください。
* 各コンテンツのタイトルまたは画像をクリックすると、そのページに移動します!
NERの現在と未来:01.コンセプトから多様なアプローチまで
'NER は自然言語処理 (NLP) 全体で重要な役割を果たします。自然言語処理を使った情報の検索や要約、質問への回答、知識ベースの構築など、さまざまな分野で使用されています。特に、機械翻訳 (MT) の品質向上や、カスタマイズされた翻訳をユーザーに提供する役割を果たします。'
「たとえば、「TWIGFARM」を文字通りに解釈すると、「小枝農場」ではなく「小枝農場」と解釈されます。しかし、これは翻訳エラーを引き起こすだけでなく、ユーザーに不快な体験をもたらす可能性もあります。一方、TWIGFARMが会社名として正しく認識されれば、翻訳品質だけでなくユーザーエクスペリエンスも向上させることができます。'
NERの現在と未来:02.モデル構造とデータセットの状態
「現在、韓国語だけを専門とする公式のNERライブラリを見つけるのは難しく、複数の言語で学習したほとんどのモデルで韓国語を見つけることができます。'
「韓国ではNERデータが不足しています。現在、韓国のNERデータセットは全部で3つ公開されており、すべての商用利用は制限されています。'
人工知能翻訳者の指導:01.なぜ死体が必要なのか?
「そのため、現在の翻訳者のパフォーマンスを向上させる最も確実な方法は、優れたデータを作成することです。翻訳者を学ぶための教科書となるような質の高いデータがあれば、翻訳者のパフォーマンスは自然と向上します。例えば、韓国語と英語の翻訳者を学習するためのデータは、韓国語と英語から成る一対の文章です。この一対の文は、専門用語ではコーパスと呼ばれます。'
NERの現在と未来:03.今後の開発の方向性と目標
「NERは情報検索において非常に重要な役割を果たしているため、自然言語処理の分野で活発な研究が行われています。特に、人名や組織名、地域名などを自動的に検出できるので、翻訳ミスを防ぐことで翻訳品質が向上するだけでなく、分野に合わせて翻訳をカスタマイズすることで、ユーザーの満足度を大幅に高めることも可能です。''
「しかし、それにもかかわらず、韓国語固有のNERデータセットはまだ不十分です。そのため、LETRチームはデータ量が少ないという制限を克服するために、韓国語を中心としたデータセットを構築し、これに基づいて学習した高性能のNER韓国語モデルを構築して、より正確で自然な翻訳を可能にしました。''
[AI Story] 機械翻訳が人間らしくなる
「最近の人工知能技術は、さまざまな問題を解決するための人工ニューラルネットワークを作成し、それらを接続して巨大で複雑なネットワーク構造を構築することで進化してきました。ニューラルネットワークの機械翻訳は、こうしたさまざまな人工ニューラルネットワークの1つと見なすこともできます。短期間でさまざまな発達段階を経て、ものすごいスピードで進化してきたという事実は、人間の脳の進化過程を思い起こさせます。'
「しかし、今のところ、機械翻訳が人間の専門家のレベルを超えることは容易ではないようです。これは、すべての言語が数千年の間に複雑で独自の特性を発達させてきたからです。そのため、正確な翻訳を行うためには、その言語領域の文化を理解することが必要であり、全体的な文脈を理解し、適切な背景情報に基づいて推論を行う高度な思考プロセスが必要となります。''
言語処理エンジンであるLETRがテキスト言語に焦点を当てているのはなぜですか?
「これまでも、今も、仕事の最も重要な成果は文書です。20年前も、200年前も、今も同じでした。計画から進行、完成まで、すべてが伝わり、記録し、記憶し、伝えるためには、文書を書くことが必要です。'
「だから私たちはテキスト言語に焦点を当てています。なぜなら、書くことは将来なくならない持続可能な価値だと固く信じているからです。韓国語やその他の言語で書かれたコンテンツを誰もが快適に利用できるように、実際の翻訳やコンテンツ管理に使用できるさまざまな技術やサービスを生み出しています。'
【私たちの側に立つAI】人工知能は芸術家を夢見るか (3)
「スプーナー:ロボットは交響曲を書けるのか?ロボットはキャンバスに素晴らしい傑作を描けるのか?(ロボットは交響曲を書けるのか?ロボットはキャンバスを美しい傑作に変えることができるのか?)
サニー:できるの?(できる?)'
「この映画が公開されてから20年も経っていませんが、絵を書いたり、構成したり、描いたりするための人工知能はすでに登場しています。とはいえ、それは人類の問題で、頭の中では「人工知能、アーティストだと認めるべきか?その質問は却下できない。それは人間にしかできないとずっと信じてきた芸術だが、今やテクノロジーは機械と人間が作った作品を明確に区別することが難しいレベルに達している。'
[AIストーリー] AlexNet (アレックスネット) は人間対人工知能の時代を切り開いた (3) ディープラーニング
「ディープラーニングは、人間の脳が学習する原則に従います。ヒントンは、人間の脳の仕組みと同様に、AIはプログラミングではなく自分で知識を学習すべきだと考えていました。もちろん、彼の信念を支えてきたのは、コンピューター性能の劇的な向上とビッグデータの開発のおかげでもあります。'
「Alexnetは、ディープラーニングの全盛期を切り開いた変化の始まりでした。非常に複雑な画像や動画であっても、適切なアルゴリズム構造、十分なデータに基づく学習、およびコンピューターのパフォーマンスによってサポートされていれば、優れた視覚的認識が可能であることが証明されました。'
なぜ人工知能は韓国語をより難しくしているのですか?
「その観点から見ると、英語を中心に発展してきた自然言語処理と機械翻訳の性質上、韓国語は難しいと理解しています。韓国人が英語よりも日本語を比較的簡単に習得できるのと同じように、機械は英語と似たフランス語やスペイン語の方が習得しやすいでしょう。もう一つのデメリットは、韓国語のデータが他の言語に比べてまだ比較的少ないことです。'
機械翻訳のパフォーマンスを評価するためのBLEUスコア
「BLEUは、機械翻訳の結果が人間によって翻訳された結果とどの程度似ているかを比較することによって翻訳パフォーマンスを測定する方法です。「言語に関係なく使用でき、計算速度が速い」という利点があります。つまり、機械翻訳された文章が、人間が翻訳した正解に近いほど、評価点が高くなります。'
一緒に見るのに良いコンテンツ
2021 LETR年末決済(2)気に入ったコンテンツ2021年の人工知能と自然言語処理のトップニュース(1)2021年の人工知能と自然言語処理のトップニュース(2)