この記事では、2021年にこのブログで公開したシリーズ「NERの現在と未来」を最新のトレンドに合わせて更新しています。
NERの現在と未来:01.コンセプトから多様なアプローチまで
NERの現在と未来:02.モデル構造とデータセットの状態
NERの現在と未来:03.今後の開発の方向性と目標
はじめに
近年、コーパスへの関心が高まるにつれ、韓国のNER(NER)名前付きエンティティ認識(NER)データセット(データセット)の数が増加しています。以前との最大の違いは、タグセット (分析対象カテゴリー) の存在です。現在、韓国情報通信技術協会 (以下、TTA) のタグセット標準が一般的になったため、韓国のNERデータのほとんどは、TTAタグセットの15の主要なカテゴリまたは150のサブカテゴリに従って作成されています。
ところで、前のシリーズの記事かもしれません NERの現在と未来:01.コンセプトから多様なアプローチまで覚えているなら、一つ質問があると思います。
「何?動物、植物、材料、用語... これだけ見てもドメイン化されたNE(特定のフィールド名)じゃないの?」
はい、その通りです。しかし、LETRチームは機械翻訳者を研究しているので、前回の記事ではドメイン化されたNEについては取り上げませんでした。おそらく、テキストデータの医療面を扱っている人がそれを見たら、ドメイン関連のNEの方が重要だと言って、胸に「ドキドキ」したでしょう。言い訳としては、担当する職種や分野によって、必要とするデータは人それぞれ異なるからだと思います。
もしそうなら、LETRチームがジェネリックNE(ジェネリックオブジェクト名)を好む以外に選択肢がなかった理由についてもう少し説明させてください。実際、正直、肝心なのは、ジェネリック NE は機械翻訳では扱いにくいということです。もちろん、翻訳結果が誤訳されると、ドメインで解釈されるNEにとっても悲痛なことになりますが、この専門分野の用語となると、語彙外(語彙辞書にない用語、OOV)がより頻繁に登場するので、そもそも辞書です。*適用する方が速いです。
(ここで啓発的なプロモーションを行うとしたら、LETRチームはすでにこれらの制限を克服できています。*を使用して翻訳者を育成し、サービスを提供しています。)
* 翻訳辞書(TD):一種の「専門用語辞書」で、以前に翻訳された文書に基づいて構築されたカスタマイズされたデータベースです。新しい文書を翻訳する場合、その文書を参照することで翻訳の一貫性と正確性が向上し、翻訳品質を大幅に向上させることができます。
しかし、ジェネリックのNEではそれができません。簡単な例を1つだけ考えてもわかりやすいです。人の名前が「ユリ」で、「ガラス」が出てくるすべての文に「ユリ」を入れたらどうなるでしょうか?一方、「水添ポリイソブテン」の場合、この単語が出てくるすべての文に自信を持って「水素化ポリイソブテン」を入れることができます。
言い換えると、辞書がバッチで適用されるためにリスクの高い用語(人名や組織名など)の処理におけるNERの役割は、今後も大きくなるはずです。
韓国の NER データセット
それでは、この記事の要点である「韓国のNERデータセット」に取り掛かりましょう。念のために言っておきますが、前回の記事で紹介した韓国のNERデータセットのことは忘れてください。たとえば、Naver NER データセットには自動生成された文が含まれているため、韓国語の文章自体に誤りが多いです。(関連しました) GitHub ページこの問題に言及しているコメントと、それに対するステークホルダーの反応を見つけて確認しました。)
この記事の冒頭で述べたように、多くのデータは TTA カテゴリに従ってタグセットにまとめられています。もちろん、各自が自分の都合に合わせてタグセットを整理する場合もあります。いずれにしても、現在一般に公開されているデータセットのほとんどは3種類のタグセットを使用しています。
最初の4つのカテゴリのタグセットは、組織名、個人名、製品名、および作業名で構成されています。
2つ目は、TTAの主要な分類基準に従った15種類のタグのセットです。
3つ目は、TTA下位分類基準に従った150個のタグのセットです。
ボリュームの関係で各サブカテゴリ基準の定義、詳細な説明、例については、以下の国立韓国語研究所の調査報告書を参照してください。
2021年のオブジェクト名分析とオブジェクトリンクコーパス研究分析
仕上げ中
このアップデートの調査中に、珍しいことが1つ見つかりました。機械翻訳を扱うTwigfarmは、並行コーパスを公開し、NERデータも公開していた会社です。
はい、その通りです。TwigfarmはLETRチームが所属しているのと同じ会社です。
最後に、パラレルコーパスのデータをグラフにまとめるところで終わります。
[1] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71263
[2] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71263
[3] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71265
[4] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71265
[5] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71265
[6] https://aihub.or.kr/aihubdata/data/view.do?dataSetSn=71266
[7] https://corpus.korean.go.kr/
[8] から [13] 同種の
一緒に見るのに良いコンテンツ
NERの現在と未来:01.コンセプトから多様なアプローチまで NERの現在と未来:02.モデル構造とデータセットの状態NERの現在と未来:03.今後の開発の方向性と目標