この記事は、2023年現在の最新動向に合わせて更新していますので、以下の記事を参考にしてください。
NER の現在と未来 Ver.2: 韓国の NER データセットのまとめ
<NER의 현재와 미래> シリーズ第2弾となるこのコンテンツは、NER モデル構造とデータセット '最初のトピックに関するコンテンツを用意しました 'コンセプトから多様なアプローチまで'から続きますので、まだチェックしていない方は先に読むことをおすすめします。
NER のモデル構造
論文「名前付きエンティティ認識のためのディープラーニングに関する調査」によると、NERモデルの構造は下図のように3段階のプロセスに分けることができます。
(1) 入力用の分散表現*
入力データをベクトルなどで表現するレイヤーとして、あらかじめ定義された単語埋め込み、文字レベルの埋め込み、POS* タグ、地名辞典が使われます。
(2) コンテキストエンコーダー
CNN*、RNN*、言語モデル*、Transformer*などのモデルは、コンテキスト情報をエンコードするためのレイヤーとして使用されます。
(3) タグデコーダー
Softmax、CRF*、RNN、ポイントネットワークなどのモデルは、タグ情報をデコードするためのレイヤーとして使用されます。
ただし、すべてのモデルが上記の構造に厳密に従うわけではありません。特に、ディープラーニング側のモデルは端から端まで動作するため、手順が明確に分かれていない場合があります。ただし、従来のアプローチを含めると、一般的に上記の3つのステップを検討できます。
* 入力の分散表現:入力の分散表現
NER関連ライブラリの現状と性能評価
現在、韓国語のみに特化した公式のNERライブラリを見つけることは難しく、多言語で学習したほとんどのモデルで韓国語を見つけることができます。各ライブラリには次のような特徴があります。
その後、Kaggle*が配布したデータセット*を使用して評価が行われました。データセット内のクラス数とライブラリ内のクラス数はそれぞれ異なるため、各クラスをデータセットのクラスに一致させる作業が必要になり、この過程で参照データセットよりも多くのクラスを分類できるライブラリの方が精度が低いことが確認されました。そこで、NERの性能を判断する基準として、一般的に使われているPrecisionとそれを用いたF1スコアを除外し、再生率と所要時間のみに基づいてライブラリの性能を決定しました。結果は以下の通りです。
Stanford NER Taggerは、かかった時間の中でパフォーマンスが大幅に低く(1,000文に基づく)、フレアとポリグロットは想起の点でパフォーマンスが大幅に低かったことが確認できます。
代表的な英語 NER データセット
(1) Conll 2003 (Sang and Meulder、2003) *
: 著作権ポリシー-DUA
:英語のニュース記事1,393件(主にスポーツ関連)
: 4 種類の注釈付き* エンティティ — {LOC (場所)、ORG (組織)、PER (個人)、MISC (その他)}
* 注釈付き:<책 등이> 注釈付き [note]
(2) OntoNotes 5.0 (ヴァイシェデルら、2013) *
: 著作権 — LDC
: データの種類と数は以下の通りです。
* ピボット:旧約聖書と新約聖書のテキスト(旧約聖書と新約聖書のテキスト)
: 18 種類の注釈付きエンティティ
(3) MUC-6 (グリッシュマンとスンハイム、1996)
: 著作権ポリシー — LDC
: ウォールストリートジャーナルから抜粋したニュース記事
: 3 種類のアノテーション付きエンティティ — {PER、LOC、ORG}
(4) WNUT 17: エマージング・エンティティとレアエンティティの認識 (Derczynski et al., 2016)
: 著作権ポリシー — CC-BY 4.0
: ソーシャルメディア (YouTube コメント、スタック・オーバーフロー・レスポンス Twitter テキスト、Reddit コメント)
: 6種類の注釈付きエンティティ-(個人、場所、グループ、クリエイティブワード、企業、製品)
代表的な韓国の NER データセット
韓国のNERデータの数は非常に少ないです。現在、韓国のNERデータセットは全部で3つ公開されており、すべての商用利用が制限されています。
(1) 国立韓国語研究所 NER データセット
:全部で3,555センテンス
:BIO タグシステムの使用
:5 種類の注釈付きエンティティ — {場所 (LC)、日付 (DT)、組織 (OG)、時間 (TI)、個人 (PS)}
(2) 韓国海事大学自然言語処理研究所 NER データセット
:全部で23,964センテンス
:BIO タグシステムの使用
:10 種類の注釈付きエンティティ — {個人 (PER)、組織 (ORG)、地名 (LOC)、その他 (POH)、日付 (DAT)、時間 (TIM)、期間 (DUR)、通貨 (MNY)、比率 (PNT)、その他の定量的表現 (NOH)}
(3) ネイバー NLP チャレンジ 2018
:合計 82, 393 センテンス
:BIO タグシステムの使用
: 14種類の注釈エンティティ — {個人 (PER), 研究分野 (FLD), アーティファクト (AFW), 組織 (ORG), ロケーション (LOC), 文明と文化 (CVL), 日付 (DAT), 時間 (TIM), 番号 (NUM), インシデントとイベント (EVT), 動物 (ANM), 植物 (PLT), 金属/岩石/化学薬品 (MAT)), 医療用語/IT関連用語 (TRM)}
今まで 'NERの現在と未来「シリーズ第2弾について」モデル構造とデータセットステータス「そうだった。このシリーズの3番目のトピックは、もうすぐです。今後の開発方向と目標につながっていく」.
NERの現在と未来
NERの現在と未来:01.コンセプトから多様なアプローチまで NERの現在と未来:02.モデル構造とデータセットの状態 NERの現在と未来:03.今後の開発の方向性と目標