NERの現在と未来:02.モデル構造とデータセットの状態

2024-07-17

‍

この記事は、2023年現在の最新動向に合わせて更新していますので、以下の記事を参考にしてください。

NER の現在と未来 Ver.2: 韓国の NER データセットのまとめ

‍

‍<NER의 현재와 미래> シリーズ第2弾となるこのコンテンツは、NER モデル構造とデータセット '最初のトピックに関するコンテンツを用意しました 'コンセプトから多様なアプローチまで'から続きますので、まだチェックしていない方は先に読むことをおすすめします。

* NERの現在と未来:01.コンセプトから多様なアプローチまで見に行く

‍

‍NER のモデル構造

論文「名前付きエンティティ認識のためのディープラーニングに関する調査」によると、NERモデルの構造は下図のように3段階のプロセスに分けることができます。

* テーブルソース: https://arxiv.org/pdf/1812.09449.pdf

‍

(1) 入力用の分散表現*

入力データをベクトルなどで表現するレイヤーとして、あらかじめ定義された単語埋め込み、文字レベルの埋め込み、POS* タグ、地名辞典が使われます。

(2) コンテキストエンコーダー

CNN*、RNN*、言語モデル*、Transformer*などのモデルは、コンテキスト情報をエンコードするためのレイヤーとして使用されます。

(3) タグデコーダー

Softmax、CRF*、RNN、ポイントネットワークなどのモデルは、タグ情報をデコードするためのレイヤーとして使用されます。

ただし、すべてのモデルが上記の構造に厳密に従うわけではありません。特に、ディープラーニング側のモデルは端から端まで動作するため、手順が明確に分かれていない場合があります。ただし、従来のアプローチを含めると、一般的に上記の3つのステップを検討できます。

‍

* 入力の分散表現:入力の分散表現

* POS（品詞、品詞）、 https://en.wikipedia.org/wiki/Part_of_speech

* CNN（畳み込みニューラルネットワーク）、 https://en.wikipedia.org/wiki/Convolutional_neural_network

* RNN（リカレントニューラルネットワーク）、 https://en.wikipedia.org/wiki/Recurrent_neural_network

* 言語モデル、 https://en.wikipedia.org/wiki/Language_model

* トランスフォーマー、 https://en.wikipedia.org/wiki/Transformer_(machine_learning_model)

* CRF (条件付きランダムフィールド)、 https://en.wikipedia.org/wiki/Conditional_random_field

‍

NER関連ライブラリの現状と性能評価

‍

現在、韓国語のみに特化した公式のNERライブラリを見つけることは難しく、多言語で学習したほとんどのモデルで韓国語を見つけることができます。各ライブラリには次のような特徴があります。

‍

その後、Kaggle*が配布したデータセット*を使用して評価が行われました。データセット内のクラス数とライブラリ内のクラス数はそれぞれ異なるため、各クラスをデータセットのクラスに一致させる作業が必要になり、この過程で参照データセットよりも多くのクラスを分類できるライブラリの方が精度が低いことが確認されました。そこで、NERの性能を判断する基準として、一般的に使われているPrecisionとそれを用いたF1スコアを除外し、再生率と所要時間のみに基づいてライブラリの性能を決定しました。結果は以下の通りです。

Stanford NER Taggerは、かかった時間の中でパフォーマンスが大幅に低く（1,000文に基づく）、フレアとポリグロットは想起の点でパフォーマンスが大幅に低かったことが確認できます。

‍

* カグル、 https://en.wikipedia.org/wiki/Kaggle

* https://www.kaggle.com/abhinavwalia95/entity-annotated-corpus

* NLTK（自然言語ツールキット）、 https://en.wikipedia.org/wiki/Natural_Language_Toolkit

* スタンフォード、 https://nlp.stanford.edu/software/CRF-NER.html#Models

* スペイシー、 https://en.wikipedia.org/wiki/SpaCy

* フレア、 https://github.com/flairNLP/flair

* ハグフェイス、 https://huggingface.co/datasets

* ポリグロット、 https://polyglot.readthedocs.io/en/latest/ #

* デパブロフ、 https://github.com/deepmipt/DeepPavlov

‍

代表的な英語 NER データセット

‍

(1) Conll 2003 (Sang and Meulder、2003) *

: 著作権ポリシー-DUA

：英語のニュース記事1,393件（主にスポーツ関連）

: 4 種類の注釈付き* エンティティ — {LOC (場所)、ORG (組織)、PER (個人)、MISC (その他)}

‍

* Conll 2003、 https://www.clips.uantwerpen.be/conll2003/ner/

* 注釈付き:<책 등이> 注釈付き [note]

‍

(2) OntoNotes 5.0 (ヴァイシェデルら、2013) *

: 著作権 — LDC

: データの種類と数は以下の通りです。

‍

* ノート5.0以降、 https://catalog.ldc.upenn.edu/LDC2013T19

* ピボット：旧約聖書と新約聖書のテキスト（旧約聖書と新約聖書のテキスト）

‍* テーブルソース: https://catalog.ldc.upenn.edu/LDC2013T19

‍

: 18 種類の注釈付きエンティティ

* テーブルソース: https://catalog.ldc.upenn.edu/docs/LDC2013T19/OntoNotes-Release-5.0.pdf

‍

(3) MUC-6 (グリッシュマンとスンハイム、1996)

: 著作権ポリシー — LDC

: ウォールストリートジャーナルから抜粋したニュース記事

: 3 種類のアノテーション付きエンティティ — {PER、LOC、ORG}

‍

* 多くの 6、 https://cs.nyu.edu/~grishman/muc6.html

(4) WNUT 17: エマージング・エンティティとレアエンティティの認識 (Derczynski et al., 2016)

: 著作権ポリシー — CC-BY 4.0

: ソーシャルメディア (YouTube コメント、スタック・オーバーフロー・レスポンス Twitter テキスト、Reddit コメント)

: 6種類の注釈付きエンティティ-（個人、場所、グループ、クリエイティブワード、企業、製品）

‍

* ナツメット 17, https://noisy-text.github.io/2017/emerging-rare-entities.html

‍

代表的な韓国の NER データセット

韓国のNERデータの数は非常に少ないです。現在、韓国のNERデータセットは全部で3つ公開されており、すべての商用利用が制限されています。

(1) 国立韓国語研究所 NER データセット

:全部で3,555センテンス

:BIO タグシステムの使用

:5 種類の注釈付きエンティティ — {場所 (LC)、日付 (DT)、組織 (OG)、時間 (TI)、個人 (PS)}

* 国立韓国語学院のみんなの言葉、 https://corpus.korean.go.kr

(2) 韓国海事大学自然言語処理研究所 NER データセット

:全部で23,964センテンス

:BIO タグシステムの使用

:10 種類の注釈付きエンティティ — {個人 (PER)、組織 (ORG)、地名 (LOC)、その他 (POH)、日付 (DAT)、時間 (TIM)、期間 (DUR)、通貨 (MNY)、比率 (PNT)、その他の定量的表現 (NOH)}

* 韓国海事大学GitHubの自然言語処理研究室 https://github.com/kmounlp

(3) ネイバー NLP チャレンジ 2018

:合計 82, 393 センテンス

:BIO タグシステムの使用

: 14種類の注釈エンティティ — {個人 (PER), 研究分野 (FLD), アーティファクト (AFW), 組織 (ORG), ロケーション (LOC), 文明と文化 (CVL), 日付 (DAT), 時間 (TIM), 番号 (NUM), インシデントとイベント (EVT), 動物 (ANM), 植物 (PLT), 金属/岩石/化学薬品 (MAT)), 医療用語/IT関連用語 (TRM)}