この記事は、2023年現在の最新動向に合わせて更新していますので、以下の記事を参考にしてください。
NER の現在と未来 Ver.2: 韓国の NER データセットのまとめ
NER とは何ですか?
NER (名前付きエンティティ認識)文字通り 名前付きエンティティ (名前の付いたオブジェクト)를 認識 (認識)やるということは、 オブジェクト名認識って呼ばれてる
NER の定義は 韓国情報通信協会提供元 情報通信技術用語集によると:
あらかじめ定義された人物、会社、場所、時間、単位などに対応する単語(オブジェクト名)を文書から認識し、抽出して分類する技法。抽出されたオブジェクト名は、人物 (人)、地名 (場所)、組織名 (組織)、時間 (時間) で分類されます。オブジェクト名認識 (NER) は情報の抽出を目的として始まり、自然言語処理や情報検索などに使用されます。
※ 例:チョルス [人名] は、10時 [時刻] にソウル駅 [名前] でヨンヒ [人名] に会うと約束した。
一方、論文「名前付きエンティティ認識のためのディープラーニングに関する調査」[1] では、次のように説明されています。
「NERとは、テキスト内の名前付きエンティティをエンティティのカテゴリに分類および分類するプロセスです。」
つまり、実際には、「文字列を入力として受け取り、各単語に対応するタグを吐き出すマルチクラス分類タスク」と表現できます。
それから NE (名前付きエンティティ、以下 NE)それはなんですか?
NE は、文字列内の機関名や人物、場所だけでなく、通貨や時間、パーセンテージの表現も含めた意味として登場しました。それ以来、研究者によって若干異なりますが、人名や地名などの固有名詞がこれに対応することが一般的に認識されてきました。
さらに、上記で定義した NE には 2 つのタイプがあります。
まず、 共通オブジェクト名 (汎用 NE)人や場所などの名前がこのカテゴリに該当します。
第二に、 ドメイン固有のエンティティ名 (ドメイン固有のNE)これは専門分野の用語です。
例として 小枝農場では、最初のタイプは学習した NER アルゴリズムによって処理され、2 番目のタイプは定義済みの用語集 (翻訳メモリ、翻訳メモリ*) で処理され、翻訳品質が向上します。
NER が必要な理由
NER は自然言語処理 (NLP) 全体で重要な役割を果たします。自然言語処理を用いた情報の検索や要約、質問への回答、知識ベースの構築など、さまざまな分野で使用されており [2]、特に機械翻訳 (機械翻訳、以下 MT) の品質を高め、カスタマイズした翻訳をユーザーに提供するのに役立ちます。
たとえば、「TWIGFARM」を文字通りに解釈すると、「小枝農場」ではなく「木の枝農場」と解釈されます。しかし、これは翻訳エラーを引き起こすだけでなく、ユーザーにとって不快な体験をもたらす可能性もあります。一方、TWIGFARMが会社名として正しく認識されれば、翻訳品質だけでなくユーザーエクスペリエンスも向上させることができます。
MTの導入当初から、NERプロセスを通じてMTの品質を向上させることができることが知られていました。BabychとHartleyによると、「オブジェクト名が一般名詞と誤解されると、文自体が理解しにくくなり、修正に多額の費用がかかる」[3] [3] うがわらはまた、ニューラルネットワークベースの機械翻訳(NMT)でNERを使用すると結果の翻訳品質が向上することを目に見えて実証している [4]。
NER パフォーマンス評価インデックス
NER は、精度 (精度)、リコール (リコール) *、および f1-score* を使用してパフォーマンスを評価し、文単位ではなくトークン (トークン) * 単位で評価します。
たとえば、「私はTWIGFARMで働いています。」という文がある場合、その文を最初にトークン化*して、「TWIGFARM」という特定の単語だけがオブジェクト名であることを示します。(トークン化する方法はいくつかあり、使用するツールによって結果が異なる場合があります)。
例文は「私」、「仕事」、「at」、「TWIGFARM」、「.」の5つの要素に分かれており、それぞれ評価されます。
NER タグシステムおよびラベル
NERは文をトークン単位に分割し、これらのトークンをそれぞれタグ (タグ付け*) して、オブジェクト名かどうかを区別します。一方、イギリス文化における発言の例として、1つのトークンではなく、複数のトークンを組み合わせて1つのオブジェクト名を完成させるケースもあります。たとえば、「マイケル・ジョーダン」は 2 つのオブジェクト名ではなく、1 つのオブジェクト名です。
そして、これらの複数のトークンを単一のオブジェクト名にグループ化することが導入されました。 タグ付けシステムこれです。タグ付けシステムにはBIOSシステムとBIESOシステムの2種類があり、主にBIOシステムが実際に使われています。
まず、BIO システムは、オブジェクト名が始まる場合は「B-(begin)」、トークンがオブジェクト名の中央にある場合は「I-(inside)」、トークンがオブジェクト名でない場合は「O (outside)」を追加します。
一方、BIESO システムは、オブジェクト名の先頭に「B-(begin)」、オブジェクト名の途中には「I-(inside)」、オブジェクト名の末尾には「E-(end)」を追加します。また、トークンがオブジェクト名の場合は'S-(singleton) 'が追加され、トークンがオブジェクト名でない場合は 'O (outside) 'が追加されます。
BIOシステムに従ってタグ付けされた文の例
BIESOシステムに従ってタグ付けされた文の例
前述のように、「O」を除くタグ、つまり「B-」、「I-」、「E-」、「S-」の後には、各トークンがどのようなオブジェクト名であるかを認識できるラベルが続きます。たとえば、人には「PER」が、組織には「ORG」が追加されます。ただし、ラベルの種類や名前には決まった基準はなく、研究者はプロジェクトの性質に応じてランダムにラベルを選択します。
NER へのさまざまなアプローチとディープラーニングの紹介
ディープラーニング (Deep Learning) *が導入される前から、NER の課題を解決するためのさまざまな試みがなされてきました。現在は主にディープラーニングモデルが使用されていますが、従来のアプローチを組み合わせたモデルも多くありました。ディープラーニングが登場する前は、代表的なアプローチとして以下の3つがありました。
(1) ルールベースのアプローチ(ルールベースのアプローチ)
: ドメイン固有 (ドメイン固有) ディクショナリ (gazetteer*) を適用するか、パターンを適用してアクセスします。
: 高精度に比べて再現率が低い。特に、別のドメインに行っても機能しません。
(2) 教師なし学習*アプローチ (教師なし学習)
:コンテキストの類似性に基づいてクラスタリング(クラスタリング)*によって学習します。
:また、地名辞典(地名辞典)を作成するための教師なしシステム(教師なしシステム)を提案しました。教師あり学習*と比較すると、この方法は用語集、コーパス (コーパス) * 統計情報 (idf または contextvector)、または浅いレベルの構文 (構文) * 知識に頼ります。
(3) 変数ベースの教師付き学習アプローチ(特徴ベースの教師付き学習アプローチ)
:教師付き学習に移ると、NERはマルチクラス分類(マルチクラス分類)*またはシーケンスラベリングタスク(シーケンスラベリングタスク)*エリアに移動します。
: 機能ベース (機能ベース) なので、その機能がどうなるかは非常に重要な課題です。
: 隠れマルコフモデル (HMM) *, デシジョンツリー*, 最大エントロピーモデル*, サポートベクターマシン (SVM) *, 条件付きランダムフィールド (CRF) *
: SVM モデルでは、エンティティラベルの予測時に隣接する単語は考慮されませんが、CRF は考慮されます。
しかし、最近では、NER のほとんどのソリューションはディープラーニングを使用して解決されており、これにはより多くの利点があります。個別の変数処理 (特徴工学*) は不要で、線形モデルと比較してより複雑で高度な特性を学習することもできます。特にディープラーニングには、データを挿入して一連のプロセスを経なくてもすぐに結果が得られるエンドツーエンド (エンドツーエンド) モデルを実装できるというメリットがあります。
今まで 'NERの現在と未来「シリーズの最初のトピック」コンセプトから多様なアプローチまで「そうだった。このシリーズの2つ目のトピックは、」モデル構造とデータセットステータス'、3 番目のトピック'今後の開発方向と目標まで続きます。」
参考文献
NERの現在と未来
NERの現在と未来:01.コンセプトから多様なアプローチまで NERの現在と未来:02.モデル構造とデータセットの状態 NERの現在と未来:03.今後の開発の方向性と目標