この記事は、2023年現在の最新動向に合わせて更新していますので、以下の記事を参考にしてください。
NER の現在と未来 Ver.2: 韓国の NER データセットのまとめ
「NERの現在と未来」 このコンテンツは、シリーズの3番目のトピックです 「今後の発展の方向性と目標」第1話の「概念から様々なアプローチへ」、第2話の「モデル構造とデータセットの状況」に続く内容を用意していますので、ぜひチェックして読んでみることをおすすめします。
'NERの現在と未来:01.コンセプトから多様なアプローチまで 見に行く'NERの現在と未来:02.モデル構造とデータセットのステータス' 見に行く
NER モデルの開発方向
実際のところ、最も効果的な方法は、既存のモデルをさらにトレーニングしてより良い結果を得ることです。
LETRチームでは、以下の理由から、ディープパブロフライブラリからner_ontonotes_bert_multモデル*を選択しました。
1。最も多くの言語 (104) をサポートしています。2.最も多様なクラス (18) がありますが、3.データ処理速度は問題ありません。4.再生率も著しく高い。5.これは、使い方が難しくなく、施術者がすぐに順応できるからです。
また、モデルの埋め込みサイズは700MB、モデルサイズは1.4 GBで、Ontonotesデータセット*に基づいて88.8のf1スコアが記録されました。(また、ディープパブロフはロシア語とベトナム語に特化したNERモデルを別々に提供しているという特徴もあります。)
上記と同じ理由で ディープパブロフのner_ontonotes_bert_multモデル(以下、ベースモデル)をさらに学習する方向で、NERモデルを積極的に開発してください。できました。
韓国のNERデータセットを整理する必要性
モデルトレーニングには適切なデータが不可欠ですが、韓国語のNERデータセットはまだ不十分です。特に、LETR チームが必要とする基本モデルで使われているオントノテス法を使った 18 種類の NER データセットは韓国には存在しません。そこで、まずは 韓国の NER データセットの構成計画を提案それを実行して、さらに進んでください 韓国NERモデルの新しい方向性を提案やりたいです。
オリジナルデータを保護する方法
1。中古データ
-TED* コーパス
-韓国と英国の契約書の収集
-英語 (英語): 10万文
-AI HUB*: 160文の韓国語-英語対訳コーパス
2。将来取得できるデータ
-AI HUB: 1万文の韓国語会話、27万文の感情的な会話
-人工知能学習のためのデータ構築支援プロジェクト*を通じて構築された300万文
データを整理する手順
データ整理の効率を上げるために、まず既存のモデルを使ってNERの方法を選択し、それをオペレーターが検証しました。しかし、そのためには、オペレーターが検査するのに適したデータになるようにデータを再構築し、検査したデータをモデルに適した形で再度解く必要があります。具体的には、データは次の順序で整理されます。
1。既存モデルとしての NER
2。データ精製 (NEのない文を除外する処理)
韓国語は以前のモデルほど正確ではありません。そのため、NER モデルでは NE がないという文に NE が含まれる場合があるため、次の 2 つの方法が使用されます。
(1) (多言語データの場合) 対応する言語ペアをNERで照合する
(2)(オプション)クラウドソーシングによるチェック(各文にNEの有無にかかわらずラベルを付ける)
3。データ処理
データはクラウドソーシング可能な形式に処理されます。
4。クラウドソーシングによる一次作業員検査
5。マネージャーによる2回目の検査
6。処理された文章をモデルに入力できる形で解く
特定のデータ形式
1。設定したい韓国の NER データセットのタグ付けシステムと NE タイプ
韓国の NER データセットのタグ付けシステムも Ontonotes のルールに従います。BIO タグシステムを使用すると、NE は下の表のように 18 のカテゴリに分類されます。
2。モデルに入力できるデータの種類
モデルに入力できるデータの種類は次のとおりです。
上記のように、それらはすべてテキストデータで構成されています。タグとトークンは空白 (空白) で区切られ、文の間は空行 (空行) で区切られます。
データセットはトレイン、テスト、ベイリングに分かれており、その比率は 8:1:1 です。
3。検査中に使用されるデータの種類
オブジェクトのタイプに関する情報は、オブジェクト名の前後に角括弧 (< >) で囲まれます。
(例)
こんにちは?<PERSON>私の名前はヨンヒです</PERSON>。<DATE>私の誕生日は10月26日です。</DATE><GPE>私はソウルに住んでいます</GPE>。<LANGUAGE><NORP>私は韓国語を話す韓国人です</NORP></LANGUAGE>。
データセットの目標数の計算
メディア、文化、科学、人類学、哲学、経済学などのさまざまな分野から41,969文を抽出したところ、2,453文で個人の名前が認識されました。これを比率とすると 5.8% です。(ただし、これは文章での比率であり、口語表現の比率は異なる場合があることに注意してください。)
つまり、コーパス全体の文の約5%がオブジェクト名を持っていると仮定すると、約500万文のうち25万文にオブジェクト名が含まれていると推定できます。そのため、オブジェクト名を含む25万文で構成することを目指しています。
最後に
先に述べたように、NERは情報検索において非常に重要な役割を果たしているため、自然言語処理の分野で活発な研究が行われています。特に、人物や組織、地域の名前を自動的に検出できるので、翻訳ミスを防ぐことで翻訳品質は向上しますが、分野に合わせて翻訳をカスタマイズすることでユーザーの満足度を大幅に高めることもできます。
ただし、これにもかかわらず、韓国語固有のNERデータセットはまだ不十分です。そのため、LETRチームはデータ量が少ないという制約を克服するために、韓国語を中心としたデータセットを構築し、これに基づいて学習したより高性能なNER韓国語モデルを構築し、より正確で自然な翻訳を可能にしました。
もちろん、プロの翻訳者レベルの機械翻訳は、すぐには実現できません。しかし、私たちがテクノロジーを進歩させ続けることで、私たちが夢見るすべての人が言葉の壁なくコミュニケーションできる、より良い世界が間もなく作られると信じています。
* 人工知能学習のためのデータ構築支援プロジェクト:科学技術情報通信部と韓国知能情報社会推進院が主催するデジタルニューディール「データダム」の中核プロジェクト Twig Farmが「AI学習用データ構築」プロジェクトの実施機関に選定
NERの現在と未来
NERの現在と未来:01.コンセプトから多様なアプローチまで NERの現在と未来:02.モデル構造とデータセットの状態 NERの現在と未来:03.今後の開発の方向性と目標