はじめに
人類が言語や文字を使い始めて以来、テキスト情報の量は指数関数的に増加しています。ここでのインターネットの登場は、燃えた家に燃料を注ぐようなものでした。このおかげで人類の知識は膨大になりましたが、代わりに必要な情報を抽出して利用する時間とコストも増えました。
何千ページもの本や山積みの書類を目の前にして困ったことはありませんか?一例として 「グローバルコンサルティング会社のマッキンゼーでは、従業員は仕事関連の情報の検索と収集に毎日平均1.8時間(週9.3時間)費やしています。」*そう言ってみましょう。テキストの収集と要約は時間と労力を要する作業です。その結果、昔の人々も、長い記事を人間に代わって機械がまとめることができたらいいなぁと想像していたと思います。
しかし、ご存知のように、それは実際に起こりました。これは人工知能、特に最近話題になっているChatGPTやGPT-4などの自然言語処理技術の進歩のおかげです。具体的には、今回ご紹介する自動テキスト要約 (ATS) が効果的なソリューションでした。
それでは、ATS全般を見て、実際のATSをいくつか選択してテストした結果を比較してみましょう。
ATS が目指すもの
· 長い投稿の重要なアイデアを短い投稿に圧縮します。
· 重要な情報を保持しながら、意味のある説得力のある要約を作成します。
· これにより、ユーザーは元のテキストを見なくても重要な内容を理解できます。
ATS の使用
・本の要約(本または小説の要約) 短い文書では文脈を把握するのは容易ではないため、小説などの比較的長い文書を要約するにはATSの方が適しています。
· SNS 要約 (ソーシャル投稿またはツイート要約) FacebookやTwitterなどのソーシャルメディアを通じて、毎日膨大な量のメッセージが生成されています。ATS を利用することで、このような大量のメッセージから有用な情報を特定することができます。
· 感情分析 (感情分析) 感情分析とは、出来事や状況に関する人々の視点、感情、判断を分析することです。ATSは、多くの人の考えをまとめることで、市場アナリストなど、さまざまな分野の専門家を支援できます。
・ニュース要約(ニュース要約) ATSは長いニュース記事から最も重要なポイントを抽出できます。
· メール要約 ほとんどのメールコンテンツは適切に構成されていません。ATS では、言語学的手法と機械学習アルゴリズムを使用して、一般的な名詞句を抽出し、要約を生成できます。
また、次のような専門分野の文書の要約など、他にもさまざまな作業に使用できます。
· 法的文書の要約(法的文書の要約)
· 医療文書の要約 (生物医学文書の要約)
· 科学論文の要約
ATSの分類
IEEE(電気電子技術者協会、電気電子技術者協会)が発行した論文[1]によると、アルゴリズムを分類するための要約方法と構造は上記のとおりです。大まかに言うと、抽出的 (抽出的) と生成的 (抽象的) の 2 つの方法で分類できます。
抽出テキストの要約
入力テキストの文章を使用して要約を作成します。まず、テキストを文章に切り分け、重要度に応じて各文にポイントを付け、得点の高い文を選択する順番で要約作業を行います。要約結果は入力テキスト内の文を組み合わせて作成されるため、結果は比較的安定しています。
抽象的テキスト要約
モデルは、入力テキストの内容に基づいて新しい要約を生成します。まず、テキストの主な内容を分析し、要約のための一種のパラフレーズを作るというものです。そのため、要約結果には原文の内容や意味が含まれていても、要約そのものは原文とは異なる単語や構造で構成されています。
サマリー結果を比較
最近注目されているChatGPTをはじめ、いくつかの集計APIを用いて得られた結果を比較しました。(ChatGPT、NaverCloud、Microsoft Azure、ActionPower、抽出的手法と抽象的手法のグラフベースのハイブリッドモデルなど)
また、入力テキストとして通常の文書ではない会話と、その中からメッセンジャーを使った会話を選択しました。文法的でない表現を理解しながら、短いテキストから文脈を抽出できるかを確認したかったのです。その結果、抽出法と抽象法の違いがはっきり分かりました。
なお、分析に使用した会話は、AI Hub で公開されている韓国語会話要約データセットを使用していました。2 つの異なる会話内容を併用し、実際に入力されたデータは以下のとおりです。
P1:ああ、でもケーキ会社を見たよ
P1: 中央東側がおいしい
P1: デザインはまさにそれだと思います
P2: はい。私もそう思います
P3: コジャンドンのケーキ会社もデリバリーが大嫌い
P3: 安山小豆ペーストケーキ
P1: ああ、それはどれくらいの長さですか?
P1: 適切なタイミングがないと、再度購入することはできません
P3: そこで予約をしながら時間を調整する
P3: あなたがそれをすれば、彼らはあなたにそれをもたらします
P2: この場所は大丈夫だと思います
P1: そうそう、それもいいと思う
P4: 歯ブラシを購入する必要があります
P4: 支払いなしで購入すべきですか?
P2: どの歯ブラシを買うべきかさえ聞かれました笑
P4: アグワン歯ブラシ
P4: また買いたいから
P4:3ヶ月ごとに歯ブラシを交換しています...
P3: 変更する時期になったら、良いものを購入して、変更してください
P3: まだです
P3: ダム以上のもの
P4: 歯ブラシは3ヶ月しか使えません
そして、各モデルの要約結果は次のとおりでした。
GPT チャット
P1、P2、P3、P4の会話の中で、P1はケーキ会社を見て、味はいいけどデザインは地味だと言った。P2はP1と同じ考えを持っていると言い、P3はコジャンドンのケーキ会社もそれを届けると言って、安山にあるあんこケーキを勧めました。P4は歯ブラシを買うべきだと言い、その時が来たら良いものに変えたいと言っていました。
ネイバークラウド
私もそう思います P3: コジャンドンケーキ会社もヘジュンデで配達しています P3: アンサンアンジュムもちケーキ P1: ああ、それはどれくらいの期間ですか?P1: 時期が合わないと、再度購入できない P3: 予約中に時間を調整する P3: そうすれば持って来てくれる P2: この場所は大丈夫だと思う P1: ああそう\n P2: どの歯ブラシを買うか聞いてみた笑 P4: ああ、あの王様の歯ブラシ P4: また買いたいから P4: 変更 3ヶ月ごとに歯ブラシ...P3: 私は3ヶ月ごとに歯ブラシを交換します...P3: 歯ブラシは3ヶ月ごとに交換しています。くそー P4: 歯ブラシは3ヶ月しか使えません
MS アズール
P1:ああ、でもケーキ会社を見たけど、P3:コジャンドンのケーキ会社は配達をしてくれなかった P1:時期が合わなければ二度と買えない、P4:3ヶ月ごとに歯ブラシを交換する...
MS アズール (アブストラクティブ)
P1:地区を再編しているケーキ会社はたくさんあります。
アクションパワー (大)
デザインがまさにそうだと言うと、彼らもそう思うと言う。\n どれくらいの時間なのか聞いてるんだけど。」、「時間が合わないと、また買えないって言われて、予約時に時間を調整しないといけないって。\n アンガンが持ってきてくれるからここなら大丈夫だと思います。\n シャグとして買いたいけど、シャグとしても買いたい。'、「歯ブラシを買いたいけど、ロイヤル歯ブラシを買うべきか迷っている。\n 交換する時期になったら、交換してもらうといいアイデアですからね。\n もっと使ってもダムになるそうです。
アクションパワー (中)
ケーキ会社も見たけど、中央洞のものはおいしかったし、デザインもそんな感じでした。\n 予約中に時間を調整しないといけないので、時間が合わないと買えません。」、「歯ブラシを買わないといけないけど、買いたい。\n 歯ブラシは3ヶ月もつと言われていますが、もっと長く使うこともできます。
アクションパワー (小)
ケーキ会社を見たところ、中央洞のケーキが美味しく、デザインもまさにそのようでした。\n 歯ブラシを交換する時期になったら、良い歯ブラシを買って交換してもらいます。
まず、ChatGPTの要約結果は比較的自然で、文脈をよく把握しているようです。しかし、P3は原文で「歯ブラシを変える時が来たら、良いものとして買え」と言っていましたが、まとめの結果は正確ではありませんでした。
Naver CloudとMS Azureがサポートしているサマリーモデルは抽出的な方法であるため、会話の要約では満足のいく結果が得られませんでした。
MS Azureはプレビューとして抽象的な方法を提供しており、上記のように韓国語の要約のパフォーマンスは低いです。
そんな中、まとめ結果の文数を変えてActionPowerのまとめモデルを確認しました。まとめた結果、文章数を大きく設定すると、「急いで生きたいけど、ぼんやりと暮らしたい」「もっと書いてもダムになると言われる」など、気まずい文章になってしまうことが確認できました。このような文章は中・小でなくなりましたが、会話の主体を区別するのが難しいという共通の制限がありました。
上記は韓国語会話のまとめなので、英会話をまとめた結果も比較してみました。英会話データはDailyDialogのデータセットです。**から取得したもので、実際の入力データは次のとおりです。
P1: ああ、なんてこった!だまされてしまった!
P2: 何?何を買ったの?
P1: レンガだ!自分がどんなにバカだったか信じられない。くそー!
P2: それは何ですか?なぜレンガを買ったの?
P1: 歩道に男がいました。彼はパナソニックのビデオカメラボックスを3つ新しい箱に入れました。彼はそれらをすぐに取り除かなければならないと言った。
P2: そして?
P1:それで彼は私に20ドルで売ると言った。二十ドルで四百ドルのカメラだ。
P2: そしてそれはレンガですか?
P1: はい。
P2:あなたがどれほど愚かであるか信じられません。どうして箱を開けなかったの?
P1: したかったしかし彼は、「いや、箱はまだ店から届いたプラスチックの包装に入っている」と言った。開封されても、他の人はそれが新品だとは思わないでしょう。
P2: それで彼は箱をプラスチックで包みました。
P1:はい、新製品に付属する完璧なプラスチックラップのようなものでした。ほら、バーコードの価格ステッカーも貼られていました!新品を導入しました。
P2: しかし、なぜ男は新しいビデオカメラを20ドルで売るのでしょう?
P1:彼はそれらを取り除かなければならないと言いました。彼らは盗まれた。
P2: なるほど!今わかった。歩道で盗品を買おうとしてたのねだまされたと思ってたんだろ!
P1: さあ、私を責めないで!新しいカメラかと思った。私たちはそれを使うことができた。カメラの購入も考えていました。彼がどうしてあんなに完璧な箱を手に入れることができたのか、私には理解できない。
P2: 問題ありません。彼には、プラスチックラップができるお店で働いている友達がいるだけです。それは簡単だ。彼が箱をもらったのと同じ店なのにたぶん彼の友人は電気店で働いているのだろう。彼らはそこでビデオカメラを売っている。あちこちにビデオカメラの箱がいくつか転がっていた。そこで、彼らはレンガを包んであなたのような馬鹿に売るというアイデアを思いつきました。レンガ1個20ドル。十分な数のレンガを売ることができれば、それなりの利益になります。
P1: そうだね、サラ私は馬鹿だった。信じられない。どうしてそんなトリックに騙されるんだろう。
簡単にまとめると、P1は路上で400ドルのビデオカメラが入った箱を購入し、20ドルで売っている人に会ったが、家に帰って箱を開けると、中にはレンガが入っていました。
そして、これが結果の要約です。
GPT チャット
人物1は、歩道にいる男性からパナソニックのビデオカメラだと思っていたものを20ドルで購入するように騙されましたが、それはレンガであることが判明しました。人物2人 1は、箱の中身を確認せず、その男が電器店から箱を盗み、レンガを包んで売って利益を得たと仮定したためです。人物1は、そのトリックに騙されるのは愚かだったことに気づきます。
MS アズール (アブストラクティブ)
P1はP2に歩道にいる男からレンガを買ったと伝えます.P2はだまされるように言っていると言います。
アクションパワー
歩道に男がいた。彼はパナソニックのビデオカメラボックスという新しい箱を三つ持っていた。それで彼は1台を20ドルで、400ドルのカメラを20ドルで売ると言った。どうして箱を開けなかったの?でも彼は言った、「いや、箱はまだ店から届いたプラスチックの包装に入っている。でも、なぜ男は新しいビデオカメラを20ドルで売っているんだ?」彼には、プラスチックラップをしている店で働いている友人がいるだけです。それで彼らはビデオカメラの箱をいくつか持っていました。十分な数のレンガを売れば、それなりの利益になります。
ChatGPTの要約結果は全体的に自然に見えましたが(韓国の要約結果と同様)、事実上の違いもいくつかありました。
MS Azureの抽象的な要約結果は韓国語よりもはるかに良い結果を示しましたが、内容が失われすぎて文脈を把握するのが困難でした。
一方、ActionPowerのモデルはGitHubで公開されているソース(韓国語の会話要約とは異なります)(https://github.com/seongminp/graph-dialogue-summary) が使用されました。しかし、公開版はおそらく初期の頃に開発されたもので、韓国語の会話の要約よりも不自然に思えました。
さらに、ChatGPTにサマリー結果の量を制限して別のリクエストをしました。同じ会話の要約をリクエストしたところ、入力したプロンプトは「次の会話を韓国語で3行にまとめる」と「この会話を3つのディスカッションにまとめる」でした。
GPT チャット
1。P1 美味しくてちょうどいいデザインのケーキ会社を見かけました。2.P2とP1は、中央東側にあるケーキ会社でいいと思います。3.P3はコジャンドンのケーキ会社にも配送して、時間が安定したら持って来てくれます。P4の歯ブラシを買わないといけないけど、3ヶ月もつから変えたい。
GPT チャット
人物1(P1)は、歩道にいる男性から20ドルでビデオカメラになるはずの製品を購入しました。製品は新品の箱に入っていて、バーコードの値段ステッカーが付いたプラスチックで包まれていました。Person 2 (P2) 盗品を買おうとして、箱の中身を確認しないで馬鹿なことをしたことで、P1 (P2) お菓子がもらえます。
以上のように、可能な限りユーザーの要求に合わせて調整されていることがわかります。しかし、一部事実の歪曲や省略も確認できました。
仕上げ中
これまで、ChatGPTを含むいくつかのモデルを使用して要約結果を比較してきました。散文形式ではなく日常会話なのに、もっともらしい要約結果が出ていることを確認できました。しかし、現在最も進んだ人工知能のひとつとされているChatGPTはまだ完璧ではなく、他のモデルにも独自の強みがあることが確認できました。そのため、どのモデルが最適かを判断するのは難しく、利用状況に合ったものを選んで適用するというアプローチが必要です。
* 見積もり https://www.aitimes.com/news/articleView.html?idxno=140791
** http://yanran.li/dailydialog
参考文献
[1] https://ieeexplore.ieee.org/document/9623462
[2] https://github.com/uoneway/Text-Summarization-Repo