データオーバーコード?
(1) データ駆動型AIへの移行
一方、AI開発で注目されるのは、主にモデル (モデル) 側。他のコンテンツでも触れられているCNN、トランスフォーマー、GPTはモデルです。しかし最近、長らく続いてきたこの大きなトレンドに変化が起き始めています。
去る2021年3月、アンドリューNG(アンドリューNG) 「機械学習システム開発:データを中心としたモデル(MLOpsに関するAndrewとのチャット:モデル中心のAIからデータ中心のAIへ)'*というセミナーが開催されます。これまでモデル研究に偏っていたAIの分野で 「データ中心(データ中心)AI」それは新しい話題を提起しました。モデルだけではなくデータにもっと注目する時が来たということだ。
Ngは、ヤン・アンドレ・ルカン(ヤン・アンドレ・ルカン)、ヨシュア・ベンジオ(ヨシュア・ベンジオ)、ジェフリー・エベレスト・ヒントン(ジェフリー・エベレスト・ヒントン)とともに世界的に有名なAIの達人として知られています。彼はスタンフォード大学の教授であり、Coursera(Coursera)の創設者であり、Google Brainを率いてディープラーニングの時代を開拓し、最近ではLanding(Landing)AIと呼ばれる有名なスタートアップを設立しました。彼はこんな感じです 「AIはモデルセンターではなくデータを中心に進化し続けるでしょう。」それは宣言でした。
モデル駆動型AI?データ主導型AI?
人工知能システム コード (モデル/アルゴリズム)と データつまり、人工知能研究へのアプローチです。 「モデル中心 (モデル中心) AI」と 「データ中心(データ中心)AI」これはAIを含めて共有できます 「コードで開発したのか、それともアルゴリズムで開発したのか?」、または 「データのシステム化によるのか?」視点には根本的な違いがあります。
データはAIの糧です
データは AI の形態ですって呼ばれてる
通常 AIプロジェクトの80%は高品質の資料またはデータの準備に使用され、残りの20%はモデルのトレーニングに使用されます。そのため、データはAI開発の大部分を占めています。しかし皮肉なことに 人工知能研究の 99% がモデルを改善している私が話しているのは、ただ 研究のわずか1%がデータですについてだそうです
そのため、(実際の体重と比較した)データの重要性は見過ごされてきました。少し大げさに言うと、それらのほとんどはコードを破棄しているだけでした。しかし、このセミナーを通じて、Andrew Ngは 「AIのパフォーマンスを実際に向上させるのは、コードの改善ではなく、データの改善です。」彼は「ちょっと時間をとろう」と言った。
モデルの改善とデータの改善の違い、実際の結果は?
上のグラフでは、モデルのハイパーパラメータ (ハイパーパラメータ) **を調整したところ、ベースラインモデル (ベースラインモデル) ***は 76.2% の精度を記録しました1つと比較すると、 データが改善されると、なんと93.1%の精度が記録されました一つ確認できることがあります。彼の経験では、これは実際によくあるケースで、データだけを (コードに触れずに) 改善した方が良い結果が出るケースは結構あるそうです。
一貫性のあるデータラベルの重要性
一貫性のあるラベルとは 同一のデータには、誰が作業しても同じラベルが付けられますつまり、音声認識 (ARS) システム開発で使われるデータを例にとってみましょう。次の 3 つの方法でデータにラベルを付ける場合、どれが正しいのでしょうか。
1)「えっと、今日の天気」
2)「うーん... 今日の天気」
3)「今日の天気」
Ngによると、3つすべて問題ありません。単独で 一貫して (一貫して) 統一そうに違いない。これは、一貫性のないラベル付けされたデータを使用してトレーニングされたモデルでは、パフォーマンスが低下する可能性が高いためです。
これは、対戦相手が人間の場合は無視するかもしれない小さな部分です。ただし、AI をターゲットにすると、まったく異なる状況が起こる可能性があります。データの中には「うーん」が含まれているものもありますが、そうでなければ、(データ学習に依存する) AI の観点からは混乱を招くことになります。
体系的なデータの一貫性を向上させる方法
# 2 名の独立作業者にサンプルデータのラベル付けを依頼
# 2人の作業者のラベルが一貫しているかどうかを測定します。
# 不一致パーツのガイドラインを改訂し、一貫したラベル付け結果が得られるまで繰り返します。
このように、クラウドワーカーを活用したデータ収集・処理は、実際の現場でも必要不可欠なプロセスです。実際、LETRチームも多くのクラウドワーカーをプロジェクトに投入した経験があります。そういうわけで、これは実際に大いに役立つ部分です。
データ量と質の相関関係
上のグラフを見ると、データ量と品質の相関関係がわかります。
# スモールデータ (スモールデータ)と ラベルに一貫性がない (ラベルにノイズが多い)これにより、モデルは正しいデシジョンカーブ (ディシジョンカーブ) を見つけられなくなります。
# 大量のデータお持ちの場合は、 一貫性のないラベリングこれさえあれば正しい判断曲線を見つけることができます。
# または データ量が少ないたとえ一つしかないとしても 一貫したラベリングそこから正しい決定曲線を見つけることができます。
データが 500 個あり、データ品質問題のうち 60 個がパフォーマンスに悪影響を及ぼしている場合、どのように解決すればよいでしょうか。この場合、次の 2 つの方法が選べるといわれています。
# 問題のあるデータラベルを修正します。
# または 新規データを500個集める トレーニングデータを2倍に
しかし、新しい高品質のデータを追加するのではなく 問題のあるデータを改善する方がはるかに効率的ですインメソッドです。
上のグラフは、クリーンなデータとノイズの多いデータを使用してモデルをトレーニングした結果を比較しています。ノイズの多いデータから学ぶと、同じパフォーマンスを達成するには 2 倍のデータが必要であることがわかります。つまり データの質を向上させることは、量を改善することよりもはるかに効率的ですインメソッドです。
では、良いデータとは何でしょうか?
# 一貫したラベル付けされたデータ(ラベル定義は明確です)
# クリティカルケースを含むデータ(入力値の範囲が広い)
# プロダクションデータからタイムリーなフィードバックを受けたデータ(データドリフト****とコンセプトドリフト*****を含む配布)
# 適切なサイズのデータ
データ改善を体系化する方法
データを改善するために、上の図に示すように、3つの手順を体系化することが提案されています。
# モデルのトレーニング
# アルゴリズムのエラーの原因となるデータのタイプを確認
# そのデータをさらに収集するか、データラベルを変更してより一貫性のあるものにする
つまり、いったんデータが学習されれば、システム開発は終わりではありません。持続可能に データを収集、分析、変更するためのサイクルを確立するあなたはそれをしなければなりません。最終的に 質の高いデータをどの程度一貫して保護していますかこれが鍵です。
仕上げ中
Andrew Ngは、最近出てきて注目を集めている機械学習オペレーション(MLOps)という概念を参考にしてセミナーを締めくくりました。
MLOP: 一貫した品質データの維持 (間違いなく高品質のデータ)
MLOpsの最優先事項は、プロジェクトの全プロセスを通じて質の高いデータを一貫して供給することです。これにより 良いデータ (良いデータ) は単純なビッグデータ (ビッグデータ) でも活用できるこれは悪化する可能性があるためです。
それ以来、反応は続いています 「データ主導型AI」強調する一方で、研究者はモデル開発に多大な努力を払っており、すでに公開されているモデルだけでも十分なパフォーマンスを生み出すことができると言っています。しかし、データに関しては、まだまだ長い道のりがあると思います。
この投稿はここで終了します。しかし、理論と実践は違うので、問題のセミナーの内容を見るだけでは十分ではないかもしれません。次は、AIが導入されている(導入すべき)現場の実情を見て、AIサービス提供の立場から見たデータ中心のアプローチに対するLETRチームの考え方と対応を簡単に紹介します。
* MLOpsに関するAndrewとのチャット:モデル中心のAIからデータ中心のAIソースへ: https://youtu.be/06-AZXmwHjo
**機械学習では、ハイパーパラメーターは最適なトレーニングモデルを実装するためにモデルに設定される変数であり、学習率(学習率)、エポック数(トレーニングの反復回数)、および重みの初期化を決定できます。ハイパーパラメータのチューニング手法を適用して、トレーニングモデルに最適な値を見つけることもできます。出典: https://ittrue.tistory.com/42
*** 予測モデルを具体的に作成する前に、最もシンプルで直感的で、最小限のパフォーマンスを示すモデルソース: https://velog.io/@choidb65/기준모델Baseline-Model
****入力データ(特徴、説明変数)から予測する「正解ラベル(目的変数)」(つまり、データとラベルの関係、データ解釈方法)の意味/概念/統計的特性が、モデルトレーニングと比較して変化したということです。出典: https://engineer-mole.tistory.com/278
*****これは、モデルトレーニング中の「入力データ(特徴、説明変数)」の統計的分布と、テスト/実際の分布環境における「入力データ」の統計的分布には、何らかの変更により違いがあることを意味します。これは特徴ドリフトまたは共変量シフトと呼ばれています。出典: https://engineer-mole.tistory.com/278
参考文献
[1] Andrew Ng、「MLOps: モデル中心の AI からデータ中心の AI へ」(ビデオ) https://www.youtube.com/watch?v=06-AZXmwHjo&t=769s
[2] アンドリュー・ン、「MLOps:モデル中心のAIからデータ中心のAIへ」(pdf) https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf
[3] https://read.deeplearning.ai/the-batch/issue-84/
[4] [MLOps] アンドリュー・ン:モデル中心の AI からデータ中心の AI へ https://jaemunbro.medium.com/mlops-model-centric-ai에서-data-centric-ai로-5c8a1c389b8e
[5] より小さなモデルで、より多くのデータに集中しましょう! https://brunch.co.kr/@synabreu/117
一緒に見るのに良いコンテンツ
[AIストーリー] 人工知能の重要な瞬間 1[AIストーリー] 人工知能の重要な瞬間 2[AIストーリー] 人工知能の重要な瞬間 3