「Microsoft Cognitive Toolkit」のパフォーマンス検証機能として、「概要」「方法①ホールドアウトデータセット」「方法②K分割交差検定」「過適合とアンダーフィッティング」について紹介。

「Microsoft Cognitive Toolkit」のパフォーマンス検証機能

「Microsoft Cognitive Toolkit」のパフォーマンス検証機能として、「概要」「方法①ホールドアウトデータセット」「方法②K分割交差検定」「過適合とアンダーフィッティング」について紹介。

概要

機械学習(ML:Machine Learning)モデルのパフォーマンスは、トレーニング時に提供されたものとは異なる「新しいサンプル」をモデルにフィードするときに重要となります。

本番環境ではトレーニング目的でサンプルデータを使用した場合とは異なる入力が得られるため、モデルは新しいサンプルでも適切に機能する必要があります。

そのため、「トレーニング目的で使用したサンプル」とは異なる「新しいサンプルセット」を使用して、機械学習モデルを検証する必要があります。

CNTKでは、以下の検証用データセット作成方法を利用できます。

方法①ホールドアウトデータセット

■概要

「ホールドアウトデータセット」は、ニューラルネットワーク(NN:Neural Network)を検証するためのデータセットを作成するための基本的な方法です。

この方法では、サンプルの1セット(例:20%)を使用してMLモデルのパフォーマンスをテストします。

ホールドアウトデータセットモデルにより、MLモデルをトレーニングするのに十分なデータが確保されると同時に、モデルのパフォーマンスを適切に測定するための適切な数のサンプルを確保できます。

■ポイント

・メインデータセットからランダムなサンプルを選択---トレーニングセットとテストセットの間で均等に分散
・モデルをトレーニングするたびにデータセットの順序がランダム化される必要がある
・深層学習アルゴリズムは乱数ジェネレーターの影響を強く受ける
・トレーニング中にサンプルをNNに提供する順序はパフォーマンスに大きく影響する

■欠点:低信頼性

ホールドアウトデータセット手法を使用することの主な欠点は「低い信頼性」です。

「非常に良い結果が得られることもある」また「悪い結果が得られることもある」など、結果が安定しないケースがあります。

方法②K分割交差検定

■概要

「K分割交差検定」は、「方法①ホールドアウトデータセット」の欠点をカバーするための方法です。

「ホールドアウトデータセット手法」を数回(5〜10回)繰り返すことで、信頼性を高めます。

■実行手順

・[Step1]データセットを「トレーニングセット(80%程度)」と「テストセット(20%程度)」に分割
・[Step2]「トレーニングセット」を使用してモデルをトレーニング
・[Step3]「テストセット」を使用してモデルのパフォーマンスを測定
・[Step4]Step2~3を5〜10回繰り返す
・[Step5]すべてのパフォーマンスメトリックの平均を計算

■メリット

より現実的なトレーニングとテストシナリオを使用しているため、はるかに安定したパフォーマンス測定が可能になります。

■デメリット

深層学習モデルの検証に多くの時間がかかります。

また、CNTKは「K分割交差検定手法」をネイティブサポートしていないため、独自スクリプトを作成する必要があります。

「過適合」と「アンダーフィッティング」

■概要

上記2方法のどちらでも、「トレーニング用データセット」と「検証用データセット」では、メトリックの出力が異なります。

■過剰適合

「過剰適合」とは、「MLモデルがトレーニングデータを良好にモデル化」しますが、「テストデータでは適切に機能せずパフォーマンスが大幅に低下」という現象です。

MLモデルがトレーニングデータから特定のパターンとノイズをある程度学習すると、トレーニングデータから新しいデータに一般化するモデルの能力に悪影響を及ぼします。

■アンダーフィッティング

「アンダーフィッティング」とは、MLモデルがトレーニングデータを適切にモデル化せず、有用な出力を予測できない状況です。

トレーニングを開始直後でモデルの適合度は低くなり、トレーニングが進むにつれてさらに適合度が低くなります。

Microsoft Cognitive Toolkit最新TOPICS

【OSS】アイデミー、深層学習ライブラリ「Cognitive Toolkit(CNTK)」学習講座を開始---ブラウザで無料で受講できる、「深層学習の基礎」+「画像の認識/生成処理」(2018年02月09日 20:03)

AIプログラミング学習サービス「Aidemy」を運営するアイデミーは、2月7日、 Microsoftが開発した深層学習ライブラリ「Cognitive Toolkit(CNTK)」を学習できる講座を開始した。 【「Cognitive Toolkit」とは】 AI技術を利用したディープラーニング(深層学習)ツールキット http://www.ossnews.jp/oss_info/Micr...

Microsoft Cognitive Toolkit最新CLOSEUPコラム

イベント情報

セミナー講演資料

無料資料プレゼント

2021/03/04 セキュリティDAYS Keyspider資料

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該資料の作成・提供企業とも共有させていただき、当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。



セミナー講演資料公開中

注目のDB技術「HTAP」とは? ~手軽に、かつ高速に、リアルタイム分析を実現する方法~

データ活用におけるクレンジングの課題 〜「データ連携ツールを使っても非エンジニアには負担」の解決策〜

データ分析の課題をAWS Analyticsサービスで解決する方法

  • オープソース書籍(サイド)
  • OSSNEWSに広告を掲載しませんか?

facebook

twitter