統計モデルのトレーニングに「十分」なデータの概念はありますか?


10

私は、隠れマルコフモデルや混合ガウスモデルなど、非常に多くの統計モデリングに取り組んでいます。これらの各ケースで優れたモデルをトレーニングするには、最終的な使用と同様の環境から取得した大量のデータ(HMMの場合は20000文以上)が必要です。私の質問は:

  1. 文献に「十分な」訓練データの概念はありますか?どのくらいのトレーニングデータで「十分」ですか?
  2. 「良い」(良い認識精度(> 80%)を与える)モデルをトレーニングするために必要な文の数を計算するにはどうすればよいですか?
  3. モデルが適切にトレーニングされているかどうかを確認するにはどうすればよいですか?モデルの係数はランダムな変動を示し始めますか?もしそうなら、モデルの更新によるランダムな変動と実際の変化をどのように区別しますか?

さらにタグが必要な場合は、この質問に自由にタグを付け直してください。

回答:


10

データセットを、データの10%、20%、30%、...、100%の連続するサブセットにスライスし、各サブセットについて、k分割交差検証またはブートストラップを使用して推定器の精度の分散を推定できます。「十分な」データがある場合、分散をプロットすると、100%の前にプラトーに達する減少する単調な線が表示されます。データを追加しても、推定器の精度の分散は大幅に減少しません。


私はそれを試さなければならないでしょう。興味深いですね。ありがとう!
スリラム
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.