私は、隠れマルコフモデルや混合ガウスモデルなど、非常に多くの統計モデリングに取り組んでいます。これらの各ケースで優れたモデルをトレーニングするには、最終的な使用と同様の環境から取得した大量のデータ(HMMの場合は20000文以上)が必要です。私の質問は:
- 文献に「十分な」訓練データの概念はありますか?どのくらいのトレーニングデータで「十分」ですか?
- 「良い」(良い認識精度(> 80%)を与える)モデルをトレーニングするために必要な文の数を計算するにはどうすればよいですか?
- モデルが適切にトレーニングされているかどうかを確認するにはどうすればよいですか?モデルの係数はランダムな変動を示し始めますか?もしそうなら、モデルの更新によるランダムな変動と実際の変化をどのように区別しますか?
さらにタグが必要な場合は、この質問に自由にタグを付け直してください。