分類と回帰の予測に関するサンプルサイズ


8

仮説検定に関して、サンプルサイズの推定はパワーを介して行われ、同じサイズを増やすと推定される効果の精度が上がることは直感的です。しかし、分類と回帰の両方の予測についてはどうでしょうか?予測問題のどの側面が、一般化誤差または回帰のRMSEの推定以外のサンプルサイズの影響を受けます。

要するに、仮説検定の設定で力に寄与するプロパティは、ペナルティ付き回帰/データマイニング/アルゴリズムモデリングを通じて予測を成功させるプロパティとは異なります。サンプルサイズはこれらのテクニックの成功にどのように影響しますか?

この考えを説明する1つの論文がこれです。

だれでもコメントの参照を提供できますか?ありがとう。


2
あなたがここで何を求めているのか本当に分かりません、特にこの宿題は?公式に含まれていないことの1つは、実際に大きなデータセットは、不均一性、データ品質、欠損値の大きな問題を引き起こす可能性があることです。議論は、より厳格に管理されたサンプル調査と比較した国勢調査の相対的なメリットの議論で見ることができます。
Nick Cox

1
詳細をいくつか追加しました。何年も大学院を卒業していないので、宿題はありません!
ジュリス、

「不均一性、データ品質、欠損値のより大きな問題」:小さなデータセットがより均質である場合、一般化(大きなデータセットでカバーされる状況への外挿)は疑問/不十分です。言い換えると、小さなデータセットにオーバーフィットする可能性があります。(ビッグがトレードオフのトレードオフを意味する場合を
除き

エラー、一般化、節約、必要な計算操作、必要なメモリサイズなど、考慮すべきいくつかの対策があります。これを見ると、パフォーマンスとコストという2つのおなじみの値がわかります。一般化、形式、およびエラーは、フィット後のパフォーマンスに関するものです。彼らは見返りです。計算時間、コードの複雑さ、メモリサイズは、モデルでデータをコーディング、デバッグ、実行するのがいかに難しいかについてです。彼らは費用についてです。「影響力」について考えるとき、すべての影響力がこれらの2つの指標につながるか、存在しません。
EngrStudent 2014

回答:


1

基本的に、サンプルサイズが機械学習技術にどのように影響するかを直感的に尋ねると思います。したがって、必要なサンプルサイズに影響を与える本当の要因は、データが存在する空間の次元とそのスパース性です。すべてを1つに要約するのは難しいので、2つの例を挙げます。

  • 密なデータがあり、回帰を使用してモデルを近似しようとしているとしましょう。データが次の多項式に従う場合、アルゴリズムが正しい曲線を見つけることができるように、より多いデータが必要です。それ以外の場合は、現実とは異なり、過度に単純化したモデルになります。もちろん実際にはノイズがあるので、より良いモデルを作成するにはさらに多くのデータが必要です。nnn

  • いくつかのスパースデータがあるとしましょう。つまり、ほとんどの次元はゼロです。そのような例は、つぶやきやSMS(今のところ本を忘れる)などのテキストです。この場合、各単語の頻度は次元であり、もちろん、ドキュメントには辞書(スパーススペース)の大部分の単語がありません。トピックに基づいてツイートを分類しようとします。kNN、SVMなどのアルゴリズムは、サンプル間の類似性を処理します。たとえば、1-NNは、分類しようとするものに最も近いトレーニングセット内のツイートを見つけ、対応するラベルを割り当てます。しかし、まばらさのせいで...なんだと思う...ほとんどの類似点はゼロです!単に文書が十分な言葉を共有していないからです。予測を行うには、トレーニングセット内の何かが、分類しようとしている未知のドキュメントに似ているように、十分なデータが必要です。


0

質問が完全に理解できません。一般に、サンプルが大きいほど(たとえば)より良い分類が得られます。大きくない限り、質の悪い観測結果を意味します。小さなサンプルでは、​​多くのモデルが役に立たなくなります。たとえば、ツリーベースのモデルは一種の「分割統治」アプローチであるため、その効率はトレーニングサンプルのサイズに大きく依存します。

一方、高次元での統計学習に興味がある場合は、次元の呪いにもっと関係があると思います。サンプルサイズが「小」で、特徴空間が「高」の次元である場合、データはスパースであるかのように動作し、ほとんどのアルゴリズムはそれを理解しようとすると非常に時間がかかります。リモートセンシングデジタル画像分析におけるJohn A. Richardsの引用:

機能の削減と分離可能性

分類コストは、マルチスペクトル空間でピクセルベクトルを記述するために使用される機能の数、つまり、ピクセルに関連付けられたスペクトルバンドの数とともに増加します。平行六面体や最短距離の手順などの分類子の場合、これはフィーチャの線形増加です。ただし、最尤分類の場合、最もよく使用される手順であり、特徴によるコストの増加は2次です。したがって、分類を実行するときに必要以上の機能が使用されないようにすることが経済的に賢明です。セクション8.2.6では、クラスのサインの信頼できる推定値を確実に取得できるようにするために必要なトレーニングピクセルの数に注意を向けています。特に、必要なトレーニングピクセルの数は、データ内のバンドまたはチャネルの数とともに増加します。高次元データの場合、イメージングスペクトロメーターの場合など、その要件は実際には非常に難しいため、手頃な数のトレーニングピクセルから信頼性の高い結果が期待できる場合は、分類で使用される特徴の数をできるだけ少なくすることが重要です。スペクトルクラスの分離可能性にほとんど寄与しないため、識別を助けない機能は破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。したがって、信頼できる結果が手頃な数のトレーニングピクセルから期待できる場合は、分類で使用される特徴の数をできるだけ少なくすることが重要です。スペクトルクラスの分離可能性にほとんど寄与しないため、識別を助けない機能は破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。したがって、信頼できる結果が手頃な数のトレーニングピクセルから期待できる場合は、分類で使用される特徴の数をできるだけ少なくすることが重要です。スペクトルクラスの分離可能性にほとんど寄与しないため、識別を助けない機能は破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。

これは、問題が2つあることを意味します。つまり、関連する機能とサンプルサイズを見つけます。現在のところ、グーグルで検索すれば無料で本をダウンロードできる。

特に興味がある質問を読む別の方法はこれです。教師付き学習では、相互検証によってテストデータのモデルを実際に検証することしかできません。トレーニング/テストサンプルを取得したラベル付きサンプルがユニバースを適切に表していない場合、検証結果がユニバースに適用されない可能性があります。ラベル付きサンプルの代表性をどのように測定できますか?


階層は、代表性を測定するための良い方法です。REMLによって推定された分散を含む混合モデルにこれらを含めることは、不在層に関する不確実性を予測に組み込むための良い方法です。
probabilityislogic

完全にトピックから外れていますが、エドウィン・ジェインズに関する参考文献と「拡張ロジックとしての確率」を推奨できますか?こんにちは!
JEquihua 2013年

このWebサイトは、開始するのに適した場所です
確率論的
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.