質問が完全に理解できません。一般に、サンプルが大きいほど(たとえば)より良い分類が得られます。大きくない限り、質の悪い観測結果を意味します。小さなサンプルでは、多くのモデルが役に立たなくなります。たとえば、ツリーベースのモデルは一種の「分割統治」アプローチであるため、その効率はトレーニングサンプルのサイズに大きく依存します。
一方、高次元での統計学習に興味がある場合は、次元の呪いにもっと関係があると思います。サンプルサイズが「小」で、特徴空間が「高」の次元である場合、データはスパースであるかのように動作し、ほとんどのアルゴリズムはそれを理解しようとすると非常に時間がかかります。リモートセンシングデジタル画像分析におけるJohn A. Richardsの引用:
機能の削減と分離可能性
分類コストは、マルチスペクトル空間でピクセルベクトルを記述するために使用される機能の数、つまり、ピクセルに関連付けられたスペクトルバンドの数とともに増加します。平行六面体や最短距離の手順などの分類子の場合、これはフィーチャの線形増加です。ただし、最尤分類の場合、最もよく使用される手順であり、特徴によるコストの増加は2次です。したがって、分類を実行するときに必要以上の機能が使用されないようにすることが経済的に賢明です。セクション8.2.6では、クラスのサインの信頼できる推定値を確実に取得できるようにするために必要なトレーニングピクセルの数に注意を向けています。特に、必要なトレーニングピクセルの数は、データ内のバンドまたはチャネルの数とともに増加します。高次元データの場合、イメージングスペクトロメーターの場合など、その要件は実際には非常に難しいため、手頃な数のトレーニングピクセルから信頼性の高い結果が期待できる場合は、分類で使用される特徴の数をできるだけ少なくすることが重要です。スペクトルクラスの分離可能性にほとんど寄与しないため、識別を助けない機能は破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。したがって、信頼できる結果が手頃な数のトレーニングピクセルから期待できる場合は、分類で使用される特徴の数をできるだけ少なくすることが重要です。スペクトルクラスの分離可能性にほとんど寄与しないため、識別を助けない機能は破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。したがって、信頼できる結果が手頃な数のトレーニングピクセルから期待できる場合は、分類で使用される特徴の数をできるだけ少なくすることが重要です。スペクトルクラスの分離可能性にほとんど寄与しないため、識別を助けない機能は破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。破棄する必要があります。最も効果的でない機能の削除は、機能選択と呼ばれ、これは機能削減の1つの形式です。もう1つは、ピクセルベクトルを新しい座標セットに変換することです。この座標セットでは、削除できる機能がより明確になります。この章では、両方の手順について詳細に検討します。
これは、問題が2つあることを意味します。つまり、関連する機能とサンプルサイズを見つけます。現在のところ、グーグルで検索すれば無料で本をダウンロードできる。
特に興味がある質問を読む別の方法はこれです。教師付き学習では、相互検証によってテストデータのモデルを実際に検証することしかできません。トレーニング/テストサンプルを取得したラベル付きサンプルがユニバースを適切に表していない場合、検証結果がユニバースに適用されない可能性があります。ラベル付きサンプルの代表性をどのように測定できますか?