カテゴリー解決
値をカテゴリとして扱うと、相対サイズに関する重要な情報が失われます。これを克服する標準的な方法は、順序付けられたロジスティック回帰です。実際、このメソッドは、を"認識"し、リグレッサ(サイズなど)との観測された関係を使用して、順序付けを尊重する各カテゴリに(ある程度任意の)値を適合させます。A<B<⋯<J<…
例として、次のように生成された30(サイズ、存在量カテゴリ)のペアを考えます。
size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))
間隔は[0,10]、[11,25]、...、[10001,25000]に分類されます。
順序付きロジスティック回帰は、各カテゴリの確率分布を生成します。分布はサイズによって異なります。このような詳細情報から、推定値とそれらの周りの間隔を生成できます。以下は、これらのデータから推定された10個のPDFのプロットです(データが不足しているため、カテゴリー10の推定は不可能でした)。
継続的なソリューション
数値を選択して各カテゴリーを表し、カテゴリー内の真の存在量に関する不確実性を誤差項の一部として表示してみませんか?
これを理想的な再表現離散近似として分析できます。これは、存在量の値を、観測誤差が適切な近似で対称的に分散され、ほぼ同じサイズの期待されるサイズである他の値に変換します。(分散安定化変換)。faf(a)a
分析を簡略化するために、そのような変換を実現するためにカテゴリが(理論または経験に基づいて)選択されていると仮定します。次に、がカテゴリカットポイントをインデックスとして再表現すると仮定します。提案は、各カテゴリ内のいくつかの「特性」値を選択し、存在量がと間にあることが観察される場合は常に、存在量の数値としてを使用することです。これは、正しく再表現された値プロキシになります。fαiiβiif(βi)αiαi+1f(a)
次に、その存在量がエラーで観察され、仮想データが実際にはではなくになると仮定します。これをとしてコーディングする際に発生するエラーは、定義により、差であり、2つの項の差として表すことができます。εa+εaf(βi)f(βi)−f(a)
error=f(a+ε)−f(a)−(f(a+ε)−f(βi)).
その最初の項であるは、によって制御され(については何もできません)、境界を分類しなかった場合に表示されます。第二項はランダムである-それはに依存 -そして明らかに相関している。しかし、私たちはそれについて何か言うことができます:それはと間にある必要があります。さらに、が適切に機能している場合、2番目の項はほぼ均一に分布する可能性があります。どちらの考慮事項も、なるように選択することをお勧めしますf(a+ε)−f(a)fεεεi−f(βi)<0i+1−f(βi)≥0fβif(βi)と中間にあります。つまり、です。ii+1βi≈f−1(i+1/2)
この質問のこれらのカテゴリは、ほぼ幾何学的な進行を形成し、が対数のわずかに歪んだバージョンであることを示しています。したがって、間隔の端点の幾何平均を使用して存在量データを表すことを検討する必要があります。f
この手順での通常の最小二乗回帰(OLS)は、勾配8.19(seの0.97)と切片0.69(seの0.56)サイズに対してログの量を後退させる場合。理論上の勾配は近いはずなので、どちらも平均への回帰を示し。カテゴリカル手法は、予想どおり、追加された離散化誤差のため、平均への回帰が少し大きくなります(勾配が小さい)。4log(10)≈9.21
このプロットは、未分類に分類存在量に基づいて、フィット感とともに存在量(カテゴリエンドポイントの幾何学的な手段を使用して推奨される)と存在量そのものに基づいてフィット。近似は非常に近く、適切に選択された数値でカテゴリを置き換えるこの方法は、この例でうまく機能することを示しています。
2つの極端なカテゴリに適切な「中間点」を選択するには、通常、が制限されていないため、注意が必要です。(この例では、大まかに最初のカテゴリの左端をではなくとし、最後のカテゴリの右端を。)1つの解決策は、どちらの極端なカテゴリにもないデータを最初に使用して問題を解決することです。 、次に近似を使用してこれらの極端なカテゴリの適切な値を推定し、戻ってすべてのデータを近似します。p値はやや良すぎますが、全体的に近似はより正確で偏りが少ないはずです。 fは1 0 25000βif1025000