範囲データを連続として扱うときのベストプラクティス


9

豊富さがサイズに関連しているかどうかを調べています。サイズは(もちろん)連続していますが、存在量は次のようなスケールで記録されます。

A = 0-10
B = 11-25
C = 26-50
D = 51-100
E = 101-250
F = 251-500
G = 501-1000
H = 1001-2500
I = 2501-5000
J = 5001-10,000
etc... 

AからQ ... 17レベル。考えられるアプローチの1つは、各文字に番号を割り当てることであると考えていました:最小、最大、または中央値(つまり、A = 5、B = 18、C = 38、D = 75.5 ...)。

潜在的な落とし穴は何ですか-したがって、このデータをカテゴリカルとして扱う方が良いでしょうか?

私はいくつかの考えを提供するこの質問を読みました-しかし、このデータセットの重要な点の1つは、カテゴリーが均一ではないことです-したがって、カテゴリーとして扱うことは、AとBの違いは、 BとC ...(対数を使用して修正できます-Anonymouseに感謝)

最終的に、他の環境要因を考慮した上で、サイズを存在量の予測因子として使用できるかどうかを確認したいと思います。予測も範囲になります。サイズXと係数A、B、Cが与えられた場合、存在量Yは最小値と最大値の間になると予測します(1つ以上のスケールポイントにまたがる可能性があると思います:最小Dより大きく、最小Max F ...しかし、より正確であるほど良い)。

回答:


13

カテゴリー解決

値をカテゴリとして扱うと、相対サイズに関する重要な情報が失われます。これを克服する標準的な方法は、順序付けられたロジスティック回帰です。実際、このメソッドは、を"認識"し、リグレッサ(サイズなど)との観測された関係を使用して、順序付けを尊重する各カテゴリに(ある程度任意の)値を適合させます。A<B<<J<

例として、次のように生成された30(サイズ、存在量カテゴリ)のペアを考えます。

size = (1/2, 3/2, 5/2, ..., 59/2)
e ~ normal(0, 1/6)
abundance = 1 + int(10^(4*size + e))

間隔は[0,10]、[11,25]、...、[10001,25000]に分類されます。

豊富なカテゴリとサイズの散布図

順序付きロジスティック回帰は、各カテゴリの確率分布を生成します。分布はサイズによって異なります。このような詳細情報から、推定値とそれらの周りの間隔を生成できます。以下は、これらのデータから推定された10個のPDFのプロットです(データが不足しているため、カテゴリー10の推定は不可能でした)。

カテゴリー別の確率密度

継続的なソリューション

数値を選択して各カテゴリーを表し、カテゴリー内の真の存在量に関する不確実性を誤差項の一部として表示してみませんか?

これを理想的な再表現離散近似として分析できます。これは、存在量の値を、観測誤差が適切な近似で対称的に分散され、ほぼ同じサイズの期待されるサイズである他の値に変換します。(分散安定化変換)。faf(a)a

分析を簡略化するために、そのような変換を実現するためにカテゴリが(理論または経験に基づいて)選択されていると仮定します。次に、がカテゴリカットポイントをインデックスとして再表現すると仮定します。提案は、各カテゴリ内のいくつかの「特性」値を選択し、存在量がと間にあることが観察される場合は常に、存在量の数値としてを使用することです。これは、正しく再表現された値プロキシになります。fαiiβiif(βi)αiαi+1f(a)

次に、その存在量がエラーで観察され、仮想データが実際にはではなくになると仮定します。これをとしてコーディングする際に発生するエラーは、定義により、差であり、2つの項の差として表すことができます。εa+εaf(βi)f(βi)f(a)

error=f(a+ε)f(a)(f(a+ε)f(βi)).

その最初の項であるは、によって制御され(については何もできません)、境界を分類しなかった場合に表示されます。第二項はランダムである-それはに依存 -そして明らかに相関している。しかし、私たちはそれについて何か言うことができます:それはと間にある必要があります。さらに、が適切に機能している場合、2番目の項はほぼ均一に分布する可能性があります。どちらの考慮事項も、なるように選択することをお勧めしますf(a+ε)f(a)fεεεif(βi)<0i+1f(βi)0fβif(βi)と中間にあります。つまり、です。ii+1βif1(i+1/2)

この質問のこれらのカテゴリは、ほぼ幾何学的な進行を形成し、が対数のわずかに歪んだバージョンであることを示しています。したがって、間隔の端点の幾何平均使用して存在量データを表すことを検討する必要がありますf

この手順での通常の最小二乗回帰(OLS)は、勾配8.19(seの0.97)と切片0.69(seの0.56)サイズに対してログの量を後退させる場合。理論上の勾配は近いはずなので、どちらも平均への回帰を示し。カテゴリカル手法は、予想どおり、追加された離散化誤差のため、平均への回帰が少し大きくなります(勾配が小さい)。4log(10)9.21

回帰結果

このプロットは、未分類に分類存在量に基づいて、フィット感とともに存在量(カテゴリエンドポイントの幾何学的な手段を使用して推奨される)と存在量そのものに基づいてフィット。近似は非常に近く、適切に選択された数値でカテゴリを置き換えるこの方法はこの例でうまく機能することを示しています。

2つの極端なカテゴリに適切な「中間点」を選択するには、通常、が制限されていないため、注意が必要です。(この例では、大まかに最初のカテゴリの左端をではなくとし、最後のカテゴリの右端を。)1つの解決策は、どちらの極端なカテゴリにもないデータを最初に使用して問題を解決することです。 、次に近似を使用してこれらの極端なカテゴリの適切な値を推定し、戻ってすべてのデータを近似します。p値はやや良すぎますが、全体的に近似はより正確で偏りが少ないはずです。 fは1 0 25000βif1025000


+1正解です。特に、2つの異なるオプションが正当化される理由とともに説明されているのが好きです。サイズではなく豊富さのログを取ることも私は収集することを強調し、それも私の考えでした。1つの質問、パート1では、「推定値とその周りの間隔を生成できる」と述べています。これはどのように行うのですか?
gung-モニカの回復

良い質問です、@ gung。効果的かもしれない大雑把な方法は、カテゴリーを間隔値のデータとして扱い、順序付けされたロジットの結果が、「サイズ」の任意の値に対して、それらの間隔にわたって(離散)分布を提供することです。結果は、間隔値分布であり、間隔値平均と間隔値信頼限界があります。
whuber

3
@whuber、ソフトウェアオプションについて言及する価値があります。私は、このモデルがに適合しているStataグラフを使用していると思います(私がStataグラフを十分に訓練し、RグラフとSASグラフからそれらを教えた場合)ologit。RではpolrMASSパッケージ内でこれを行うことができます。
StasK 2011

1
正解です、@ Stask。Rソリューションへの参照をありがとう。(グラフはすべてStata 11のデフォルトのグラフです。赤と緑の区別が他のすべてのリーダーの約3%に表示されない場合があるため、最後のグラフの凡例と線のスタイルのみがカスタマイズされました。)
whuber

2
@StasK rms::lrm序数clm)パッケージも良いオプションです。
11

2

サイズの対数の使用を検討してください。


ハ-その答えは部分的な顔の手のひらを引き出しました。スケールの問題を処理します-しかし、まだ手元にあります:分類するかどうか、および「値」をどの数値にペグするか。これらの質問が無関係である場合、私もそれを聞くことを処理できます。
Trees4theForest 2011

1
さて、あなたは様々な問題を一つにまとめてきました。あなたが持っているデータは、対数スケールでより理にかなっているようです。ビニングを行うかどうかは別の質問であり、別の質問があります。データと達成したいことによって異なります。次に、別の隠された質問があります:間隔の差をどのように計算しますか-平均の差を計算しますか?または最小距離(AからBは0、BからCは0になりますが、AからCはそうではありません)。など
QUITあり-Anony-Mousse、

良い点です。目標に対処するために、質問をより多くの情報で更新しました。間隔の違いについては、それが私の質問だと思います-平均の差、最小距離、最大距離、最小値の間の距離、最大値の間の距離などに基づいて間隔を計算することの相対的な長所/短所は何ですか?この決定を下すためにどのようなことを検討する必要があるか(あるいはそれを検討する必要があるかどうか)はすばらしいでしょう。
Trees4theForest 2011

さらに多くのオプションがあります。たとえば、すべてのスケール効果を排除するために、代わりにランキングポジションを予測することができます。それ以外は、測定誤差の問題です。対数を取ることで、通常はこの方法でエラーにも重みを付けます。したがって、真の値が10000で予測値が10100の場合、予測値が1で真値が101の場合よりもはるかに少なくなります。さらに、ビン分割とビン間のマインドリストの計算を行うことで、重みを小さくすることもできます。 0のエラー
QUITあり-Anony-Mousse
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.