2
範囲データを連続として扱うときのベストプラクティス
豊富さがサイズに関連しているかどうかを調べています。サイズは(もちろん)連続していますが、存在量は次のようなスケールで記録されます。 A = 0-10 B = 11-25 C = 26-50 D = 51-100 E = 101-250 F = 251-500 G = 501-1000 H = 1001-2500 I = 2501-5000 J = 5001-10,000 etc... AからQ ... 17レベル。考えられるアプローチの1つは、各文字に番号を割り当てることであると考えていました:最小、最大、または中央値(つまり、A = 5、B = 18、C = 38、D = 75.5 ...)。 潜在的な落とし穴は何ですか-したがって、このデータをカテゴリカルとして扱う方が良いでしょうか? 私はいくつかの考えを提供するこの質問を読みました-しかし、このデータセットの重要な点の1つは、カテゴリーが均一ではないことです-したがって、カテゴリーとして扱うことは、AとBの違いは、 BとC ...(対数を使用して修正できます-Anonymouseに感謝) 最終的に、他の環境要因を考慮した上で、サイズを存在量の予測因子として使用できるかどうかを確認したいと思います。予測も範囲になります。サイズXと係数A、B、Cが与えられた場合、存在量Yは最小値と最大値の間になると予測します(1つ以上のスケールポイントにまたがる可能性があると思います:最小Dより大きく、最小Max F …