データが離散的または連続的であるかどうかをテストするにはどうすればよいですか?


11

適切な統計ツールを選択するには、まず、データセットが離散的か連続的かを識別しなければならないようです。

データがRで離散的であるか連続的であるかをどのようにテストできるか教えてもらえますか?


特定の変数を回帰型モデルの連続予測子またはカテゴリカル(離散)予測子として追加する必要があるかどうかを意味しますか?
Nick Sabbe

データがどのように収集され、変数がどのように記録されたかは、おそらくそれについていくつかの手掛かりを与えるでしょう。さらに、データを連続データとしてモデル化するか、離散データとしてモデル化するかによっても異なります(たとえば、リッカートアイテムと離散スケール分析に関する質問を参照してください)。関連のないポイント:一度にすべてのアカウントを登録し、回答を受け入れるか、以前の質問を修正することを検討してください。
2011年

qqnormを実行し、ポイントがすべて対角線に沿っている場合、データは連続的です(水平線にある場合、離散的です)
user222362

回答:


14

私がすぐにこの決定を要求すると考えることができる唯一の理由は、回帰に変数を連続的またはカテゴリー的として含めることを決定することです。

まず、文字列変数または要素(data.frameを提供している誰かがあなたに代わって決定を行った場合)は明らかにカテゴリカルです。

x11.52.5x

x1<-sample(c(-1.5, 2.5), 1000)
length(unique(x1)) #absolute number of different variables
length(unique(x1))/length(x1) #relative
x2<-runif(1000)
length(unique(x2)) #absolute number of different variables
length(unique(x2))/length(x2) #relative

一意の値が5%しかない変数は、安全に離散と呼ぶことができます(ただし、前述のとおり、これは主観的です)。ただし、これはモデルにカテゴリ変数として含めるのに適した候補にはなりません。1000000の観測値と5%の一意の値がある場合でも、50000の「カテゴリ」が残ります。これをカテゴリとして含めると、たくさんの自由の地獄を費やすつもりです。

この呼び出しはさらに主観的であり、サンプルのサイズと選択した方法に大きく依存すると思います。これ以上のコンテキストがなければ、ここでガイドラインを示すことは困難です。

x012

E[y]=β0+β11x1+β12x2
xix==i
E[y]=β0+β1x
E[y]=β0+β1x1+2β1x2

χ2


3
+1奇妙な質問を優れた回答で改善する方法の良い例。

1
実際、連続は離散サイズにすることができ、ヒストグラムは実際にどのように行われるかを示すだけです。おそらく私はカウントデータ(整数値データ)をカテゴリカルと混同しました...私の最初の推測は、データポイント(および実際の値をカテゴリに割り当てるクレイジーな研究者)だけではなく、離散的で連続的な分布についてだったので...とにかく鉱山を削除しました、問題を解決するとは思わないので(+1)
Dmitrij Celov

1
@Dmitrijが彼の回答を削除したようです。回答を再編集して反映してください。これは素晴らしい答え(+1)なので、存在しないコンテンツへの参照は少し目立ちます。
mpiktas 2011年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.