継続的およびカテゴリー変数データ分析


9

私には3つの変数があります。

  • 距離(連続、可変範囲、負の無限大から正の無限大)
  • isLand(離散カテゴリ/ブール、可変範囲1または0)
  • 居住者(離散カテゴリカル、可変範囲0〜7)

次の統計的な質問に回答したいと思います。

  • カテゴリー変数と連続変数の両方がある分布を比較する方法。たとえば、距離と居住者のデータ分布がisLandの値に応じて変化するかどうかを確認します。
  • 3つの変数のうち2つが与えられた場合、いくつかの方程式を使用して3番目の変数を予測できますか?
  • 3つ以上の変数を使用して独立性を判断するにはどうすればよいですか?

1
これを3つの個別の質問に分割することをお勧めします。
シェーン

実際、これをもう少し詳しく読んだので、それぞれの答えは非常に密接に関連していることがわかります。
シェーン

質問の核心は2つの異なるディストリビューションを比較することだと感じました。たまたま、3つの異なる方法をリストするだけです。
Elpezmuerto

以下のためにoccupants私は、カテゴリと考えるないようにあなたが持っているもの、順序変数です。特に8つの値では、ほぼ連続しています。
Mike Dunlavey、2010

回答:


5

特にロジスティックモデルまたは対数線形モデル、および一般的なカテゴリデータ分析の方法について読むことをお勧めします。次のコースのメモは、最初はかなり良いです:離散データの分析。アグレスティの教科書はとても良いです。また、クイックスタートのためにクラインバウムを検討することもできます。


今、アグレスティの教科書を机の上に置いて使っています。問題は、使用すべき具体的な方法がわからないことです。
Elpezmuerto

2
非常に簡単に@Elpezmuerto、@ars答えを補完するために、質問1は、条件やトレリスプロットで答えることができ、例えばかなったようなdist ~ occ | isLand格子を使用して、または参照coplot()に機能をvcdパッケージ-これは探索的目的のためです。質問2では予測モデルが必要です。結果として検討する変数に応じて、ロジスティック回帰(Y = isLandの場合)、線形回帰(Y =距離の場合)、または連続測定を分類するための直接的な対数線形モデルなどがあります。質問3は明らかに@arsによって提案された対数線形モデルです。
CHL

1
@Elpezmuerto @arsローラトンプソンの作品のおかげで、アグレスティの本はRでも入手できます。j.mp/ 9fXheu :-)
chl

2
@chl:それは素晴らしい発見です!ありがとうございました。@Elpezmuerto:カニに関するAgrestiの一連の例があります-色(範囲)とブール値(思い出せない)とともに連続変数(カニのサイズ?)があると確信しています。あなたのケースにかなり近い-少なくとも2つの章にまたがる例を読むことはおそらく有益です(1つの章は私が信じているロジスティック回帰です)。
ARS

@arsこれらは特にです。第4章と第5章では、甲羅の幅と重さを連続変数、脊椎の状態を別のカテゴリ(順序)変数として、ポアソンおよびロジスティック回帰で使用します:)
chl

2
  1. 連続因子とカテゴリー因子の関係を調べるには、まず、左側が連続、カテゴリーがカテゴリーの横並びの箱ひげ図を使用します。手段は異なりますか?分散分析を使用して確認します。

  2. カテゴリー要素間の関係を調べるには、まず、モザイクプロットと分割表を使用することから始めます。最初にグループ化してから、個別のプロットを作成できます。

  3. 居住者を予測するには、通常のロジスティック回帰がおそらく最善の方法です。

  4. isLandを予測するには、(二項)ロジスティック回帰が有効です。

  5. 距離を予測するには、OLS回帰が機能します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.