ポアソン分布を正規分布に変換


10

私は主にコンピューターサイエンスのバックグラウンドを持っていますが、今は自分自身に基本的な統計を教えようとしています。ポアソン分布があると思うデータがあります

ここに画像の説明を入力してください

2つの質問があります。

  1. これはポアソン分布ですか?
  2. 次に、これを正規分布に変換することは可能ですか?

任意の助けいただければ幸いです。どうもありがとう


3
1.いいえ、ポアソン分布は通常、パラメータの近くにモードを持っているため、これをポアソン分布と一致させると、パラメータの値が非常に小さくなります。2.はい、いいえ。正規分布で何をしたいですか?
Dilip Sarwate 2014年

このデータをロジスティック回帰にフィードしようとしています。正規分布データの方がはるかに良い結果が得られると私は信じられました
Abhi

回答:


11

1)描かれているのは、棒グラフとして描かれた(グループ化された)連続データのようです。

あなたはそれがポアソン分布ではないとかなり安全に結論づけることができます。

ポアソン確率変数は、値0、1、2、...を取り、平均が1未満の場合にのみ0で最高のピークを持ちます。これはカウントデータに使用されます。同様のポアソンデータのチャートを描いた場合、下のプロットのようになります。

ここに画像の説明を入力してください

1つ目は、あなたに似た歪度を示すポアソンです。平均がかなり小さい(約0.6)ことがわかります。

2番目は、(非常に大まかな推測で)あなたと似た意味を持つポアソンです。ご覧のとおり、かなり対称に見えます。

歪度または大きな平均を持つことができますが、同時に両方を持つことはできません。

2)(i)離散データを正常にすることはできません-

グループ化されたデータを使用して、単調増加変換を使用して、グループ内のすべての値を同じ場所に移動します。そのため、最も低いグループは依然として最も高いピークを持ちます-以下のプロットを参照してください。最初のプロットでは、x値の位置を移動して、通常の累積分布関数に厳密に一致させます。

ここに画像の説明を入力してください

2番目のプロットでは、変換後の確率関数を示しています。それは離散的であり、歪んでいるため、正規性のようなものを実際に達成することはできません。最初のグループの大ジャンプは、左または右に押しても、大ジャンプのままです。

(ii)連続的に歪んだデータは、かなり正常に見えるように変換される場合があります。生の(グループ化されていない)値があり、それらが大きく離散していない場合、おそらく何かを行うことができますが、それでも、人々がデータを変換しようとするとき、それは不必要であるか、根本的な問題が別の(一般的にはより良い)方法で解決できる場合があります。変形は良い選択ですが、それは通常あまり良くない理由で行われます。

それで...なぜあなたはそれを変えたいのですか?


グレン、非常に詳細な回答をありがとうございました。それは多くの概念を説明します。このデータをロジスティック回帰モデルにフィードしようとしています。通常は分散されたデータの方がはるかに良い結果が得られると思っていました(今のところ、私にはあまりわかりません)。何がお勧めですか?
Abhi

1
これは独立変数(変数)ですか?この文脈で「より良い結果」とはどういう意味ですか?x
Glen_b-モニカを2014

@Glen_b素晴らしい答えをたくさんありがとう。私もコンピューターサイエンスの出身で、この質問を続けています:stats.stackexchange.com/questions/408232/…これに関するご意見をお聞かせください。あなたからの便りを楽しみにしています。もう一度ありがとうございました:)
EmJ

コメントを使用して、質問に回答する人を募集しようとしないでください。私はすでにあなたの質問を見ました。
Glen_b

0

後世にもっと楽しい情報を投稿する。

ロジスティック回帰の独立変数としてのカウントデータの使用に関する同様の問題について説明している古い投稿があります。

ここにあります:

カウントデータを独立変数として使用すると、GLMの想定に違反しますか?

グレンが二分した結果を単に予測しようとしている場合に言及したように、変換されていないカウントデータをロジスティック回帰モデルの直接コンポーネントとして使用できる可能性があります。ただし、注意点:独立変数(IV)がポアソン分布であり、かつ生の値を使用して桁数が大きい場合、影響力の大きいポイントが発生し、モデルにバイアスがかかる可能性があります。これが当てはまる場合は、より堅牢なモデルを取得するためにIVへの変換を実行すると便利な場合があります。

平方根や対数などの変換は、IVとオッズ比の関係を強化できます。たとえば、Xの3桁全体の変化(中央のX値から離れている)が、Yが発生する確率のわずか0.1の変化(0.5から離れている)に対応している場合、モデルの不一致は外れ値のX値からの極端なレバレッジのため、大きなバイアスが発生します。

さらに説明するために、さまざまな唐辛子のScoville評価(domain [X] = {0、320万})を使用して、人が唐辛子を「不快に辛い」(range [Y] = {1 =はい、0 =いいえ})対応する評価Xのコショウを食べた後。

https://en.wikipedia.org/wiki/Scoville_scale

スコヴィル評価のグラフを見ると、生のスコヴィル評価の対数変換により、各唐辛子の主観的(1〜10)の評価により近いことがわかります。

したがって、この場合、未加工のScoville評価と主観的な熱評価の間の真の関係をキャプチャするより堅牢なモデルを作成する場合、X値に対して対数変換を実行できます。これを行うことにより、桁違いの値の間の距離を効果的に「縮小」することにより、過度に大きなXドメインの影響を軽減し、その結果、X外れ値(たとえば、カプサイシン不耐性やクレイジースパイスの悪魔)の重みを減らします。 !!)私たちの予測を持っています。

これが楽しいコンテキストを追加することを願っています!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.