簡単だと思うが、それを完全に理解できない問題があります。私は種子受粉を見ています。私はクラスターで花を咲かせる植物(n = 36)を持っています。各植物から3つの花クラスターをサンプリングし、各クラスターから6つの種子ポッド(各植物から合計18の種子ポッド)をサンプリングします。鞘は受粉する0から多くても4つの種子を持つことができます。したがって、データは上限付きでカウントされます。種子の平均約10%が受粉していることがわかりましたが、特定の植物では1から30%の範囲にあるため、分散したデータを超えています。もちろん、3つの植物で4つのクラスターの欠落の複製があるため、完全に対称的ではありません。 。
私が尋ねている質問は、このデータがこの植物が種子セットに花粉媒介者を必要とするという考えを支持するかどうかです。
ポッド内の種子数の分布が、受粉種子ポッド0個(16個のうち6〜9個のポッド)と受粉種子ポッド3個および4個(それぞれ2〜4個)があるように見える集団の種子が無作為に受粉した場合に予想される。基本的に、これはゼロインフレーションデータの古典的な例だと思います。最初に昆虫が花を訪問するか、まったく訪問しません(1つのゼロジェネレーター)。訪問した場合、別の分布で0〜4個の種子を受粉します。対立仮説は、植物が部分的に自殖しているため、すべての種子が受粉する確率が同じになると予想されます(このデータは、およそ0.1の確率、つまり同じポッド内の2つの種子が0.01の確率である、などを示唆しています)。 。
しかし、私は単にデータがどちらか一方の分布に最適であることを実証したいだけであり、実際にデータに対してZIPまたはZINBを実行するのではありません。私が使用する方法はすべて、受粉した種子の実際の数と、各植物でサンプリングされた鞘の数を考慮に入れるべきだと思います。私が思いついた最良のことは、ある種の受粉した種子の数をサンプリングした種子の鞘の数にランダムに割り当て、その10,000回を実行して、それがどれほど可能性が高いかを確認することです与えられた植物の実験データは、そのランダムな分布から得られました。
私はこれについてブルートフォースブートストラップよりもはるかに簡単なはずがあることを感じていますが、何日も考えて検索した後、私はあきらめています。上限であるため、ポアソン分布と比較することはできません。予想される分布を何らかの方法で1番目に生成する必要があるため、二項分布ではありません。何かご意見は?そして、私はRを使用しているので、アドバイス(特に、それぞれ最大4つのボールを含むことができる16のボックスにn個のボールの10,000個のランダム分布を最もエレガントに生成する方法)が最も歓迎されます。
追加9/07/2012最初に、すべての関心と助けに感謝します。答えを読んで、質問を少し言い換えるようになりました。私が言っているのは、種子がポッド全体でランダムに受粉しているという仮説があり(今のところ、これはnullと考えています)、私の別の仮説は、少なくとも1つの受粉種子を持つシードポッドは、ランダムなプロセスで予想されるよりも複数の受粉種子を持っています。私が話していることを説明するために、例として3つのプラントからの実際のデータを提供しました。最初の列はポッド内の受粉種子の数、2番目の列はその種子数を持つポッドの頻度です。
植物1(合計3種子:4%受粉)
種子の数:: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
植物2(合計19種子:26%受粉)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
植物3(合計16種子:22%受粉)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
植物#1では、18の鞘で受粉した種子は3つだけで、1つの鞘には1つの種子があり、1つの鞘には2つの種子がありました。ランダムに1つのシードをポッドに追加するプロセスについて考えると、最初の2つのシードはそれぞれ独自のポッドに移動しますが、3番目のシードのポッドには6つのスポットがあり、16個のポッドにはすでに1つのシードがあります。シードがないため、ここでシードが2つあるポッドの最も高い確率は6/64 = 0.094です。それは少し低いですが、実際には極端ではないので、私はこの植物がすべての種子にわたるランダムな受粉の仮説に適合し、受粉が発生する可能性が約4%であると言います。しかし、植物2は私にははるかに極端に見えます。4つの鞘が完全に受粉しているにもかかわらず、12の鞘は何もありません。この分布のオッズを直接計算する方法はわからないので(私のブートストラップのアイデアです)、各種子の受粉の確率が約25%である場合、ランダムに発生するこの分布のオッズはかなり低いと思います。植物#3本当にわからない、ランダム分布で期待されるよりも0と3が多いと思うが、私の直感は、この数の種子のこの分布は植物#2の分布よりもはるかに可能性が高いということです。そしてそれはありそうにないかもしれません。しかし、明らかに、私は確実に、そしてすべての植物にわたって知りたいのです。ランダムな分布で期待されるよりも0と3が多いと思いますが、私の直感では、この数の種子のこの分布は、植物#2の分布よりもはるかに可能性が高く、そうではない可能性があります。しかし、明らかに、私は確実に、そしてすべての植物にわたって知りたいのです。ランダムな分布で期待されるよりも0と3が多いと思いますが、私の直感では、この数の種子のこの分布は、植物#2の分布よりもはるかに可能性が高く、そうではない可能性があります。しかし、明らかに、私は確実に、そしてすべての植物にわたって知りたいのです。
最後に、「種子のさやでの受粉種子の分布は、植物が単に部分的に自己適合性ではないが、受粉者を訪ねて種子セットを作る必要があるという仮説に当てはまる(または合わない)ような文を書きたいと思っています。(統計検定の結果)。」これは、実際に前向きなセクションの一部であり、次に実行する実験について話しているので、これがどちらか一方になることを切望しているわけではありませんが、可能であれば自分自身について知りたいのです。このデータでやろうとしていることができない場合は、それも知りたいです。
そもそもデータをゼロインフレートモデルに入れるべきかどうかを示す優れたテストがあるかどうか知りたいので、最初はかなり大まかな質問をしました。私が見たすべての例はこう言っているようです–「見て、ここには多くのゼロがあり、それについての合理的な説明があるので、ゼロインフレートモデルを使用しましょう。」それが私がこのフォーラムで今やっていることですが、私は最後の章で、カウントデータにポアソンglmを使用した経験があり、私のスーパーバイザーの1人が「いいえ、glmsは複雑すぎて不必要です。このデータはそして、私にすべての因子+交互作用の同じp値と3桁の有効数字を与える、それらの高価な統計パッケージによって生成された大規模な分割表のデータダンプを送った!! だから、私は統計を明確かつシンプルに保つようにしています、私の選択をしっかりと守るのに十分理解していることを確認してください。これは、現在、ゼロインフレートモデルに対して行うことができないと思います。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、主な実験的な質問に答えましたが、どちらも同じように機能しているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。最初にこのデータが強くクラスター化されている(またはゼロになっている)ことを明示的に実証でき、それが発生する生物学的理由を提供できる場合、ZINBを引き出すように設定するほうが、 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。現在、ゼロインフレートモデルでは実行できないと思います。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。現在、ゼロインフレートモデルでは実行できないと思います。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。
しかし、私は私の主要な質問からあまり気を散らしたくありません、どうすれば私のデータがランダム分布から予想されるよりも実際にゼロインフレートされているかどうかを判断できますか?私の場合、それに対する答えは私にとって本当に興味深いものであり、モデルの正当化のための可能な利益はボーナスです。
いつもありがとうございました。
乾杯、BWGIA