データをテスト/証明する方法はゼロになっていますか?


9

簡単だと思うが、それを完全に理解できない問題があります。私は種子受粉を見ています。私はクラスターで花を咲かせる植物(n = 36)を持っています。各植物から3つの花クラスターをサンプリングし、各クラスターから6つの種子ポッド(各植物から合計18の種子ポッド)をサンプリングします。鞘は受粉する0から多くても4つの種子を持つことができます。したがって、データは上限付きでカウントされます。種子の平均約10%が受粉していることがわかりましたが、特定の植物では1から30%の範囲にあるため、分散したデータを超えています。もちろん、3つの植物で4つのクラスターの欠落の複製があるため、完全に対称的ではありません。 。

私が尋ねている質問は、このデータがこの植物が種子セットに花粉媒介者を必要とするという考えを支持するかどうかです。

ポッド内の種子数の分布が、受粉種子ポッド0個(16個のうち6〜9個のポッド)と受粉種子ポッド3個および4個(それぞれ2〜4個)があるように見える集団の種子が無作為に受粉した場合に予想される。基本的に、これはゼロインフレーションデータの古典的な例だと思います。最初に昆虫が花を訪問するか、まったく訪問しません(1つのゼロジェネレーター)。訪問した場合、別の分布で0〜4個の種子を受粉します。対立仮説は、植物が部分的に自殖しているため、すべての種子が受粉する確率が同じになると予想されます(このデータは、およそ0.1の確率、つまり同じポッド内の2つの種子が0.01の確率である、などを示唆しています)。 。

しかし、私は単にデータがどちらか一方の分布に最適であることを実証したいだけであり、実際にデータに対してZIPまたはZINBを実行するのではありません。私が使用する方法はすべて、受粉した種子の実際の数と、各植物でサンプリングされた鞘の数を考慮に入れるべきだと思います。私が思いついた最良のことは、ある種の受粉した種子の数をサンプリングした種子の鞘の数にランダムに割り当て、その10,000回を実行して、それがどれほど可能性が高いかを確認することです与えられた植物の実験データは、そのランダムな分布から得られました。

私はこれについてブルートフォースブートストラップよりもはるかに簡単なはずがあることを感じていますが、何日も考えて検索した後、私はあきらめています。上限であるため、ポアソン分布と比較することはできません。予想される分布を何らかの方法で1番目に生成する必要があるため、二項分布ではありません。何かご意見は?そして、私はRを使用しているので、アドバイス(特に、それぞれ最大4つのボールを含むことができる16のボックスにn個のボールの10,000個のランダム分布を最もエレガントに生成する方法)が最も歓迎されます。

追加9/07/2012最初に、すべての関心と助けに感謝します。答えを読んで、質問を少し言い換えるようになりました。私が言っているのは、種子がポッド全体でランダムに受粉しているという仮説があり(今のところ、これはnullと考えています)、私の別の仮説は、少なくとも1つの受粉種子を持つシードポッドは、ランダムなプロセスで予想されるよりも複数の受粉種子を持っています。私が話していることを説明するために、例として3つのプラントからの実際のデータを提供しました。最初の列はポッド内の受粉種子の数、2番目の列はその種子数を持つポッドの頻度です。

植物1(合計3種子:4%受粉)

種子の数:: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

植物2(合計19種子:26%受粉)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

植物3(合計16種子:22%受粉)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

植物#1では、18の鞘で受粉した種子は3つだけで、1つの鞘には1つの種子があり、1つの鞘には2つの種子がありました。ランダムに1つのシードをポッドに追加するプロセスについて考えると、最初の2つのシードはそれぞれ独自のポッドに移動しますが、3番目のシードのポッドには6つのスポットがあり、16個のポッドにはすでに1つのシードがあります。シードがないため、ここでシードが2つあるポッドの最も高い確率は6/64 = 0.094です。それは少し低いですが、実際には極端ではないので、私はこの植物がすべての種子にわたるランダムな受粉の仮説に適合し、受粉が発生する可能性が約4%であると言います。しかし、植物2は私にははるかに極端に見えます。4つの鞘が完全に受粉しているにもかかわらず、12の鞘は何もありません。この分布のオッズを直接計算する方法はわからないので(私のブートストラップのアイデアです)、各種子の受粉の確率が約25%である場合、ランダムに発生するこの分布のオッズはかなり低いと思います。植物#3本当にわからない、ランダム分布で期待されるよりも0と3が多いと思うが、私の直感は、この数の種子のこの分布は植物#2の分布よりもはるかに可能性が高いということです。そしてそれはありそうにないかもしれません。しかし、明らかに、私は確実に、そしてすべての植物にわたって知りたいのです。ランダムな分布で期待されるよりも0と3が多いと思いますが、私の直感では、この数の種子のこの分布は、植物#2の分布よりもはるかに可能性が高く、そうではない可能性があります。しかし、明らかに、私は確実に、そしてすべての植物にわたって知りたいのです。ランダムな分布で期待されるよりも0と3が多いと思いますが、私の直感では、この数の種子のこの分布は、植物#2の分布よりもはるかに可能性が高く、そうではない可能性があります。しかし、明らかに、私は確実に、そしてすべての植物にわたって知りたいのです。

最後に、「種子のさやでの受粉種子の分布は、植物が単に部分的に自己適合性ではないが、受粉者を訪ねて種子セットを作る必要があるという仮説に当てはまる(または合わない)ような文を書きたいと思っています。(統計検定の結果)。」これは、実際に前向きなセクションの一部であり、次に実行する実験について話しているので、これがどちらか一方になることを切望しているわけではありませんが、可能であれば自分自身について知りたいのです。このデータでやろうとしていることができない場合は、それも知りたいです。

そもそもデータをゼロインフレートモデルに入れるべきかどうかを示す優れたテストがあるかどうか知りたいので、最初はかなり大まかな質問をしました。私が見たすべての例はこう言っているようです–「見て、ここには多くのゼロがあり、それについての合理的な説明があるので、ゼロインフレートモデルを使用しましょう。」それが私がこのフォーラムで今やっていることですが、私は最後の章で、カウントデータにポアソンglmを使用した経験があり、私のスーパーバイザーの1人が「いいえ、glmsは複雑すぎて不必要です。このデータはそして、私にすべての因子+交互作用の同じp値と3桁の有効数字を与える、それらの高価な統計パッケージによって生成された大規模な分割表のデータダンプを送った!! だから、私は統計を明確かつシンプルに保つようにしています、私の選択をしっかりと守るのに十分理解していることを確認してください。これは、現在、ゼロインフレートモデルに対して行うことができないと思います。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、主な実験的な質問に答えましたが、どちらも同じように機能しているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。最初にこのデータが強くクラスター化されている(またはゼロになっている)ことを明示的に実証でき、それが発生する生物学的理由を提供できる場合、ZINBを引き出すように設定するほうが、 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。現在、ゼロインフレートモデルでは実行できないと思います。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。現在、ゼロインフレートモデルでは実行できないと思います。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。私は準二項式(植物全体でpesudoreplicaitonを取り除くため)と上記のデータの混合モデルの両方を使用して、処理を比較し、私の主要な実験的質問に答えましたが、どちらも同じ仕事をしているようですが、 ZINBの今夜をいじって、パフォーマンスがどれだけ上手くいくか見てみましょう。このデータが最初に強くクラスター化されている(またはゼロになっている)ことを明示的に示し、それが発生する生物学的理由を提供できるかどうかを考えています。その後、ZINBを引き出すように設定する方がはるかに適切です。 1つを準二項式/混合モデルと比較して、より良い結果が得られると主張するだけです。それを使用する必要があります。

しかし、私は私の主要な質問からあまり気を散らしたくありません、どうすれば私のデータがランダム分布から予想されるよりも実際にゼロインフレートされているかどうかを判断できますか?私の場合、それに対する答えは私にとって本当に興味深いものであり、モデルの正当化のための可能な利益はボーナスです。

いつもありがとうございました。

乾杯、BWGIA


ゼロ膨張2項モデルに適合させないのはなぜですか?
atiretoo-

「部分的自殖」仮説は「受粉者」仮説に排他的ですか?その場合、2番目のモデルは、確率pでサイズ= 4の二項モデルになります。
atiretoo-

回答:


5

これは、私には比較的単純な(非線形)混合モデルのように見えます。シードポッドがクラスターにネストされ、クラスターが植物にネストされており、各段階でランダムな効果を持つ二項モデルを近似できます。

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

または、共変量がある場合はそれを使用します。花が自家受粉する場合、植物自体の生存能力の自然な変動により、いくつかの穏やかな効果が見られる場合があります。ただし、応答の変動性の大部分がクラスターの変動性によって引き起こされている場合、植物の選択されたクラスターのみを訪問する可能性がある昆虫による受粉のより強い証拠があります。理想的には、ガウス分布ではなく、変量効果のノンパラメトリック分布が必要です。昆虫の侵入がない場合のゼロの点質量、および正の値の点質量-これは、基本的にMichael Chernickが考えた混合モデルです。これをGLLAMM Stataパッケージに適合させることができます。これがRで不可能だったとしたら、私は驚きます。

おそらく、クリーンな実験では、植物を内部に置くか、少なくとも昆虫が近づかない場所に植物を置き、受粉する種子の数を確認します。それはおそらくより方法論的に厳密な方法であなたのすべての質問に答えるでしょう。


これを試すつもりです。自分自身の質問に答えるのに役立つと思いますが、他の人をどう説得するかはわかりません。あなたは2番目の部分にスポットを当てています。私は、このデータが将来のより直接的な実験にどのように影響するかについて考えています。
BWGIA 2012

1

これは、個々の昆虫の混合分布であるように思えます。確率pで、昆虫は確率1 -pで着陸し、着陸して0から4つの種子を配布します。しかし、昆虫が植物に着地するかどうかに関する情報がない場合、2つの方法で0を取得することはできません。したがって、pを0の確率にすると、多項分布(p1、p2、 p3、p4)ここで、piは、制約p1 + p2 + p3 + p4 = 1の対象となる昆虫の花粉が与えられた場合のi種子の確率です。モデルには5つの未知数p、p1、p2、p3、p4があり、各iについて0 = 0の制約があります。十分なデータがあれば、制限付き最尤法を使用してこれらのパラメーターを推定できるはずです。


私は同意しますが、問題はそのモデルに適合させることではなく、2つの異なる生物学的仮説の下で予測分布を生成することです。たぶん答えは、ZIBとセルフィング仮説に一致する「他のモデル」を当てはめて、それらを比較することです。
atiretoo-2012年

@atiretooは、仮説の分布と比較できる受粉種子数の推定分布をモデルに提供していませんか?
Michael R. Chernick

同意-2つの仮説に適切なモデルがある場合。
atiretoo-モニカを復活させる

1

これは、質問の最後の部分、花粉媒介者仮説に必要なデータをすばやく生成する方法への回答です。

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

rzibinom()パッケージVGAM でも使用できます。何をしたいのかよくわかりませんが。推定する必要がある2つの無料パラメーターp1とp2があります。データからそれらを推定するために、ゼロ膨張2項モデルを使用しないのはなぜですか?

とりわけZIBモデルに適合するパッケージVGAMを確認する必要があります。実際、VGAM関数からZIBの予想される分布を取得dzibinom()できます。これを使用して、観測と受粉のパラメーターがわかっている場合と、観測された分布を比較できます。繰り返しますが、本当にZIBモデルに適合させる必要があります。

部分的な自殖仮説が昆虫の受粉に限定されている場合、予想される分布は単に2項であり、ランダム効果として2項ファミリーglmまたは植物IDを持つglmmでパラメーターを推定できます。ただし、部分的に自己であり、昆虫の受粉を受けることができる場合は、2つの二項分布の混合が必要になります。その場合は、MCMCを使用してモデルを適合させるためにOpenBUGSまたはJAGSを使用して調査します。

2つのモデルをデータに適合させたら、AICまたはBICまたは選択した他のメトリックを使用して、モデルを比較し、どちらがより適合するかを確認します。


そのatiretooに感謝しますが、そのコードを実行すると、ランダムな数のシードとランダムな分布が生成されるようです。私は(下記参照、19種を言う)に固定して、与えられた分布はその正確なnubmerのためだったかそう見ることが種子のnubmerを望んでいたことを考えていた
BWGIA

おっと、投稿をすぐにヒットしました。質問にいくつかの情報を追加したので、「上記を参照」を意味しました。AICを使用してモデルを比較することについてのあなたのコメントに興味をそそられます。異なる分布を持つモデル(同じ応答変数を使用)でそれを行うことはできますか?AICの比較は、項をモデルに追加/削除したときにのみ有効であると思いましたが、同じ分布族が指定されていますか?
BWGIA

いいえ、それは例えば後方選択よりもAICの重要な利点です。データが同じであれば、ネストされていなくても、異なるモデル間でAICを比較できます。ソフトウェアは定数を省略せずに尤度を計算することに注意する必要がありますが、単一の関数内ではネストされていないモデルを簡単に比較できます。
atiretoo-2012年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.