データから再サンプリングしてp値をシミュレートする方法


8

しばらく前に、タイムスタンプ間の時間の相関について質問し、コード間の平均距離を計算できるとピーターエリスから返信受けました ...

これにより、どのビヘイビアーがクラスター化されているかがある程度わかりますが、これが偶然によるものではないことも確認する必要があります。

これを確認するために、関係がないという帰無仮説の下でモデルによって生成されたシミュレーションデータを作成します。これを行うには、おそらく各イベント間の時間(たとえば、各あくびの間)の時間のリサンプリングに基づいて、可能性のあるnullモデルから各動作の時間のデータを生成し、架空のnullモデルイベントの新しいタイムスタンプのセットを作成する必要があります。次に、このnullモデルの同じインジケーター統計を計算し、本物のデータのインジケーターと比較します。このシミュレーションを何度も繰り返すことにより、データのインジケーターがnullモデルのシミュレーションデータと十分に異なるかどうか(各あくびから最も近いストレッチまでの平均時間が短いなど)を統計的に有意な証拠としてカウントできます。あなたの帰無仮説。

私はようやくこれを行うためのスキルセットを所有し、Rでこれを行いましたが、(a)詳細について学ぶ(b)私の背後にある理論についてインテリジェントに話すことができるように、このメソッドまたはテクニックが何と呼ばれるかわかりませんやってる

これは順列検定と呼ばれることを示唆している人もいれば、ブートストラップと似ているが同じではないと言う人もいれば、モンテカルロ再サンプリングに関連していると私が言った人もいます。

NULLがTRUEの場合、このリサンプリング方法は何と呼ばれますか?回答をバックアップするためのリファレンスが1つまたは2つある場合は、役立つかもしれませんが必要ではありません。

回答:


4

ここでは、エリスが3つの異なるアイデアに言及しているように思えます。まず彼は、「関係がないという帰無仮説のもとでモデルによって生成されたシミュレートされたデータ」の作成について何か述べています。これを一種のパラメトリックブートストラップと呼びます。次に、これは「おそらく、各イベント間(たとえば、各あくびの間)の時間をリサンプリングして、架空のnullモデルイベントの新しいタイムスタンプセットを作成することに基づく」と述べています。ここで明確にしておきますが、これは「シミュレートされたデータを作成する」ことではありません。その代わり、私が正しく理解していれば、実際に観測されたデータからリサンプリングしています。この後者の手順は、順列検定またはノンパラメトリックブートストラップのいずれかです。

パラメトリックブートストラップ、置換テスト、ノンパラメトリックブートストラップについて、もう少し説明する必要があると思います。

μ1μ2σrnorm()Rμ1=μ2

一方、順列テストでは、帰無仮説と一致する方法で観測データを繰り返しシャッフルする必要があります。したがって、たとえば、帰無仮説がグループの割り当てがグループ平均の点で違いがないことを示唆している場合、すべての観測値の間でグループラベルをランダムに何度もランダムにシャッフルして、シャッフルのすべての可能な方法で得られる違いの意味を確認できますこの方法では。そして、これらのシャッフルされたデータセットから計算されたテスト統計の分布内で、実際に観測された統計がどこにあるかがわかります。実際に観測されたデータをシャッフルできる方法は有限(ただし、通常は多数)あることに注意してください。

最後に、ノンパラメトリックブートストラップは順列検定に非常に似ていますが、観測されたデータを置き換えてリサンプリングしますデータが引き出された可能性がある値の無限の「母集団」に近づこうとするため。データをシャッフルする方法よりも、データを置き換えてリサンプリングする方法がたくさんあります(ただし、実際には技術的に有限です)。この場合も、パラメトリックブートストラップと同様に、これは通常、帰無仮説ではなく、観測データによって暗示されるモデルの下で行われ、p値ではなく観測された検定統計量の信頼区間が得られます。しかし、エリスが提案するように帰無仮説の下でこれを実行し、この方法でp値を取得することは確かに想像できます。ノンパラメトリックブートストラップの一例として、ここでは(伝統的なやり方で、すなわち、ではありません帰無仮説の下で)、パラメトリックブートストラップの段落で使用したのと同じグループ平均差の例を使用して、これを行うには、各グループ内の観測を何度も置換してリサンプリングしますが、グループ間で観測を混合しません(順列の場合とは異なります) test)、そして、この方法で得られるグループ平均差のサンプリング分布を構築します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.