タグ付けされた質問 「sequential-analysis」

4
2つの独立した比率の検出力解析で停止ルールを作成するにはどうすればよいですか?
私は、A / Bテストシステムに取り組んでいるソフトウェア開発者です。安定した統計情報の背景はありませんが、過去数か月にわたって知識を集めてきました。 一般的なテストシナリオでは、Webサイト上の2つのURLを比較します。訪問者が訪問LANDING_URLし、URL_CONTROLまたはのいずれかにランダムに転送されますURL_EXPERIMENTAL。訪問者はサンプルを構成し、訪問者がそのサイトで望ましいアクションを実行すると勝利条件が達成されます。これはコンバージョンを構成し、コンバージョン率はコンバージョン率です(通常はパーセンテージで表されます)。特定のURLの一般的なコンバージョン率は、0.01%から0.08%の範囲です。テストを実行して、新しいURLと古いURLを比較する方法を決定します。場合はURL_EXPERIMENTALアウトパフォームに表示されURL_CONTROL、我々は交換してくださいURL_CONTROLとURL_EXPERIMENTAL。 単純な仮説検定手法を使用したシステムを開発しました。このシステムを開発するために、ここで別のCrossValidatedの質問に対する回答を使用しました。 テストは次のように設定されます。 のコンバージョン率の見積もりCRE_CONTROLは、URL_CONTROL履歴データを使用して計算されます。 所望の目標転化率CRE_EXPERIMENTALのがURL_EXPERIMENTAL設定されています。 通常、有意水準0.95が使用されます。 通常、0.8の累乗が使用されます。 一緒に、これらの値はすべて、目的のサンプルサイズを計算するために使用されます。power.prop.testこのサンプルサイズを取得するためにR関数を使用しています。 すべてのサンプルが収集されるまでテストが実行されます。この時点で、の信頼区間 CR_CONTROLとがCR_EXPERIMENTAL計算されます。それらが重ならない場合、勝者は0.95の有意水準と0.8の検出力で宣言できます。 ただし、テストのユーザーには2つの大きな懸念があります。 1.テスト中のある時点で、明確な勝者を示すのに十分なサンプルが収集された場合、テストを停止できませんか? 2.テストの終了時に勝者が宣言されていない場合、勝者を見つけるのに十分なサンプルを収集できるかどうかを確認するためにテストをさらに実行できますか? ユーザーが私たち自身のユーザーが望むことを正確に行えるようにする市販ツールが数多く存在することに注意してください。上記には多くの誤fallがあることを読みましたが、停止ルールのアイデアに出くわしたので、独自のシステムでそのようなルールを使用する可能性を調査したいと思います。 検討したい2つのアプローチを次に示します。 1.を使用power.prop.testして、現在の測定変換率を現在のサンプル数と比較し、勝者を宣言するのに十分なサンプルが収集されているかどうかを確認します。 例:次の動作がシステムに存在するかどうかを確認するテストが設定されています。 CRE_CONTROL:0.1 CRE_EXPERIMENTAL:0.1 * 1.3 これらのパラメーターでは、サンプルサイズNは1774です。 ただし、テストが進んで325サンプルに達すると、CRM_CONTROL(コントロールの測定された変換率)は0.08およびCRM_EXPERIMENTAL0.15です。power.prop.testこれらの変換率で実行Nされ、325であることがわかりました。正確CRM_EXPERIMENTALに、勝者であると宣言するために必要なサンプルの数です。この時点で、テストを終了できることを願っています。同様に、テストが1774サンプルに達しても勝者が見つからない場合、2122サンプルに達しCRM_CONTROL、0.1 CRM_EXPERIMENTALの結果と0.128が勝者を宣言できる結果であることを示すのに十分です。 関連する質問のユーザ少ないサンプルを有し、またに対して脆弱であることを停止し、このようなテストは、早期奨励のためにあまり信憑性であることをお勧め推定バイアスとタイプIとタイプIIエラーの数が増加。この停止ルールを機能させる方法はありますか?これは、プログラミング時間の短縮を意味するため、推奨されるアプローチです。おそらく、この停止ルールは、テストを早期に停止する必要がある場合、テストの信頼性を測定する何らかの数値スコアを提供することで機能するでしょうか? 2. 順次分析またはSPRTを使用します。 これらのテスト方法は、私たちが見つけた状況に合わせて設計されています。ユーザーがテストを開始し、テストで余分な時間を無駄にしないようにテストを終了するにはどうすればよいですか。テストの実行が長すぎるか、異なるパラメーターでテストをやり直す必要があります。 上記の2つの方法のうち、数学が少し理解しやすく、プログラミングが簡単なように見えるため、SPRTを好みます。ただし、このコンテキストで尤度関数を使用する方法がわかりません。誰かが尤度比、尤度比の累積和を計算する方法の例を構築し、モニタリングを続行する状況、帰無仮説と対立仮説を受け入れる状況を示す例を続けることができる場合、 SPRTが正しい方法であるかどうかを判断するのに役立ちます。

3
事前に述べられている場合、サンプルサイズを動的に増やしても大丈夫ですか?
私は、被験者内設計で、ある刺激のメリットと別の刺激のメリットに関する研究をしようとしています。研究の一部の順序効果(タスクタイプの順序、刺激の順序、タスクセットの順序)を減らすように設計された順列スキームがあります。置換スキームは、サンプルサイズを8で割り切れるように指定します。 サンプルサイズを決定するには、野心的な推測(私の分野では伝統的)を行うか、希望する検出力のサンプルサイズを計算する必要があります。問題は、私が観察しようとしているエフェクトサイズの大きさの手掛かりがほとんどないことです(これも私の分野では良い伝統です)。これは、電力計算が少し難しいことを意味します。一方で、サンプルサイズが小さすぎるか、参加者に多額のお金を払ってラボで時間を費やしすぎる可能性があるため、ワイルドな推測をするのも悪いかもしれません。 2つのp値のコリドーを残すまで、8人のバッチで参加者を追加することを前もって述べても大丈夫ですか?例:0,05 <p <0,30?または、他にどのようにお勧めしますか?

5
実験を開始する前にサンプルサイズを決定するか、実験を無期限に実行しますか?
私は何年も前に統計を勉強しましたが、すべてを忘れてしまったので、これらは特定のものよりも一般的な概念的な質問のように思えるかもしれませんが、ここに私の問題があります。 私はUXデザイナーとしてeコマースのウェブサイトで働いています。数年前に構築されたA / Bテストフレームワークがあり、それを疑い始めています。 すべての決定を下すメトリックはコンバージョンと呼ばれ、サイトにアクセスして最終的に何かを購入するユーザーの割合に基づいています。 そこで、[購入]ボタンの色を緑から青に変更するテストを行います。 コントロールは既に持っているもので、平均コンバージョン率がわかる緑色のボタンです。実験では、緑色のボタンを青色のボタンに置​​き換えています。 95%の有意性が満足のいく信頼レベルであることに同意し、実験をオンにして、実行したままにします。 ユーザーがサイトにアクセスすると、舞台裏で50/50の確率でコントロールバージョン(緑色のボタン)と実験バージョン(青いボタン)に送信されます。 7日後の実験を見ると、サンプルサイズが3000(1500が対照に、1500が実験に)、統計的有意性が99.2%の実験に有利な変換で10.2%の増加が見られます。素晴らしいと思います。 実験が続行され、サンプルサイズが大きくなると、コンバージョンが+ 9%増加し、98.1%の有意性が見られます。OK、実験をもっと長く続けると、実験では統計的有意性がわずか92%でコンバージョンが5%増加するだけで、フレームワークは95%の有意性に達する前に4600個のサンプルが必要だと言っています。 実験はどの時点で決定的ですか? 事前にサンプルサイズに同意し、実験を完了すると、あらゆるメトリックが99%の重要性に10%改善するという臨床試験プロセスを考えると、その薬は市場に出るという決定が下されます。しかし、もし4000人を対象に実験を行い、どんな指標でも5%改善し、わずか92%の有意性が見られた場合、その薬は市場に出ることはできません。 事前にサンプルサイズに同意し、そのサンプルサイズに達したら停止して、実験をオフにする時点で有意性が99%だった場合に結果に満足する必要がありますか?

2
適応シーケンシャル分析のp値の調整(カイ2乗検定の場合)?
私は、どの統計文献が次の問題に関連しているか、そしておそらくそれをどのように解決するかのアイデアを知りたいと思っています。 次の問題を想像してください。 一部の疾患には4つの治療法があります。どちらの治療がより良いかを確認するために、特別な試験を実施します。トライアルでは、被験者がいないことから始め、その後、1つずつ、より多くの被験者がトライアルに入力されます。各患者は、4つの可能な治療法のいずれかにランダムに割り当てられます。治療の最終結果は「健康」または「病気」であり、この結果をすぐに知ることができるとしましょう。つまり、任意の時点で、2 x 4の分割表を作成して、被験者の数がどの治療/最終結果に該当したかを示すことができます。 4つの可能な治療法の間に統計的に異なる治療法があるかどうかを確認するために、いつでも分割表を確認できます(たとえば、カイ2乗検定を使用)。それらのいずれかが他のすべてよりも優れている場合-トライアルを停止し、「勝者」として選択します。いくつかの試験が他の3つすべてよりも悪いことが示された場合、私たちは彼を試験から除外し、将来の患者への投与を停止します。 ただし、ここでの問題は、特定のポイントでテストを実行できること、テスト間に相関関係があること、プロセスの適応性がプロセスを操作することのためにp値をどのように調整するかですたとえば、何らかの治療が「悪い」と判明した場合)?

2
ベイジアン手法は本質的に逐次的ですか?
つまり、頻出主義の方法で逐次分析(収集するデータの量が事前に正確にわからない)を行うには、特別な注意が必要です。p値が十分に小さくなるか、信頼区間が十分に短くなるまで、データを収集することはできません。 しかし、ベイジアン分析を行うとき、これは懸念事項ですか?信頼できる間隔が十分に小さくなるまで、データ収集などを自由に行うことができますか?

1
ベイズ因子の更新
ベイズ因子は、仮説のベイズ検定とベイジアンモデルの選択で、2つの周辺尤度の比によって定義されます:iidサンプルとそれぞれのサンプリング密度と、対応するおよび場合、2つのモデルを比較するためのベイズ係数は 本私は現在検討していますが、その奇妙な文がベイズ因子上記(x1,…,xn)(x1,…,xn)(x_1,\ldots,x_n)f1(x|θ)f1(x|θ)f_1(x|\theta)f2(x|η)f2(x|η)f_2(x|\eta)π1π1\pi_1π2π2\pi_2B12(x1,…,xn)=defm1(x1,…,xn)m2(x1,…,xn)=def∫∏ni=1f1(xi|θ)π1(dθ)∫∏ni=1f2(xi|η)π2(dη)B12(x1,…,xn)=defm1(x1,…,xn)m2(x1,…,xn)=def∫∏i=1nf1(xi|θ)π1(dθ)∫∏i=1nf2(xi|η)π2(dη)\mathfrak{B}_{12}(x_1,\ldots,x_n)\stackrel{\text{def}}{=}\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\stackrel{\text{def}}{=}\frac{\int \prod_{i=1}^n f_1(x_i|\theta)\pi_1(\text{d}\theta)}{\int \prod_{i=1}^n f_2(x_i|\eta)\pi_2(\text{d}\eta)}B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)は、「個々のもの[ベイズ係数]を掛け合わせることによって形成されます」(p.118)。これは分解 が、による更新として、この分解には計算上の利点がないようですは、元の計算と同じ計算量を必要としますB12(x1,…,xn)=m1(x1,…,xn)m2(x1,…,xn)=m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)×m1(xn−1|xn−2,…,x1)m2(xn−1|xn−2,…,x1)×⋯⋯×m1(x1)m2(x1)B12(x1,…,xn)=m1(x1,…,xn)m2(x1,…,xn)=m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)×m1(xn−1|xn−2,…,x1)m2(xn−1|xn−2,…,x1)×⋯⋯×m1(x1)m2(x1)\begin{align*}\mathfrak{B}_{12}(x_1,\ldots,x_n)&=\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\\&=\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}\times \frac{m_1(x_{n-1}|x_{n-2},\ldots,x_1)}{m_2(x_{n-1}|x_{n-2},\ldots,x_1)}\times\cdots\\&\qquad\cdots\times\frac{m_1(x_1)}{m_2(x_1)}\end{align*}m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}m1(x1,…,xn)m2(x1,…,xn)m1(x1,…,xn)m2(x1,…,xn)\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}外の人工おもちゃの例。 質問:ベイズ係数をからに 更新する一般的で計算効率の高い方法はありますか辺縁全体および 再計算する必要はありませんか?B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)B12(x1,…,xn+1)B12(x1,…,xn+1)\mathfrak{B}_{12}(x_1,\ldots,x_{n+1})m1(x1,…,xn)m1(x1,…,xn)m_1(x_1,\ldots,x_n)m2(x1,…,xn)m2(x1,…,xn)m_2(x_1,\ldots,x_n) 私の直感は、ベイズ係数一度に1つずつ新しい観測値に推定することに沿って進むパーティクルフィルター以外に、この質問に答える自然な方法はないということです。B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)

3
一連の独立した乱数の差分のL番目の階数をとるときの高い自己相関
この質問をより詳細に説明するために、まず私のアプローチを詳しく説明します。 一連の独立した乱数をシミュレートしました。X={x1,...,xN}X={x1,...,xN}X = \{x_1,...,x_N\} 次に、倍の差を取ります。つまり、変数を作成します。LLL dX1={X(2)−X(1),...,X(N)−X(N−1)}dX1={X(2)−X(1),...,X(N)−X(N−1)}dX_{1} = \{X(2)-X(1),...,X(N)-X(N-1)\} dX2={dX1(2)−dX1(1),...,dX1(N−1)−dX1(N−1−1)}dX2={dX1(2)−dX1(1),...,dX1(N−1)−dX1(N−1−1)}dX_{2} = \{dX_{1}(2)-dX_{1}(1),...,dX_{1}(N-1)-dX_{1}(N-1-1)\} ......... dバツL= { dバツL − 1(2 )− dバツL − 1(1 )、。。。、dバツL − 1(N− L )− dバツL − 1(N− L − 1 )}dXL={dXL−1(2)−dXL−1(1),...,dXL−1(N−L)−dXL−1(N−L−1)}dX_{L} = \{dX_{L-1}(2)-dX_{L-1}(1),...,dX_{L-1}(N-L)-dX_{L-1}(N-L-1)\} が大きくなると、の(絶対)自己相関が増加することがます。ACは場合でも0.99に近づきます。つまり、L次の差をとるとき、最初は独立したシーケンスから、一連の非常に依存する数(シーケンス)を作成します。dバツLdXLdX_{L}LLLL > 100L>100L >100 これが私の観察を説明するグラフです。 私の質問: このアプローチの背後にある理論、およびその含意またはそのアプリケーションへの応用はありますか? これは、このアプローチが(コンピューターの)疑似乱数ジェネレーターの弱点を悪用していることを示していますか?つまり、生成された「ランダム」シーケンスは完全にランダムではなく、これは私のアプローチから示されている/証明されていますか? シーケンスの次の数(つまり)を予測するために、L次の差異の高い自己相関を利用できますか?つまり、次の数を予測できる場合(たとえば、線形回帰によって)、累積合計の倍をとることによって、推定シーケンスを推定できます。これは実行可能なアプローチですか?バツ(N+ 1 )X(N+1)X(N+1)dバツLdXLdX_{L}バツ(私)X(i)X(i)LLL 客観的 注意は、私が予測しようとしていることをが、番号がindependentalyとランダムに生成されているので、これは(の低交流は非常に困難である)。バツ(N+ 1 )X(N+1)X(N+1)NNN

1
ベンフォード・ロウのリアルタイムのテスト
で与えられる特定の量データがある。ここで、各数量の最初の桁を取得し、最初の桁の経験分布の関係を調べたいと思いここで、は、最初の数字としての正規化された頻度であり、ベンフォードの法則 今、この論文を読みましたXXXx1,...,xnx1,...,xnx_1,...,x_ndidid_ixixix_ip^=(p^1,...,p^n)p^=(p^1,...,p^n)\hat{p}=(\hat{p}_1,...,\hat{p}_n)pi^pi^\hat{p_i}iiipi=log10(1+1/i)pi=log10⁡(1+1/i) p_i = \log_{10} (1 + 1/i) 最初の桁の経験的頻度とベンフォードの法則を比較することについて。ただし、彼らが言及する方法を使用して、データが特定の頻度(たとえば、1秒あたり50データ)で到着する場合に、ベンフォードの法則をリアルタイムで一定の信頼度で棄却できるかどうかについては触れていません。 これらの方法は、次のようにベンフォードの法則とのリアルタイム比較に適用できると思います:(短い)時間間隔(たとえば、3秒)が与えられた場合、最初の桁の経験的頻度を計算します次に、前述のリファレンスに示されている統計の同時信頼区間と値を計算します(サンプルサイズを確認する必要があります)少なくとも60個のデータのため、統計の分布は、その必要があり、比較的近い漸近分布にすることなので、計算され -値がなければならない信頼できます)。p^=(p^1,...,p^n)p^=(p^1,...,p^n)\hat{p}=(\hat{p}_1,...,\hat{p}_n)pppppp 私の質問は、これは有効な手順ですか?それは意味がありますか?そうでない場合、経験的な最初の桁の分布をベンフォードの法則とリアルタイムで比較するための適切な方法はありますか? 私が目にする1つの潜在的な問題は、最初の数字の基になる分布が、指定された時間枠内で(おそらく1回以上)変化する可能性があることです。これが、最初の桁の基になる分布が変化する可能性を低減しながら、適切なサンプルサイズを確保するために、比較的小さな時間ウィンドウを使用することをお勧めする理由です。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.