タグ付けされた質問 「nonparametric」

このタグを使用して、ノンパラメトリックメソッドまたはパラメトリックメソッドの性質、またはその2つの違いについて尋ねます。ノンパラメトリック法は一般に、基礎となる分布に関するいくつかの仮定に依存していますが、パラメトリック法は、少数のパラメーターでデータを記述することを可能にする仮定を行います。

3
重いテールの分散プロセスが大幅に改善されたかどうかを判断する
変更によってプロセスが改善されたかどうかを確認するために、変更の前後のプロセスの処理時間を観察します。処理時間が短縮されると、プロセスは改善されました。処理時間の分布はファットテールであるため、平均に基づいて比較することは賢明ではありません。代わりに、変更後の処理時間が短くなる確率が50%を大幅に上回るかどうかを知りたいと思います。 ましょ変更と後の処理時間のためにランダムな変数である 1の前に。場合大きく上回っている、私は、プロセスが改善されていると思います。Y P (X &lt; Y )0.5XXXYYYP(X&lt;Y)P(X&lt;Y)P(X < Y)0.50.50.5 今、私が持っているの観測がのおよび観測がの。P(X &lt;Y)の観測確率は\ hat p = \ frac {1} {nm} \ sum_i \ sum_j 1_ {x_i &lt;y_j}です。x i X m y j Ynnnxixix_iXXXmmmyjyjy_jYYYP(X&lt;Y)P(X&lt;Y)P(X < Y)p^=1nm∑i∑j1xi&lt;yjp^=1nm∑i∑j1xi&lt;yj\hat p = \frac{1}{n m} \sum_i \sum_j 1_{x_i < y_j} 観測x_iおよびy_jが与えられた場合、P(X &lt;Y)について何が言えますか?P(X&lt;Y)P(X&lt;Y)P(X < Y)xixix_iyjyjy_j

2
パラメトリックサンプルサイズの計算とノンパラメトリック分析
私は、パラメトリックな方法を使用してサンプルサイズの計算を実行する医学文献の一般的な実践をサポートする特定の参照(テキストまたはジャーナル記事)を持っているかどうかに興味があります主要な試験結果の分析がノンパラメトリック法を使用して行われる場合。 例:主な結果は、特定の薬物を投与した後の嘔吐までの時間であり、平均値は20分(SD 6分)であることが知られていますが、顕著に右斜めに分布しています。サンプルサイズの計算は、次の式を使用して、上記の仮定で行われます。 、n (グループごと)= f(α 、β)× (2 σ2/( μ1- μ2)2)n(グループごと)=f(α、β)×(2σ2/(μ1−μ2)2)n(\text{per-group})=f(\alpha,\beta) \times (2\sigma^2 /(\mu_1 - \mu_2)^2 ) ここで、は、目的のαおよびβエラーに基づいて変化します。f(α 、β)f(α、β)f(\alpha, \beta)αα\alphaββ\beta ただし、分布が歪んでいるため、主要な結果の分析はランクに基づいて行われます(Mann Whitney U検定などのノンパラメトリック手法)。 このスキーマは、統計文献の著者によってサポートされていますか、またはノンパラメトリックのサンプルサイズの推定を実行する必要がありますか(およびこれらをどのように実行しますか)。 私の考えでは、計算を簡単にするために、上記の方法を実行してもかまいません。結局、サンプルサイズの推定値は、それだけです-いくつかの仮定を既に行う推定値-すべては、わずかに(または非常に!)不正確である可能性が高いです。ただし、他の人の考えを知りたい、特にこの推論のラインをサポートする参照があるかどうかを知りたいです。 援助に感謝します。

2
序数と連続確率変数の間の関連の強さのノンパラメトリック測定
私はそれを受け取ったのでここに問題を投げています。 2つの確率変数があります。1つは連続(Y)で、もう1つは離散で序数(X)として処理されます。クエリと共に受け取ったプロットの下に置きます。 データを送ってくれた人は、 XとYの関連性の強さを測定したいと考えています。データを生成したプロセスについての仮定が前に詰め込まれていないアイデアを探しています。これは、関係の強さをテストするための非パラメトリックな方法を見つけることではなく(ブートストラップなど)、それを測定する非パラメトリックな方法を見つけることに注意してください。 一方、データポイントが多いため、効率は問題になりません。

1
分布のない統計/方法とノンパラメトリック統計の違いは何ですか?
ウィキペディアから ノンパラメトリックの最初の意味は、特定の分布に属するデータに依存しない手法をカバーしています。これらには、特に次のものが含まれます。 データが所定の確率分布から抽出されるという仮定に依存しない、分布のない方法。そのため、パラメトリック統計の反対です。ノンパラメトリック統計モデル、推論、統計検定が含まれます。 ノンパラメトリック統計(パラメーターに依存しないサンプルの関数であると定義されるデータに対する統計の意味で)、その解釈はパラメーター化された分布に適合する母集団に依存しません。観測値のランクに基づく統計はそのような統計の一例であり、これらは多くのノンパラメトリックアプローチで中心的な役割を果たします。 分布のない方法とノンパラメトリック統計の2つのケースの違いはわかりません。彼らは両方とも、ある分布からのデータを想定していませんか?それらはどう違うのですか? よろしくお願いします!

3
「ノンパラメトリック統計モデル」の実例は何ですか?
私はここで統計モデルに関するWikipediaの記事を読んでいます。具体的には、「ノンパラメトリック統計モデル」の意味について、いくぶん困惑しています。 パラメータセットΘ が無限次元の場合、統計モデルはノンパラメトリックです。統計モデルは、有限次元と無限次元の両方のパラメーターを持つ場合、セミパラメトリックです。形式的に、dがΘの次元で、nがサンプルの数である場合、セミパラメトリックモデルとノンパラメトリックモデルの両方がd → ∞をn → ∞として持つ。もしD / N → 0 としてN → ∞、次にモデルはセミパラメトリックあります。それ以外の場合、モデルはノンパラメトリックです。ΘΘ\ThetadddΘΘ\Thetannnd→∞d→∞d \rightarrow \inftyn→∞n→∞n \rightarrow \inftyd/n→0d/n→0d/n \rightarrow 0n→∞n→∞n \rightarrow \infty モデルの次元(文字通り、パラメーターの数を意味します)が有限であれば、これはパラメトリックモデルです。 私にとって意味をなさないのは、無数のパラメーターを持つ統計モデルをどのようにして "ノンパラメトリック"と呼ぶことができるかです。さらに、それが事実であったとしても、実際には無限の次元があるのに、なぜ「非」なのでしょうか。最後に、私は機械学習のバックグラウンドから来ているので、この「ノンパラメトリック統計モデル」と「ノンパラメトリック機械学習モデル」との違いはありますか?最後に、そのような「ノンパラメトリック無限次元モデル」の具体的な例は何でしょうか?

1
ノンパラメトリック検定での複数比較
ノンパラメトリックで12の処理があるデータセットを使用しています。クラスカル・ウォリス検定を実行して、有意な値を得ました。次に、多重比較手順を実行して、どの処理が大幅に異なるかを確認します。このトピックに関しては多くの情報がありますが、この問題に特に対処するものは何も見つかりませんでした。何か案は?? ppp

1
フリードマン検定とウィルコクソン検定
教師あり機械学習分類アルゴリズムのパフォーマンスを評価しようとしています。観察は99の被験者の母集団から抽出された名義クラスに分類されます(当面は2ですが、これをマルチクラス問題に一般化したいと思います)。 アルゴリズムが入力クラス間で分類精度に有意差を示すかどうかは、私が回答したい質問の1つです。バイナリ分類のケースでは、対応するウィルコクソン検定を使用して、被験者間のクラス間の平均精度を比較しています(基礎となる分布が正規でないため)。この手順をマルチクラス問題に一般化するために、私はフリードマン検定を使用することを意図しました。 しかし、バイナリIVの場合には、これら二つの手順により得られたp値を得たウィルコクソン検定を用いて、激しく変わるp &lt; .001一方p = .25フリードマンテスト用。これは私がフリードマン検定の構造について根本的な誤解を持っていると私を信じさせます。 この場合、フリードマン検定を使用して、すべての被験者にわたって精度の繰り返し測定の結果を比較することは適切ではありませんか? これらの結果を取得するための私のRコード(subjectは、サブジェクトID、acc精度DV、およびexpected観測クラスIVです): &gt; head(subject.accuracy, n=10) subject expected acc 1 10 none 0.97826087 2 10 high 0.55319149 3 101 none 1.00000000 4 101 high 0.68085106 5 103 none 0.97826087 6 103 high 1.00000000 7 104 none 1.00000000 8 104 high 0.08510638 9 105 none …

4
ノンパラメトリック統計の紹介
私は過去2年間統計を研究しています。私が学んだほとんどすべては、パラメトリック統計についてです。ここで、ノンパラメトリック統計について詳しく知りたいと思います。誰もがこの領域にいくつかの簡潔な(おそらく読みやすい)紹介を提案できますか?



3
フリードマン検定後にネメニポストホック検定を正しく適用する方法
複数のデータセットで複数のアルゴリズムのパフォーマンスを比較しています。これらのパフォーマンス測定値が正規分布であることが保証されていないので、私はDemšar(2006)に基づいたNemenyi事後検定を伴うフリードマン検定を選択しました。 次に、Quad検定とそれに続くShaffer事後検定のような他の方法を提案する以外に、Nemenii検定を異なる方法で適用する別の論文を見つけました。 ネメニポストホックテストを正しく適用するにはどうすればよいですか? 1.スチューデント化範囲統計を使用しますか? Demšarの論文では、平均ランク差が付き臨界距離CDより大きい場合帰無仮説(2つのアルゴリズムのない性能差)を拒否すると言う CD=qαk(k+1)6N−−−−−−−√CD=qαk(k+1)6N CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} 「臨界値qαは、スチューデント化された範囲統計を2–√.2.\sqrt{2}.」 掘り下げた後、特定のアルファについてそれらの "重要な値"を検索できることがわかりました。たとえば、α = 0.05の表α=0.05α=0.05\alpha = 0.05で、無限の自由度(各表の下部)を確認できます。 2.または正規分布を使用していますか? どうすればいいのかと思ったとき、正規分布のみを使用していたため、別の論文で混乱を招きました。デムサルは12ページで同様のことを述べています: z=(Ri−Rj)k(k+1)6N−−−−−√z=(Ri−Rj)k(k+1)6N z = {{(R_i − R_j)}\over{\sqrt{{k(k +1)}\over{6N}}}} αα\alphaαα\alpha この段落で彼はすべてのアルゴリズムを制御アルゴリズムと比較することについて話していましたが、「複数の比較を補正するために調整する方法が異なる」という発言は、これがネメニ検定にも当てはまることを示唆しています。 zzzk(k−1)/2k(k−1)/2k(k-1)/2 ただし、これにより、帰無仮説を棄却するための完全に異なるランク差が生じます。そして今、私は行き詰まっており、どの方法を適用すべきか分かりません。私は正規分布を使用する方に強く傾いています。正規分布を使用する方が簡単で論理的だからです。また、テーブルで値を検索する必要もありません。特定の重要度の値に拘束されません。 繰り返しになりますが、私はスチューデント化された範囲統計を扱ったことがないため、理解できません。

5
ノンパラメトリック検定(例:順列検定)で相互作用効果をテストする方法は?
私は2つのカテゴリ変数/名義変数を持っています。それぞれが2つの異なる値のみを取ることができます(したがって、合計で4つの組み合わせがあります)。 値の各組み合わせには、数値のセットが付属しています。だから、私は4セットの数字を持っています。より具体的にするために、私は名目変数として、および従属数値「出力」として持っているmale / femaleとyoung / oldしましょうweight。 からmaleへの移行femaleによって平均体重が変化し、これらの変化が統計的に有意であることを知っています。だから、gender因子を計算することができます。同じことがage変数にも当てはまります。からyoungへの移行oldによって平均重量が変わることは知っていますage。対応する係数を計算できます。 さて、若い女性から古い男性への移行が、性別と年齢の要因の組み合わせよりも多いことがデータで証明されているかどうか、私が本当に確認したいのは、つまり、「2Dの影響」があること、つまり年齢と性別の影響が独立していないことをデータが証明しているかどうかを知りたいのです。たとえば、男性の場合は年齢が上がると体重が1.3増加し、女性の場合は対応する係数が1.1になる可能性があります。 もちろん、私は2つの言及された要因(男性の年齢係数と女性の年齢係数)を計算でき、それらは異なります。しかし、私はこの違いの統計的有意性を計算したいと思います。この違いはどれほど本物ですか。 できれば、ノンパラメトリック検定をしたいのですが。4つのセットを混合し、シャッフルし、再分割して計算することで、やりたいことを実行できますか?

1
観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか?
私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA(0,2,1)モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値(IO)TSAを検出しました。 この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか?Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか? これが私の値です。 VALUE &lt;- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
均一ビンと非均一ビンのヒストグラム
この質問では、均一ヒストグラムと非均一ヒストグラムの基本的な違いについて説明します。そして、この質問は、ヒストグラムがデータサンプルの抽出元の分布を表す度合いを(ある意味で)最適化する均一なヒストグラムのビンの数を選択するための経験則について説明します。 均一ヒストグラムと非均一ヒストグラムについて同じ種類の「最適性」の議論を見つけることができないようです。遠く離れた外れ値を持つクラスター化されたノンパラメトリック分布があるので、不均一なヒストグラムは直感的に理解しやすくなります。しかし、私は次の2つの質問のより正確な分析を見たいです。 均一ビンのヒストグラムは、非均一ビンのヒストグラムよりも優れているのはいつですか? 不均一なヒストグラムのビンの適切な数はいくつですか? 不均一なヒストグラムのために、私たちが取る最も単純なケースと考えています順序得られ、未知の分布からサンプルをN値、及びにそれらを分離するk個の各ビンを有するようにビンkはんnnんnnkkkkんkn\frac{k}{n}N ≡ CのKn≡ckn \equiv c kccc最高max\max私ii分分\mini + 1私+1i+1

2
ウィルコクソン符号順位検定に順序データまたは区間データは必要ですか?
複数のオンラインソースを見て、正直な答えが得られないようです。序数データが​​WSRTに使用するのに十分であるかどうかを誰かが私に明確にしてもらえますか?そうでない場合、サインテストは適切な代替ですか?最後に、これは大学での論文プロジェクトのためのものであり、参考文献や文学を回答に含めることができれば、どちらの方法でもテストの選択を正当化する必要があり、これまでのところWebサイト(私は参照できません!)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.