タグ付けされた質問 「nonparametric」

このタグを使用して、ノンパラメトリックメソッドまたはパラメトリックメソッドの性質、またはその2つの違いについて尋ねます。ノンパラメトリック法は一般に、基礎となる分布に関するいくつかの仮定に依存していますが、パラメトリック法は、少数のパラメーターでデータを記述することを可能にする仮定を行います。

7
t検定とノンパラメトリック検定のどちらを選択するか(例:小さいサンプルのウィルコクソン)
特定の仮説は、スチューデントのt検定(2サンプルの場合の不等分散のウェルチ補正を使用)、またはウィルコクソンのペアの符号付きランク検定、ウィルコクソン-マン-ホイットニーU検定などのノンパラメトリック検定を使用して検定できます。またはペアサインテスト。特にサンプルサイズが「小さい」場合、どのテストが最も適切であるかについて、原則的な決定を下すにはどうすればよいでしょうか。 入門教科書や講義ノートの多くは、正常にチェックされている「フローチャート」アプローチ与える( -のいずれかinadvisedly -によって、より広く正常試験によって、またはQQプロットまたは同様の)間で決定するのt検定またはノンパラメトリック検定。対応のない2標本t検定では、ウェルチの補正を適用するかどうかを決定するために、分散の均一性をさらにチェックする場合があります。このアプローチの1つの問題は、適用するテストの決定が観測データに依存する方法と、選択したテストのパフォーマンス(電力、タイプIエラー率)にどのように影響するかです。 もう1つの問題は、小さなデータセットで正規性を確認するのがいかに難しいかです。正式なテストでは消費電力が少ないため、違反は検出されない可能性がありますが、QQプロットでデータを目立たせるのは同様の問題です。たとえば、分布が混在しているが、その混合の1つのコンポーネントから観測値が得られなかった場合など、重大な違反であっても検出されない可能性があります。が大きい場合とは異なり、中央極限定理のセーフティネット、および検定統計量とt分布の漸近正規性に頼ることはできません。nnn これに対する原則的な応答の1つは「安全第一」です。小さなサンプルで正規性の仮定を確実に検証する方法がないため、ノンパラメトリック法に固執します。別の方法は、理論的に(たとえば、変数はいくつかのランダム成分の合計でCLTが適用される)または経験的に(たとえば、が大きい以前の研究では変数が正常であることを示唆する)、そのような根拠が存在する場合にのみt検定を使用する根拠を考慮することです。しかし、これは通常、おおよその正規性を正当化するだけであり、自由度が低い場合、t検定の無効化を回避するために必要な正常性の程度を判断するのは困難です。nnn t検定またはノンパラメトリック検定を選択するほとんどのガイドは、正規性の問題に焦点を当てています。しかし、小さなサンプルでもいくつかの副次的な問題が発生します。 「無関係なサンプル」または「対応のない」t検定を実行する場合、ウェルチ補正を使用するかどうか?一部の人々は、分散の等価性のために仮説検定を使用しますが、ここでは低電力になります。また、SDが(さまざまな基準で)「合理的に」近いかどうかをチェックします。母集団の分散が等しいと考える正当な理由がない限り、小さなサンプルに対して常にウェルチ補正を使用する方が安全ですか? メソッドの選択をパワーとロバスト性のトレードオフと見なす場合、ノンパラメトリックメソッドの漸近効率に関する主張は役に立ちません。「ウィルコクソン検定は、データが実際に正常であればt検定の約95%の能力を持ち、データがそうでなければはるかに強力であるため、ウィルコクソンを使用するだけ」という経験則が時々耳にされますが、 95%が大きなのみ適用される場合、これは小さなサンプルに対する欠陥のある推論です。nnn 変換されたデータが(十分に)正規分布に属しているかどうかを判断するのが難しいため、小さなサンプルでは、変換がデータに適切かどうかを評価することが非常に困難または不可能になる場合があります。QQプロットで、ログを取るとより合理的に見える非常に正に歪んだデータが明らかになった場合、ログデータにt検定を使用しても安全ですか?大きなサンプルではこれは非常に魅力的ですが、が小さいと、そもそも対数正規分布を期待する根拠がない限り、おそらく先延ばしになるでしょう。nnn ノンパラメトリックの仮定をチェックするのはどうですか? 一部の情報源は、ウィルコクソン検定を適用する前に対称分布を検証することをお勧めします(確率的優位ではなく位置の検定として扱う)。そもそもノンパラメトリック検定を適用する理由が「安全第一」というマントラへの盲目的な従順である場合、小さなサンプルから歪度を評価することの難しさは、明らかに、対符号検定のより低い検出力につながります。 。 これらの小さなサンプルの問題を念頭に置いて、tテストとノンパラメトリックテストを決定する際に実行する適切な(できれば引用可能な)手順はありますか? いくつかの優れた回答がありましたが、順列テストなど、ランクテストに代わる他の方法を検討した回答も歓迎します。

14
なぜロバスト(および耐性)統計が従来の手法に取って代わらないのですか?
データを使用してビジネス上の問題を解決する場合、従来の統計を裏付ける少なくとも1つの重要な仮定が無効であることが一般的です。ほとんどの場合、誰もこれらの仮定を確認する必要がないため、実際に知ることはありません。 たとえば、一般的なWebメトリックの多くが(正規分布と比較して)「ロングテール」であることは、今では十分に文書化されており、当然のことと考えています。別の例、オンラインコミュニティは、数千人のメンバーがいるコミュニティであっても、これらのコミュニティの多くへの貢献/参加の圧倒的最大のシェアは、「スーパー貢献者」のごくわずかなグループに起因することを十分に文書化しています。(たとえば、数か月前、SO APIがベータ版で利用可能になった直後に、StackOverflowメンバーはAPIを通じて収集したデータから簡単な分析を公開しました;彼の結論-SOメンバーの1%未満がほとんどを占めていますSOのアクティビティ (おそらく質問をして回答する)、残りの1〜2%が残り、圧倒的多数のメンバーが何もしません)。 この種の分布は、例外よりも規則の方が多い場合が多いが、しばしばべき乗密度関数でモデル化するのが最適です。これらのタイプの分布では、中心極限定理でさえ適用するのに問題があります。 このようにアナリストが関心を寄せる人口が豊富であり、古典的なモデルがこれらのデータに対して明らかに不十分に機能し、堅牢で耐性のある方法がしばらく(少なくとも20年は信じられている)より頻繁に使用されていませんか?(なぜ私も疑問に思って、私はより頻繁に利用していないが、それは本当にのための問題ではないのですCrossValidated。) はい、私は堅牢な統計に完全に専念する教科書の章があることを知っており、(いくつかの)Rパッケージがあることを知っています(robustbaseは私が使い慣れているものです)。 そして、これらの技術の明らかな利点を考えると、それらは仕事のためのより優れたツールであることがよくあります。なぜ頻繁に使用されないのですか?古典的な類似物と比較して、はるかに頻繁に(おそらく推定的に)使用される堅牢な(および耐性のある)統計情報を期待するべきではありませんか? 私が聞いた唯一の実質的な(すなわち技術的な)説明は、ロバストなテクニック(抵抗性メソッドの場合も同様)が古典的なテクニックのパワー/感度に欠けているということです。これが実際にいくつかの場合に当てはまるかどうかはわかりませんが、多くの場合に当てはまらないことは知っています。 先取りの最後の言葉:はい、私はこの質問に明確に正しい答えが一つもないことを知っています。このサイトでの質問はほとんどありません。さらに、この質問は本物の質問です。視点を進めることは口実ではありません。ここには視点がありません。単なる洞察に満ちた答えを期待している質問です。


15
なぜパラメトリック統計がノンパラメトリックよりも優先されるのでしょうか?
誰かが仮説検定や回帰分析のためにノンパラメトリック統計手法よりもパラメトリックを選択する理由を説明できますか? 私の考えでは、それはあなたがそれを濡らさないかもしれないので、ラフティングに行き、非防水時計を選ぶようなものです。あらゆる機会に機能するツールを使用してみませんか?

6
Rのどの置換テストの実装をt検定(ペアおよび非ペア)の代わりに使用しますか?
t検定を使用して分析した実験のデータがあります。従属変数は間隔スケーリングされ、データはペア化されていない(つまり、2つのグループ)か、ペアリングされています(つまり、被験者内)。例(被験者内): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, 99, 99.5, 89.5, 99.5, 100, 99.5) y1 <- c(99, 99.5, 99.5, 0, 50, 100, 99.5, 99.5, 0, 99.5, 99.5, 90, 80, 0, 99, 0, 74.5, 0, 100, 49.5) ただし、データは正常ではないため、あるレビューアがt検定以外の何かを使用するように依頼しました。ただし、簡単にわかるように、データは正規分布しているだけでなく、条件間で分布が等しくありません。 したがって、通常のノンパラメトリック検定であるMann-Whitney-U-Test(unpaired)およびWilcoxon Test(paired)は、条件間で均等に分布する必要があるため使用できません。したがって、いくつかのリサンプリングまたは置換テストが最適であると判断しました。 今、私はt検定の置換ベースの同等物のR実装、またはデータをどうするかについての他のアドバイスを探しています。 私にこれを行うことができるいくつかのRパッケージ(コイン、パーマ、exactRankTestなど)があることは知っていますが、どれを選ぶべきかわかりません。したがって、これらのテストを使用した経験のある人がキックスタートを提供できれば、それは非常にクールです。 …

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
すべてのモデルは役に立ちませんか?正確なモデルは可能ですか?または有用ですか?
この質問は、1か月以上にわたって私の頭の中で悩まされてきました。Amstat Newsの 2015年2月号には、バークレー教授Mark van der Laanによる不正確なモデルの使用をforる記事が掲載されています。彼は、モデルを使用することで、統計は科学ではなく芸術になると述べています。彼によると、いつでも「正確なモデル」を使用でき、そうしないと「厳密性の欠如...データサイエンスにおける私たちの表現が取り残されてしまうのではないか」と心配しています。 私たちは疎外される危険にさらされていることに同意しますが、脅威は通常、おおよその方法を使用していないが、実際にはその方法がはるかに少ないと主張する人(ファンデルラーン教授のように聞こえます)慎重に適用された統計モデルよりも厳密です。 Van der Laan教授は、Boxのよく使われる引用を繰り返している人々に対して「すべてのモデルは間違っているが、一部は有用である」と軽ratherしていると言ってもいいと思います。基本的に、私がそれを読んだとき、彼はすべてのモデルが間違っていて、すべてが役に立たないと言っています。今、私はバークレーの教授に反対するだろうか?一方、私たちの分野の本当の巨人の一人の意見をそれほど軽んじて却下するのは誰ですか? 詳述すると、ファンデルラーン博士は、「すべてのモデルが間違っていると述べるのは完全にナンセンスです。たとえば、仮定を行わない統計モデルは常に正しい」と述べています。「しかし、多くの場合、私たちはそれよりもはるかに優れた結果を得ることができます。データは、独立した同一の実験の結果であることがわかります。非常に狭いランダムサンプリングまたは制御された実験設定を除いて、どのようにそれを知ることができるかわかりません。著者は、「機械学習/データ適応推定の最新技術、因果推論、打ち切りデータ、効率性、経験的経験のすべてを統合する、目標最尤学習と目標最小損失ベース学習の研究を指摘しています。正式な統計的推論を提供しながら、プロセス理論。」nnn 私が同意する声明もいくつかあります。彼は、私たちの仕事、統計学者としての役割、そして科学協力者を真剣に受け止める必要があると言います。聞いて聞いて!科学的な質問に答えることが適切かどうか、またはデータに適合するかどうかを慎重に検討せずに、人々が日常的にロジスティック回帰モデルなどを使用する場合、それは確かに悪いニュースです。そして、私はこのフォーラムに投稿された質問でそのような虐待の多くを見ています。しかし、パラメトリックなモデルであっても、不正確なモデルの効果的で価値のある使用法も見ています。そして、彼の言うこととは反対に、私はめったに「別のロジスティック回帰モデルによって死に退屈する」ことはありません。これが私の素朴さだと思います。 だからここに私の質問があります: まったく仮定を行わないモデルを使用して、どのような有用な統計的推論を行うことができますか? 対象の最尤法を使用した重要な実際のデータを使用したケーススタディはありますか?これらの方法は広く使用され、受け入れられていますか? すべての不正確なモデルは本当に役に立たないのですか? あなたが些細な場合以外の正確なモデルを持っていることを知ることは可能ですか? これがあまりにも意見に基づいているため、トピックから外れている場合、どこで議論できますか?ファン・デル・ラーン博士の記事は間違いなく議論が必要だからです。

3
ブートストラップと置換仮説のテスト
ブートストラップ、置換テスト、ジャックナイフなど、実際によく使用されるいくつかの一般的なリサンプリング手法があります。たとえば、Philip I Good(2010)Permutation、Parametric、Bootstrap Tests仮説の 私の質問は、どのリサンプリング手法がより人気があり、実装しやすいのですか?ブートストラップまたは置換テスト?

4
決定木の弱点は何ですか?
決定木は非常に理解しやすい機械学習方法のようです。一度作成されると、人間が簡単に検査できるため、アプリケーションによっては大きな利点があります。 デシジョンツリーの実際の弱点は何ですか?

2
歪んだ分布の平均に対して信頼できるノンパラメトリックな信頼区間はありますか?
対数正規分布などの非常に歪んだ分布では、正確なブートストラップ信頼区間が得られません。これは、Rでどのブートストラップ方法を試しても、左右のテール領域が理想的な0.025から遠く離れていることを示す例です。 require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- c('basic', 'perc', 'norm', 'bca', 'stud') mul <- 0; sdl <- 1.65 # on log scale dist <- c('normal', 'lognormal')[2] switch(dist, normal = {g <- function(x) x; mu <- mul}, lognormal = {g <- exp; mu <- …

1
GAMのテンソル製品の相互作用の背後にある直観(RのMGCVパッケージ)
一般化された加法モデルは 、たとえばモデル です。関数は滑らかで、推定されます。通常、罰せられたスプラインによって。MGCVはRのパッケージであり、著者(Simon Wood)はRの例を含む彼のパッケージに関する本を書いています。ルパート等 (2003)同じもののより単純なバージョンについて、はるかにアクセスしやすい本を書いてください。 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 私の質問は、これらの種類のモデル内の相互作用についてです。次のようなことをしたい場合: OLS土地にいた場合(は単なるベータです) 、解釈に問題はありません。ペナルティスプラインを介して推定する場合、加算コンテキストでの解釈にも問題はありません。 y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 ただし、GAMのMGCVパッケージには、「テンソル積平滑化」と呼ばれるものがあります。私は「テンソル製品」をグーグルで検索し、見つけた説明を読もうとするとすぐに目が輝いた。私は十分に頭が良くないか、数学があまりうまく説明されていないか、またはその両方です。 コーディングの代わりに normal = gam(y~s(x1)+s(x2)+s(x1*x2)) テンソル製品は同じ(?) what = gam(y~te(x1,x2)) 私がする時 plot(what) または vis.gam(what) 本当にクールな出力が得られます。しかし、私はブラックボックス内で何が起こっているのte()か、また前述のクールな出力をどのように解釈するのか分かりません。先日、セミナーを開催しているという悪夢に見舞われました。みんなにクールなグラフを見せて、それが何を意味するのかと尋ねましたが、知りませんでした。それから私は服を着ていないことを発見しました。 ここのボンネットの下で何が起こっているのかについて少しのメカニズムと直感を与えることで、誰も私と後世の両方を助けることができますか?理想的には、通常の加法相互作用の場合とテンソルの場合の違いについて少し言ってください。数学に進む前に、すべてを簡単な英語で言うことのボーナスポイント。

3
R:データセットにNaNがないにもかかわらず、「Forest function call」エラーでNaN / Infをスローするランダムフォレスト[非公開]
キャレットを使用して、データセットに対してクロス検証されたランダムフォレストを実行しています。Y変数は要因です。データセットにNaN、Inf、またはNAはありません。ただし、ランダムフォレストを実行すると、 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs introduced by coercion 3: In data.matrix(x) : NAs introduced by …

3
経験的尤度の例示的な用途は何ですか?
オーウェンの経験的可能性について聞いたことがありますが、最近まで興味のある論文で出くわすまで気にしませんでした(Mengersen et al。2012)。 それを理解するための努力の中で、観測されたデータの尤度は 、ここでおよびです。Σ I P I = 1 P I > 0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 しかし、私はこの表現を観察に関する推論を行うためにどのように使用できるかと結びつける精神的な飛躍をすることができませんでした。おそらく、モデルのパラメータについての尤度を考えることにあまりにも根ざしていますか? とにかく、私は概念を内在化するのに役立つ経験的可能性を採用しているいくつかの論文をGoogle Scholarで検索しています... 明らかに、経験的可能性に関するアートオーウェンの本がありますが、Googleブックスはすべてのおいしい部分を省き、私はまだ図書館間貸し出しの遅いプロセスにいます。 それまでの間、誰かが経験的尤度の前提とそれがどのように採用されているかを明確に示す論文や文書を親切に私に指し示すことができますか?EL自体の説明も歓迎します!

3
ガウスプロセスモデルがノンパラメトリックと呼ばれるのはなぜですか?
私は少し混乱しています。ガウス過程がノンパラメトリックモデルと呼ばれるのはなぜですか? 関数値またはそのサブセットは、カーネル関数として与えられた平均0と共分散関数を持つガウス事前分布を持っていると仮定しています。これらのカーネル関数自体には、いくつかのパラメーター(ハイパーパラメーターなど)があります。 それでは、なぜそれらはノンパラメトリックモデルと呼ばれているのでしょうか?

2
ベイジアン手法が過剰適合しないのは本当ですか?
ベイジアン手法が過剰適合しないのは本当ですか?(この主張をするいくつかの論文やチュートリアルを見ました) たとえば、ガウス過程をMNIST(手書き数字分類)に適用し、単一のサンプルのみを表示する場合、その単一のサンプルとは異なる入力であっても、差は小さいものの前の分布に戻りますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.