タグ付けされた質問 「nonparametric」

このタグを使用して、ノンパラメトリックメソッドまたはパラメトリックメソッドの性質、またはその2つの違いについて尋ねます。ノンパラメトリック法は一般に、基礎となる分布に関するいくつかの仮定に依存していますが、パラメトリック法は、少数のパラメーターでデータを記述することを可能にする仮定を行います。

1
マンホイットニー検定の帰無仮説とは何ですか?
してみましょう分布1からランダムな値であるとしましょう、私はマンホイットニー検定のための帰無仮説があったと思っ分布2からのランダム値である。X1X1X_1X2X2X_2P(X1&lt;X2)=P(X2&lt;X1)P(X1&lt;X2)=P(X2&lt;X1)P(X_1 < X_2) = P(X_2 < X_1) 平均と分散が等しく、正規分布のデータに対してマンホイットニー検定のシミュレーションを実行すると、に非常に近いタイプIのエラー率が得られます。ただし、分散を不均等にする(ただし、平均は等しくする)と、であるため、帰無仮説が棄却されるシミュレーションの割合はしない0.05より大きくなります。まだ保持されます。これは私が使用したときに起こるRに関係なく、私が持っているかどうかの、、、または。α=0.05α=0.05\alpha=0.05P(X1&lt;X2)=P(X2&lt;X1)P(X1&lt;X2)=P(X2&lt;X1)P(X_1 < X_2) = P(X_2 < X_1)wilcox.testexact=TRUEexact=FALSE, correct=TRUEexact=FALSE, correct=FALSE 帰無仮説は上で書いたものとは違うのですか、それとも、分散が等しくない場合、テストがタイプIエラーの点で不正確であるというだけですか?

2
RにおけるWilcoxon-Mann-Whitneyの臨界値
Rを使用してマンホイットニーUの臨界値を見つけようとすると、値は常に1+臨界値であることに気づきました。たとえば、場合、(両側)臨界値は8ですが、α = .05 、n = 12 、m = 8の場合、(両側)臨界値値は22(表を確認)ですが、次のようになります。α=.05,n=10,m=5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5α=.05,n=12,m=8α=.05,n=12,m=8\alpha=.05, n=12, m=8 &gt; qwilcox(.05/2,10,5) [1] 9 &gt; qwilcox(.05/2,12,8) [1] 23 もちろん、私は何かを考えていませんが...なぜ誰かが私に理由を説明できますか?

2
ノンパラメトリック回帰の特徴選択の最良の方法
初心者向けの質問はこちら。私は現在、Rのnpパッケージを使用してノンパラメトリック回帰を実行しています。7つの機能と、ブルートフォースアプローチを使用して、ベスト3を特定しました。 私の質問は、ノンパラメトリック回帰の特徴選択の現在の最良の方法は何ですか?そして、パッケージがメソッドを実装している場合。ありがとうございました。

1
ガウス過程/ディリクレ過程などの確率過程には密度がありますか?そうでない場合、ベイズのルールをそれらにどのように適用できますか?
ディリクレポセスとガウス過程は、しばしば「関数の分布」または「分布の分布」と呼ばれます。その場合、GPの下での関数の密度について意味のある話をすることができますか?つまり、ガウス過程またはディリクレ過程は、確率密度の概念を持っていますか? そうでない場合、関数の事前確率の概念が明確に定義されていない場合、ベイズの規則を使用して事後から前に進むにはどうすればよいでしょうか。MAPやEAPの推定値などは、ベイジアンノンパラメトリックの世界に存在しますか?どうもありがとう。

3
データの確率分布を推定するためのさまざまなノンパラメトリック手法
データがあり、滑らかな曲線を当てはめようとしていました。しかし、私はそれ、または特定の分布に対して、あまりにも多くの以前の信念または強すぎる先入観(私の質問の残りの部分によって暗示されるものを除く)を強制したくありません。 私はそれを滑らかな曲線に適合させたかっただけです(または、それが由来している可能性のある確率分布を適切に推定しています)。これを行うために私が知っている唯一の方法は、カーネル密度推定(KDE)です。人々がそのようなことを推定する他の方法を知っているのだろうかと思っていました。私はそれらのリストが欲しかっただけであり、そこから自分の調査を行って、使用したいものを見つけることができます。 リンクや適切な参照(または適切な直感)を提供することは常に歓迎されます(推奨されます)。

4
Rの離散時間イベント履歴(生存)モデル
Rに離散時間モデルを適合させようとしていますが、その方法がわかりません。 従属変数を時間監視ごとに1つずつ異なる行に編成し、glm関数をlogitまたはcloglogリンクで使用できることを読みました。この意味で、私は3つの列があります:ID、Event(各time-obsで1または0)およびTime Elapsed(観測の開始以降)、および他の共変量。 モデルに合うようにコードを書くにはどうすればよいですか?従属変数はどれですか?Event従属変数として使用できTime Elapsed、共変量に含めることができると思います。しかし、どうなりIDますか?必要ですか? ありがとう。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
パラメトリック推定に対するカーネル密度推定の利点
パラメトリック推定よりもカーネル密度推定を選択する特別な理由はありますか?私は自分のデータに分布を合わせる方法を学んでいました。この質問が私に来ました。 私のデータサイズは比較的大きく、7500データポイントです。オートクレーム。私の目標は、分布(ノンパラメトリックまたはパラメトリック)に適合させることです。次に、それを使用して自動請求データをシミュレートし、VaRまたはTVaRを計算します。 ログを使用してデータを変換し、比較的正常にした。正規、対数正規、ガンマ、tなどを含む多くの分布をフィッティングしました。AICと対数尤度を使用して、最適なフィッティングを特定しました。しかし、このフィッティングはすべてKSテストに合格しませんでした(p値はe-10で非常に小さい)。 そのため、どのような状況でKDEに切り替えるべきかを尋ねました。

2
カーネル回帰はガウスプロセス回帰に似ていますか?
以前は、データを平滑化するためにNadaraya-Watsonカーネル回帰を使用しました。最近、ガウスプロセス回帰に遭遇しました。 一応、彼らは関連していないようです。しかし、私が知らないもっと深いつながりがあるのではないかと思っています。Nadaraya-Watsonカーネル回帰はGPRの特別なケースですか?

1
プロテオミクスの力?
多くの場合、助成金は、提案されたサンプルサイズをサポートするために電力分析を必要とします。プロテオミクス(およびほとんどの-omics)では、数十のサンプル(たぶん100ですが、ありそうもない)で測定された数百から数千の機能/変数があります。また、これらの測定単位の一部(たとえば、タンパク質のスペクトル数)は正規分布していないことがわかっているため、分析にはノンパラメトリック検定を使用します。単一の測定とt検定を仮定して決定されたサンプルサイズの検出力を見てきましたが、これは完全に正しいとは思いません。特にスペクトルカウントのもう1つの問題は、100のフィーチャのそれぞれが非常に異なるスケールであり、エラーが大きく異なることです(値が大きいほどエラーが少なくなります)。[この問題は、限界倍数変更モデル、Mutch et al。、2002でうまく説明されています] FDRのいくつかの仮定と許容可能な倍率変化を考慮して、提案されたサンプルサイズの検出力を決定する適切な方法は何ですか?ここでツールを使用して、次のことを判断できました。 300遺伝子 3誤検知 1.4倍の違い 0.8の望ましい出力 0.7 stdev グループあたり49のサンプルサイズが必要です。 これは、50v50の設計を提案していること、1.4倍の変更がかなり受け入れられていること、1%のFDRが適切であること、そしてこの実験ではおそらく300のタンパク質を測定することを知っているので便利でした。この検出力またはサンプルサイズの計算の問題は引き続き発生するため、参照アプローチを導入するとよいでしょう。 編集: 私は同僚が、Wald検定が後に続く尤度関数を使用して負の二項分布からスペクトルカウントをモデル化することを提案した場所を読みました。基本的には、予備データを使用してタンパク質の分散の推定値を取得し、各分位点についてグループ間の検出可能な倍数変化を計算します。FDR(アルファ)入力もあります。そのため、80%を超える検出力とサンプルサイズを設定すると、25%の最小分散、50%の小さい分散、25%の最大分散の検出可能な倍数変化を決定できます。問題は、彼らがどうやってこれをしたのか私が知らないことです。このアプローチを共有することで、考えられる答えがだれにでも役立つかどうかはわかりません。

2
ノンパラメトリックベイジアンモデルの入門テキスト?
私はこのトピックに頭を抱えたいのですが、ホワイトペーパーやチュートリアルから学ぶことは、通常は教科書で埋められる多くのギャップがあるため、困難です。 もしそれが重要であれば、私は博士号を取得したときと同様に、比較的強い数学的背景を持っています。応用数学(より正確にはCFD)。

2
ノンパラメトリック統計の本
ノンパラメトリック統計の良い本は何でしょう。導入だけでなく上級レベル。また、参照用ではなく、学習用に使用できるものも探しています。 特に、非パラメーターメソッド、非パラメーター推論、非パラメーターを評価する方法(KSテスト、テストなど)、ブートストラップなどの背後にある基本を含むことができる本を探しています。ttt

4
ノンパラメトリック回帰を使用するのはいつですか?
SASでPROC GLMを使用して、次の形式の回帰方程式を当てはめています Y= b0+ b1バツ1+ b2バツ2+ b3バツ3+ b4tY=b0+b1バツ1+b2バツ2+b3バツ3+b4t Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t 結果の赤残差のQQプロットは、正規性からの逸脱を示します。変換は、残差を正規化するのに役立ちません。YYY この時点で、PROC LOESSなどのノンパラメトリックメソッドに安全に切り替えられますか? 私はすでにPROC LOESSを使用しており、PROC GLMよりフィット感が良く見えます。しかし、私はノンパラメトリック回帰についてはあまり知識がありません。パラメトリック回帰よりもノンパラメトリック回帰をいつ選択するかわかりません。 誰かがこれを手伝ってくれる? 先に進み、別の質問を追加します。以下は、モデル内の変数の説明です。 時々、負の予測コストを受け取ります。これは意味がありません。この問題にどのように対処できますか?Y= 医療費バツ1= 注射回数バツ2= 手術の数バツ3= 理学療法の数t = 時間Y=医療費バツ1=注射回数バツ2=手術の数バツ3=理学療法の数t=時間 Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of …

1
ランク相関にARMAに相当するものはありますか?
ARMA / ARIMAモデルがうまく機能しない、非常に非線形なデータを見ています。しかし、いくつかの自己相関があり、非線形自己相関の方が良い結果が得られると思います。 1 /ランク相関のPACFに相当するものはありますか?(Rで?) 2 /非線形/ランク相関(R内)のARMAモデルに相当するものはありますか?

3
ウィルコクソン検定を実行する前にジッターすることは間違っていますか?
スクリプトをwilcox.test記述してを使用してデータをテストしましたが、結果が得られたとき、すべてのp値は1に等しくなりました。データをテストする前にジッターを使用できることをいくつかのWebサイトで読みました(前述の関係を避けるため)。私はこれをしました、そして今、私は許容できる結果を持っています。これを行うのは間違っていますか? test&lt;- function(column,datacol){ library(ggplot2) t=read.table("data.txt", stringsAsFactors=FALSE) uni=unique(c(t$V9)) for (xp in uni) { for(yp in uni) { testx &lt;- subset(t, V9==xp) testy &lt;- subset(t, V9==yp) zz &lt;- wilcox.test(testx[[datacol]],jitter(testy[[datacol]])) p.value &lt;- zz$p.value } } } これはの出力です dput(head(t)) structure(list(V1 = c(0.268912, 0.314681, 0.347078, 0.286945, 0.39562, 0.282182), V2 = c(0.158921, 0.210526, 0.262024, 0.322006, 0.133417, …
9 r  nonparametric  ties 

4
多元ノンパラメトリック分散分析
5つの因子(1つは別の因子にネストされている)と数値応答を含む要因計画を分析する必要があります。ノンパラメトリックANOVAを実行したいのですが、もちろんクラスカルウォリステストもフリードマンテストも使用できません(私は測定を複製しました)。Rに役立つコマンドまたはコードはありますか?ありがとうございました!ステファニア

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.