タグ付けされた質問 「nonparametric」

このタグを使用して、ノンパラメトリックメソッドまたはパラメトリックメソッドの性質、またはその2つの違いについて尋ねます。ノンパラメトリック法は一般に、基礎となる分布に関するいくつかの仮定に依存していますが、パラメトリック法は、少数のパラメーターでデータを記述することを可能にする仮定を行います。

1
導関数のカーネル密度推定量に最適な帯域幅はありますか?
カーネル密度推定器を使用して、一連の観測に基づいて密度関数を推定する必要があります。同じ観測セットに基づいて、カーネル密度推定器の導関数を使用して密度の1次および2次導関数を推定する必要もあります。帯域幅は確かに最終結果に大きな影響を与えます。 まず、KDE帯域幅を提供するR関数がいくつかあることを知っています。どちらがより好ましいかわかりません。誰もがKDE帯域幅のためにこれらのR関数の1つを推奨できますか? 第二に、KDEの導関数について、同じ帯域幅を選択する必要がありますか?

3
比較のためにバイオリンのプロットを拡大縮小する方法は?
私はバイオリンのプロットを描画しようとしており、グループ間でそれらをスケーリングするための承認されたベストプラクティスがあるかどうか疑問に思っています。R mtcarsデータセットを使用して試した3つのオプションを次に示します(1973年のMotor Trend Cars、こちらをご覧ください)。 等しい幅 どのように思わ原紙は *行い、何Rはvioplotない(例)。形状の比較に適しています。 等しい面積 各プロットは確率プロットであるため、それぞれの面積はある座標空間で1.0に等しくなければなりません。各グループ内の密度を比較するのに適していますが、プロットがオーバーレイされている場合はより適切であると思われます。 加重エリア 等しい面積に似ていますが、観測数で重み付けされています。これらの車の数が少ないため、6気筒は比較的薄くなります。グループ間で密度を比較するのに適しています。 *バイオリンプロット:ボックスプロット-密度トレースSynergis(DOI:10.2307 / 2685478)

1
ノンパラメトリック統計でなぜ同順位が難しいのですか?
私のノンパラメトリックテキストPractical Nonparametric Statisticsでは、期待値、分散、検定統計量などについて明確な式が示されることがよくありますが、これは関係を無視した場合にのみ機能するという警告が含まれています。Mann-Whitney U統計を計算するときは、どちらが大きいかを比較するときに、タイペアを捨てることをお勧めします。 どちらのグループも他のグループよりも大きいため、関係はどの人口が大きいかについてはあまり教えてくれません(それが私たちが興味を持っているのであれば)。しかし、漸近分布を開発する場合、それは問題ではないようです。 なぜそれはいくつかのノンパラメトリック手順での関係を扱うのにそんなに困惑しているのですか?単にそれらを捨てるのではなく、タイから有用な情報を抽出する方法はありますか? 編集:@whuberのコメントに関して、ソースを再度確認しました。一部の手順では、関連付けられた値を完全に削除するのではなく、ランクの平均を使用しています。これは、情報の保持に関しては賢明なことのように思えますが、厳密さを欠いているようにも思えます。しかし、疑問の精神は今でも残っています。

3
パラメトリックモデルとノンパラメトリックモデルの違いは何ですか?
このリンクのパラメトリックモデルとノンパラメトリックモデルを読み、別の質問のコメントに回答した後、ノンパラメトリックモデルの定義と混同されています。 元々、「パラメトリックvsノンパラメトリック」とは、モデルに分布仮定があるかどうかを意味すると思っていました(パラメトリックまたはノンパラメトリック仮説検定と同様)。しかし、どちらのリソースも、「パラメトリックvsノンパラメトリック」は、モデルのパラメーターの数がデータマトリックスの行の数に依存しているかどうかによって判断できます。 カーネル密度推定(ノンパラメトリック)の場合、このような定義を適用できます。しかし、この定義の下では、モデル内のパラメーターの数はデータマトリックスの行数ではなくニューラルネットワーク構造に依存しているため、ニューラルネットワークをノンパラメトリックモデルにするにはどうすればよいでしょうか。 パラメトリックモデルとノンパラメトリックモデルの違いは何ですか?

3
Wilcoxonテストの漸近的な相対的効率が、正規分布データのスチューデントのt検定と比較されるのはなぜですか?
Wilcoxonの符号付きランク検定の漸近相対効率(ARE)は、データが正規分布の母集団から引き出される場合、スチューデントのt検定と比較してことはよく知られています。これは、基本的な1サンプルテストと2つの独立したサンプルのバリアント(Wilcoxon-Mann-Whitney U)の両方に当てはまります。また、通常のデータのANOVA Fテストと比較したクラスカルワリステストのAREです。3π≈0.9553π≈0.955\frac{3}{\pi} \approx 0.955 この驚くべき(私にとっては、「最も予期しない外観のππ\pi 1つ」)と驚くほど単純な結果は、洞察力に富んだ、驚くべき、または単純な証拠を持っていますか?

1
パラメトリックブートストラップを使用する理由
現在、パラメトリックブートストラップに関するいくつかの問題を回避しようとしています。ほとんどのことはおそらくささいなことですが、私はまだ何かを見逃しているかもしれません。 パラメトリックブートストラップ手順を使用してデータの信頼区間を取得するとします。 そのため、私はこのサンプルを入手し、その正規分布を仮定しています。私はその後、分散推定ますVと平均値Mを、私の分布推定値取得Pだけ明らかにされ、N (M、Vを)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) その分布からサンプリングする代わりに、分位数を分析的に計算して実行することができます。 a)結論:この些細なケースでは、パラメトリックブートストラップは正規分布の仮定で物事を計算するのと同じでしょうか? 理論的には、計算を処理できる限り、すべてのパラメトリックブートストラップモデルに当てはまります。 b)結論:特定の分布の仮定を使用すると、ノンパラメトリックブートストラップよりもパラメトリックブートストラップの精度が向上します(もちろん正しい場合)。しかし、それ以外は、分析計算を処理できず、それから抜け出す方法をシミュレートしようとするためです。 c)計算が「通常」何らかの近似を使用して行われる場合にも使用します。これにより、おそらくより正確になります...? 私にとって、(ノンパラメトリック)ブートストラップの利点は、ディストリビューションを想定する必要がないという事実にあるように見えました。パラメトリックブートストラップの場合、その利点は失われますか、それとも私が見逃したものがあり、パラメトリックブートストラップが上記のものよりも利点があるのでしょうか。

3
密度推定はどこで役立ちますか?
少し簡潔な数学を経て、カーネル密度の推定について少し直感が得られたと思います。しかし、3つを超える変数の多変量密度を推定することは、その推定量の統計的性質の観点から、良いアイデアではないかもしれないことも認識しています。 それでは、たとえば、ノンパラメトリック法を使用して、二変量密度をどのような状況で推定する必要がありますか?3つ以上の変数の推定を心配するのに十分な価値がありますか? 多変量密度の推定の適用に関するいくつかの有用なリンクを指すことができれば、それは素晴らしいことです。


2
多くのセルの周波数が5未満の場合のカイ2乗検定の適用性
ピアのサポート(独立変数)と仕事の満足度(従属変数)の関連を見つけるために、カイ2乗検定を適用したいと思います。ピアのサポートは、サポートの範囲に応じて4つのグループに分類されます。1=非常に少ない、2 =ある程度、3 =非常に大きい、4 =非常に大きい。仕事の満足度は2つのカテゴリに分類されます。0=満足していない、1 =満足しています。 SPSSの出力では、37.5パーセントのセル周波数が5未満であることが示されています。私のサンプルサイズは101であり、独立変数のカテゴリをより小さな数に減らしたくありません。この状況で、この関連付けをテストするために適用できる他のテストはありますか?

1
すべての可能なペアを使用して正規混合分布を作成する密度推定法の名前は何ですか?
私はちょうど一次元の密度推定値を作成するきちんとした(必ずしも良いとは限りません)方法を考えました、私の質問は: この密度推定方法には名前がありますか?そうでない場合、それは文献の他の方法の特殊なケースですか? ここでの方法である:我々は、ベクターが有するX=[x1,x2,...,xn]X=[x1,x2,...,xn]X = [x_1,x_2,...,x_n]は、推定したい未知の分布から引き出されたと仮定します。これを行う方法は、すべての可能な値のペアを取得し、各ペアに対してを最尤法を使用して正規分布に適合させることです。結果の密度推定値は、結果のすべての法線で構成される混合分布になり、各法線には同じ重みが与えられます。XXX[xi,xj]i≠j[xi,xj]i≠j[x_i,x_j]_{i \neq j} 次の図は、ベクトルこのメソッドを使用する方法を示しています。ここで、円はデータポイント、色付きの法線は可能な各ペアを使用して推定された最尤分布、太い黒線は結果の密度推定(混合分布)を示しています。[−1.3,0.15,0.73,1.4][−1.3,0.15,0.73,1.4][-1.3,0.15,0.73,1.4] ところで、結果の混合分布からサンプルを引き出すRのメソッドを実装するのは本当に簡単です。 # Generating some "data" x <- rnorm(30) # Drawing from the density estimate using the method described above. density_estimate_sample <- replicate(9999, { pair <- sample(x, size = 2) rnorm(1, mean(pair), sd(pair)) }) # Plotting the density estimate compared with # the …

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
パラメトリックテストでnullが拒否されない場合、ノンパラメトリックテストでも同じことが行われますか?
ノンパラメトリックテストがそのパラメトリック代替よりもパワーが低いと想定される場合、これは、パラメトリックテストがヌルを拒否しない場合、そのノンパラメトリック代替もヌルを拒否しないことを意味しますか?パラメトリックテストの前提条件が満たされておらず、テストがとにかく使用されている場合、これはどのように変化しますか?

6
変動係数-IQR /中央値、または代替のような堅牢な(ノンパラメトリック)尺度?
特定のデータセットについて、スプレッドは多くの場合、標準偏差またはIQR(四分位範囲)として計算されます。 a standard deviationは正規化されているため(zスコアなど)、2つの異なる母集団からの広がりを比較するために使用できますが、2つの異なる母集団からのサンプルは2つのまったく異なるスケールで値を持つことができるため、これはIQRには当てはまりません e.g. Pop A: 100, 67, 89, 75, 120, ... Pop B: 19, 22, 43, 8, 12, ... 私が求めているのは、異なる母集団内の変動を比較するために使用できる堅牢な(ノンパラメトリック)尺度です。 選択肢1: IQR / Median-これは、変動係数、つまり。σμσμ \frac{\sigma}{\mu} 選択肢2: Range / IQR 質問:母集団間の変動を比較するためのより意味のある尺度はどれですか?また、選択肢1の場合、選択肢2は何か/意味のあるものに役立ちますか、それとも根本的に欠陥のある尺度ですか?

3
コルモゴロフ・スミルノフ検定の複数サンプル版または代替品はありますか?
1つのプロットが処理を受け、もう1つのプロットがコントロールを受けた6組のプロットで、木のサイズ分布を比較しています。プロットの各ペアでコルモゴロフ-スミルノフ検定を使用すると、範囲がからことがわかります。KSテストのマルチサンプル拡張など、すべてのレプリケートを一緒に処理するための適切な方法がありますか、または適切なフォローアップテストがありますか?または、「2組のプロットではサイズ分布が大幅に異なり)、1組のプロットではわずかに()」などのように結論付ける必要があります。ppp0.00037070.00037070.00037070.750.750.75(p &lt; 0.05(p&lt;0.05(p < 0.05p = 0.59p=0.59p = 0.59

2
測定ツールによる天井効果への対処方法
被験者(2グループ)の振動を知覚する能力を測定する心理生理学的データを収集しました。振動プローブはますます小さな変位で皮膚に対して動き、被験者はいつ振動を感じるかを示します。残念ながら、高周波数では、プローブは短距離しか移動できず、プローブが移動できる最大距離は、被験者が知覚するのに十分な大きさではない場合があります。したがって、一部の被験者には正確なしきい値がありますが、振動を感じたことがない人には、しきい値がそれより大きいことを知っている値があります。このデータをまだ含める方法はありますか?そして、それを分析する最良の方法は何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.