タグ付けされた質問 「nonparametric」

このタグを使用して、ノンパラメトリックメソッドまたはパラメトリックメソッドの性質、またはその2つの違いについて尋ねます。ノンパラメトリック法は一般に、基礎となる分布に関するいくつかの仮定に依存していますが、パラメトリック法は、少数のパラメーターでデータを記述することを可能にする仮定を行います。

7
ブートストラップ-誰かが私を始めるための簡単な説明を提供できますか?
ブートストラップについて読む試みはいくつかありますが、私はいつもレンガの壁にぶつかるようです。誰かがブートストラップの非技術的な合理的な定義を与えることができるのだろうか? 私は私は完全にそれを理解するために有効にするために十分な詳細を提供するために、このフォーラムでは不可能です知っているが、主な目的とブートストラップのメカニズムと右方向に緩やかなプッシュをされるだろう多くの感謝します!ありがとう。

1
位置/スケール/形状パラメータの数学的定義は何ですか?
場所/スケール/形状パラメータの正確な定義を理解しようとしています(たとえばパレートタイプIでは、は形状パラメータと呼ばれ、はスケールパラメータです)。しかし、私が参照した本(Cambridge Dictionary of Statistics、HMC's Introduction to Mathematical Statistics、Feller's An Introduction to Probability Theory and its Applicationsなど)のみが、これらのパラメータの説明的な定義を提供しているようです(ロケーションパラメータは、Fellerのセンタリングパラメータと呼ばれています) )。ウィキペディアは、cdfとpdfの観点から定義を提供しましたが、ソースは提供されていません。caaaccc 非パラメトリック統計(HMCのCh.10など)の概念に基づいて、位置/スケール/形状パラメーターは次のように定義できると思います。 レッツ累積分布関数と確率変数。Aパラメーター、あれば機能的であるが、位置パラメータであるあり、場合はスケールパラメータですであり、位置でもスケールでもない場合は、形状パラメータです。F X θ = T (F X)T T (F X +)XXXFXFXF_Xθ=T(FX)θ=T(FX)\theta=T(F_X)TTTT (F a X)T(FX+a)T(FaX)=T(FX)+a,=aT(FX),∀a∈R,∀a≠0;T(FX+a)=T(FX)+a,∀a∈R,T(FaX)=aT(FX),∀a≠0;\begin{align*}T(F_{X+a})&=T(F_X)+a,&&\forall a\in\mathbb{R},\\ T(F_{aX})&=aT(F_X),&&\forall a\neq0;\end{align*}T(FaX)T(FX+b)T(F−X)=aT(FX),=T(FX),=T(FX);∀a>0,∀b∈R,T(FaX)=aT(FX),∀a>0,T(FX+b)=T(FX),∀b∈R,T(F−X)=T(FX);\begin{align*}T(F_{aX})&=aT(F_X),&&\forall a>0,\\ T(F_{X+b})&=T(F_X),&&\forall b\in\mathbb{R},\\ T(F_{-X})&=T(F_X);\end{align*} 私は正しいですか?または、無関係な概念を混乱させましたか?

1
小さなサンプルでのWilcoxon符号付きランクの相対効率
ウィルコクソンの符号付き順位検定の漸近相対効率は、t検定と比較すると少なくとも0.864であることを、公開された文献(およびここに掲載)で見ました。これは大きなサンプルにのみ当てはまると聞いたことがありますが、これについて言及していない本もあります(これについてはどうですか)。 とにかく、私の質問は、上記の段落が適用されなくなる前に物事がどれほど小さくなければならないのですか? 私の場合、4組のデータがあります。すべての仮定が当てはまる場合、0.1のアルファを使用し、適度に相関するデータがあれば、対応のあるt検定で2SDの効果サイズを検出する能力が少なくとも90%あることがわかります。ただし、サンプルサイズが小さく、仮定をチェックできないため、ウィルコクソンの符号付き順位検定を使用したいと思いますが、そうすると、検定の能力が小さすぎるのではないかと心配しています。ありがとう!

1
Rの数式インターフェイスを使用しているときにMan-Whitney Uを解釈するにはどうすればよいですか
次のデータがあるとします。 set.seed(123) data <- data.frame(x = c(rnorm(50, 1, 1), rnorm(50, 5, 2)), y = c(rep('A', 50), rep('B', 50))) 次の箱ひげ図(boxplot(data$x ~ data$y))が得られます。 ここで、2つのサンプルが同じ位置パラメーター(中央値または平均値、あるいはその両方)を持っているかどうかをテストしたいとします。私の実際のケースでは、データが明らかに正常ではないため、次のようにWilcoxon-Mann-Whitney検定を実行することにしました。 wilcox.test(data$x ~ data$y) しかし、私は対立仮説として、B data$yの「第2」の因子は、より高い位置パラメーターを持つ分布に由来するということを望みます。alternativeパラメータを「大きい」と「小さい」に設定しようとしましたが、どうやら対立仮説は私が探しているものではありません。たとえば、alternative = "greater"「代替仮説:真の位置シフトは0よりも大きい; alternative = "less"「代替仮説:真の位置シフトは0未満です。」 必要な対立wilcox.test()仮説(BはAよりも高い位置パラメーターを持つ分布から得られる)を得るために、関数をどのように調整できますか?または、代わりに別のテストを使用する必要がありますか?

3
Pythonのフリードマンテストと事後テスト
私のデータセットには、x量の測定値を持つ5つの(通常の)グループがあります。等分散性に違反しているため、グループ間に統計的差異があるかどうかを確認するためにフリードマンカイ2乗検定を実行しました。 fried = stats.friedmanchisquare(*[grp for idx, grp in df.iteritems()])) これは統計的な差を返しましたが、次に、どのグループ間に差が存在するのかを調べたいと思います。これRには素晴らしい解決策があります(フリードマンのテストと事後分析、https://www.r-statistics.com/2010/02/post-hoc-analysis-for-friedmans-test-r-code/) 、Wilcoxon-Nemenyi-McDonald-Thompsonテストを使用していますが、Python用のテストを見つけることができません。 フリードマン検定の事後分析を行う可能性はありますか?別の方法として、グループ間の比較を可能にするフリードマン検定(たとえば、一般化された推定方程式)の良い代替手段は何でしょうか。

2
実際のケースで、テストの前提をテストせずに、どのように検証するか
テストの結果に基づいて使用するテストを選択した場合、結果の複合テストには未知のプロパティ(タイプIおよびIIのエラー率)があるため、正式にはテストの仮定をテストすることはできません。これが、統計への「シックスシグマ」のようなアプローチ(テスト結果に基づく決定木を使用して、使用するテストを選択する)がプロの統計学者の間で悪いラップを得る理由の1つだと思います。 ただし、実際のデータでは、多くの場合、古典的な仮定が適用されない可能性があるサンプルを取得するため、何らかの方法で確認する必要があります。では、実際に仕事や研究で何をしているのですか?非公式チェックを実行します。たとえば、データの分布を見て、tを使用します-経験的分布が歪んでいないように見えるときのテスト?これは私がほとんどの場合行われていると思うものです。ただし、この「非公式テスト」の結果に基づいて決定を行う限り、テストのプロパティに影響を与えます。もちろん、チェックを使用して決定を行わない場合、チェックは役に立たないため、貴重な時間を無駄にしてはいけません。もちろん、正式なテストプロパティは過大評価されており、実際にはそれを信仰する必要はないと私に答えることができます。これが、理論的な背景だけでなく、実際にあなたが何をしているかに興味がある理由です。 別のアプローチは、より少ない仮定で常にテストを使用することです。通常、私が好むよう額装されたこのアプローチを見てきたノンパラメトリック上でテストをパラメトリック以下の前提条件(前者は検定統計量は、パラメータのベクトルでインデックスさ分布の家族から来て、これより堅牢であることを前提としないので、テスト)。これは一般的に正しいですか?このアプローチでは、場合によっては、パワー不足のテストを使用するリスクがありませんか?よく分かりません。適用される統計の有用な(おそらく単純な)参照はありますか?これは、使用するテスト/モデルのリストを、古典的なテスト(t検定、カイ2乗など)のより良い代替として、いつ使用するかを示していますか?

1
パラメトリックおよびノンパラメトリックテストの解釈
パラメトリックテストと非パラメトリックテストの違いに関する質問を検索しましたが、質問はすべて非常に特定のテスト、データの問題、またはいくつかの技術的な違いに焦点が当てられているようです。テストの仮定の問題(代わりに調べないでください)や、電力やエラー率の問題には興味がありません。 私の質問は、2種類のテストの解釈についてです。パラメトリックと非パラメトリックのテスト結果の解釈に違いはありますか?ノンパラメトリックテストを実行している場合は、不明な母集団の議論への道を弱めている(排除している)ため、おそらくテスト結果を議論する方法がより制限されているようです。パラメトリックテストを実行する場合、母集団への接続は仮定に基づいて行われます。各テストの適切な解釈は何ですか?これらの区別は重要ですか?

2
深層学習に対するベイズのノンパラメトリックな答えは?
私が理解しているように、ディープニューラルネットワークは、機能を重ねることによって「表現学習」を実行しています。これにより、フィーチャの非常に高次元の構造を学習できます。もちろん、これはパラメーターの数が固定されたパラメトリックモデルであるため、モデルの複雑さを調整するのが難しいという通常の制限があります。 モデルの複雑さがデータに適応できるように、特徴空間でそのような構造を学習するベイジアン(ノンパラメトリック)な方法はありますか?関連モデルは次のとおりです。 ディリクレは混合モデルを処理します。これにより、スペースを無制限のクラスターに分割し、データが有限数を選択できるようにします。 データを説明する潜在的な特徴(別名トピック)の潜在的に無限の数を見つけるインディアンビュッフェプロセス(IBP)のような要因モデル。 しかし、IBPは深い表現を学習していないようです。これらの方法は教師なし学習用に設計されており、通常、教師付きタスクにはディープラーニングを使用するという問題もあります。データの要求に応じて表現を拡大できるIBPまたは他のメソッドのバリアントはありますか?

1
Epanechnikovカーネルによるnpパッケージカーネル密度推定
私はMASSパッケージの「間欠泉」データセットを使用して、npパッケージのカーネル密度推定値を比較しています。 私の問題は、最小二乗交差検証とEpanechnikovカーネルを使用して密度推定を理解することです。 blep<-npudensbw(~geyser$waiting,bwmethod="cv.ls",ckertype="epanechnikov") plot(npudens(bws=blep)) ガウスカーネルの場合は問題ないようです。 blga<-npudensbw(~geyser$waiting,bwmethod="cv.ls",ckertype="gaussian") plot(npudens(bws=blga)) または、Epanechnikovカーネルと最尤CVを使用する場合: bmax<-npudensbw(~geyser$waiting,bwmethod="cv.ml",ckertype="epanechnikov") plot(npudens(~geyser$waiting,bws=bmax)) それは私のせいですか、それともパッケージの問題ですか? 編集:Epanechnikovカーネルと最小二乗cvにMathematicaを使用すると、動作します: d = SmoothKernelDistribution[data, bw = "LeastSquaresCrossValidation", ker = "Epanechnikov"] Plot[{PDF[d, x], {x, 20,110}]

1
ウィルコクソンの代わりにランクとz変換?
Andrew Gelmanは彼のブログの最近の投稿で、ランクを使用し、ランクをZスコアに変換してから、ノンパラメトリックテストを実行する代わりに、パラメトリックテストとツールを使用することを提案しています。今まで聞いたことがありません。 Googleでの検索により、パッケージGenABELのこのR関数が示されました。これは、データベクトルのランク+ z変換を実行しているようですが、代わりに変換されたデータでパラメトリックテストを使用するアイデアを評価または議論する論文を見つけることができませんでした。ウィルコクソンテストの。 誰かがこの方法に関するいくつかの文献を私に指摘できますか?

1
離散変数のノンパラメトリック許容区間
あなたがたくさんの人に、1から10までの離散的なスケールで映画がどれほど好きだったかを評価して、(少なくとも)95%の信頼度、(少なくとも)90の間隔[ l、u ] が欲しいと仮定します。映画を見るすべての人の%は、映画をl以上、u以下と評価します。[ l、u ]は、95%の信頼性と90%のカバレッジを持つ(両側の)許容区間です。(明確にするために、95%の信頼度は、この手順を何度も繰り返した場合、生成された間隔の95%が少なくとも90%の人口カバレッジを取得することを意味します。)もちろん、一般的に[ l、u ]を要件を満たしながら可能です。 連続確率変数の許容区間を構築するためのさまざまなノンパラメトリック手法を見てきました。また、二項変数とポアソン変数の許容区間を作成する方法も見ました。(Rパッケージtoleranceはこれらのメソッドのいくつかを実装しています; Young、2010年。)しかし、分布が不明な場合の離散変数はどうでしょうか?これは通常、私の例のような評価スケールの場合であり、実際の評価スケールデータはマルチモダリティなどの奇妙さを示すことが多いため、二項分布を仮定することは安全ではないようです。 連続変数のノンパラメトリック法に頼ることは理にかなっていますか?あるいは、サンプルのブートストラップ複製を1,000回生成し、少なくとも950回の複製でサンプルの少なくとも90%を捕捉する間隔を見つけるなど、モンテカルロ法についてはどうでしょうか? ヤング、DS(2010)。許容範囲:許容範囲の間隔を推定するためのRパッケージ。Journal of Statistical Software、36(5)、1〜39。http://www.jstatsoft.org/v36/i05から取得

1
スプライン(mgcvからのgrtも含む)の合計(または平均)センタリング制約はどの程度正確に行われますか?
データ生成プロセスは次のとおりです:y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y=sin(x+I(d=0))+sin(x+4∗I(d=1))+I(d=0)z2+3I(d=1)z2+N(0,1)y = \text{sin}\Big(x+I(d=0)\Big) + \text{sin}\Big(x+4*I(d=1)\Big) + I(d=0)z^2 + 3I(d=1)z^2 + \mathbb{N}\left(0,1\right) ましょx,zx,zx,zからの配列である−4−4-4に444長さの100100100およびddd対応する因子であることがd∈{0,1}d∈{0,1}d\in\{0,1\}。すべての可能な組み合わせを取り、yx,z,dx,z,dx,z,dを計算します。 yyy (中心化されていない)Bスプライン基準を使用するとx,zx,zx,z、各レベルのzはddd、parity-of-unity-property(行の合計が1)によって実現できなくなります。このようなモデルは識別できません(切片がない場合でも)。 例:(設定:5つの内部ノット間隔(均一に分布)、次数2のBスプライン、- spline関数はカスタムのもの) # drawing the sequence n <- 100 x <- seq(-4,4,length.out=n) z <- seq(-4,4,length.out=n) d <- as.factor(0:1) data <- CJ(x=x,z=z,d=d) set.seed(100) # setting up the model data[,y := sin(x+I(d==0)) + sin(x+4*I(d==1)) + I(d==0)*z^2 + 3*I(d==1)*z^2 …

1
逆確率重みの計算—条件付き(多変量)密度推定?
一般的なバージョン: 私は推定する必要があると連続して多変量です。良い関数形を心に留めておらず、は公平なものである必要があるため、ノンパラメトリックにしたいと思います。条件付きカーネル密度推定器を使用したかったのですが、最初にを量子化する必要があることに気付きました。それから私は推定するためのアイデアだったとF(X )という計算にデータや使用からのF(A | X )、または多分私はどこかでそれを読んで、覚えていませんどこ。A X F(A | X )X F(A 、X )f(A|X)f(A|X)f(A | X)AAAXXXf^(A|X)f^(A|X)\hat{f}(A | X)XXXf^(A,X)f^(A,X)\hat{f}(A , X)f^(X)f^(X)\hat{f}(X)f^(A|X)f^(A|X)\hat{f}(A | X) この手順が有効ではない理由はありますか?カーネル密度よりも良いまたはより正直なアプローチはありますか?また、ノンパラメトリックにサンプル密度から人口密度を推定することに問題はありますか?データは調査データであり、私には調査の重みがあります。どういうわけかそれらを組み込む必要がありますか? ケース固有のバージョン: Robins(2000)(ゲートされていないPDF)のように、これらの推定値を周辺構造モデルでの治療の確率の逆数の重みに使用することに言及する価値があるでしょう。私は「治療」の配列観察{at}4t=0{at}t=04\{a_t\}_{t=0}^{4}と時間変動交絡因子のシーケンス{xt}4t=0{xt}t=04\{x_t\}_{t=0}^{4}いくつかの結果に対するy~y~\tilde{y}で生じるt=T+1t=T+1t=T+1。単純なパラメトリック因果関係、ただし、時変交絡因子があるため、βは「平均治療効果」の偏った推定であり、因果パス上にあるため、交絡因子をリグレッサとして追加できません。βにもバイアスをかけます。幸いドクロビンスはI再重量私の観測場合、私はにより交絡/公平かつ合理的に効率的な推定値を得ることができることを考え出した wが、私は= 4 Π S=0、F(S|A S < T)をE[ Y〜| a⃗ ] = β』a⃗ E[Y~|a→]=β′a→E[\tilde{Y} | \vec{a}]=\beta'\vec{a}ββ\betaββ\betaw私= ∏s = 04f(as| as < t)f(as| as < t、xs < …

1
原因の特定とペナルティ付きスプライン
私は経済学のジャーナルから拒絶されました。拒否の理由としては、次のものが挙げられます。 因果関係を明確に識別する代替のより単純な手法と比較して、セミパラメトリック法を使用することの利点は明確には発揮されません OLSに固執する多くのエコノミストに方法論を動機付けるより良い仕事をしたかもしれないことは確かに可能です。しかし、私は「クリーンな識別」に違反しましたか?ご自身で判断して、ご意見をお聞かせください。 私の主な推定式は Zは連続で、XとTはバイナリです。私は当然のことながら E [yit=αi+β1Tit+f⎛⎝⎜ZitZit×TitZit×Tit×Xt⎞⎠⎟+β2Xt+ϵityit=αi+β1Tit+f(ZitZit×TitZit×Tit×Xt)+β2Xt+ϵit y_{it} = \alpha_i + \beta_1 T_{it} + f\left(\begin{array}{l}Z_{it}\\ Z_{it} \times T_{it} \\ Z_{it}\times T_{it} \times X_t\end{array} \right) + \beta_2X_t + \epsilon_{it} ZZZXXXTTT つまり、 Tの係数は、個々のレベルのダミー変数(計量経済学における「固定効果」)を条件として不偏であることを意味します。連続変数 Zを含めると、 Zの勾配に対する推定処理効果の不均一性がわかります。治療の平均因果効果ので Tはの平均値である β 1 + F Z × Tの様々なレベルのために Z Iが観測こと。E[ϵ|α,T]=0E[ϵ|α,T]=0 E[\epsilon|\alpha,T] = 0 TTTZZZZZZTTTβ^1+f^Z×Tβ^1+f^Z×T\hat\beta_1 + \hat f_{Z\times …

2
Rの2因子反復測定ANOVA後の事後検定?
Rで2因子(両方とも被験者内)のANOVAを繰り返し測定した後、事後テスト(Tukey HSD)を実行する方法に関する解決策を見つけるのに問題があります。ANOVAには、aov -functionを使用しました。 summary(aov(dv ~ x1 * x2 + Error(subject/(x1*x2)), data=df1)) 他の質問への回答を読んだ後、他の機能(lmeなど)を使用してANOVAを再実行する必要があることを知りました。これが私が思いついたものです。 Lme.mod <- lme(dv ~ x1*x2, random=list(subject=pdBlocked(list(~1, pdIdent(~x1-1), pdIdent(~x2-1)))), data=df1) anova(Lme.mod) 主な効果はどちらも有意でしたが、相互作用の効果はありませんでした。次に、これらの関数を事後比較に使用しました。 summary(glht(Lme.mod, linfct=mcp(x1="Tukey"))) summary(glht(Lme.mod, linfct=mcp(x2="Tukey"))) しかし、いくつかの問題がありました: まず、Rヘルプファイルには、「双方向ANOVAまたはANCOVAモデル(...)multcompバージョン1.0-0以降で対象のパラメーターを定義する場合、mcp関数は注意して使用する必要があります。主な効果の比較が生成されます。のみ、共変量と交互作用を無視します(古いバージョンは交互作用項で自動的に平均化されました)警告が表示されます。そして確かに、私は次の警告メッセージを受け取りました: Warning message: In mcp2matrix(model, linfct = linfct) : covariate interactions found -- default contrast might be inappropriate もう1つの不可解な点は、両方の主要な効果は有意でしたが、要因の1つ(x1)の事後比較に有意差はなかったということです。これに出会ったことはありません。スクリプト/分析は正しい/適切ですか、それとも欠けているものはありますか?どんな助けでも大歓迎です!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.