タグ付けされた質問 「nonparametric」

このタグを使用して、ノンパラメトリックメソッドまたはパラメトリックメソッドの性質、またはその2つの違いについて尋ねます。ノンパラメトリック法は一般に、基礎となる分布に関するいくつかの仮定に依存していますが、パラメトリック法は、少数のパラメーターでデータを記述することを可能にする仮定を行います。

2
Rのノンパラメトリックベイズ分析
R階層型ディリクレプロセス(HDP)(最近人気のノンパラメトリックベイジアン手法の1つ)を使用したデータのクラスタリングに関する優れたチュートリアルを探しています。 ノンパラメトリックベイジアン分析にはDPpackage(IMHO、利用可能なすべての中で最も包括的な)がありますR。しかし、R NewsHDPをコーディングするのに十分なほど、パッケージリファレンスマニュアルまたはパッケージリファレンスマニュアルに記載されている例を理解できません。 任意のヘルプまたはポインタを歓迎します。 トピックモデリング用のHDPのC ++実装はここから入手できます(C ++コードについては下をご覧ください)

2
可変カーネル幅がカーネル回帰に適している場合が多いのに、一般的にカーネル密度の推定に適さないのはなぜですか?
この質問は他の場所での議論によって促されます。 可変カーネルは、ローカル回帰でよく使用されます。たとえば、黄土は広く使用されており、回帰スムーザーとして機能し、データのスパース性に適応する可変幅のカーネルに基づいています。 一方、変数カーネルは通常、カーネル密度推定の推定量が不十分になると考えられています(Terrell and Scott、1992を参照)。 密度推定ではなく回帰ではうまく機能するという直感的な理由はありますか?

2
Rの正規性または分散の等値性のないデータで双方向ANOVAを実行する方法は?
現在、修士論文に取り組んでおり、SigmaPlotで統計を実行することを計画しています。しかし、データにしばらく時間を費やした後、SigmaPlotが問題に合わない可能性がある(間違っている可能性がある)という結論に達しました。 計画では、3つの異なるタンパク質とそれらの8つの異なる処理から得られる私のデータに対して単純な2因子分散分析を実行することでした。そのため、私の2つの要因はタンパク質と処理です。両方を使用して正常性をテストしました > shapiro.test(time) そして > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) どちらの場合も(驚くことではないかもしれませんが)、私は非正規分布になりました。 これにより、分散の等式に使用するテストの最初の質問が残りました。思いついた > chisq.test(time) その結果、データにも分散の等値性がありませんでした。 さまざまなデータ変換(ログ、中央、標準化)を試しましたが、それらはすべて分散の問題を解決しませんでした。 今、私は途方に暮れています。どのタンパク質とどの治療法が互いに有意に異なるかをテストするためにANOVAを実施する方法です。Kruskal-Walis-Testについて何かを見つけましたが、それは1つの要因(?)だけです。また、ランキングやランダム化についても発見しましたが、Rでそれらの手法を実装する方法はまだありません。 誰かが私がすべきことを提案していますか? 編集:あなたの答えに感謝します、私は読書に少し圧倒されます(それはちょうどより少なくよりむしろますます得ているようです)、しかし、私はもちろん続けます。 提案されたデータの例を次に示します(形式が非常に残念で、別の解決策やファイルを置く場所がわかりませんでした。私はまだこのすべてに慣れていません。): protein treatment time A con 2329.0 A HY 1072.0 A CL1 4435.0 A CL2 2971.0 A CL1-HY sim 823.5 A CL2-HY sim 491.5 A CL1+HY mix 2510.5 A CL2+HY mix …


5
ANOVAの仮定の確認
数か月前に、SOのRでの同分散性テストに関する質問を投稿しましたが、Ian Fellowsが答えました(彼の答えは非常に大まかに言い換えます)。 モデルの適合度をテストするとき、同相性テストは良いツールではありません。小さなサンプルでは、​​ホモ分散性からの逸脱を検出するのに十分なパワーがありませんが、大きなサンプルでは「十分なパワー」があるため、平等からの些細な逸脱でもスクリーニングする可能性が高くなります。 彼の素晴らしい答えは私の顔に平手打ちとして来ました。以前は、ANOVAを実行するたびに、正規性と同分散性の仮定をチェックしていました。 あなたの意見では、ANOVAの仮定をチェックするときのベストプラクティスは何ですか?

3
Rのノンパラメトリック反復測定マルチウェイAnova
次の質問は、私にとってしばらくの間、これらの聖杯の一つです。誰かが良いアドバイスを提供できることを願っています。 Rを使用して、ノンパラメトリックの反復測定マルチウェイアノーバを実行したいと思います。 私はしばらくオンライン検索と読書を行ってきましたが、これまでは一部のケースのみの解決策を見つけることができました:一方向ノンパラメトリック反復測定アノーバのフリードマン検定、多元ノンパラメトリックの{car}アノーバ関数による順序回帰anovaなど。部分的な解決策は、この質問スレッドで私が探しているものではありません。私がこれまでに公開した投稿でこれまでの調査結果をまとめました(タイトル:反復測定ANOVA with R(関数とチュートリアル)、誰でも役立つ場合) オンラインで読んだ内容が正しい場合、このタスクは混合順序回帰モデル(別名:比例オッズモデル)を使用して達成できます。 関連性があると思われる2つのパッケージを見つけましたが、このテーマに関するビネットは見つかりませんでした。 http://cran.r-project.org/web/packages/repolr/ http://cran.r-project.org/web/packages/ordinal/ そのため、このテーマに慣れていない私は、ここの人々からの指示を期待していました。 このテーマに関するチュートリアル/推奨読書はありますか?さらに良いことに、Rでこれを実行および分析する方法の簡単なコード例を提案できます(例:「ノンパラメトリック反復測定multiway anova」)。

1
非常に歪んだデータでt検定を使用する必要がありますか?科学的証拠をお願いします?
ユーザーの参加(例:投稿数)に関する、非常に歪んだ(指数分布のように見える)データセットのサンプルがあり、サイズが異なる(ただし200以上)ので、平均を比較したいと思います。そのために、2つのサンプルの対応のないt検定を使用しています(サンプルの分散が異なる場合は、ウェルチ係数を使用したt検定)。私が聞いたように、本当に大きなサンプルの場合、サンプルが正規分布していないことは問題ではありません。 私がやったことを検討している人が、私が使用しているテストは私のデータには適さないと言った。彼らは、t検定を使用する前に私のサンプルをログ変換することを提案しました。 私は初心者なので、研究の質問に「参加指標のログ」で答えるのは本当に混乱しているように思えます。 彼らは間違っていますか?私が間違っている?それらが間違っている場合、私がそれらを引用/表示できる本または科学論文はありますか?私が間違っている場合、どのテストを使用する必要がありますか?

4
変換しても正常ではない非正常データで回帰を実行するにはどうすればよいですか?
21個のアンケート項目に対するリッカート尺度の回答から得られたデータ(158件)があります。アンケートのどの項目が全体的な項目(満足度)に対する応答を予測するかを確認するために、回帰分析を実行したい/本当に必要です。応答は(KSテストによると)通常は分散されておらず、考えられるあらゆる方法(逆、ログ、log10、sqrt、2乗)に変換しました。残差プロットはあちこちに見えるので、線形回帰を行い、正常に動作するふりをすることは本当に合法ではないと思います(ポアソン分布ではありません)。これは、回答が非常に密集しているためだと思います(平均は3.91、95%CI 3.88〜3.95)。 そのため、データを変換する新しい方法が必要か、何らかのノンパラメトリック回帰が必要かと考えていますが、SPSSでできることはわかりません。

1
ブートストラップを使用して、ノンパラメトリックテストを置き換えることはできますか?
私は統計にかなり不慣れです。ブートストラップの概念は私を混乱させています。 t検定などの特定の検定を使用するには、サンプリング分布の正規性が必要であることを知っています。データが正常に配信されない場合、SPSSのt検定で「ブートストラップ」を要求することにより、非正規の問題を回避できますか?ある場合、ブートストラップされたサンプリング分布に基づいて出力で報告されるt統計はありますか? また、非正常なデータがある場合に、Mann-WhitneyやKruskal-Wallisなどのノンパラメトリックテストを使用する場合と比較して、これはより良いテストでしょうか?データが正常ではなく、ブートストラップを使用している状況では、t統計を報告しません。

1
機能データ分析をいつ/どこで使用しますか?
私は非常に機能的なデータ解析(FDA)に新しいです。私は読んでいます: Ramsay、James O.、およびSilverman、Bernard W.(2006)、Functional Data Analysis、第2版、Springer、ニューヨーク。 ただし、FDAをどこでいつ使用するかはまだ明確ではありませんか?誰かが私に特に医学研究で例を挙げてくれませんか?私は実際にFDAをどこで/いつ適用するかを本当に知りません。 成長曲線データについては、非線形混合モデルを使用でき、縦断データについては反復測定ANOVAを使用でき、多変量データ/高次元データについてはPCA、FAなどを使用できます。 / FDAを使用する状況

5
ロジスティック回帰はノンパラメトリック検定ですか?
最近、メールで次の質問を受け取りました。以下に回答を掲載しますが、他の人の考えを聞くことに興味がありました。 ロジスティック回帰をノンパラメトリック検定と呼びますか?私の理解では、データが正規分布していないため、単にテストにノンパラメトリックのラベルを付けるだけでは不十分です。前提条件の欠如と関係があります。ロジスティック回帰には仮定があります。

1
「ターゲットの最尤期待値」とは何ですか?
Mark van der Laanの論文を理解しようとしています。彼は、バークレーの理論統計学者であり、機械学習と大きく重複する問題に取り組んでいます。私にとっての問題の1つは(深い数学に加えて)、完全に異なる用語を使用して使い慣れた機械学習アプローチを説明することが多いことです。彼の主な概念の1つは、「ターゲットを絞った最尤予測」です。 TMLEは、交絡因子が存在する場合でも効果を推定できるように、非制御実験からの打ち切り観測データを分析するために使用されます。同じ概念の多くが他のフィールドの他の名前の下に存在することを強く疑いますが、私はまだそれを何かに直接一致させるほど十分に理解していません。 「計算データ分析」とのギャップを埋める試みはこちらです: データサイエンスの時代への突入:対象を絞った学習と、統計と計算データ分析の統合 そして、統計学者の紹介はこちらです: ターゲット最尤ベースの因果推論:パートI 2番目から: この記事では、複数の時点での介入の因果効果の特定のターゲット最尤推定量を開発します。これには、損失ベースのスーパー学習を使用して、G計算式の未知の因子の初期推定値を取得し、その後、各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましいパラメトリックサブモデル)を適用することが含まれます。最尤推定で変動パラメーターを推定し、初期因子のこの更新ステップを収束まで繰り返します。この反復ターゲット最尤更新ステップにより、結果の推定結果の因果効果は、初期推定量が一貫していれば一貫しているという意味で二重ロバストになり、または、最適な変動関数の推定量は一貫しています。介入する因果グラフのノードの条件付き分布が正しく指定されている場合、最適な変動関数が正しく指定されます。 彼の用語では、「スーパー学習」とは、理論的に健全な非負の重み付けスキームを使用したアンサンブル学習です。しかし、「各推定因子にターゲットパラメーター固有の最適変動関数(最も好ましくないパラメトリックサブモデル)を適用する」とはどういう意味ですか。 または、3つの明確な質問に分けて、TMLEには機械学習の類似点がありますか、「最も好ましいパラメトリックサブモデル」とは何か、他の分野の「変動関数」とは何ですか。


2
中央値が等しい場合、Mann–Whitney U検定が重要なのはなぜですか?
Mann-Whitneyランクテストの結果がわかりませんが、わかりません。2つの母集団の中央値は同じです(6.9)。各母集団の上位および下位の分位数は次のとおりです。 6.64および7.2 6.60および7.1 これらの母集団を比較する検定の結果のp値は0.007です。これらの母集団はどのように大きく異なるのでしょうか?中央値の広がりによるものですか?2を比較する箱ひげ図は、2番目のものが最初のものよりもはるかに多くの外れ値を持っていることを示しています。提案をありがとう。

1
修正されたタイデータのコルモゴロフスミルノフ検定に代わる方法はありますか?
2つのサンプル(コントロールと処理済み)から大量のデータを取得しました。各サンプルには、Rで有意性検定を受ける数千の値が含まれています。トンと彼らは関係を持っています。分布は不明であり、コントロールと処理された分布の形状は異なる可能性があります。そのため、ノンパラメトリック検定を使用して、サンプル全体の違いが10の異なる要因で有意であるかどうかを比較します。 コルモゴロフとスミルノフのテストを使用することを考えましたが、それは本当に関係に適していません。私は最近、KSテストのブートストラップバージョンを実行し、関係を許容するMatchingと呼ばれる新しいRライブラリを見つけました。これは本当に良いアイデアですか、代わりに別のテストを使用する必要がありますか?そして、p値を調整する必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.