タグ付けされた質問 「parametric」

有限数の実数値パラメーターによって記述される統計モデル。ノンパラメトリック統計とは対照的によく使用されます。


3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
すべてのモデルは役に立ちませんか?正確なモデルは可能ですか?または有用ですか?
この質問は、1か月以上にわたって私の頭の中で悩まされてきました。Amstat Newsの 2015年2月号には、バークレー教授Mark van der Laanによる不正確なモデルの使用をforる記事が掲載されています。彼は、モデルを使用することで、統計は科学ではなく芸術になると述べています。彼によると、いつでも「正確なモデル」を使用でき、そうしないと「厳密性の欠如...データサイエンスにおける私たちの表現が取り残されてしまうのではないか」と心配しています。 私たちは疎外される危険にさらされていることに同意しますが、脅威は通常、おおよその方法を使用していないが、実際にはその方法がはるかに少ないと主張する人(ファンデルラーン教授のように聞こえます)慎重に適用された統計モデルよりも厳密です。 Van der Laan教授は、Boxのよく使われる引用を繰り返している人々に対して「すべてのモデルは間違っているが、一部は有用である」と軽ratherしていると言ってもいいと思います。基本的に、私がそれを読んだとき、彼はすべてのモデルが間違っていて、すべてが役に立たないと言っています。今、私はバークレーの教授に反対するだろうか?一方、私たちの分野の本当の巨人の一人の意見をそれほど軽んじて却下するのは誰ですか? 詳述すると、ファンデルラーン博士は、「すべてのモデルが間違っていると述べるのは完全にナンセンスです。たとえば、仮定を行わない統計モデルは常に正しい」と述べています。「しかし、多くの場合、私たちはそれよりもはるかに優れた結果を得ることができます。データは、独立した同一の実験の結果であることがわかります。非常に狭いランダムサンプリングまたは制御された実験設定を除いて、どのようにそれを知ることができるかわかりません。著者は、「機械学習/データ適応推定の最新技術、因果推論、打ち切りデータ、効率性、経験的経験のすべてを統合する、目標最尤学習と目標最小損失ベース学習の研究を指摘しています。正式な統計的推論を提供しながら、プロセス理論。」nnn 私が同意する声明もいくつかあります。彼は、私たちの仕事、統計学者としての役割、そして科学協力者を真剣に受け止める必要があると言います。聞いて聞いて!科学的な質問に答えることが適切かどうか、またはデータに適合するかどうかを慎重に検討せずに、人々が日常的にロジスティック回帰モデルなどを使用する場合、それは確かに悪いニュースです。そして、私はこのフォーラムに投稿された質問でそのような虐待の多くを見ています。しかし、パラメトリックなモデルであっても、不正確なモデルの効果的で価値のある使用法も見ています。そして、彼の言うこととは反対に、私はめったに「別のロジスティック回帰モデルによって死に退屈する」ことはありません。これが私の素朴さだと思います。 だからここに私の質問があります: まったく仮定を行わないモデルを使用して、どのような有用な統計的推論を行うことができますか? 対象の最尤法を使用した重要な実際のデータを使用したケーススタディはありますか?これらの方法は広く使用され、受け入れられていますか? すべての不正確なモデルは本当に役に立たないのですか? あなたが些細な場合以外の正確なモデルを持っていることを知ることは可能ですか? これがあまりにも意見に基づいているため、トピックから外れている場合、どこで議論できますか?ファン・デル・ラーン博士の記事は間違いなく議論が必要だからです。

3
可能性を厳密に定義する方法は?
尤度は、たとえば、いくつかの方法で定義できます。 関数からマップをすなわち、。LLLΘ × XΘ×バツ\Theta\times{\cal X}(θ 、x )(θ、バツ)(\theta,x)L (θ | X )L(θ∣バツ)L(\theta \mid x)L :Θ × X→ RL:Θ×バツ→RL:\Theta\times{\cal X} \rightarrow \mathbb{R} ランダム関数L (⋅ | X)L(⋅∣バツ)L(\cdot \mid X) また、尤度は「観測された」尤度のみであると考えることもできL (⋅ | Xobs)L(⋅∣バツobs)L(\cdot \mid x^{\text{obs}}) 実際には、尤度は\ thetaの情報をθθ\theta乗法定数までしか持ち込まないため、尤度は関数ではなく関数の等価クラスと考えることができます パラメーター化の変更を検討する際に別の問題が発生します:ϕ = θ2ϕ=θ2\phi=\theta^2が新しいパラメーター化である場合、一般にL (ϕ ∣ x )L(ϕ∣バツ)L(\phi \mid x)で\ phiの尤度を示しϕϕ\phi、これは前の関数L (⋅ | X )L(⋅∣バツ)L(\cdot \mid x)でθ2θ2\theta^2が、でϕ−−√ϕ\sqrt{\phi}。これは虐待的だが有用な表記法であり、強調しないと初心者に困難をもたらす可能性がある。 …

3
RのARIMAモデルのパラメーターのp値を計算する方法は?
Rで時系列調査を行うarima と、適合モデルの係数値とその標準誤差のみが提供されることがわかりました。ただし、係数のp値も取得する必要があります。 coefの重要性を提供する機能は見つかりませんでした。 したがって、私は自分で計算したいのですが、係数のtまたはchisq分布の自由度はわかりません。だから私の質問は、Rのフィットされたアリマモデルの係数のp値を取得する方法ですか?


3
ピアソンがパラメトリックでスピアマンがノンパラメトリックである理由
どうやらピアソンの相関係数はパラメトリックであり、スピアマンのローはノンパラメトリックです。 これを理解するのに苦労しています。私が理解しているように、ピアソンはr x y = c o v (X 、Y )として計算されます と我々は彼らのランクですべての値を代入以外スピアマンは、同じ方法で計算されます。rx y= c o v (X、Y)σバツσyrバツy=cov(バツ、Y)σバツσy r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y} ウィキペディアによると パラメトリックモデルとノンパラメトリックモデルの違いは、前者には固定数のパラメーターがあり、後者にはトレーニングデータの量に応じてパラメーターの数が増えることです。 しかし、サンプル自体以外のパラメーターは表示されません。いくつかの発言パラメトリック検定は、正規分布を仮定し、するために行くことを言うピアソンは、通常の分散データを前提としないことが、私はピアソンはそれを必要とする理由を見ることができません。 だから私の質問は、統計の文脈でパラメトリックとノンパラメトリックが何を意味するのですか?そして、ピアソンとスピアマンはどうやってそこに収まるのでしょうか?

3
分布のファミリーの定義?
分布のファミリーには、他の分野とは異なる統計の定義がありますか? 一般に、曲線のファミリーは一連の曲線であり、それぞれが1つ以上のパラメーターが変化する関数またはパラメーター化によって与えられます。このようなファミリは、たとえば電子部品の特性評価に使用されます。 統計の場合、1つのソースに基づくファミリは、形状パラメータを変化させた結果です。ガンマ分布には形状とスケールのパラメーターがあり、一般化されたガンマ分布のみに位置パラメーターがあることに、どうして理解できるでしょうか?それは、ファミリーをロケーションパラメーターを変化させた結果になりますか?@whuberによれば、ファミリーの意味は暗黙のうちにあります。ファミリーの「パラメーター化」とは、ℝサブセットからその通常のトポロジーを持つ分布の空間への連続したマップです。nn^n 簡単な言葉で言えば、統計分布の家族とは何ですか? 同じ家族の分布の統計的性質の関係についての質問は、別の質問についてすでにかなりの論争を引き起こしているので、意味を探求する価値があるようです。 これは必ずしも単純な質問ではないということは、指数の族というフレーズで使用することで生まれます。これは曲線の族とは関係ありませんが、パラメーターの再パラメーター化による分布のPDFの形式の変更に関連しています、独立したランダム変数の関数の置換も。

3
パラメトリックモデルとノンパラメトリックモデルの違いは何ですか?
このリンクのパラメトリックモデルとノンパラメトリックモデルを読み、別の質問のコメントに回答した後、ノンパラメトリックモデルの定義と混同されています。 元々、「パラメトリックvsノンパラメトリック」とは、モデルに分布仮定があるかどうかを意味すると思っていました(パラメトリックまたはノンパラメトリック仮説検定と同様)。しかし、どちらのリソースも、「パラメトリックvsノンパラメトリック」は、モデルのパラメーターの数がデータマトリックスの行の数に依存しているかどうかによって判断できます。 カーネル密度推定(ノンパラメトリック)の場合、このような定義を適用できます。しかし、この定義の下では、モデル内のパラメーターの数はデータマトリックスの行数ではなくニューラルネットワーク構造に依存しているため、ニューラルネットワークをノンパラメトリックモデルにするにはどうすればよいでしょうか。 パラメトリックモデルとノンパラメトリックモデルの違いは何ですか?

1
パラメトリックブートストラップを使用する理由
現在、パラメトリックブートストラップに関するいくつかの問題を回避しようとしています。ほとんどのことはおそらくささいなことですが、私はまだ何かを見逃しているかもしれません。 パラメトリックブートストラップ手順を使用してデータの信頼区間を取得するとします。 そのため、私はこのサンプルを入手し、その正規分布を仮定しています。私はその後、分散推定ますVと平均値Mを、私の分布推定値取得Pだけ明らかにされ、N (M、Vを)。v^v^\hat{v}m^m^\hat{m}P^P^\hat{P}N(m^,v^)N(m^,v^)N(\hat{m},\hat{v}) その分布からサンプリングする代わりに、分位数を分析的に計算して実行することができます。 a)結論:この些細なケースでは、パラメトリックブートストラップは正規分布の仮定で物事を計算するのと同じでしょうか? 理論的には、計算を処理できる限り、すべてのパラメトリックブートストラップモデルに当てはまります。 b)結論:特定の分布の仮定を使用すると、ノンパラメトリックブートストラップよりもパラメトリックブートストラップの精度が向上します(もちろん正しい場合)。しかし、それ以外は、分析計算を処理できず、それから抜け出す方法をシミュレートしようとするためです。 c)計算が「通常」何らかの近似を使用して行われる場合にも使用します。これにより、おそらくより正確になります...? 私にとって、(ノンパラメトリック)ブートストラップの利点は、ディストリビューションを想定する必要がないという事実にあるように見えました。パラメトリックブートストラップの場合、その利点は失われますか、それとも私が見逃したものがあり、パラメトリックブートストラップが上記のものよりも利点があるのでしょうか。

3
いくつかの(すべてではないにしても)パラメトリック仮説検定がランダムサンプリングを前提としているのはなぜですか?
Z、tなどのテストでは、データがランダムサンプリングに基づいていることを前提としています。どうして? 私は実験的な研究を行っていると仮定します。そこでは、外部の妥当性よりも内部の妥当性を重視しています。したがって、母集団全体の仮説を推測しないことを受け入れたので、私のサンプルに少し偏りがあるかもしれません。また、グループ化はランダムに行われます。つまり、サンプルの参加者を便宜上選択しますが、異なるグループにランダムに割り当てます。 なぜこの仮定を無視できないのですか?

2
パラメトリックテストでnullが拒否されない場合、ノンパラメトリックテストでも同じことが行われますか?
ノンパラメトリックテストがそのパラメトリック代替よりもパワーが低いと想定される場合、これは、パラメトリックテストがヌルを拒否しない場合、そのノンパラメトリック代替もヌルを拒否しないことを意味しますか?パラメトリックテストの前提条件が満たされておらず、テストがとにかく使用されている場合、これはどのように変化しますか?


1
尖度によって生成された外れ値の処理
誰かが尖度に関する情報を手伝ってくれるかどうか疑問に思っていました(つまり、データを変換して削減する方法はありますか?) 多数のケースと変数を含むアンケートデータセットがあります。いくつかの変数について、データはかなり高い尖度値(すなわち、レプトクルト分布)を示しています。これは、多くの参加者が変数に対して正確に同じスコアを与えたという事実から派生しています。私は特に大きなサンプルサイズを持っているので、中心極限定理によれば、正規性の違反はまだ問題ないはずです。 ただし、問題は、特に高レベルの尖度が私のデータセットに多くの単変量の外れ値を生成しているという事実です。そのため、データを変換したり、外れ値を削除/調整したりしても、高レベルの尖度は、次に最も極端なスコアが自動的に外れ値になることを意味します。(判別関数分析)を利用することを目指しています。DFAは、違反が外れ値ではなく歪度によって引き起こされている場合、正常からの逸脱に対して堅牢であると言われています。さらに、DFAはデータの外れ値の影響を特に受けているとも言われています(Tabachnick&Fidel)。 これを回避する方法のアイデアはありますか?(私の最初の考えは尖度を制御する何らかの方法でしたが、私のサンプルのほとんどが同様の評価を与えているのであれば、それは一種の良いことではありませんか?)

2
パラメトリック推定に対するカーネル密度推定の利点
パラメトリック推定よりもカーネル密度推定を選択する特別な理由はありますか?私は自分のデータに分布を合わせる方法を学んでいました。この質問が私に来ました。 私のデータサイズは比較的大きく、7500データポイントです。オートクレーム。私の目標は、分布(ノンパラメトリックまたはパラメトリック)に適合させることです。次に、それを使用して自動請求データをシミュレートし、VaRまたはTVaRを計算します。 ログを使用してデータを変換し、比較的正常にした。正規、対数正規、ガンマ、tなどを含む多くの分布をフィッティングしました。AICと対数尤度を使用して、最適なフィッティングを特定しました。しかし、このフィッティングはすべてKSテストに合格しませんでした(p値はe-10で非常に小さい)。 そのため、どのような状況でKDEに切り替えるべきかを尋ねました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.