タグ付けされた質問 「interpretation」

一般に、統計分析の結果から実質的な結論を出すことを指します。

2
二項回帰のRの出力の解釈
私は二項データテストでこれについては非常に新しいですが、1つを行う必要があり、結果をどのように解釈するかがわかりません。応答変数であるy変数は二項であり、説明因子は連続的です。これは、結果を要約するときに得たものです: glm(formula = leaves.presence ~ Area, family = binomial, data = n) Deviance Residuals: Min 1Q Median 3Q Max -1.213 -1.044 -1.023 1.312 1.344 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.3877697 0.0282178 -13.742 < 2e-16 *** leaves.presence 0.0008166 0.0002472 3.303 0.000956 *** --- Signif. codes: 0 ‘***’ 0.001 …

4
多項式モデルの近似から係数を解釈する方法は?
私が持っているいくつかのデータに適合する二次多項式を作成しようとしています。この適合をプロットするとしましょうggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 私は得る: したがって、2次近似は非常にうまく機能します。Rで計算します。 summary(lm(data$bar ~ poly(data$foo, 2))) そして私は得る: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 0.206 # poly(data$foo, …

4
XとYは相関していませんが、Xは重回帰におけるYの重要な予測因子です。どういう意味ですか?
XとYは相関していません(-.01)。ただし、Yを予測する重回帰にXを配置すると、3つの(A、B、C)他の(関連する)変数とともに、Xと2つの他の変数(A、B)がYの有意な予測子になります。 A、B)変数は回帰の外側でYと有意に相関しています。 これらの調査結果をどのように解釈すればよいですか?XはYの一意の分散を予測しますが、これらは相関関係がないため(ピアソン)、解釈が多少困難です。 私は反対のケースを知っています(つまり、2つの変数は相関していますが、回帰は重要ではありません)。それらは理論的および統計的観点から理解するのが比較的簡単です。予測子の一部は完全に相関しています(たとえば、.70)が、実質的な多重共線性が期待される程度ではないことに注意してください。たぶん私は間違っています。 注:以前にこの質問をしましたが、終了しました。合理的なのは、この質問が「どのように回帰が有意であるが、すべての予測変数が有意でない可能性があるのか​​」という質問と重複しているということでした。「おそらく、私は他の質問を理解していないが、これらは数学的にも理論的にも完全に別個の質問だと思う。私の回帰は「回帰が重要」かどうかから完全に独立している。これらの質問が理解できない理由で冗長な場合は、この質問を閉じる前にコメントを挿入してください。また、もう一方を閉じたモデレーターにメッセージを送りたいと思っていました同一の質問を回避するための質問ですが、そうするオプションを見つけることができませんでした。

1
因子分析/ PCAで回転を行う背後にある直感的な理由と、適切な回転を選択する方法は何ですか?
私の質問 因子分析で因子(またはPCAのコンポーネント)の回転を行う背後にある直感的な理由は何ですか? 私の理解では、変数が最上位のコンポーネント(または要因)にほぼ均等にロードされる場合、コンポーネントを区別することは明らかに困難です。そのため、この場合、回転を使用してコンポーネントをより適切に区別できます。これは正しいです? 回転を行うとどうなりますか?これは何に影響しますか? 適切なローテーションを選択する方法は?直交回転と斜め回転があります。これらの選択方法と、この選択の意味は何ですか? 最小限の数式で直感的に説明してください。広範にわたる答えはほとんどありませんでしたが、私は直感的な理由と経験則でもっと探しています。

2
p値を理解する
p値を説明する多くの資料があることを知っています。しかし、この概念は、さらに明確にしないとしっかりと把握するのは容易ではありません。 ウィキペディアのp値の定義は次のとおりです。 p値は、帰無仮説が真であると仮定して、少なくとも実際に観測されたものと同じくらい極端な検定統計量を取得する確率です。(http://en.wikipedia.org/wiki/P-value) 私の最初の質問は、「少なくとも実際に観察されたものと同じくらい極端な」という表現に関するものです。p値の使用の根底にあるロジックの私の理解は次のとおりです。p値が小さい場合、帰無仮説を仮定して観測が行われた可能性は低く、観測を説明するために代替仮説が必要になる場合があります。p値がそれほど小さくない場合は、帰無仮説を仮定するだけで観測が行われた可能性が高く、観測を説明するのに対立仮説は必要ありません。したがって、誰かが仮説を主張したい場合、彼/彼女は帰無仮説のp値が非常に小さいことを示さなければなりません。この見解を念頭に置いて、あいまいな表現の私の理解は、p値がmin[P(X&lt;x),P(x&lt;X)]min[P(X&lt;x),P(x&lt;X)]\min[P(X<x),P(x<X)]、統計のPDFが単峰性の場合、XXXは検定統計量、xxxは観測から取得した値です。これは正解?正しい場合、統計のバイモーダルPDFを使用することはまだ可能ですか?PDFの2つのピークが適切に分離されており、観測値が2つのピーク間の低確率密度領域のどこかにある場合、p値はどの間隔で確率を与えますか? 2番目の質問は、ヴォルフラムMathWorldからp値の別の定義についてです。 変量が偶然に厳密に観測値以上の値をとる確率。(http://mathworld.wolfram.com/P-Value.html) 「偶然に」というフレーズは「帰無仮説を仮定する」と解釈されるべきだと理解しました。そうですか? 3番目の質問は、「帰無仮説」の使用を考えています。誰かがコインが公正であることを主張したいと仮定しましょう。彼は、頭の相対頻度が0.5であるという仮説を表現しています。帰無仮説は、「頭の相対頻度は0.5ではありません」です。この場合、帰無仮説のp値の計算は困難ですが、対立仮説の計算は簡単です。もちろん、2つの仮説の役割を入れ替えることで問題を解決できます。私の質問は、元の対立仮説のp値に直接基づいた拒否または受け入れ(帰無仮説を導入せず)はそれがOKかどうかです。うまくいかない場合、帰無仮説のp値を計算するときのそのような困難に対する通常の回避策は何ですか? このスレッドでの議論に基づいて、より明確な新しい質問を投稿しました。

5
「平均値」と「平均」の違いは何ですか?
ウィキペディアの説明: データセットの場合、平均は値の合計を値の数で割ったものです。 ただし、この定義は、私が「平均」と呼ぶものに対応しています(少なくとも、覚えていることは覚えています)。しかし、ウィキペディアはもう一度引用しています: 「中央値」や「モード」など、一部の人々が平均値と混同するサンプルを使用する他の統計的尺度があります。 今では混乱しています。「平均値」と「平均」は互いに異なりますか?もしそうならどのように?

5
データの「探査」とデータの「s索」/「拷問」
多くの場合、「データスヌーピング」に対する非公式の警告に遭遇しました(ここに1つの面白い例があります)。おおよそ、それが何を意味するのか、なぜそれが問題になるのかについて直感的な考えを持っていると思います。 一方、「探索的データ分析」は、少なくともそのタイトルの本が依然として古典として敬意を表して引用されているという事実から判断すると、統計学において完全に立派な手順であるように思われます。 私の仕事では、頻繁に「データスヌーピング」のように見えるものに出くわします。あるいは、「データの拷問」と表現する方が良いかもしれません。「。 典型的なシナリオは次のとおりです。コストのかかる実験が行われ(その後の分析についてあまり考慮されず)、元の研究者は収集されたデータの「ストーリー」を容易に識別できず、誰かが「統計的魔法」を適用するために連れてこられます。 、あらゆる方法でデータをスライスおよびダイシングした後、最終的にそこから発行可能な「ストーリー」を抽出します。 もちろん、統計分析が最新のものであることを示すために、通常、最終レポート/論文にいくつかの「検証」がスローされますが、その背後にある露骨な公開コストの態度はすべて私を疑わしいものにしています。 残念ながら、データ分析のすべき点と悪い点についての私の限られた理解は、私がそのような曖昧な疑いを超えないようにしているので、私の保守的な対応は基本的にそのような発見を無視することです。 私の希望は、探検とbetween索/拷問の区別をよりよく理解するだけでなく、さらに重要なことには、その線が交差したときを検出するための原理と技術をよりよく把握することで、そのような発見を評価できるようになることです最適とは言えない分析手順を合理的に説明できる方法であり、それにより、私の現在のかなり単純なブランケット不信の反応を超えることができます。 編集:非常に興味深いコメントと回答をありがとうございました。彼らの内容から判断すると、私の質問を十分に説明できなかったのではないかと思います。このアップデートで問題が明確になることを願っています。 ここでの私の質問は何そんなにない懸念私は拷問を避けるために行う必要があり、私の(これも私に興味という質問ですが)データを、ではなく、:どのように私は考えて(または評価)する必要があることの結果、私は事実を知っているが通過到着されましたそのような「データ拷問」。 状況は、それらの(よりまれな)ケースでさらに興味深いものになります。さらに、そのような「調査結果」について、出版に向けて提出される前に意見を述べる立場にあります。 この時点で、ほとんどの私にできることは、のようなものと言っている「私は私がそれらを得るに行きました仮定や手続きについて知っていることを考えると、これらの知見に与えることができますどのくらい信憑知りませんが。」 これはあいまいすぎて、言う価値さえありません。 このような曖昧さを超えたいと思ったことが、私の投稿の動機でした。 公平を期すために、ここでの私の疑問は、一見疑問のある統計的手法以上のものに基づいています。実際、後者は、より深い問題の結果であると考えています。実験設計に対する無頓着な態度と、結果をそのままの状態で(つまり、さらなる実験なしで)公開するというカテゴリー的なコミットメントの組み合わせです。もちろん、フォローアッププロジェクトは常に構想されていますが、たとえば「100,000個のサンプルで満たされた冷蔵庫」から1枚の紙が出てくるということは、まったく問題ではありません。 統計は、この最高の目標を達成するための手段としてのみ登場します。統計にラッチする唯一の正当化(シナリオ全体の二次的)は、「すべてのコストでの出版」の前提に対する正面からの挑戦は無意味であるということです。 実際、このような状況で効果的な応答は1つだけだと考えることができます。分析の品質を真にテストする統計テスト(追加の実験を必要としない)を提案することです。しかし、私はそれについて統計のチョップを持っていません。私の希望(振り返ってみると素朴)は、私がそのようなテストを思いつくことができるかもしれないことを研究することができるかを見つけることでした... 私がこれを書いているとき、もしそれがまだ存在していなければ、世界は「データ拷問」を検出して公開するためのテクニックに専念する統計の新しいサブブランチを使用できることを知っています。(もちろん、「拷問」のメタファーに夢中になることを意味するものではありません。問題は「データ拷問」そのものではなく、それがもたらす偽の「発見」です。)

2
主成分分析におけるバイプロットの解釈
この素晴らしいチュートリアルに出くわしました。Rを使用した統計分析のハンドブック。第13章主成分分析: R言語でPCAを実行する方法に関するオリンピック7大会。図13.3の解釈がわかりません。 したがって、最初の固有ベクトルと2番目の固有ベクトルをプロットしています。どういう意味ですか?最初の固有ベクトルに対応する固有値がデータセットの変動の60%を説明し、2番目の固有値-固有ベクトルが変動の20%を説明するとします。これらを互いにプロットすることはどういう意味ですか?

6
信頼区間はいつ有用ですか?
私が正しく理解している場合、パラメーターの信頼区間は、指定された割合のサンプルの真の値を含む区間を生成する方法によって構築された区間です。したがって、「信頼」は、特定のサンプルから計算する間隔ではなく、方法に関するものです。 統計のユーザーとして、すべてのサンプルのスペースは仮想的なものであるため、私は常にこれにだまされていると感じています。私が持っているのは1つのサンプルであり、そのサンプルがパラメーターについて教えてくれることを知りたいです。 この判断は間違っていますか?少なくとも状況によっては、統計のユーザーにとって意味のある信頼区間を調べる方法はありますか? [この質問は、math.seの回答で信頼区間を分析した後の2番目の考えから生じますhttps://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 #7572 ]

3
ロジスティック回帰におけるオッズ比に対する単純な予測の解釈
私はロジスティック回帰を使用するのはやや新しいですが、次の値の解釈が同じだと思ったのに矛盾があるため、少し混乱しています。 指数化されたベータ値 ベータ値を使用した結果の予測確率。 これは私が使用しているモデルの簡易版です。栄養不足と保険は両方ともバイナリであり、富は連続しています。 Under.Nutrition ~ insurance + wealth 私の(実際の)モデルは、保険のために.8の指数化されたベータ値を返します。 「被保険者の栄養不足の確率は、保険のない個人の栄養不足の確率の0.8倍です。」 ただし、0と1の値を保険変数と富の平均値に入れることで個人の確率の差を計算すると、栄養不足の差はわずか.04です。次のように計算されます。 Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) / (1+exp(β0 + β1*Insurance + β2*wealth)) これらの値が異なる理由と、(特に2番目の値について)より良い解釈が何かを誰かが説明できれば、本当に感謝しています。 さらなる明確化の編集 私が理解するように、無保険の人(B1は保険に相当する)の栄養不足の可能性は次のとおりです。 Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) / (1+exp(β0 + β1*0+ β2*wealth)) 被保険者の栄養不足の可能性は次のとおりです。 Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) / (1+exp(β0 …

6
シャピロウィルクテストの解釈
私は統計が初めてなので、あなたの助けが必要です。 次のような小さなサンプルがあります。 H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 Rを使用してShapiro-Wilkテストを実行しました。 shapiro.test(precisionH4U$H4U) そして、私は次の結果を得ました: W = 0.9502, p-value = 0.6921 ここで、p値よりも0.05の有意水準がalpha(0.6921&gt; 0.05)よりも大きいと仮定すると、正規分布に関する帰無仮説を拒否できませんが、サンプルに正規分布があると言えますか? ありがとう!

4
RMSLE(二乗平均平方根誤差)をどのように解釈しますか?
RMSLE(Root Mean Squared Logarithmic Error)を使用して機器のカテゴリの販売価格を予測するパフォーマンスを評価する機械学習コンテストを行っています。問題は、最終結果の成功をどのように解釈するかわからないことです。 たとえば、私はのRMSLE達成した場合に、私はそれ指数パワー上げることができるとRMSEのようにそれを解釈しますか?(つまり)?1.0521.0521.052E 1.052 = 2.863 = R M S Eeeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE それから、私の予測は実際の価格から平均でだったと言えますか または、メトリックを解釈するより良い方法はありますか?または、他のモデルの他のRMSLEと比較することを除いて、メトリックをまったく解釈できますか? ±$2.863±$2.863\pm \$2.863

1
混合効果モデルで変量効果の分散と相関を解釈する方法は?
皆さんがこの質問を気にしないことを願っていますが、Rでやろうとしている線形混合効果モデル出力の出力を解釈するのに助けが必要です。私は、時間予測子として週に適合したモデルを持ち、私の結果として雇用コースで得点します。スコアを数週間(時間)といくつかの固定効果、性別、人種でモデル化しました。私のモデルにはランダム効果が含まれています。分散と相関関係の意味を理解する助けが必要です。出力は次のとおりです。 Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 相関は.231です。 相関関係は、週とスコアの間に正の関係があるため、解釈できますが、「23%の...」の観点からそれを言いたいと思います。 本当に感謝しています。 返信してくれた「ゲスト」とマクロに感謝します。申し訳ありませんが、返信しないため、私は会議に出ていたので、追いついています。出力とコンテキストは次のとおりです。 以下は、私が実行したLMERモデルの概要です。 &gt;summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ Weeks + (1 + Weeks | EmpID) Data: emp.LMER4 AIC BIC logLik deviance REMLdev 1815 1834 -732.6 1693 1685 Random effects: …

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
ディープラーニングモデルは現在、解釈可能であるとは言えませんか?ノードは機能していますか?
統計および機械学習モデルには、複数のレベルの解釈可能性があります:1)アルゴリズム全体、2)アルゴリズムの一般的な部分3)特定の入力のアルゴリズムの部分、およびこれらの3つのレベルはそれぞれ2つの部分に分かれています1つはトレーニング用、もう1つは機能評価用です。最後の2つの部分は、最初の部分よりもはるかに近いです。私は#2について尋ねていますが、これは通常#3のより良い理解につながります)。(それらが「解釈可能性」を意味するものでない場合、私は何を考えるべきですか?) 解釈可能性に関する限り、ロジスティック回帰は最も簡単に解釈できるものの1つです。このインスタンスがしきい値を超えたのはなぜですか?そのインスタンスにはこの特定のポジティブな特徴があり、モデル内の係数が大きいためです。それはとても明白です! ニューラルネットワークは、解釈が難しいモデルの典型的な例です。これらの係数はすべてどういう意味ですか?それらはすべて非常に複雑でクレイジーな方法で加算されるため、特定の係数が実際に何をしているのかを言うのは困難です。 しかし、すべてのディープニューラルネットが出てきているので、物事がより明確になっているように感じます。DLモデル(ビジョンなど)は、初期のレイヤーでエッジや向きなどをキャプチャしているように見え、後のレイヤーでは、いくつかのノードが実際にセマンティックであるようです(ことわざの「祖母セル」)。例えば: (「ディープラーニングについての学習」から) これは、プレゼンテーション用に手作業で作成されたグラフィックです(多くの場合)しかし、それが誰かがそれがどのように機能するかを考える証拠です。 過去には、認識可能な機能を見つけるのに十分なレイヤーがなかったかもしれません。モデルは成功しましたが、特定のモデルを事後的に分析するのは簡単ではありませんでした。 しかし、グラフィックは希望的観測に過ぎないかもしれません。おそらくNNは本当に不可解です。 しかし、ノードに画像のラベルが付いた多くのグラフィックスも非常に魅力的です。 DLノードは本当に機能に対応していますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.