タグ付けされた質問 「interpretation」

一般に、統計分析の結果から実質的な結論を出すことを指します。

11
自由度を理解する方法は?
ウィキペディアから、統計の自由度の3つの解釈があります。 統計では、自由度の数は、統計の最終計算で自由に変化できる値の数です。 統計パラメータの推定は、さまざまな量の情報またはデータに基づいて行うことができます。パラメーターの推定値に入る独立した情報の数は、自由度(df)と呼ばれます。一般的に、パラメータの推定値の自由度は、に等しい推定に入る独立したスコアの数マイナスパラメータ自体の推定における中間ステップとして使用されるパラメータの数(標本分散です、 1つは、サンプル平均が唯一の中間ステップであるためです)。 数学的には、自由度はランダムなベクトルの領域の次元、または本質的に「自由な」コンポーネントの数です。ベクトルが完全に決定されるまでに必要なコンポーネントの数。 大胆な言葉は私がよく理解していないものです。可能であれば、いくつかの数学的定式化が概念の明確化に役立ちます。 また、3つの解釈は互いに一致しますか?

16
統計的検定におけるp値とt値の意味は何ですか?
統計コースを受講してから仲間の学生を助けようとした後、頭を大きく叩くような刺激を与える1つの主題が統計仮説テストの結果を解釈していることに気付きました。学生は、与えられたテストに必要な計算を実行する方法を簡単に学びますが、結果を解釈することに夢中になっているようです。多くのコンピューター化されたツールは、「p値」または「t値」の観点からテスト結果を報告します。 統計の最初のコースを受講する大学生に次の点をどのように説明しますか: テスト対象の仮説に関して、「p値」とはどういう意味ですか?高いp値または低いp値を探す必要がある場合はありますか? p値とt値の関係は何ですか?

2
Rのlm()出力の解釈
Rのヘルプページでは、これらの数値の意味を知っていると想定していますが、わかりません。ここですべての数字を本当に直感的に理解しようとしています。出力を投稿し、見つけた内容についてコメントします。私が想定していることを書くだけなので、間違いがあるかもしれません。主に、係数のt値の意味と、それらが残差標準誤差を出力する理由を知りたいと思います。 Call: lm(formula = iris$Sepal.Width ~ iris$Petal.Width) Residuals: Min 1Q Median 3Q Max -1.09907 -0.23626 -0.01064 0.23345 1.17532 これは残差の5ポイントの要約です(平均は常に0ですよね?)。数値を使用して(ここで推測しています)、大きな外れ値があるかどうかをすばやく確認できます。また、残差が正規分布から遠く離れている場合(正規分布である必要があります)、すでにここで確認できます。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.30843 0.06210 53.278 < 2e-16 *** iris$Petal.Width -0.20936 0.04374 -4.786 4.07e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

2
統計的に有意な切片項を削除すると、線形モデルのが増加します
単一の説明変数を持つ単純な線形モデルでは、 αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i 切片項を削除すると、近似が大幅に改善されることがわかりました(値は0.3から0.9になります)。ただし、切片の項は統計的に有意であると思われます。R2R2R^2 インターセプトあり: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** …

6
t-SNEの出力のクラスタリング
ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90%に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。 次に、t-SNEを(初めて)試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。 しかし、これらのクラスターについてレポートする場合、どのように説明しますか?主成分のK-meansクラスターは、データセットの分散のX%を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか? おそらく次の効果があります: t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します 誰もがそれよりも良い宣伝文句を提案できますか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
このチャートは、テロ攻撃の可能性を統計的に示していますか?
私はこの画像が頻繁に渡されるのを見ています。 私はこの方法で提供された情報が何らかの形で不完全である、または誤っていることさえあるという直感を持っていますが、私は応答するのに十分な統計に精通していません。このxkcdコミックについて考えると、確かな履歴データがあっても、状況によって予測方法が変わることがあります。 提示されたこのチャートは、難民からの脅威レベルを正確に示すのに役立ちますか?このチャートを多かれ少なかれ有用にする必要な統計的コンテキストはありますか? 注:素人の言葉でそれを保つようにしてください:)

1
ポアソン回帰で係数を解釈する方法は?
ポアソン回帰の主な効果(ダミーコード化された因子の係数)をどのように解釈できますか? 次の例を想定します。 treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

5
逆共分散または精度行列の解釈方法は?
濃度行列または精度行列としても知られる逆共分散行列の要素の解釈を議論する参考文献を誰かが私に指摘できるかどうか疑問に思っていました。 CoxとWermuthの多変量依存関係にアクセスできますが、探しているのは逆行列の各要素の解釈です。ウィキペディアは次のように述べています。「精度行列の要素は、部分相関と部分分散の観点から解釈されています」と私はこのページに導かれます。線形回帰を使用しない解釈はありますか?IE、共分散または幾何学の面で?

9
「80人に1人が自動車事故によって引き起こされた」を「80人に1人が自動車事故の結果として死亡した」と言い換えることは間違っていますか?
ステートメント1(S1):「80人に1人の死亡は自動車事故によるものです。」 ステートメント2(S2):「80人に1人が自動車事故の結果死亡しました。」 今、私は個人的に、これらの2つのステートメントの間に大きな違いは見ていません。書くとき、私はそれらを一般の聴衆と交換可能であると考えます。しかし、私はこれについて2人の人に挑戦されており、いくつかの追加の視点を探しています。 S2のデフォルトの解釈は、「人間の人口から一様にランダムに引き出された80人のうち、そのうちの1人が自動車事故の結果として死亡することを期待します」です。 私の質問は次のとおりです。 Q1)デフォルトの解釈は、実際にはステートメント1と同等ですか? Q2)これが私のデフォルトの解釈であるのは珍しいですか、無謀ですか? Q3)S1とS2が異なると思う場合、1つ目が誤解を招く/間違っているという意味で2つ目を述べる場合、同等のS2の完全修飾リビジョンを提供してください。 S1が人間の死を具体的に言及していないという明白なめ事を脇に置き、それが文脈で理解されていると仮定しましょう。また、クレーム自体の真実性についての議論はさておき、説明のためのものです。 私の知る限り、これまでに聞いた意見の不一致は、最初と2番目のステートメントの異なる解釈に対するデフォルトを中心としているようです。 最初は、私の挑戦者は1/80 * num_deaths =自動車事故による死者数と解釈しますが、何らかの理由で、「もしあなたが何かセットを持っているなら、 80人の、そのうちの一つがします(明らかに同等の請求ではありません)車の事故」で死亡します。S1の解釈を考えると、S2のデフォルトは(1/80 * num_dead_people =自動車事故で亡くなった人の数==自動車事故による死者の数)と解釈されると思います。なぜ解釈に矛盾があるのか​​(S2のデフォルトがはるかに強い仮定である)、またはそれらに私が実際には欠けているという生来の統計的意味があるかどうかはわかりません。

2
移動平均プロセスの実際の例
あなたは、時系列のいくつかの実際の例を与えることができ、注文の移動平均処理のための、すなわち Y T = q個のΣ I = 1 θ I ε トン- 私は + εのトンを、ε T〜N(0 、σ 2) いくつか持っている先験的に良いモデルであることの理由を?少なくとも私にとっては、自己回帰プロセスは直感的に非常に簡単に理解できるように見えますが、MAプロセスは一見自然に見えません。私はそうではないことに注意してくださいqqqyt= ∑i = 1qθ私εt − i+ εt、 ここで εt〜N(0 、σ2)yt=∑私=1qθ私εt−私+εt、 どこ εt〜N(0、σ2) y_t = \sum_{i=1}^q \theta_i \varepsilon_{t-i} + \varepsilon_t, \text{ where } \varepsilon_t \sim \mathcal{N}(0, \sigma^2) ここで理論的な結果(ウォルドの定理や可逆性など)に興味があります。 私が探しています何の例として、あなたは毎日株式リターンがあると。そうすると、平均的な週次株価収益率は、純粋に統計的な成果物としてMA(4)構造になります。rt〜IID (0 、σ2)rt〜IID(0、σ2)r_t \sim \text{IID}(0, …

5
QQplotの解釈-非正規性を決定する経験則はありますか?
ここでQQplotのスレッドを十分に読んで、QQplotが他の正規性テストよりも有益であることを理解しています。しかし、私はQQplotsの解釈に不慣れです。私はたくさんグーグルでした。非正規のQQplotのグラフをたくさん見つけましたが、既知の分布と「直感」との比較と思われるものを除き、それらの解釈方法に関する明確なルールは見つかりませんでした。 非正規性の判断に役立つ経験則があるか(または知っているか)知りたい。 この質問は、次の2つのグラフを見たときに浮上しました。 非正規性の決定は、データとそれらの処理に依存することを理解しています。ただし、私の質問は、一般に、観測された直線からの逸脱が正規性の近似を不合理にするのに十分な証拠を構成するのはいつですか? 価値のあることですが、Shapiro-Wilk検定は、どちらの場合も非正規性の仮説を否定できませんでした。

3
対数変換された予測子および/または応答の解釈
従属変数のみ、従属変数と独立変数の両方、または独立変数のみが対数変換されるかどうかの解釈に違いがあるのか​​と思います。 の場合を考えます log(DV) = Intercept + B1*IV + Error IVはパーセントの増加として解釈できますが、 log(DV) = Intercept + B1*log(IV) + Error または私が持っているとき DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

5
ロジスティック回帰係数の重要性は何ですか?
現在、2000年と2004年の選挙における投票場所と投票の選好に関する論文を読んでいます。その中には、ロジスティック回帰係数を表示するチャートがあります。数年前のコースから少し読んで、ロジスティック回帰は、複数の独立変数とバイナリ応答変数の間の関係を記述する方法であると理解しています。私が混乱しているのは、以下の表にあるように、南部のロジスティック回帰係数が.903であるため、南部人の90.3%が共和党に投票するということですか?メトリックのロジスティックな性質のため、この直接的な相関関係は存在しません。その代わり、0.903の南は、.506の回帰で、Mountains / plainsよりも共和党に票を投じているとしか言えないと思います。後者の場合、重要なものとそうでないものをどのように知ることができますか?また、このロジスティック回帰係数を与えられた共和党の投票の割合を推定することは可能ですか? サイドノートとして、間違って記載されている場合は投稿を編集してください

3
ANOVAでF値とp値を解釈する方法
私は統計が初めてで、現在は分散分析を扱っています。RでANOVAテストを実行します aov(dependendVar ~ IndependendVar) 特にF値とp値が得られます。 私の帰無仮説()は、すべてのグループ平均が等しいというものです。H0H0H_0 Fの計算方法については多くの情報がありますが、F統計の読み方とFとpの接続方法はわかりません。 だから、私の質問は: を拒否するための重要なF値を決定するにはどうすればよいですか?H0H0H_0 各Fには対応するp値があるので、両者は基本的に同じ意味ですか?(たとえば、場合、H 0は拒否されます)p &lt; 0.05p&lt;0.05p<0.05H0H0H_0

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.