タグ付けされた質問 「interpretation」

一般に、統計分析の結果から実質的な結論を出すことを指します。

2
予測ではなくモデリングのみに関心がある場合、正則化は役立ちますか?
予測や予測ではなく、モデルパラメーターの推定(および解釈)のみに関心がある場合、正則化は役立ちますか? あなたの目標が新しいデータの良い予測をすることである場合、正則化/相互検証が非常に有用であることがわかります。しかし、伝統的な経済学をやっていて、見積もるだけなら、どうでしょうか?クロスバリデーションもそのコンテキストで役立ちますか?概念的な難易私の闘争は、我々が実際に計算できるということであるL ( Y 、Y)試験データに、しかし、我々はできる計算決してL ( β 、β)真ため、βが観測されたことがない定義です。(真のβさえ存在すると仮定してくださいββ\betaL(Y,Y^)L(Y,Y^)\mathcal{L}\left(Y, \hat{Y}\right)L(β,β^)L(β,β^)\mathcal{L}\left(\beta, \hat{\beta}\right)ββ\betaββ\beta、つまり、データが生成されたモデルのファミリーを知っていること。) あなたの損失があると仮定。バイアスと分散のトレードオフに直面していますよね?そのため、理論的には、いくつかの正則化を行う方が良いかもしれません。しかし、どのようにして正則化パラメーターを選択できますか?L(β,β^)=∥β−β^∥L(β,β^)=‖β−β^‖\mathcal{L}\left(\beta, \hat{\beta}\right) = \lVert \beta - \hat{\beta} \rVert 私は、係数を持つ線形回帰モデルの簡単な数値例を参照させていただき研究者の損失関数は、例えばある、‖ β - βを ‖でも、またはちょうど(β 1 - β 1 )2。実際には、これらの例で予想される損失を改善するために相互検証をどのように使用できますか?β≡(β1,β2,…,βk)β≡(β1,β2,…,βk)\beta \equiv (\beta_1, \beta_2, \ldots, \beta_k)∥β−β^∥‖β−β^‖\lVert \beta - \hat{\beta} \rVert(β1−β^1)2(β1−β^1)2(\beta_1 - \hat{\beta}_1)^2 編集:DJohnson は、この質問に関連するhttps://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdfを指摘してくれました。著者はそれを書く 技術を機械学習...予測する統制のとれた方法で提供さ Y(i)は、バイアス・分散トレードオフを作る方法を決定するためにデータ自体を使用し、及び(ii)の変数の非常に豊富なセットを介して検索を可能にし、機能フォーム。しかし、すべてはコストがかかります。一つは、常に彼らが調整されているので、ことを心に留めておく必要がありY 、彼らは(他の多くの仮定なし)のために非常に便利な保証を与えていませんβ。Y^Y^\hat{Y}Y^Y^\hat{Y}β^β^\hat{\beta} 別の関連する紙、再びDJohnsonのおかげ: http://arxiv.org/pdf/1504.01132v3.pdf。このペーパーは、私が上記で苦労していた質問に対処します。 ...既成の回帰ツリーなどの機械学習法を因果推論の問題に適用する際の基本的な課題は、交差検証に基づく正則化アプローチは通常、「グラウンドトゥルース」、つまり実際の結果の観察に依存することです。交差検定サンプル。しかし、治療効果の平均二乗誤差を最小化することが目標である場合、[11]が「因果推論の根本的な問題」と呼ぶものに遭遇します。因果効果は個々のユニットで観察されないため、直接真実があります。治療の因果効果の平均二乗誤差の不偏推定値を構築するためのアプローチを提案することにより、これに対処します。

3
ARIMAモデルの解釈
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 7年前に移行され ました。 ARIMAモデルについて質問があります。のは、私は時系列があるとしましょうYtYtY_t私は予想してしたいことをARIMA (2 、2 )有馬(2、2)\text{ARIMA}(2,2)モデルは、予測演習を実施するための良い方法のように思えます。 遅れたは、今日のシリーズが以前のイベントの影響を受けていることを示しています。意味あり。しかし、エラーの解釈は何ですか?私の以前の残差(私の計算でどの程度外れていたか)は、今日の私のシリーズの価値に影響を与えていますか?回帰の積/残余であるため、この回帰では時間差残差はどのように計算されますか?Δ Yt= α1Δ Yt − 1+ α2Δ Yt − 2+ νt+ θ1νt − 1+ θ2νt − 2△Yt=α1△Yt−1+α2△Yt−2+νt+θ1νt−1+θ2νt−2 \Delta Y_t = \alpha_1 \Delta Y_{t-1} + \alpha_2 \Delta Y_{t-2} + \nu_{t} + \theta_1 \nu_{t-1} + \theta_2 \nu_{t-2} YYY

1
2Dコレスポンデンス分析プロットの解釈
私はインターネットを広く検索してきました... 2Dコレスポンデンス分析プロットを解釈する方法の本当に良い概要をまだ見つけていません。誰かがポイント間の距離を解釈する上でアドバイスを提供できますか? おそらく例が役立つでしょう。ここに、私が見た多くのウェブサイトで見つかった、コレスポンデンス分析についてのプロットがあります。赤い三角形は目の色を表し、黒い点は髪の色を表します。 上記のグラフを見て、これらのデータに表示されるものについていくつかのステートメントを作成できますか。三角形とドットの異なる次元と関係についての関心のある点は? 行ポイントと列ポイントの説明、および例に特に焦点を当てた「プロファイル」という言葉の使用は、役に立つでしょう。

2
分散に関する回帰はなぜですか?
私はこのメモを読んでいます。 2ページに、次のように記載されています。 「データの分散は、特定の回帰モデルによってどの程度説明されますか?」 「回帰の解釈は係数の平均に関するものであり、推論はそれらの分散に関するものです。」 私はそのような声明について何度も読みましたが、なぜ「データの分散が与えられた回帰モデルによってどれほど説明されるのか」を気にするのはなぜでしょうか...より具体的には、なぜ「分散」なのでしょうか?

2
複数のカテゴリ変数がある場合のベータの解釈
私は、概念を理解β 0は、カテゴリ変数は、回帰係数は、2つのカテゴリーの平均値の差があることをエンド解釈を与え、0に等しい(または基準基である)ときの平均です。でも、私はそれぞれ引き受ける> 2つのカテゴリとβは、そのカテゴリの平均値と参照の違いを説明しています。β^0β^0\hat\beta_0β^β^\hat\beta しかし、多変数モデルにさらに多くの変数が取り込まれたらどうなりますか?ここで、2つのカテゴリ変数の参照の平均であることが意味をなさない場合、インターセプトは何を意味しますか?たとえば、性別(M(ref)/ F)と人種(white(ref)/ black)が両方ともモデルに含まれている場合です。ある唯一の白人男性の平均は?他の可能性をどのように解釈しますか?β^0β^0\hat\beta_0 別のメモとして:コントラストステートメントは、効果の変更を調査するための方法として機能しますか?または、さまざまなレベルで効果()を見るだけですか?β^β^\hat\beta

1
順序ロジスティック回帰のプロットと解釈
1(簡単ではない)から5(非常に簡単)の範囲の順序依存変数easinessがあります。独立因子の値の増加は、容易性評価の増加に関連しています。 私の独立変数のうちの2つ(condAおよびcondB)はカテゴリカルであり、それぞれ2つのレベルがあり、2(abilityA、abilityB)は連続しています。 私が使用している序それは私がであると信じるものを使用してR、パッケージを ロジット(p (Y⩽ グラム))= lnp (Y⩽ グラム)p (Y> g)= β0g− (β1バツ1+ ⋯ + βpバツp)(g= 1 、… 、k − 1 )ロジット(p(Y⩽g))=ln⁡p(Y⩽g)p(Y>g)=β0g−(β1バツ1+⋯+βpバツp)(g=1、…、k−1)\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1) (@caracalの回答はこちら) 私はこれを独自に学習してきましたが、まだ苦労しているので、可能な限りの助けをお願いします。通常のパッケージに付属するチュートリアルに加えて、次の情報も役立つことがわかりました。 順序ロジスティック回帰の解釈 順序ロジスティック回帰の負の係数 …

4
情報量の少ないまたは主観的な事前分布を通常使用する場合、ベイジアンフレームワークの解釈はどのように改善されますか?
それはデータ与えられたパラメータの確率を計算するので、それは多くの場合、(frequentist以上)ベイズフレームワークは解釈の大きな利点を持っていると主張している-の代わりに、のように、頻繁なフレームワーク。ここまでは順調ですね。p (x | θ )p (θ | x )p(θ|x)p(\theta|x)p (x | θ )p(x|θ)p(x|\theta) しかし、それが基づいている全体の方程式: p (θ | x )= p(x | θ )。p (θ )p (x )p(θ|x)=p(x|θ).p(θ)p(x)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 私には2つの理由で少し疑っています: 多くの論文では、通常、情報量の少ない事前分布(均一分布)が使用され、その後のみが使用されます。ベイジアン事後確率と頻度論者の可能性が同じ分布である場合の解釈?同じ結果が得られます。p (θ | x )=p (x | θ )p(θ|x)=p(x|θ)p(\theta|x) = p(x|\theta) 有益な事前分布を使用すると、異なる結果が得られますが、ベイジアンは主観的な事前分布の影響を受けるため、全体にも主観的な色合いがあります。p (θ | x )p(θ|x)p(\theta|x) …

3
カルバック・ライブラーの発散の分析
次の2つの確率分布を考えてみましょう P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 0.4928202580.4928202580.492820258に等しいKullback -Leibler発散を計算しましたが、この数値が何を示しているかを一般的に知りたいですか?一般に、Kullback-Leiblerの発散は、ある確率分布が別の確率分布からどれだけ離れているかを示しています。エントロピーの用語に似ていますが、数字の面ではどういう意味ですか?結果が0.49の場合、およそ1つの分布が別の分布から50%離れていると言えますか?

2
マシューズ相関係数(MCC)の解釈方法
phi、Matthews、Pearsonの相関係数の関係の質問に対する答えは?3つの係数メソッドがすべて同等であることを示しています。 私は統計学者ではないので、簡単な質問です。 マシューズのペーパー(www.sciencedirect.com/science/article/pii/0005279575901099)では次のことを説明しています。 "A correlation of: C = 1 indicates perfect agreement, C = 0 is expected for a prediction no better than random, and C = -1 indicates total disagreement between prediction and observation"`. ウィキペディア(http://en.wikipedia.org/wiki/Pearson_product-moment_correlation_coefficient)によると、ピアソンの相関関係は次のように説明されています: giving a value between +1 and −1 inclusive, where: 1 is total positive correlation, …


2
順序ロジスティック回帰の解釈
この順序ロジスティック回帰をRで実行しました。 mtcars_ordinal <- polr(as.factor(carb) ~ mpg, mtcars) 私はこのモデルの概要を得ました: summary(mtcars_ordinal) Re-fitting to get Hessian Call: polr(formula = as.factor(carb) ~ mpg, data = mtcars) Coefficients: Value Std. Error t value mpg -0.2335 0.06855 -3.406 Intercepts: Value Std. Error t value 1|2 -6.4706 1.6443 -3.9352 2|3 -4.4158 1.3634 -3.2388 3|4 -3.8508 1.3087 -2.9425 …

2
ダミー変数による機能の重要性
ダミー変数に分解されたカテゴリー変数の機能の重要性をどのように取得できるかを理解しようとしています。Rまたはh2oのようにカテゴリ変数を処理しないscikit-learnを使用しています。 カテゴリ変数をダミー変数に分解すると、その変数のクラスごとに個別の機能の重要性が得られます。 私の質問は、それらを単純に合計することによって、それらのダミー変数の重要度をカテゴリー変数の重要度値に再結合することは理にかなっていますか? 統計学習の要素の368ページから: 変数相対的な重要度の2乗は、それが分割変数として選択されたすべての内部ノードに対する改善の2乗の合計です。バツℓバツℓX_{ℓ} これにより、変数が選択された各ノードでメトリックを合計することで重要度値がすでに作成されているため、ダミー変数の変数重要度値を組み合わせてカテゴリ変数の重要度を「回復」できるはずです。もちろん、正確に正しいとは思いませんが、これらの値はランダムなプロセスで検出されるため、とにかく本当に正確な値です。 調査として、次のPythonコード(jupyterで)を作成しました。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier import re #%matplotlib inline from IPython.display import HTML from IPython.display import set_matplotlib_formats plt.rcParams['figure.autolayout'] = False plt.rcParams['figure.figsize'] = 10, …

1
LASSO変数トレースプロットの解釈
私はこのglmnetパッケージを初めて使用しますが、結果の解釈方法がまだわかりません。誰でも次のトレースプロットを読むのを手伝ってもらえますか? グラフは、次を実行して取得していました。 library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", label=TRUE) plot(model$glmnet.fit, "lambda", label=TRUE) par(op)


2
頻度統計の主観性
ベイジアン統計は非常に主観的であるという主張をよく耳にします。主な論点は、推論が事前確率の選択に依存するということです(たとえ最大エントロピーの無関心の原理を使用して事前確率を選択できたとしても)。それと比較して、主張では、一般的な統計はより客観的です。この声明にはどれほどの真実がありますか? また、これは私が不思議に思う: 頻度統計の具体的な要素(存在する場合)は、特に主観的であり、ベイジアン統計に存在しないか、またはそれほど重要ではありませんか? 主観性は、頻度統計よりもベイジアンの方が一般的ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.