タグ付けされた質問 「interpretation」

一般に、統計分析の結果から実質的な結論を出すことを指します。

1
Rでのロジスティック回帰出力の解釈
私はを使用してRの多重ロジスティック回帰に取り組んでいますglm。予測変数は連続的でカテゴリカルです。モデルの要約の抜粋は次を示しています。 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.451e+00 2.439e+00 1.005 0.3150 Age 5.747e-02 3.466e-02 1.658 0.0973 . BMI -7.750e-02 7.090e-02 -1.093 0.2743 ... --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 信頼区間: 2.5 % 97.5 % (Intercept) 0.10969506 1.863217e+03 Age 0.99565783 …

1
MCMCで自己相関プロットを解釈する方法
「子犬の本」としても知られるジョンK.クルシュケの本Doing Bayesian Data Analysisを読んで、ベイジアン統計に精通しています。第9章では、この単純な例で階層モデルを紹介します: 及びベルヌーイ観察は3枚のコイン、それぞれ10のフリップあります。1つは9つのヘッド、他の5つはヘッド、もう1つは1つのヘッドです。yj iθjμκ〜BのEのR 、N 、O 、U 、L L I(θj)〜BのEのトン(μκ、(1-μ)κ)〜BのE T(Aμ、Bμ)〜G A M M A(Sκ、Rκ)yj私〜Bernoあなたはll私(θj)θj〜Beta(μκ、(1−μ)κ)μ〜Beta(Aμ、Bμ)κ〜Gamma(Sκ、Rκ)\begin{align} y_{ji} &\sim {\rm Bernoulli}(\theta_j) \\ \theta_j &\sim {\rm Beta}(\mu\kappa, (1-\mu)\kappa) \\ \mu &\sim {\rm Beta}(A_\mu, B_\mu) \\ \kappa &\sim {\rm Gamma}(S_\kappa, R_\kappa) \end{align} ハイパーパラメーターを推測するためにpymcを使用しました。 with pm.Model() as model: # define the mu = …

3
トリミング率とトリミング平均のプロットをどのように解釈できますか?
宿題の質問の一部として、最小と最大の観測値を削除してデータセットのトリミング平均を計算し、結果を解釈するように求められました。トリミングされた平均は、トリミングされていない平均よりも低かった。 私の解釈では、これは基礎となる分布が正に歪んでおり、そのため、左尾が右尾よりも密度が高いためだと考えられました。このゆがみの結果、高いデータムを削除すると、低いデータを削除するよりも平均が下にドラッグされます。これは、非公式に言えば、「代わりに待機している」データが少ないためです。(これは合理的ですか?) その後、私はトリム平均計算にトリミングパーセンテージが、これをどのように影響するか不思議に始め種々のために。興味深い放物線の形になりました: バツ¯tr(k )バツ¯tr⁡(k)\bar x_{\operatorname{tr}(k)}k = 1 / n 、2 / n 、… 、(n2− 1 )/ nk=1/n、2/n、…、(n2−1)/nk = 1/n, 2/n, \dotsc, (\frac{n}{2}-1)/n これをどのように解釈するのかよくわかりません。直観的には、グラフの勾配は中央値のデータポイント内の分布の部分の負の歪度(に比例)であるように思われます。(この仮説は私のデータでチェックアウトしますが、私はしか持っていないので、あまり自信がありません。)kkkn = 11n=11n = 11 このタイプのグラフには名前がありますか、それとも一般的に使用されていますか?このグラフからどのような情報を収集できますか?標準的な解釈はありますか? 参考のため、データは4、5、5、6、11、17、18、23、33、35、80です。

2
分散共分散行列の解釈
線形モデルがModel1ありvcov(Model1)、次の行列を与えると仮定します。 (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 この例では、このマトリックスは実際に何を表示しますか?モデルとその独立変数に対して安全に行える仮定は何ですか?

2
大衆向けのピザ統計
NY Times Webサイトの短いエントリには、米国でのピザ消費の事実と数値が記載されています。私は統計を一般の聴衆に情報を提供するためにどのように使用する(または悪用する)かということに興味があり、提示された統計に基づいていくつかの質問が生じました。 8人のアメリカ人の1人が今日ピザを食べるとしたら、それは平均的なアメリカ人が8日ごとに1度ピザを食べるということですか?ここでは、すべてのアメリカ人がピザを食べるという仮定がありますが、そうではありません。しかし、それは、何人のアメリカ人がピザを食べるかについての有効な仮定を立てる方法の問題を提起します。 子供のカロリー摂取量の25%がピザであると報告されています。私は、適度に活動的であり、したがって毎日2000カロリーの摂取が必要な9歳の子供と定義します。ピザのスライスのカロリー数が285 であるというGoogleの推定を信頼する場合、それは子供が平均して週に12枚のピザを消費することを示唆していますか?(2000 * 7 * 0.25 / 285) 統計の解釈に欠陥があると思います。子供が8人に1人の割合で今日ピザを食べている一方で、1日あたり約1.7スライスを食べて25%のカロリー摂取量を達成できるとは思えません。

3
二項分布のフィッシャー情報が
二項式の分散が比例するということは、私の心を混乱させたり吹き飛ばしたりします。同様に、フィッシャー情報は1に比例します。p(1−p)p(1−p)p(1-p)。この理由は何ですか?フィッシャー情報がp=0.5で最小化されるのはなぜですか?つまり、p=0.5で推論が最も難しいのはなぜですか1p(1−p)1p(1−p)\frac{1}{p(1-p)}p=0.5p=0.5p=0.5p=0.5p=0.5p=0.5ですか? 環境: 私はサンプルサイズ計算機で作業しており、必要なサンプルサイズであるの式は、p (1 − p )の増加因子であり、導出における分散推定の結果です。NNNp(1−p)p(1−p)p(1-p)


1
LASSO回帰係数の解釈
私は現在、約300の変数と800の観測値を持つデータセットのバイナリ結果の予測モデルの構築に取り組んでいます。このサイトでは、段階的回帰に関連する問題と、なぜそれを使用しないのかについて多くを読みました。 私はLASSOの回帰とその機能選択機能を読んでおり、「キャレット」パッケージと「glmnet」を使用してそれを実装することに成功しています。 私は最適で、モデルの係数を抽出することができるよlambdaとalpha「キャレット」から。ただし、係数の解釈方法には慣れていません。 LASSO係数はロジスティック回帰と同じ方法で解釈されますか? LASSOから選択した機能をロジスティック回帰で使用することは適切でしょうか? 編集 LASSO回帰の指数係数のように、他のすべての係数を一定に保ちながら係数の1単位の対数オッズが変化するときの係数の解釈。 https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-how-do-i-interpret-odds-ratios-in-logistic-regression/

2
Rでのk平均クラスタリングの結果の解釈
kmeansアンダーソンのアイリスデータセットでk平均アルゴリズムを実行するために、R の命令を使用していました。取得したいくつかのパラメーターについて質問があります。結果は次のとおりです。 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 この場合、「クラスターの意味」とはどういう意味ですか?クラスタ内のすべてのオブジェクトの距離の平均ですか? また、私は最後の部分で: Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) その値は88.4%で、その解釈は何でしょうか?


1
合計が1になる比率を線形回帰の独立変数として解釈する
共線性を回避するために、1つのレベルをベースラインとしてフィットできるようにする、カテゴリ変数とそれぞれのダミー変数コーディングの概念に精通しています。また、そのようなモデルからのパラメーター推定値を解釈する方法にも精通しています。ベースラインカテゴリと比較した、カテゴリカル予測子の特定の近似レベルの結果の予測される変化。 わからないのは、合計が1になる比率である一連の独立変数をどのように解釈するかです。モデルのすべての比率を当てはめると、再び共線性が得られるため、おそらく1つのカテゴリをベースラインとして除外する必要があります。私はまた、この変数の重要性の全体的なテストのためにタイプIII SSを見ることを想定しています。ただし、これらのレベルのパラメーター推定値は、モデルに適合するか、ベースラインと見なされたものとどのように解釈しますか? 例:郵便番号レベルでは、独立変数は変成岩、火成岩、堆積岩の比率です。ご存知かもしれませんが、これらは3つの主要な岩石タイプであり、すべての岩石はこれらの岩石の1つとして分類されます。そのため、3つすべての比率の合計は1になります。結果は、それぞれの郵便番号の平均ラドンレベルです。 モデルの予測因子として変成岩と火成岩の比率を当てはめ、堆積物をベースラインとして残した場合、2つの適合レベルの全体的なタイプIII SS F検定は、全体として岩のタイプが重要かどうかを示します。結果の予測因子(平均ラドンレベル)。次に、個々のp値(t分布に基づく)を見て、一方または両方の岩石タイプがベースラインと大幅に異なるかどうかを判断できます。 ただし、パラメーターの見積もりになると、私の脳はそれらを純粋にグループ(ロックタイプ)間の結果の予測される変化として解釈することを望み続け、それらが比率として当てはまるという事実を組み込む方法を理解していません。 場合はの推定値変成岩はあったが、0.43、言う、解釈は岩が変成対の堆積岩であるとき、0.43単位で予測平均ラドンレベルが増加するということだけではありません。ただし、この解釈は、変成岩タイプの比率のある種の単位増加(たとえば、0.1)の単純なものでもありません。これは、ベースライン(堆積物)にも関連しているという事実を反映していないためです。割合変成岩は、本質的に、モデル内の他のロック・レベルのフィット感、の割合に変更火成岩を。ββ\beta そのようなモデルの解釈を提供するソースを持っている人はいますか、そうでなければここに簡単な例を提供できますか?

1
ログに記録された結果変数の負の線形回帰係数を解釈するにはどうすればよいですか?
従属変数がログに記録され、独立変数が線形である線形回帰モデルがあります。主要な独立変数の勾配係数は負です: .。解釈の仕方がわからない。− .0564−.0564-.0564 絶対値を使用してから、次のように負に変換しますか? (exp(0.0564 )- 1 )⋅ 100 = 5.80(exp⁡(0.0564)−1)⋅100=5.80(\exp(0.0564)-1) \cdot 100 = 5.80 または 次のように負の係数を接続しますか? (exp(- 0.0564 )- 1 )⋅ 100 = - 5.48(exp⁡(−0.0564)−1)⋅100=−5.48(\exp(-0.0564)-1) \cdot 100 = -5.48 つまり、絶対値を使用してからそれを負に変換するのですか、それとも負の係数を接続するのですか?Xの1単位の増加は、Yの__パーセントの減少に関連しているという点で、私の発見をどのように表現しますか?ご覧のとおり、これらの2つの数式は2つの異なる答えを生成します。

2
QQプロットの解釈
次のコードと出力を検討してください。 par(mfrow=c(3,2)) # generate random data from weibull distribution x = rweibull(20, 8, 2) # Quantile-Quantile Plot for different distributions qqPlot(x, "log-normal") qqPlot(x, "normal") qqPlot(x, "exponential", DB = TRUE) qqPlot(x, "cauchy") qqPlot(x, "weibull") qqPlot(x, "logistic") 対数正規のQQプロットは、ワイブルのQQプロットとほとんど同じであるようです。それらをどのように区別できますか?また、ポイントが2つの外側の黒い線で定義された領域内にある場合、それらは指定された分布に従うことを示していますか?

1
このサンプルの(対数)正規性を仮定できますか?
これが私のサンプルのQQプロットです(対数Y軸に注意してください)。:n = 1000n=1000n = 1000 whuberによって指摘されたように、これは、基になる分布が左に歪んでいる(右裾が短い)ことを示しています。 用いたshapiro.test(対数変換データ)Rで、Iは、検定統計量取得及びp値我々は正式ことを意味する、リジェクトヌル仮説 95%の信頼水準で。5.172 ⋅ 10 - 13 H 0:サンプルは正常に分布されていますW= 0.9718W=0.9718W = 0.97185.172 ⋅ 10− 135.172⋅10−135.172\cdot10^{-13}H0:サンプルは正規分布ですH0:the sample is normal distributedH_0 : \text{the sample is normal distributed} 私の質問は次のとおりです。これは、(対数)正規性を前提としたさらなる分析のために実際には十分ですか?特に、CoxとLandによる近似法を使用して、類似したサンプルの平均の信頼区間を計算したいと思います(論文で説明されている:Zou、GY、cindy Yan HuoおよびTaleban、J。(2009)。単純な信頼区間対数正規平均と、環境アプリケーションとの違い。Environmetrics20、172–180): ci <- function (x) { y <- log(x) n <- length(y) s2 <- var(y) m <- mean(y) …

1
バイナリー楽器とバイナリー内因性変数を使用して、楽器変数回帰の第2段階係数を解釈する方法
(かなり長い投稿、申し訳ありません。多くの背景情報が含まれているので、下部の質問に進んでください。) イントロ:私たちは、バイナリ内生変数の影響を識別しようとしているプロジェクトに取り組んでいます、連続結果に、。私たちは、無作為に割り当てられると強く信じている楽器を考え出しました。x1x1x_1yyyz1z1z_1 データ:データ自体はパネル構造になっており、約34,000の観測が1000ユニットと約56の期間に分散しています。は約700(2%)の観測値に対して1の値をとり、は約3000(9%)に対して値を受け取ります。111(0.33%)観察は、両方で1スコア上、それは上で1得点を観察するための二倍の可能性があるに、それはまた、スコア1が場合。x1x1x_1z1z1z_1z1z1z_1x1x1x_1x1x1x_1z1z1z_1 推定: Stataのivreg2プロシージャを使用して、次の2SLSモデルを推定します。 x1=π0+π1z1+Zπ+vx1=π0+π1z1+Zπ+vx_1 = \pi_0 + \pi_1z_1 + \mathbf{Z}\mathbf{\pi} + v y=β0+β1x∗1+Zβ+uy=β0+β1x1∗+Zβ+uy = \beta_0 + \beta_1 x_1^* + \mathbf{Z}\mathbf{\beta} + u ここで、他の外因性変数のベクトルであり、 の予測値である第一段階から、そして及び誤差項です。ZZZx∗1x1∗x_1^*x1x1x_1uuuvvv 結果:すべてがうまく機能しているようです。推定第一段階において非常に重要であるとの推定第二段階において非常に重要です。他の外生変数の兆候を含め、すべての兆候は予想どおりです。ただし、問題は(関心のある係数)の推定値が信じられないほど大きい(または、少なくとも、これまでの解釈に従って)ことです。π1π1\pi_1β1β1\beta_1β1β1\beta_1 yyy範囲は約2から約26で、平均値と中央値は17ですが、の推定値は30から40の範囲です(仕様によって異なります)。β1β1\beta_1 弱いIV:最初の考えは、これは楽器が弱すぎるためであると考えていました。つまり、内生変数とはあまり相関していませんが、実際にはそうではありません。それは違反に堅牢なテスト提供として、機器の弱点を調べるために、我々は、フィンレイ、Magnusson氏、およびシェーファーのweakivパッケージを使用私たちはパネルデータを持っていると私たちのSEの時をクラスタ化することを考えると、ここで関連する仮定を(、単位レベル)。i.i.d.i.i.d.i.i.d. 彼らのARテストによると、第2段階係数の95%信頼区間の下限は16〜29です(これも仕様によって異なります)。棄却確率は、ゼロに近いすべての値に対して実質的に1です。 影響力のある観察: 各ユニットを個別に削除し、各観察を個別に削除し、ユニットのクラスターを削除して、モデルの推定を試みました。実際の変化はありません。 提案された解決策:誰かが、インストルメントされた推定効果を元のメトリック(0-1)で要約するのではなく、その予測バージョンのメトリックで要約するべきだと提案しました。範囲は-0.01〜0.1で、平均および中央値は約0.02、SDは約0.018です。我々は、推定効果を要約していた場合は 1枚のSDの増加、言って、によって、それは次のようになり (その他の仕様はほぼ同じ結果が得られ)。これはかなり合理的な方法です(それでもまだ十分です)。完璧なソリューションのようです。私が誰かがそうするのを見たことがないことを除いて。誰もが、元の内生変数のメトリックを使用して第2段階の係数を解釈しているように見えます。x1x1x_1x∗1x1∗x_1^*x1x1x_1x∗1x1∗x_1^*0.018∗30=0.540.018∗30=0.540.018*30 = 0.54 質問: IVモデルで、内生変数の増加の推定効果(実際にはLATE)を、予測されたバージョンのメトリックを使用して要約することは正しいですか?私たちの場合、そのメトリックは予測確率です。 注:バイナリの内生変数がある場合でも、2SLSを使用します(最初のステージをLPMにします)。これは、Angrist&Krueger(2001)に続きます:「機器変数と識別の検索:需要と供給から自然実験まで」)Adams、Almeida、およびFerreira(2009)で使用されている3段階の手順も試しました:「創設者のCEOと会社の業績の関係を理解する」。後者のアプローチは、プロビットモデルとそれに続く2SLSで構成されており、より小さく、より適切な係数を生成しますが、0-1メトリック(約9-10)で解釈すると、それらは非常に大きくなります。Cerulliのivtreatregのprobit-2sls-optionで行うのと同じ結果を手動計算でも得ます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.