タグ付けされた質問 「interpretation」

一般に、統計分析の結果から実質的な結論を出すことを指します。

2
アイスクリームの販売と温度のこのPCAプロットを理解する
温度とアイスクリームの売上のダミーデータを取得し、K平均(nクラスター= 2)を使用して分類して、2つのカテゴリ(完全にダミー)を区別しています。 今、私はこのデータの主成分分析を行っています。私の目標は、私が見ているものを理解することです。PCAの目的は、次元数を減らし(この場合は明らかにしない)、要素の分散を示すことであることを知っています。しかし、以下のPCAプロットをどのように読みますか。つまり、PCAプロットの温度とアイスクリームについてどのような話をすることができますか?1台目(X)と2台目(Y)のPCはどういう意味ですか?

1
ログロスの直感的な説明
いくつかのkaggleコンテストでは、採点は「ログロス」に基づいていました。これは分類エラーに関連しています。 ここに技術的な答えがありますが、私は直感的な答えを探しています。私はマハラノビス距離に関するこの質問への回答が本当に好きでしたが、PCAは対数損失ではありません。 私の分類ソフトウェアが提供する値を使用することはできますが、私はそれを本当に理解していません。真/偽陽性/陰性率の代わりになぜそれを使用するのですか?これを私の祖母や現場の初心者に説明できるように手伝ってくれませんか。 私も引用を気に入って同意します: 祖母に説明できない限り、あなたは本当に何かを理解していません -アルバート・アインシュタイン ここに投稿する前に、自分でこれに答えてみました。 私が直感的または本当に役に立たなかったリンクは次のとおりです。 http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss これらは有益で正確です。これらは技術的な読者を対象としています。彼らは簡単な絵を描いたり、簡単でアクセス可能な例を与えたりしません。彼らは私の祖母のために書かれていません。

2
人々が定量的な要約と視覚化をどのように解釈するかを研究している科学分野は何ですか?
データの視覚化に関するアドバイスを提供する、よく知られたリソースが豊富にあります。(たとえば、Tufte、Stephen Few et al、Nathan Yau)。しかし、次のような質問への回答については、どの分野に向けるかもしれません。 円グラフの批判は実際に関連していますか?人々は、弧の長さよりも線形スケールの長さの解釈がはるかに優れていますか? たとえば、一連の基礎となる変数のインデックスサマリーを作成し、米国の2010年には100の値、2015年には110の値があることを一般の聴衆に説明するとします。ほとんどの人はこれらの数値をどのように解釈するでしょうか。より良い説明のために活用するため、または誤解を防ぐために、この測定基準を提示するときに私が考慮すべき自然な認識習慣はありますか? 別の言い方をすれば、今日利用できる膨大な視覚化と設計のアドバイスを整理するのに役立つ、定量的情報のプレゼンターが経験的に正しいテスト済みの原則を探すことができる科学分野は何ですか? 目的は、データを視覚化する方法、または新しいデータ視覚化問題に取り組む方法についてのアドバイス、アイデア、または現在のコンセンサスを見つけることではなく、定量的および/または視覚的情報を解釈する方法の科学を探す場所を学ぶことです。 (分野のジャーナル、会議、学者への言及に対する追加のクレジット)

5
非常に多くのペアのデータポイントをグラフィカルに表す良い方法は何ですか?
私の分野では、ペアのデータをプロットする通常の方法は、2つのグループの中央値と中央値のCIでオーバーレイする一連の細い傾斜線セグメントとしてです。 ただし、この種のプロットは、データポイントの数が非常に大きくなるため(私の場合、1万ペア程度)、読みにくくなります。 アルファを減らすことは少し助けになりますが、それでもまだ素晴らしいとは言えません。解決策を探しているときに、このホワイトペーパーに出くわし、「平行線プロット」を実装することにしました。繰り返しますが、これは少数のデータポイントに対して非常にうまく機能します。 NNN たとえば、ボックスプロットやバイオリンを使用して2つのグループの分布を個別に表示し、2つの中央値/ CIを示す上部にエラーバーを付けて線をプロットすることはできると思いますが、それは伝えられないので、私は本当にその考えが好きではありません。データのペアの性質。 また、2D散布図のアイデアにあまり熱心ではありません。よりコンパクトな表現が理想的です。理想的には、2つのグループの値が同じ軸に沿ってプロットされている表現が望ましいです。完全を期すために、データは2D散布図のようになります。 非常に大きなサンプルサイズでペアのデータを表すより良い方法を誰かが知っていますか?いくつかの例にリンクしていただけませんか? 編集する すみません、私が探しているものを説明するのに十分な仕事をしていないのは明らかです。はい、2D散布図は機能します。ポイントの密度をよりよく伝えるために、2D散布図を改善する方法はたくさんあります-カーネル密度推定に従ってドットを色分けして、2Dヒストグラムを作成できます、等高線をドットの上などにプロットできます... しかし、これは私が伝えようとしているメッセージに対してはやり過ぎだと思います。ポイント自体の 2D密度を表示することについては特に気にしません-必要なのは、「棒」の値が「点」の値よりも一般的に大きいことを、できるだけ単純かつ明確な方法で示すことだけです。 、そしてデータの本質的なペアの性質を失うことなく。理想的には、2つのグループのペアの値を直交軸ではなく同じ軸に沿ってプロットしたいのです。これにより、視覚的に比較することが容易になります。 多分散布図より良い選択肢はありませんが、うまくいく可能性のある代替案があるかどうか知りたいのですが。

2
主成分分析の出力からの結論
次のように実行される主成分分析の出力を理解しようとしています。 > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa > res = prcomp(iris[1:4], scale=T) > …
9 r  pca  interpretation 

4
相互作用プロットを解釈するのに役立ちますか?
2つの独立変数間に交互作用がある場合、交互作用プロットの解釈に問題があります。 次のグラフはこのサイトからのものです。 ここで、とは独立変数で、は従属変数です。B D VAAABBBDVDVDV 質問:相互作用と主な効果はありますが、主な効果はありませんBAAABBB Bが場合、の値が高いほどの値が高くなることがます。それ以外の場合、はの値に関係なく一定です。したがって、相互作用があるととの主効果(より高いので、高いへリード保持、時定数を)。D V B 1 D V A A B A A D V B B 1AAADVDVDVB1B1B_1DVDVDVAAAAAABBBAAAAAADVDVDVBBBB1B1B_1 また、レベルが異なると、レベルも異なり、一定に保つことがわかります。したがって、Bの主な効果があります。しかし、明らかにそうではありません。つまり、これは私が相互作用プロットを誤って解釈していることを意味するはずです。何が悪いのですか?D V ABBBDVDVDVAAA また、プロット6-8を誤って解釈しています。私がそれらを解釈するために使用したロジックは上記で使用したものと同じなので、上記で作成しているエラーがわかっていれば、残りを正しく解釈できるはずです。それ以外の場合は、この質問を更新します。

1
ロジスティック回帰モデル変数のp値の意味
だから私はRでロジスティック回帰モデルを使っています。統計はまだ初めてですが、回帰モデルについて少し理解できたように思いますが、それでも気になることがいくつかあります。 リンクされた画像を見ると、私が作成したサンプルモデルのRプリントの概要が表示されています。このモデルは、データセット内の電子メールがrefoundか(バイナリ変数される場合は、予測しようとしているisRefound)とデータセットが密接に関連する2つの変数が含まれているisRefound、すなわち、next24およびnext7daysこれらはまた、バイナリであり、メールが次にクリックされる場合は教えてくれ- 24時間/ログの現在のポイントから次の7日間。 高いp値は、この変数がモデル予測に与える影響がかなりランダムであることを示しているはずですよね?これに基づいて、これらの2つの変数が計算式から外されている場合、モデル予測の精度が10%未満に低下する理由がわかりません。これらの変数の重要度が非常に低い場合、それらをモデルから削除すると大きな影響があるのはなぜですか? よろしくお願いします、リッキーフォックス 編集: 最初に私はnext24だけを削除しましたが、これはcoefがかなり小さいので影響が少ないはずです。予想通り、ほとんど変更されていません-そのための写真をアップロードしないでください。 next7daysを削除すると、モデルに大きな影響がありました:AIC 200kアップ、精度16%まで、再現率73%まで

1
カテゴリー変数と連続変数の間の相互作用の係数の解釈
連続変数とカテゴリー変数間の相互作用の係数の解釈について質問があります。これが私のモデルです: model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), data=base_708) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 21.4836 2.0698 10.380 < 2e-16 *** lg_hag 8.5691 3.7688 2.274 0.02334 * raceblack -8.4715 1.7482 -4.846 1.61e-06 *** racemexican -3.0483 1.7073 -1.785 0.07469 . racemulti/other -4.6002 2.3098 -1.992 0.04687 * pdg 2.8038 0.4268 6.570 1.10e-10 *** sexfemale 4.5691 1.1203 …

1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
次元削減/多次元スケーリングの結果を解釈するにはどうすればよいですか?
データの構造をよりよく理解するために、6次元データマトリックスのSVD分解と多次元スケーリングの両方を実行しました。 残念ながら、すべての特異値は同じ次数であり、データの次元は確かに6であることを意味します。しかし、特異ベクトルの値を解釈できるようにしたいと思います。たとえば、最初のものは各次元でほぼ等しいように見え(つまり(1,1,1,1,1,1))、2番目のものも興味深い構造(のようなもの(1,-1,1,-1,-1,1))を持っています。 これらのベクトルをどのように解釈できますか?この件に関するいくつかの文献を教えていただけませんか?

2
Breusch–Paganテストの結果をどのように解釈しますか?
では、パッケージの関数をR使用して、異分散性のBreusch–Paganテストを実行できます。Breusch–Pagan検定は、カイ2乗検定の一種です。ncvTestcar これらの結果を解釈するにはどうすればよいですか。 > require(car) > set.seed(100) > x1 = runif(100, -1, 1) > x2 = runif(100, -1, 1) > ncvTest(lm(x1 ~ x2)) Non-constant Variance Score Test Variance formula: ~ fitted.values Chisquare = 0.2343406 Df = 1 p = 0.6283239 > y1 = cumsum(runif(100, -1, 1)) > y2 = runif(100, -1, …

1
対数尤度の解釈
一部の結果を解釈するのが難しい。私はで階層関連の回帰を行っていますecoreg。コードを入力すると、オッズ比、信頼比、2倍の最大対数尤度で出力を受け取ります。 ただし、2倍に最大化された対数尤度を解釈する方法を完全には理解していません。私の知る限り、対数尤度は尤度を計算する便利な方法として使用され、結果に基づいてパラメーターの値を計算します。しかし、私はより高いまたはより低い値が良いかどうかわかりません。/programming/2343093/what-is-log-likelihoodなど、いくつかのオンラインソースを確認しましたが、まだ行き詰まっています。 私が受け取る結果の下: Call: eco(formula = cbind(y, N) ~ deprivation + meanIncome, binary = ~fracSmoke + soclass, data = dfAggPlus, cross = cross) Aggregate-level odds ratios: OR l95 u95 (Intercept) 0.0510475 0.03837276 0.06790878 deprivation 0.9859936 0.88421991 1.09948134 meanIncome 1.0689951 0.95574925 1.19565924 Individual-level odds ratios: OR l95 u95 fracSmoke 3.124053 2.0761956 …

3
回帰で他の変数を一定に保つことは(直感的に)どういう意味ですか?
他の変数を一定に保ちながら、個々の変数の影響をどのように決定するかについて、1)機械的な説明と2)直観的な説明の両方を探しています。 調査データを使用した例で、正確に言うとどういう意味ですか: 「年齢、性別、収入を一定に保ち、教育の効果は___」 私の理解では、回帰を使用して実験的な設定を再現しようとしています。上記の例では、年齢、性別、収入などが同じであるが、教育レベルが異なるサブ集団を比較し、それらの部分母集団の平均。質問: この直感は正しいですか? これらの部分母集団は必ず存在しますか?調査に、コントロールの値がまったく同じ回答者が含まれていない場合はどうなりますか? これらの部分母集団の推定値の不確実性はどのように決定されますか?

1
異なる分位点で異なる関係を明らかにする分位点回帰:どのように?
変位値回帰(QR)は、分布の異なる変位値での変数間の異なる関係を明らかにすると言われることがあります。例えば、Le Cook et al。「平均を超えて考える:保健サービス研究のための分位回帰法を使用するための実用的なガイド」は、QRが変数の異なる値にわたって関心のある結果と説明変数間の関係を非一定にすることを可能にすることを意味します。 ただし、私が知る限り、標準の線形回帰モデルでは、 、はiidであり、から独立しています。勾配 QR推定量y= β0+ βバツ+ εy=β0+βバツ+ε y = \beta_0 + \beta X + \varepsilon εε\varepsilonバツバツXββ\beta母集団の勾配に対して一貫しています(これは固有であり、分位点間で変化しません)。つまり、分位数に関係なく、推定されるオブジェクトは常に同じです。確かに、QRインターセプト推定器はエラー分布の特定の分位数を推定することを目的としているため、これはインターセプトには当てはまりません。まとめると、変数間のさまざまな関係がQRを介してさまざまな分位点でどのように明らかにされることになっているのかわかりません。これは私の理解の誤りではなく、標準の線形回帰モデルの特性だと思いますが、私にはわかりません。 標準の線形モデルのいくつかの仮定に違反すると、状況が異なります。次に、QRスロープ推定器は、線形モデルの真のスロープ以外のものに収束し、どういうわけか、さまざまな分位点でさまざまな関係を明らかにします。 何がいけないのですか?分位点回帰が異なる分位点での変数間の異なる関係を明らかにするという主張を適切に理解/解釈するにはどうすればよいですか?

1
パラメトリックおよびノンパラメトリックテストの解釈
パラメトリックテストと非パラメトリックテストの違いに関する質問を検索しましたが、質問はすべて非常に特定のテスト、データの問題、またはいくつかの技術的な違いに焦点が当てられているようです。テストの仮定の問題(代わりに調べないでください)や、電力やエラー率の問題には興味がありません。 私の質問は、2種類のテストの解釈についてです。パラメトリックと非パラメトリックのテスト結果の解釈に違いはありますか?ノンパラメトリックテストを実行している場合は、不明な母集団の議論への道を弱めている(排除している)ため、おそらくテスト結果を議論する方法がより制限されているようです。パラメトリックテストを実行する場合、母集団への接続は仮定に基づいて行われます。各テストの適切な解釈は何ですか?これらの区別は重要ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.