タグ付けされた質問 「interpretation」

一般に、統計分析の結果から実質的な結論を出すことを指します。

1
ランダムフォレストの部分依存プロットのy軸の意味
私はRandomForestRパッケージを使用していますが、部分依存プロットのY軸の値を解釈する方法に混乱しています。ヘルプドキュメントは、プロットが「クラス確率に対する変数の限界効果のグラフィカルな描写」であると述べています。しかし、y軸が正確に何を表すかについては、まだ混乱しています。 特に、負の値はどういう意味ですか? クラスの正確な予測に悪影響を与えるとはどういう意味ですか? そして、これらの数値から最も重要な特徴は何ですか、それは最大値、トレンドの形などですか? 部分プロットを他の変数の部分プロットと比較できますか? これらのプロットは、Maxent(分布モデリングソフトウェア)で作成された応答曲線とどのように比較できますか?

1
標準化されたVS中心変数
stats.stackexchange.comで、標準化された独立変数と中心化された独立変数に関する多くの役立つ投稿を見つけましたが、それでも少し混乱しています。私が理解したことの評価をお願いします。また、以下が正しくない場合は、訂正していただけませんか。 標準化する方法。標準化された変数は、変数の平均を減算し、その同じ変数の標準偏差で割ることによって取得されます。 センタリングする方法。中央に配置された独立変数は、変数の平均を引くだけで得られます。 標準化する理由。変数を標準化して、回帰の変数の測定単位が異なる場合に推定係数の解釈を容易にします。標準化する場合は、回帰のすべての変数を標準化する必要があります。これは、定数(つまり、B0または切片)の推定値を取得できないことを意味します。 センタリングの理由。推定された定数の意味のある解釈を得たい場合は、変数を中央揃えにします。この場合、必要な変数の量を中央揃えにすることができます。すべての独立変数をモデルの中央に配置する必要はありません。 独立変数Y.(単純な質問)Yを中央揃えまたは標準化したことはありますか? 自然対数の利用。1つ以上の変数が正規分布していない場合は、自然対数を使用して変数を変換できます。この変換の後でのみ、すべての変数を標準化するか、中央に配置する必要がある変数を中央に配置できます。一般に、標準化またはセンタリングの前に変数の変換を行う必要があります(ここでは自然対数について説明しますが、変数を2乗したり、別の変数で除算したりできます(たとえば、population / km2)。 解釈係数標準化変数。「X1の標準偏差が1増加すると、Yが-number-増加または減少します。」 解釈係数中心の変数。確率変数の係数:「X1の平均から-number-の増加は、Yを-number-だけ増加(または減少)させます。」定数:「非中心の変数がゼロで、中心の変数がそれらの平均にあるとき、それはYの期待値を表します。」 相互作用の用語。相互作用項の係数の解釈は、変数を標準化したか、またはそれらを中央に配置したか(相互作用の1つの変数のみ、または両方)のどちらでも問題になりません。基本的に、解釈は通常、相互作用項に与えるものです(たとえば、Yに対するX1の効果に興味があり、X1はX2と相互作用します。X1の全体の効果は、その係数+相互作用の係数によって与えられます。 X2が修正された場合の用語)、行った変換のタイプに応じて、ポイント7または8の後に続く解釈をコンテキスト化することを忘れないでください。


3
大きなN、離散データ、および多くの変数がある場合、散布図行列から情報を抽出する方法は?
私は乳がんのデータセットをいじって、すべての属性の散布図を作成して、(赤)のクラスmalignant(青)の予測に最も影響を与えるものを把握しましたbenign。 行がx軸を表し、列がy軸を表すことを理解していますが、この散布図のデータまたは属性についてどのような観測ができるかわかりません。 この散布図からのデータを解釈/観察するためのヘルプ、またはこのデータを視覚化するために他の視覚化を使用する必要があるかどうかを探しています。 使用したRコード link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

1
人々が興味を持っている分野の調査から得られたこのPCAバイプロットをどのように解釈するのですか?
背景:調査の何百人もの参加者に、選択した領域にどれだけ関心があるかを尋ねました(5ポイントのリッカートスケールで、1は「関心がない」、5は「関心がある」を示しています)。 その後、PCAを試しました。以下の図は、最初の2つの主成分への投影です。色は性別に使用され、PCA矢印は元の変数(つまり、関心)です。 きがついた: ドット(回答者)は、2番目のコンポーネントによって非常によく分離されています。 左向きの矢印はありません。 一部の矢印は他の矢印よりもはるかに短いです。 変数はクラスターを作る傾向がありますが、観測はしません。 下向きの矢印は主に男性の興味であり、上向きの矢印は主に女性の興味であるようです。 一部の矢印は下向きでも上向きでもありません。 質問:ドット(回答者)、色(性別)、矢印(変数)の関係を正しく解釈するにはどうすればよいですか?このプロットから、回答者とその関心について、他にどのような結論を導き出すことができますか? データはここにあります。

1
条件付き密度プロットの解釈
条件付き密度プロットを正しく解釈する方法を教えてください。でRで作成したものを2つ挿入しましたcdplot。 たとえば、変数1が150の場合、結果が1になる確率は約80%ですか? 濃い灰色の領域は、条件付き確率がResult1に等しい確率です。 cdplotドキュメントから: cdplotは、yの周辺分布によって重み付けされたyのレベルを指定して、xの条件付き密度を計算します。密度は、yのレベルにわたって累積的に導出されます。 この累積は、これらのプロットの解釈にどのように影響しますか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
オッズ比とは異なる指数ロジスティック回帰係数
私が理解しているように、ロジスティック回帰からの指数ベータ値は、目的の従属変数に対するその変数のオッズ比です。ただし、値は手動で計算されたオッズ比と一致しません。私のモデルは、他の指標の中でもとりわけ、保険を使用して発育不全(栄養失調の尺度)を予測しています。 // Odds ratio from LR, being done in stata logit stunting insurance age ... etc. or_insurance = exp(beta_value_insurance) // Odds ratio, manually calculated odds_stunted_insured = num_stunted_ins/num_not_stunted_ins odds_stunted_unins = num_stunted_unins/num_not_stunted_unins odds_ratio = odds_stunted_ins/odds_stunted_unins これらの値が異なる理由は何ですか?回帰の他の要素を制御していますか?違いを説明できるようにしたいだけです。

1
周辺モデルと条件付きモデルの違い
限界モデルは、各クラスタ内の相関を占めます。条件付きモデルは、も考慮に各クラスタ内の相関をとります。 私の質問は: 条件付きモデルはクラスター内および母集団全体の主な効果をモデル化するのに対し、周辺モデルは母集団全体の主な効果をモデル化しますか? 周辺モデルの係数の解釈は、基本的に「通常モデル」と同じです。しかし、条件付きモデルの係数はどうでしょうか?

2
二項効果サイズ表示(BESD)は、効果サイズの誤解を招く表現ですか?
ドナルド・ルービンが技術の真のレモンを思いつくことを私が受け入れるのは難しいです。しかし、それはBESD [の私の認識だ1、2、3 ]。 RosenthalとRubin(1982)による元の論文は、「元のデータが連続的であるかカテゴリであるかにかかわらず、製品とモーメントの相関をこのような[2x2]表示に再キャストする方法」を示すことに価値があると主張しました。 下の表はpからのものです。上記の2番目のリンクの451: この手法は、ほとんどすべてのエフェクトサイズの大きさを誇張しているようです。ここでは、元のデータの = .01ですが、2x2の分割表に「変換」すると、はるかに強い影響に直面するようです。この方法でデータをカテゴリカル形式に再キャストすると、 indeed = .1 になることは否定しませんが、翻訳で何かが非常に歪んでいるように感じます。R2R2R^2ϕϕ\phi ここで本当に価値のあるものを見逃していますか?また、過去10年ほどの間に、統計コミュニティはこれを正当な方法として概して拒否しているとの印象を持っています。 実験()と制御()の成功率()をそれぞれ計算する方程式は、単純です。EEECCCsrsrsr Esr=.50+r/2Esr=.50+r/2E_{sr} = .50 + r/2 そして Csr=.50−r/2Csr=.50−r/2C_{sr} = .50 - r/2 参照: Rosenthal、R.&Rubin、DB(1982)。実験効果の大きさの単純な汎用表示。Journal of Educational Psychology、74、166–169。

1
コクランマンテルヘンツェル検定の解釈方法は?
Cで層化された2つの変数AとBの独立性をテストしています。AとBはバイナリ変数で、Cはカテゴリカル(5つの値)です。AとB(すべての階層を組み合わせたもの)に対するフィッシャーの正確検定を実行すると、次の結果が得られます。 ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * ここで、ORはオッズ比(推定および95%信頼区間)であり*、p <0.05であることを意味します。 各ストラタム(C)に対して同じテストを実行すると、次のようになります。 C=1, OR: 2.31 (0.78 -- 6.13), p = 0.0815 C=2, OR: 2.75 (1.21 -- 6.15), p = 0.0088 * C=3, OR: 0.94 (0.50 …

2
尖度の定義とその解釈の違い
私は最近、SPSSとStataによって提供される尖度値に違いがあることに気づきました。 http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htmを参照してください 私の理解は、それゆえ同じものの解釈が異なるということです。 これに対処する方法に関するアドバイスはありますか?

2
ACFおよびPACFプロットを解釈する方法
ACFプロットとPACFプロットを正しく解釈していることを確認したいだけです。 データは、実際のデータポイントとAR(1)モデルを使用して生成された推定値の間に生成されたエラーに対応します。 私はここで答えを見ました: ACFおよびPACF検査によりARMA係数を推定する エラーを自動相関させていないようですが、確認したいのですが、私の懸念は次のとおりです。 1.)最初のエラーは境界の右側にあります(これが当てはまる場合、ラグ1に有意な自己相関があることを受け入れるか拒否する必要がありますか)? 2.)線は95%の信頼区間を表しており、116のラグがあることを前提として(0.05 * 116 = 5.8、6に切り上げます)、6つのラグが境界を超えると予測されます。ACFの場合はこれに該当しますが、PACFの場合は約10の例外があります。国境にそれらを含めると、14のようになりますか?これはまだ自己相関がないことを示していますか? 3.)95%信頼区間のすべての違反がマイナス面で発生しているという事実に何かを読む必要がありますか?

2
RでのCCF相関の解釈
ccf2つの時系列間の相関関係を見つけるために使用しています。私はそのようなプロットを得ています: lag = 0の相関に主に関心があることに注意してください。質問: このラグは相互相関が点線の上にあるので、ラグ= 0には相互相関があると正しく解釈しますか? この例で相互相関のレベルをどのように解釈すればよいですか、これは重要ですか(私は今それを解釈しているため、小さな相互相関があります)? acflag = 0の値のみを抽出するにはどうすればよいですか?

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.