統計とビッグデータ interpretation

1

投げ縄を実行してから、1回限りの相互検証を実行しました cv<-cv.glmnet(df, df$Price, nfolds = 1500) cvをプロットすると、次のようになります。また、私は2つの異なるラムダを得ることに気づいた：lambda.minとlambda.1se これらのラムダの違いは何ですか？上記のプロットから一般的に何を理解できますか（これらの信頼区間とは何か、2つの点線とは何ですか）？ nfolds=1010倍の検証を実行するように変更するとlambda.1se、このラムダに対して異なる係数が得られます。どのクリテリオに基づいて、自分に最適なものを選択できますか？

8 r cross-validation interpretation lasso

4

重回帰モデルですべての変数が非常に重要になることは現実的ですか？

エンジンの排気量、燃料の種類、2対4輪駆動、馬力、マニュアルトランスミッションと自動トランスミッション、および速度の数について、燃費を後退させたいと思います。私のデータセット（リンク）には、2012〜2014年の車両が含まれています。 fuelEconomy ガロンあたりのマイル engineDisplacement：エンジンサイズ（リットル） fuelStd：ガス用1、ディーゼル用0 wheelDriveStd：2輪駆動の場合は1、4輪駆動の場合は0 hp：馬力 transStd：自動の場合は1、手動の場合は0 transSpeed：速度の数 Rコード： reg = lm(fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + transStd + transSpeed, data = a) summary(reg) Call: lm(formula = fuelEconomy ~ engineDisplacement + fuelStd + wheelDriveStd + hp + transStd + transSpeed, data = a) Residuals: Min …

8 r statistical-significance multiple-regression interpretation

1

分布の歪度とは何ですか？

分布の歪度とは何ですか？特定の指標が対称性について、そして場合によっては非対称性についても決定力がないように見える理由を尋ねます。

8 interpretation terminology skewness definition

1

因子分析でどのマトリックスを解釈する必要がありますか：パターンマトリックスまたは構造マトリックス？

因子分析（たとえば、主軸因数分解による）または主成分分析を因子分析として実行し、負荷の斜め回転を実行した場合、どの行列がどの要素にどのアイテムを負荷するかを理解するために、どの行列を使用するかそして、要因を解釈するために- パターン行列または構造行列？本を読んだところ、ほとんどの研究者はパターンマトリックスを使用することが多いので、分析しやすいためですが、著者は構造マトリックスの結果と結果を再確認することを提案しました。ただし、私の場合、これら2つのテーブルには多くの違いがあり、因子を指定してラベルを付けるためにどのテーブルを使用するかわかりません。

8 pca interpretation factor-analysis rotation

2

正則化項を使用したロジスティック回帰係数の解釈

ロジスティック方程式の係数は奇数比として解釈できることを理解しています。過適合を制御するために正則化項が追加された場合、これは係数の解釈をどのように変更しますか？

8 logistic interpretation regression-coefficients regularization odds-ratio

1

lmerで2方向および3方向の相互作用を解釈する方法は？

lmerで2方向および3方向の相互作用を解釈することに問題があります。私のDVは、連続変数である高さです。すべてのIVはカテゴリ変数です。最初の要素は、ラットまたはライオンの動物です。2番目の要素は、男性または女性の性別です。3番目の要素は色です：赤、白、または黄色。出力の解釈に戸惑います： Fixed effects: Estimate Std. Error t value (Intercept) 164.6888 7.8180 21.065 rat -14.1342 8.2889 -1.705 sexmale -16.0883 10.0071 -1.608 colorred 0.5776 6.2473 0.092 coloryellow -14.4048 6.1025 -2.360 rat:sexmale 15.3645 11.8567 1.296 rat:colorred 12.5258 4.4028 2.845 rat:coloryellow 10.3136 4.3196 2.388 sexmale:colorred 2.0272 5.2773 0.384 sexmale:coloryellow 5.7643 5.1669 1.116 rat:sexmale:colorred -5.5144 …

8 r interaction interpretation lme4-nlme

3

ユニットルートテストの結果をどのように解釈しますか？

プロジェクトに対していくつかのユニットルートテストを実行する必要があります。データの解釈方法がわからないだけです（これは私が要求されたものです）。これが私の結果の1つです。 dfuller Demand Dickey-Fuller test for unit root Number of obs = 50 ---------- Interpolated Dickey-Fuller --------- Test 1% Critical 5% Critical 10% Critical Statistic Value Value Value ------------------------------------------------------------------- Z(t) -1.987 -3.580 -2.930 -2.600 ------------------------------------------------------------------- MacKinnon approximate p-value for Z(t) = 0.2924 臨界値とp値の結果について何を言いますか？

8 time-series hypothesis-testing stata interpretation unit-root

2

R出力解釈からのAnova

統計学者が通常anova出力をどのように解釈するかについて質問があります。Rからanova出力があるとします。 > summary(fitted_data) Call: lm(formula = V1 ~ V2) Residuals: Min 1Q Median 3Q Max -2.74004 -0.33827 0.04062 0.44064 1.22737 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.11405 0.32089 6.588 1.3e-09 *** V2 0.03883 0.01277 3.040 0.00292 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ …

8 r self-study anova interpretation

2

ボックスプロットを解釈するには？

5つのカテゴリカル説明変数（concern, breath, weath, sleep, act）と1つの連続応答変数（tto）があるデータがいくつかあります。さらに、すべてのカテゴリー説明変数は5つのレベルに分割され、人がそれについてどれほど強いかを示します。レベル1とレベル5は、それぞれ完全な状態と最悪の状態を示します。説明変数と応答変数の関係を確認するために、箱ひげ図を作成することをお勧めしました。プロットは以下のとおりです。しかし、箱ひげ図の読み方がわかりません。誰かが私がそれを解釈するのを手伝ってください。

8 interpretation boxplot

3

クラス内の相関と集約

想像してみろ：それぞれに10メンバーの1000チームのサンプルがあります。信頼できる複数項目の数値スケールを使用して、チームが機能していると各チームメンバーにどれだけ考えているかを尋ねて、チームの機能を測定しました。チームの有効性の測定が、チームメンバーの特異な信念の特性であるか、またはチームに関する共有された信念の特性である範囲を説明する必要があります。この状況および関連する状況（組織への集計など）では、多くの研究者がクラス内相関を報告します（たとえば、Campion＆Medskerの表1、1993）。したがって、私の質問は次のとおりです。クラス内相関のさまざまな値にどの説明ラベルを付けますか？つまり、クラス内相関の値を次のような定性的な言語に実際に関連付けることを目的としています。クラス内相関は適切な統計だと思いますか、それとも別の戦略を使用しますか？

8 correlation intraclass-correlation aggregation interpretation effect-size

1

Rのsem関数によって生成された係数を解釈する方法は？

semRの関数を使用してパス分析を実行しました。フィットしたモデルは、直接パスと間接パスの両方で構成されています。SEM係数の推定値の解釈に問題があります。 Rは合計効果=（直接効果+間接効果）の値を直接与えるのですか、それとも間接パスにある係数を乗算してから直接パスにある係数に追加する必要がありますか？これは、生/絶対相関係数を使用してパス分析を行う通常の方法です。たとえば、X（独立変数）、Y（独立変数）、およびM（仲介変数）について考えてみます。それらの間の生/絶対相関/標準化回帰係数はXとY -0.06です。XおよびM 0.22およびMおよびY 0.28一方、Rのパス分析/ semでは、上記の係数はXおよびY -0.13です。XおよびM 0.22およびMおよびY 0.31。したがって、XとYの合計効果は-0.13に等しいですか？あるいは、変数Mのアカウントへの影響を考慮して、この係数をどのように解釈すべきですか？

8 r interpretation sem path-model

3

カテゴリー変数を使用した線形回帰モデルの係数の解釈

R呼び出しの例を示します。最初に、従属変数「寿命」と2つの連続説明変数を使用した線形回帰の簡単な例を示します。 data.frame(height=runif(4000,160,200))->human.life human.life$weight=runif(4000,50,120) human.life$lifespan=sample(45:90,4000,replace=TRUE) summary(lm(lifespan~1+height+weight,data=human.life)) Call: lm(formula = lifespan ~ 1 + height + weight, data = human.life) Residuals: Min 1Q Median 3Q Max -23.0257 -11.9124 -0.0565 11.3755 23.8591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 63.635709 3.486426 18.252 <2e-16 *** height 0.007485 0.018665 0.401 0.6884 weight 0.024544 0.010428 …

8 r multiple-regression interpretation regression-coefficients

1

なぜ多くの問題があるときにPCAを使用するのですか？

（これは簡単な質問です）最近、主成分分析を学んでいますが、多くの問題があるようです： PCAを適用する前に、データをほぼ同じスケールに変換する必要がありますが、機能スケーリングの実行方法は指定されていません。標準化？ユニット長へのスケーリング？対数変換？Box-Cox変換？私はそれらのすべてが何らかの方法で機能すると信じていますが、それらはさまざまな質問に答えます。そして、問題が与えられたときの変化を理解することは重要です。 PCAを実行するには、固有値と固有ベクトルを計算する必要がありますが、固有ベクトルの符号は不明です。一見すると、SVDは異なる実装間で同じ結果をもたらすため、優れたソリューションである可能性があります。しかし、私が理解しているように、SVDの結果は、任意の、しかし再現可能な固有ベクトルの選択にすぎません。主成分は変数の線形結合ですが、意味がありますか？つまり、サルの体温は単位が異なるため、尾の長さの10倍にはできません。（単位といえば、どちらの単位系を使うべきかということは、私の最初のポイントの別の側面です）主成分を解釈しようとするとき、番目の要素上の番目の主成分の負荷（係数）、またはそれらの相関を検査する必要がありますか？レンチャー（1992）は、係数のみを見ることを推奨していますが、私の知る限り、この問題についてコンセンサスはありません。iiiyiyiy_ijjjXjXjX_jcorr(yi,Xj)corr(yi,Xj)\text{corr}(y_i, X_j) 要約すると、PCAはプロセス全体に多数の主観性とバイアスを導入するため、私には非常に未熟に見える統計的（または間違いなく数学的）メソッドです。それにもかかわらず、それは依然として最も広く使用されている多変量分析法の1つです。それはなぜです？私が提起した問題を人々はどのように克服しますか？彼らも気づいていますか？参照：レンチャー、AC「正準判別関数、正準変量および主成分の解釈」アメリカ統計学者、46（1992）、217–225。

8 self-study pca multivariate-analysis interpretation reproducible-research

3

共分散の平方根/精度行列の意味

たとえば、は、共分散確率変数です。定義により、共分散行列のエントリは共分散です：また、精度エントリは次の条件を満たすことが知られています：ここで、右側はと他のすべての変数を条件とする共分散です。X∈RnX∈RnX \in \mathbb{R}^nΣ∈Rn×nΣ∈Rn×n\Sigma \in \mathbb{R}^{n\times n}Σij=Cov(Xi,Xj).Σij=Cov(Xi,Xj). \Sigma_{ij} = Cov( X_i,X_j). Σ−1Σ−1\Sigma^{-1}Σ−1ij=Cov(Xi,Xj|{Xk}nk=1∖Xi,Xj}),Σij−1=Cov(Xi,Xj|{Xk}k=1n∖Xi,Xj}), \Sigma^{-1}_{ij} = Cov(X_i,X_j| \{X_k\}_{k=1}^n \backslash X_i,X_j\}), XiXiX_iXjXjX_j または平方根のエントリに対する統計的解釈はありますか？正方行列平方根とは、ような行列を意味します。上記の行列の固有値分解は、私が見る限り、そのようなエントリごとの解釈を与えません。ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1}AAAMMMMtM=AMtM=AM^tM = A

8 interpretation covariance covariance-matrix partial-correlation precision

2

x1> x2の確率の計算

私は、R、線形モデル、および確率計算を使用して確率について自己学習しています。現在、モデルからの2つの予測を比較する方法にこだわっています。私が使用しているデータはここからダウンロード（無料）されています：wmbriggs.com/public/sat.csv df <- read.csv("sat.csv") # Load data lm <- lm(cgpa~hgpa+sat+ltrs,data=df) # model to predict College GPA new.df <- data.frame(hgpa=c(4,3),sat=c(1168,1168),ltrs=c(6,6)) # 2 scenario data. Same SAT and LTRS, differing Highschool GPA predict(lm,new.df) # plug our scenario data into the model to predict cgpa based on input 1 2 2.881214 2.508154 これが設定データです。より高い予測 …

7 r regression predictive-models interpretation

タグ付けされた質問 「interpretation」

タグ付けされた質問「interpretation」