統計とビッグデータ

4

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

lmer（）での「モデルの収束に失敗しました」という警告

次のデータセットでは、サイト、季節、期間、およびそれらの相互作用に関して応答（効果）が変化するかどうかを確認したかったのです。統計に関するいくつかのオンラインフォーラムでは、線形混合効果モデルを使用するよう勧められましたが、問題は各ステーション内で複製がランダム化されるため、連続する季節にまったく同じ場所からサンプルを収集する機会がほとんどないことです（たとえば、モンスーン後のs1のrepl-1は、モンスーンのものとは異なる場合があります。同じ被験者を季節ごとに繰り返し測定する臨床試験（被験者内設計）とは異なります。ただし、サイトと季節をランダムな要因と見なして、次のコマンドを実行し、警告メッセージを受け取りました。 Warning messages: 1: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : unable to evaluate scaled gradient 2: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : Model failed to converge: degenerate Hessian with 1 negative eigenvalues 誰も私が問題を解決するのを助けることができますか？コードは次のとおりです。 library(lme4) read.table(textConnection("duration season sites effect 4d mon s1 7305.91 4d mon s2 856.297 4d mon s3 649.93 4d mon …

21 r mixed-model lme4-nlme

2

それから

古典的な統計では、データセットy 1、… 、y nの統計TTTがパラメーターθに対して完全であると定義され、それから0の不偏推定量を非自明に形成することは不可能であるという定義があります。つまり、唯一の方法は、持っているE H （T （Y ））= 0を全てに対してθを有することであるhはである0をほぼ確実。y1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 この背後に直感がありますか？これはかなり機械的な方法のように思えますが、これは以前に尋ねられたことを知っていますが、入門者の学生が資料を消化するのが簡単になる直感を非常に理解しやすいかどうか疑問に思っていました。

21 mathematical-statistics intuition unbiased-estimator definition complete-statistics

4

「ランダム変数の合計」の概念を誰でも明確にできますか

私の確率クラスでは、「ランダム変数の合計」という用語が常に使用されています。しかし、私はそれが正確に何を意味しているのでしょうか？ランダム変数からの多くの実現の合計について話していますか？もしそうなら、それは単一の数字になりませんか？ランダム変数実現の合計はどのようにして分布、またはあらゆる種類のcdf / pdf /関数につながるのでしょうか？そして、ランダム変数の実現ではない場合、正確に何が追加されていますか？

21 probability self-study random-variable terminology

3

「制限」分布と「定常」分布の違いは何ですか？

私はマルコフ連鎖について質問をしていますが、最後の2つの部分はこれを言っています：このマルコフ連鎖は制限された分布を持っていますか？答えが「はい」の場合は、限定的な分布を見つけます。答えが「いいえ」の場合、その理由を説明してください。このマルコフ連鎖は定常分布を持っていますか？答えが「はい」の場合、定常分布を見つけます。答えが「いいえ」の場合、その理由を説明してください。違いはなんですか？以前、を使用して制限分布を計算したときにP=CAnC−1P=CAnC−1P = CA^n C^{-1}、これがnnn番目のステップ遷移行列であると考えました。彼らはを使用して限界分布を計算しました。これは定常分布だと思いました。Π=ΠPΠ=ΠP\Pi = \Pi P どっちがどっち？

21 markov-process

7

RMSE対決定係数

物理モデルを評価していますが、ここで使用する方法の1つ（RMSEと決定係数R2の間）を知りたい問題は以下の通りである：私は、入力値xのための出力の予測、その機能を有するyx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)。また、と呼ばれるその値の実際の観測値もありyxyxy_xます。私の質問は、RMSEまたはの長所と短所は何ですかR2R2R^2。私が取り組んでいる問題のために、それらの両方が論文で使用されているのを見ました。

21 error

11

複数のサイコロの結果分布を簡単に決定する方法は？

サイコロの組み合わせの合計の確率分布を計算します。の確率は、組み合わせの総数に対してその数を合計する組み合わせの数であることを覚えています（サイコロが均一に分布していると仮定）。公式は何ですか合計の組み合わせの数特定の数を合計する組み合わせの数

21 probability dice

4

任意の共分散行列を作成する方法

たとえばR、のMASS::mvrnorm()関数は、統計のさまざまなことを示すデータを生成するのに役立ちます。Sigma変数の共分散行列を指定する対称行列である必須引数を取ります。任意のエントリを持つ対称行列を作成するにはどうすればよいですか？n×nn×nn\times n

21 r random-generation covariance-matrix

1

ワンホットエンコーディングを使用するときに列の1つを削除する

私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか？可能性のある（未回答の）重複：ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか？

21 regression machine-learning categorical-data discrete-data categorical-encoding

2

バッチ正規化では、移動平均を使用して、トレーニング中のモデルの精度を追跡する方法と理由を教えてください。

私はバッチ正規化（BN）論文（1）を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。私の理解（これは間違っている）に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後（それは私には接線のようであり、なぜそれについて話すのか理解できない）、彼らは行って言う：代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか？通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します（そして、勾配降下を早期に停止して正則化する可能性があります）。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか？ 1：Ioffe S.およびSzegedy C.（2015）、「バッチ正規化：内部共変量シフトの削減によるディープネットワークトレーニングの加速」、第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。機械学習研究ジャーナル： W＆CPボリューム37

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

2

PCAは時系列データに適用できますか？

主成分分析（PCA）は、基本的に断面データに適用できることを理解しています。年を時系列変数として指定し、PCAを正常に実行することにより、PCAを時系列データに効果的に使用できますか？動的PCAはパネルデータに対して機能し、Stataのコーディングは時系列ではなくパネルデータ用に設計されていることがわかりました。時系列データで機能する特定のタイプのPCAはありますか？更新。詳細に説明させてください。現在、道路の長さ、鉄道のルートの長さ、発電能力、電話加入者数などの変数を使用して、インドのインフラストラクチャのインデックスを構築しています。PCAを時系列やパネルデータに適用する論文をレビューしましたが、PCAはiidの仮定を前提とする断面データ用に設計されています。パネルおよび断面データはそれを侵害し、PCAはその中の時系列ディメンションを考慮しません。動的PCAがパネルデータにのみ適用されるのを見てきました。時系列に適用される特定のPCAがあるか、時系列変数として定義された年で静的PCAを実行するかどうかを知りたいですか？

21 time-series pca

2

各値をベクトルの合計で除算できるのに、softmax関数を使用して確率を計算するのはなぜですか？

ベクター上にソフトマックス関数を適用する間に、「確率」との値を生成する及び。 000111 しかし、我々はまた、ベクトルの和によって各値を分割することができ、それは間確率と値を生成する及び。000111 私はここで答えを読みましたが、理由はそれが微分可能であるためだと言いますが、両方の関数は微分可能です。

20 machine-learning neural-networks softmax

2

分散スケーリング初期化子とxavier初期化子の違いは何ですか？

TensorflowのResNetの実装では、分散スケーリングイニシャライザーを使用していることがわかります。xavierイニシャライザーも一般的です。私はこれについてあまり経験がありませんが、実際にはどちらが良いですか？

20 machine-learning neural-networks deep-learning conv-neural-network tensorflow

5

2つの変数のログ間に線形関係があるという直感的な意味は何ですか？

私は2つの変数を持っていますが、お互いにそのままプロットするとあまり相関がありませんが、各変数のログをプロットすると非常に明確な線形関係があります。そのため、次のタイプのモデルになります。 log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b、数学的には素晴らしいが、通常の線形モデルの説明的な値を持たないようです。そのようなモデルをどのように解釈できますか？

20 regression correlation log

1

lme（）とlmer（）が矛盾する結果を与える

私は、繰り返し測定に問題のあるいくつかのデータを扱ってきました。間そうすることで、私は非常に異なる行動に気づいたlme()し、lmer()私のテストデータを使用して理由を知りたいです。私が作成した偽のデータセットには、10人の被験者の身長と体重の測定値があり、それぞれ2回取得されています。被験者間では身長と体重の間には正の関係があり、各個人内で繰り返される測定の間には負の関係があるようにデータを設定しました。 set.seed(21) Height=1:10; Height=Height+runif(10,min=0,max=3) #First height measurement Weight=1:10; Weight=Weight+runif(10,min=0,max=3) #First weight measurement Height2=Height+runif(10,min=0,max=1) #second height measurement Weight2=Weight-runif(10,min=0,max=1) #second weight measurement Height=c(Height,Height2) #combine height and wight measurements Weight=c(Weight,Weight2) DF=data.frame(Height,Weight) #generate data frame DF$ID=as.factor(rep(1:10,2)) #add subject ID DF$Number=as.factor(c(rep(1,10),rep(2,10))) #differentiate between first and second measurement これは、各個人の2つの測定値を結ぶ線を使用したデータのプロットです。だから私は2つのモデルを実行しました。1つlme()はnlmeパッケージから、もう1つはlmer()from lme4でした。両方のケースで、身長に対する体重の回帰を実行し、IDのランダム効果を使用して、各個人の反復測定を制御しました。 library(nlme) Mlme=lme(Height~Weight,random=~1|ID,data=DF) library(lme4) Mlmer=lmer(Height~Weight+(1|ID),data=DF) …

20 r mixed-model lme4-nlme