統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
lmer()での「モデルの収束に失敗しました」という警告
次のデータセットでは、サイト、季節、期間、およびそれらの相互作用に関して応答(効果)が変化するかどうかを確認したかったのです。統計に関するいくつかのオンラインフォーラムでは、線形混合効果モデルを使用するよう勧められましたが、問題は各ステーション内で複製がランダム化されるため、連続する季節にまったく同じ場所からサンプルを収集する機会がほとんどないことです(たとえば、モンスーン後のs1のrepl-1は、モンスーンのものとは異なる場合があります。同じ被験者を季節ごとに繰り返し測定する臨床試験(被験者内設計)とは異なります。ただし、サイトと季節をランダムな要因と見なして、次のコマンドを実行し、警告メッセージを受け取りました。 Warning messages: 1: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : unable to evaluate scaled gradient 2: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : Model failed to converge: degenerate Hessian with 1 negative eigenvalues 誰も私が問題を解決するのを助けることができますか?コードは次のとおりです。 library(lme4) read.table(textConnection("duration season sites effect 4d mon s1 7305.91 4d mon s2 856.297 4d mon s3 649.93 4d mon …

2
それから
古典的な統計では、データセットy 1、… 、y nの統計TTTがパラメーターθに対して完全であると定義され、それから0の不偏推定量を非自明に形成することは不可能であるという定義があります。つまり、唯一の方法は、持っているE H (T (Y ))= 0を全てに対してθを有することであるhはである0をほぼ確実。y1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 この背後に直感がありますか?これはかなり機械的な方法のように思えますが、これは以前に尋ねられたことを知っていますが、入門者の学生が資料を消化するのが簡単になる直感を非常に理解しやすいかどうか疑問に思っていました。

4
「ランダム変数の合計」の概念を誰でも明確にできますか
私の確率クラスでは、「ランダム変数の合計」という用語が常に使用されています。しかし、私はそれが正確に何を意味しているのでしょうか? ランダム変数からの多くの実現の合計について話していますか?もしそうなら、それは単一の数字になりませんか?ランダム変数実現の合計はどのようにして分布、またはあらゆる種類のcdf / pdf /関数につながるのでしょうか?そして、ランダム変数の実現ではない場合、正確に何が追加されていますか?

3
「制限」分布と「定常」分布の違いは何ですか?
私はマルコフ連鎖について質問をしていますが、最後の2つの部分はこれを言っています: このマルコフ連鎖は制限された分布を持っていますか?答えが「はい」の場合は、限定的な分布を見つけます。答えが「いいえ」の場合、その理由を説明してください。 このマルコフ連鎖は定常分布を持っていますか?答えが「はい」の場合、定常分布を見つけます。答えが「いいえ」の場合、その理由を説明してください。 違いはなんですか?以前、を使用して制限分布を計算したときにP=CAnC−1P=CAnC−1P = CA^n C^{-1}、これがnnn番目のステップ遷移行列であると考えました。彼らはを使用して限界分布を計算しました。これは定常分布だと思いました。Π=ΠPΠ=ΠP\Pi = \Pi P どっちがどっち?

7
RMSE対決定係数
物理モデルを評価していますが、ここで使用する方法の1つ(RMSEと決定係数R2の間)を知りたい 問題は以下の通りである:私は、入力値xのための出力の予測、その機能を有するyx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)。また、と呼ばれるその値の実際の観測値もありyxyxy_xます。 私の質問は、RMSEまたはの長所と短所は何ですかR2R2R^2。私が取り組んでいる問題のために、それらの両方が論文で使用されているのを見ました。
21 error 

11
複数のサイコロの結果分布を簡単に決定する方法は?
サイコロの組み合わせの合計の確率分布を計算します。 の確率は、組み合わせの総数に対してその数を合計する組み合わせの数であることを覚えています(サイコロが均一に分布していると仮定)。 公式は何ですか 合計の組み合わせの数 特定の数を合計する組み合わせの数
21 probability  dice 

4
任意の共分散行列を作成する方法
たとえばR、のMASS::mvrnorm()関数は、統計のさまざまなことを示すデータを生成するのに役立ちます。Sigma変数の共分散行列を指定する対称行列である必須引数を取ります。任意のエントリを持つ対称行列を作成するにはどうすればよいですか?n×nn×nn\times n

1
ワンホットエンコーディングを使用するときに列の1つを削除する
私の理解では、機械学習では、データセットに高度に相関する特徴がある場合、同じ情報を効果的にエンコードするため、問題になる可能性があります。 最近、誰かが、カテゴリー変数でワンホットエンコーディングを行うと、相関する機能になるため、そのうちの1つを「参照」として削除する必要があると指摘しました。 たとえば、性別を2つの変数としてエンコードするis_maleとis_female、は完全に負の相関関係にある2つの特徴を生成するため、そのうちの1つを使用し、効果的にベースラインを男性に設定してから、予測アルゴリズムでis_female列が重要かどうかを確認することを提案しました。 それは理にかなっていますが、これが事実である可能性を示唆するオンラインは見つかりませんでしたので、これは間違っているのですか、何か不足していますか? 可能性のある(未回答の)重複:ワンホットエンコードフィーチャの共線性はSVMとLogRegにとって重要ですか?

2
バッチ正規化では、移動平均を使用して、トレーニング中のモデルの精度を追跡する方法と理由を教えてください。
私はバッチ正規化(BN)論文(1)を読んでいて、モデルの精度を追跡するために移動平均を使用する必要があることを理解していませんでした。彼らがまさにやっていること。 私の理解(これは間違っている)に、論文では、モデルがトレーニングを終了した後、ミニバッチ統計ではなく人口統計を使用していることに言及しています。偏りのない推定についての議論の後(それは私には接線のようであり、なぜそれについて話すのか理解できない)、彼らは行って言う: 代わりに移動平均を使用して、トレーニング中のモデルの精度を追跡します。 それは私を混乱させている部分です。なぜ移動平均を行ってモデルの精度とどのデータセットを推定するのですか? 通常、人々はモデルの一般化を推定するために行うことで、モデルの検証エラーを追跡します(そして、勾配降下を早期に停止して正則化する可能性があります)。ただし、バッチの正規化はまったく異なることを行っているようです。誰かが何を、なぜ違うことをしているのかを明確にできますか? 1:Ioffe S.およびSzegedy C.(2015)、 「バッチ正規化:内部共変量シフトの削減によるディープネットワークトレーニングの加速」、 第32回機械学習に関する国際会議の議事録、リール、フランス、2015年。 機械学習研究ジャーナル: W&CPボリューム37

2
PCAは時系列データに適用できますか?
主成分分析(PCA)は、基本的に断面データに適用できることを理解しています。年を時系列変数として指定し、PCAを正常に実行することにより、PCAを時系列データに効果的に使用できますか?動的PCAはパネルデータに対して機能し、Stataのコーディングは時系列ではなくパネルデータ用に設計されていることがわかりました。時系列データで機能する特定のタイプのPCAはありますか? 更新。詳細に説明させてください。 現在、道路の長さ、鉄道のルートの長さ、発電能力、電話加入者数などの変数を使用して、インドのインフラストラクチャのインデックスを構築しています。PCAを時系列やパネルデータに適用する論文をレビューしましたが、PCAはiidの仮定を前提とする断面データ用に設計されています。パネルおよび断面データはそれを侵害し、PCAはその中の時系列ディメンションを考慮しません。動的PCAがパネルデータにのみ適用されるのを見てきました。時系列に適用される特定のPCAがあるか、時系列変数として定義された年で静的PCAを実行するかどうかを知りたいですか?
21 time-series  pca 

2
各値をベクトルの合計で除算できるのに、softmax関数を使用して確率を計算するのはなぜですか?
ベクター上にソフトマックス関数を適用する間に、「確率」との値を生成する及び。 000111 しかし、我々はまた、ベクトルの和によって各値を分割することができ、それは間確率と値を生成する及び。000111 私はここで答えを読みましたが、理由はそれが微分可能であるためだと言いますが、両方の関数は微分可能です。


5
2つの変数のログ間に線形関係があるという直感的な意味は何ですか?
私は2つの変数を持っていますが、お互いにそのままプロットするとあまり相関がありませんが、各変数のログをプロットすると非常に明確な線形関係があります。 そのため、次のタイプのモデルになります。 log(Y)=alog(X)+blog⁡(Y)=alog⁡(X)+b\log(Y) = a \log(X) + b、数学的には素晴らしいが、通常の線形モデルの説明的な値を持たないようです。 そのようなモデルをどのように解釈できますか?

1
lme()とlmer()が矛盾する結果を与える
私は、繰り返し測定に問題のあるいくつかのデータを扱ってきました。間そうすることで、私は非常に異なる行動に気づいたlme()し、lmer()私のテストデータを使用して理由を知りたいです。 私が作成した偽のデータセットには、10人の被験者の身長と体重の測定値があり、それぞれ2回取得されています。被験者間では身長と体重の間には正の関係があり、各個人内で繰り返される測定の間には負の関係があるようにデータを設定しました。 set.seed(21) Height=1:10; Height=Height+runif(10,min=0,max=3) #First height measurement Weight=1:10; Weight=Weight+runif(10,min=0,max=3) #First weight measurement Height2=Height+runif(10,min=0,max=1) #second height measurement Weight2=Weight-runif(10,min=0,max=1) #second weight measurement Height=c(Height,Height2) #combine height and wight measurements Weight=c(Weight,Weight2) DF=data.frame(Height,Weight) #generate data frame DF$ID=as.factor(rep(1:10,2)) #add subject ID DF$Number=as.factor(c(rep(1,10),rep(2,10))) #differentiate between first and second measurement これは、各個人の2つの測定値を結ぶ線を使用したデータのプロットです。 だから私は2つのモデルを実行しました。1つlme()はnlmeパッケージから、もう1つはlmer()from lme4でした。両方のケースで、身長に対する体重の回帰を実行し、IDのランダム効果を使用して、各個人の反復測定を制御しました。 library(nlme) Mlme=lme(Height~Weight,random=~1|ID,data=DF) library(lme4) Mlmer=lmer(Height~Weight+(1|ID),data=DF) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.