統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

13
計量経済学の教科書?
どの優れた計量経済学の教科書を勧めますか? 編集:さまざまなレベルの数学的な洗練された書籍がかなりあります。あなたが推薦している本がどれほど技術的であるかについていくらかのアイデアを得ることは良いでしょう。

4
テストが相関する複数のテストのp値の修正(遺伝学)
私は多くのテストからp値を取得しており、複数のテストを修正した後に実際に重要なものがあるかどうかを知りたいと思っています。複雑さ:私のテストは独立していません。私が考えている方法(FisherのProduct Methodの変形、Zaykin et al。、Genet Epidemiol、2002年)では、p値間の相関が必要です。 この相関を推定するために、現在、ケースのブートストラップ、分析の実行、およびp値の結果ベクトルの相関について考えています。誰かがより良いアイデアを持っていますか?または、元の問題のより良いアイデア(相関テストでの複数のテストの修正)ですか? 背景:遺伝子型(AA、Aaまたはaa)と共変量との相互作用により、被験者が特定の病気にかかっているかどうかをロジスティックに回帰しています。ただし、遺伝子型は実際には大量(30〜250)の一塩基多型(SNP)であり、これらは確かに独立ではなく、連鎖不平衡にあります。

3
時間はカテゴリー変数ですか?
値が0、1、2、...、23になりうる「時間帯」はカテゴリ変数ですか?たとえば、5は3または7よりも4または6に「近い」ため、ノーと言いたくなるでしょう。 一方、23と0の間には不連続性があります。 それで、それは一般にカテゴリー的であると考えられますか?「時間」は独立変数の1つであり、予測しようとしている変数ではないことに注意してください。

2
連続性補正(たとえば、二項分布の正規近似)が機能するのはなぜですか?
正規近似の二項分布に対する連続性補正がどのように導出されたかをよりよく理解したいと思います。 1/2を追加する必要があることを決定するために、どの方法が使用されました(別の数値ではないのですか?)。任意の説明(または以外示唆読み取りへのリンク、このことは、理解されるであろう)。


2
「非線形次元削減」のように「非線形」を理解する方法は?
線形次元削減法(PCAなど)と非線形法(Isomapなど)の違いを理解しようとしています。 この文脈で(非)線形性が何を意味するのか、私にはまったく理解できません。ウィキペディアから読んだこと 比較すると、PCA(線形次元削減アルゴリズム)を使用してこの同じデータセットを2つの次元に削減すると、結果の値はあまり整理されません。これは、この多様体をサンプリングする高次元ベクトル(それぞれが文字「A」を表す)が非線形に変化することを示しています。 何をする この多様体をサンプリングする高次元ベクトル(それぞれ文字「A」を表す)は、非線形に変化します。 平均?それとももっと広い意味で、この文脈における(非)線形性をどのように理解すればよいのでしょうか?

2
Krizhevskyの'12 CNNは、最初のレイヤーで253,440個のニューロンをどのように取得しますか?
でアレックスKrizhevskyら。深い畳み込みニューラルネットワークを使用したImagenet分類では、各層のニューロン数が列挙されます(下図を参照)。 ネットワークの入力は150,528次元で、ネットワークの残りの層のニューロンの数は253,440–186,624–64,896–64,896–43,264– 4096–4096–1000で与えられます。 3Dビュー 最初のレイヤー以降のすべてのレイヤーのニューロンの数は明らかです。ニューロンを計算する1つの簡単な方法は、そのレイヤーの3つの次元を単純に乗算することです(planes X width X height): レイヤー2: 27x27x128 * 2 = 186,624 レイヤー3: 13x13x192 * 2 = 64,896 等 ただし、最初のレイヤーを見ると: レイヤー1: 55x55x48 * 2 = 290400 これは論文で指定されているものではない ことに注意してください253,440! 出力サイズの計算 畳み込みの出力テンソルを計算する他の方法は次のとおりです。 入力画像が3DテンソルのnInputPlane x height x width場合、出力画像のサイズは次のようnOutputPlane x owidth x oheightになります owidth = (width - kW) / dW + …

3
毎日の時系列分析
私は時系列分析を行おうとしており、この分野は初めてです。2006年から2009年までのイベントを毎日数えており、時系列モデルをそれに合わせたいと考えています。これが私が達成した進歩です。 timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 結果のプロットは次のとおりです。 データに季節性と傾向があるかどうかを確認するには、この投稿に記載されている手順に従います。 ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) seasonal そしてロブ・J・ハインドマンのブログで: library(fma) fit1 <- ets(x) fit2 <- ets(x,model="ANN") deviance <- 2*c(logLik(fit1) - logLik(fit2)) df <- attributes(logLik(fit1))$df - attributes(logLik(fit2))$df #P value 1-pchisq(deviance,df) どちらの場合も、季節性がないことを示しています。 シリーズのACFとPACFをプロットすると、次のようになります。 私の質問は: これは、毎日の時系列データを処理する方法ですか?このページは、週ごとと年ごとのパターンを検討する必要があることを示唆していますが、そのアプローチは明確ではありません。 ACFプロットとPACFプロットを取得した後、どのように進めるかわかりません。 auto.arima関数を単純に使用できますか? fit <-arima(myts、order = c(p、d、q) ***** Auto.Arimaの結果を更新****** ここでRob Hyndmanのコメントに従ってデータの頻度を7に変更すると、auto.arimaは季節ARIMAモデルを選択して出力します。 …

4
ディスク上の均一な分布をシミュレートする
私は、円の任意の部分に欠陥がある可能性が同じになるように、円内のランダムなポイントの注入をシミュレートしようとしました。円を等面積の長方形に分割すると、結果の分布の面積あたりのカウントがポアソン分布に従うと予想しました。 円形領域内にポイントを配置するだけなので、極座標で2つの均一なランダム分布を注入しました:(半径)と(極角)。RRRθθ\theta しかし、この注入を行った後、私は明らかに、エッジと比較して円の中心により多くのポイントを取得します。 ポイントがサークル全体にランダムに分散されるように、円全体にこの注入を実行する正しい方法は何でしょうか?

3
Sklearn混同マトリックスをどのように解釈できますか
私が使用してい混同行列を私の分類器のパフォーマンスをチェックします。 私はScikit-Learnを使用していますが、少し混乱しています。どのようにして結果を解釈できますか from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, 0, 2]]) この予測値が良好であるかどうかを判断するにはどうすればよいですか。

7
機械学習モデルまたは推奨システムで地理または郵便番号を表す方法
モデルを構築していますが、地理的位置はターゲット変数の予測に非常に適していると考えています。各ユーザーの郵便番号を持っています。ただし、モデルに予測機能として郵便番号を含める最善の方法については完全にはわかりません。郵便番号は数字ですが、数字が上がったり下がったりしても意味がありません。30,000のすべての郵便番号を2値化し、それらを機能または新しい列として含めることができます(たとえば、{user_1:{61822:1、62118:0、62444:0など}}。しかし、これはトンを追加するようですモデルの機能の。 この状況を処理する最良の方法についての考えはありますか?

3
分散データが不十分な場合の適切なモデルは何ですか?
私は、明らかに分散が不十分なRのカウントデータをモデル化しようとしています(分散パラメーター〜.40)。これがおそらくglmwith family = poissonまたは負の二項(glm.nb)モデルが重要でない理由です。データの説明を見ると、カウントデータの典型的なスキューはなく、2つの実験条件の残差も均一です。 だから私の質問は: カウントデータが実際にカウントデータのように動作しない場合、カウントデータに特別な回帰分析を使用する必要さえありますか?私は時々非正規性に直面します(通常は尖度が原因です)が、非正規性を説明するためにトリム平均を比較するためにパーセンタイルブートストラップ法(Wilcox、2012)を使用しました。カウントデータのメソッドは、Wilcoxによって提案され、WRSパッケージで実現されている堅牢なメソッドに置き換えることができますか? カウントデータに回帰分析を使用する必要がある場合、分散不足をどのように説明しますか?ポアソン分布と負の二項分布はより高い分散を前提としているため、適切ではないでしょうか?準ポアソン分布を適用することを考えていましたが、通常は過剰分散に推奨されます。私は、Rのパッケージで過分散と過小分散を説明できると思われるベータ二項モデルについて読みましたVGAM。しかし、著者は、ティルドポアソン分布を推奨しているようですが、パッケージには見つかりません。 。 誰でもデータが分散していない場合の手順を推奨できますか?また、おそらくそのためのサンプルRコードを提供できますか?

3
スパースPCAはPCAよりどれくらい正確ですか?
数回前に授業でPCAについて学びました。この魅力的な概念についてさらに掘り下げることで、まばらなPCAについて知ることができました。 私が間違っていなければ、これはまばらなPCAです:PCAでは、変数を持つデータポイントがある場合、PCAを適用する前に次元空間で各データポイントを表すことができます。PCAを適用した後、同じ次元空間で再び表すことができますが、今回は、最初の主成分に最大の分散が含まれ、2番目の主成分に2番目に大きな分散方向が含まれます。したがって、データの多くの損失を引き起こさないため、最後のいくつかの主要コンポーネントを削除でき、データを圧縮できます。右?p pnnnpppppp スパースPCAは、ベクトル係数に含まれる非ゼロ値がより少ない主成分を選択しています。 これはどのようにデータをよりよく解釈するのに役立つと思われますか?誰でも例を挙げることができますか?

3
ガウスカーネルの機能マップ
SVMでは、ガウスカーネルは次のように定義されます: ここで、X、Y \で\ mathbb {R ^ N} 。\ phiの明示的な方程式はわかりません。知りたいです。X、Y∈RnはK(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi 私はまたかどうか知りたい ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)どこci∈Rci∈Rc_i\in \mathbb R。今、私はそれが等しくないと思います。なぜなら、カーネルを使用すると、線形分類が機能しない状況を処理するからです。ϕϕ\phi xを無限の空間に投影することを知っています。そのため、次元がいくつあっても線形のままである場合、svmは依然として適切な分類を行うことができません。

5
変化点分析のためのPythonモジュール
時系列の変化点分析を実行するPythonモジュールを探しています。さまざまなアルゴリズムがありますが、それぞれのアルゴリズムを手動でロールすることなく、それらのいくつかの有効性を調査したいと思います。 理想的には、bcp(Bayesian Change Point)やRのstrucchangeパッケージのようないくつかのモジュールが欲しいです。 以下に施設がないことに驚いています。 statsmodels.tsa:時系列統計分析ツール scikits.timeseries:scipyを拡張する時系列分析ツール scipy.signal:scipyの信号処理ツール Pythonに変更点検出アルゴリズムを備えたモジュールはありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.