統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
キャレットを使用したモデルのスタック/アンサンブル
caretRを使用していくつかの異なる予測モデルをトレーニングすることがよくあります。すべてを同じクロス検証フォールドでトレーニングし、を使用してcaret::: createFolds、クロス検証エラーに基づいて最適なモデルを選択します。 ただし、いくつかのモデルからの予測の中央値は、独立したテストセットで最良の単一モデルを上回ることがよくあります。同じクロス検証フォールドでトレーニングされたキャレットモデルをスタック/アンサンブルするための関数を書くことを考えています。たとえば、各フォールドの各モデルから中央値予測を取得したり、「メタモデル」をトレーニングしたりします。 もちろん、これには外側の相互検証ループが必要になる場合があります。キャレットモデルをアセンブルするための既存のパッケージ/オープンソースコードを知っている人はいますか?
21 r  caret  ensemble 

3
次元数がサンプル数より大きい場合のPCA
私は、分類器に渡す必要がある14000個のデータポイント(次元)を含む10人(つまり100個のサンプル)に対して1人あたり10個の信号があるシナリオに遭遇しました。このデータの次元数を減らしたいのですが、PCAがそうするようです。ただし、サンプルの数が次元の数よりも大きいPCAの例を見つけることしかできませんでした。SVDを使用してPCを検出するPCAアプリケーションを使用しています。100x14000データセットを渡すと101個のPCが返されるため、ほとんどのディメンションは明らかに無視されます。プログラムは、最初の6台のPCに90%の分散が含まれることを示しています。 これらの101台のPCには本質的にすべての分散が含まれており、残りの次元は無視できるというのは合理的な仮定ですか? 私が読んだ論文の1つは、自分のデータセットと同様の(わずかに低い品質)データセットを使用して、4500の次元を80に減らして元の情報の96%を保持できたと主張しています。使用されたPCA手法の詳細に関する論文の手振り、3100サンプルのみが利用可能であり、PCAを実際に実行するために使用されたサンプルよりも少ないサンプルを信じる理由があります(分類段階からバイアスを取り除くため)。 私は何かを見逃していますか、これは本当にPCAが高次元で低サンプルサイズのデータ​​セットで使用される方法ですか?フィードバックは大歓迎です。

4
重回帰における予測変数の重要性:部分対標準化係数
部分モデルと線形モデルの係数との正確な関係と、因子の重要性と影響を説明するためにどちらか一方のみを使用すべきかどうか疑問に思っています。R2R2R^2 私が知る限りsummary、係数の推定値を取得しanova、各因子の平方和を取得します-1つの因子の平方和を平方和と残差の合計で割った割合は部分(次のコードはにあります)。R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 *** young 8.173e-01 …

3
非正定共分散行列はデータについて何を教えてくれますか?
多くの多変量観測値があり、すべての変数の確率密度を評価したいと思います。データは正規分布していると想定されます。変数の数が少ない場合、すべてが期待どおりに機能しますが、より大きな数に移動すると、共分散行列が非正定値になります。 Matlabの問題を次のように減らしました: load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] = cholcov(Sigma, 0); % Test for pos-def done in mvnpdf. err> 0の場合、シグマは正定ではありません。 より高い次元で実験データを評価するためにできることはありますか?それは私のデータについて有用なことを教えてくれますか? 私はこの分野の初心者ですが、明らかな何かを見逃してしまった場合はおologiesびします。

1
2つの信号を整列/同期するにはどうすればよいですか?
私はいくつかの研究を行っていますが、分析段階で立ち往生しています(統計の講義にもっと注意を払うべきでした)。 私は2つの同時信号を収集しました:体積に統合された流量と胸部拡張の変化。信号を比較し、最終的に胸部拡張信号からボリュームを導き出したいと思います。しかし、最初にデータを調整/同期する必要があります。 記録が正確に同時に開始されず、胸部拡張がより長い期間キャプチャされるため、胸部拡張データセット内でボリュームデータに対応するデータを見つけ、それらがどれだけ適切に調整されているかを測定する必要があります。2つの信号がまったく同じ時間に開始しない場合、または異なるスケールと異なる解像度のデータ間でこれを実行する方法がわからない。 2つの信号の例(https://docs.google.com/spreadsheet/ccc?key=0As4oZTKp4RZ3dFRKaktYWEhZLXlFbFVKNmllbGVXNHc)を添付しました。さらに提供できるものがあればお知らせください。

5
データマイニングの新しい革新的な方法は?
次の抜粋は、一貫して成功しているヘッジファンドマネージャーのJaffray WoodriffとのインタビューであるSchwagerのHedge Fund Market Wizzards(2012年5月)からのものです。 「データマイニングで発生する最悪のエラーにはどのようなものがありますか?」: 多くの人は、トレーニングにサンプル内データを使用し、テストにサンプル外データを使用するため、大丈夫だと考えています。次に、サンプル内のデータで実行した方法に基づいてモデルを並べ替え、サンプル外のデータでテストするのに最適なモデルを選択します。人間の傾向は、サンプル外のデータで引き続き成功するモデルを採用し、それらのモデルを取引用に選択することです。このタイプのプロセスは、サンプル外のデータをトレーニングデータの一部に単純に変換します。これは、サンプル外の期間で最高の結果が得られたモデルを選択するためです。これは、人々が犯す最も一般的なエラーの1つであり、通常適用されるデータマイニングがひどい結果をもたらす理由の1つです。 インタビュアーは、「あなたは代わりに何をすべきですか?」 平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。サンプル外モデルの平均がサンプル内スコアのかなりの割合である場合、あなたはうまくやっていることがわかります。一般的に、サンプル外の結果がサンプル内の50%を超える場合、実際にどこかに到達しています。SASとIBMが優れた予測モデリングソフトウェアを構築していた場合、QIMのビジネスモデルは機能しませんでした。 私の質問 これは理にかなっていますか?彼はどういう意味ですか?あなたは手がかりを持っていますか?あるいは提案された方法といくつかの参考文献の名前さえありますか?または、この男は誰も理解していない聖杯を見つけましたか?彼はこのインタビューで、彼の方法は潜在的に科学に革命をもたらす可能性があるとも述べています...

3
ビッグデータの最初のステップ(
1日あたり数十億回の観測値で膨大なデータセットを分析しており、各観測値には数千のスパースで冗長な数値変数およびカテゴリ変数があるとします。回帰問題が1つ、不均衡なバイナリ分類問題が1つ、「どの予測変数が最も重要かを調べる」タスクが1つあるとします。問題にアプローチする方法についての私の考えは次のとおりです。 次の状態になるまで、データの次第に大きくなる(ランダムな)サブサンプルに予測モデルを適合させます。 モデルの適合と相互検証が計算上困難になります(たとえば、ラップトップで不当に遅くなる、Rでメモリが不足するなど)、または トレーニングおよびテストRMSEまたは精度/リコール値が安定します。 トレーニングエラーとテストエラーが安定しなかった場合(1.)、より単純なモデルを使用するか、モデルのマルチコアバージョンまたはマルチノードバージョンを実装して、最初からやり直します。 トレーニングエラーとテストエラーが安定した場合(2.): 場合(つまり、私はまだ上のアルゴリズムを実行することができますそれはまだ大きすぎないよう)、特徴空間の拡大や、より複雑なモデルを使用して、最初から再起動することで、パフォーマンスを改善しよう。Nsubset≪NNsubset≪NN_{subset} \ll NXsubsetXsubsetX_{subset} 場合「大きい」およびさらなる分析を実行することは高価であり、変数の重要度および終了を分析します。NsubsetNsubsetN_{subset} 私のようなパッケージを使用する予定のbiglm、speedglm、multicore、およびffR中に最初に、そして後に必要に応じて、より複雑なアルゴリズムおよび/または(EC2上の)マルチノードを使用します。 これは理にかなったアプローチのように聞こえますか?そうであれば、具体的なアドバイスや提案はありますか?そうでない場合、このサイズのデータ​​セットに対して代わりに何を試してみますか?

2
確率変数が最大になる確率をどのように制限できますか?
\newcommand{\P}{\mathbb{P}}有限平均\ mu_1 \ leq \ ldots \ leq \ mu_Nおよび分散\ sigma_1 ^ 2、\ ldots、\を持つNNN独立したランダム変数X1X1X_1、……\ldots、XnXnX_nがあるとしますsigma_N ^ 2。X_i \ neq X_Nが他のすべてのX_j、j \ neq iよりも大きい確率の分布のない境界を探しています。σ 2 1 ... σ 2 N X I ≠ X N Xのjは J ≠ Iμ1≤…≤μNμ1≤…≤μN\mu_1 \leq \ldots \leq \mu_Nσ21σ12\sigma_1^2……\ldotsσ2NσN2\sigma_N^2Xi≠XNXi≠XNX_i \neq X_NXjXjX_jj≠ij≠ij \neq i 言い換えると、簡単にするためにX_iの分布XiXiX_iが連続的であると仮定する場合(P(Xi=Xj)=0P(Xi=Xj)=0\P(X_i = X_j) = 0)、次の境界を探しています: …

1
マルコフ確率場指数族はいつですか?
教科書のグラフィカルモデル、指数関数的ファミリーおよび変分推論では、M。ジョーダンとM.ウェインライトが指数関数的ファミリーとマルコフランダムフィールド(無向グラフィカルモデル)の関係について説明しています。 次の質問で、それらの関係をよりよく理解しようとしています。 すべてのMRFは指数ファミリーのメンバーですか? 指数ファミリーのすべてのメンバーをMRFとして表すことはできますか? MRFが指数ファミリーである場合、一方のタイプの分布が他方に含まれない良い例は何ですか?≠≠\neq 教科書(第3章)で理解していることから、ジョーダンとウェインライトは次の議論を提示します。 ある分布に従うaaスカラー確率変数Xがあり、 iid観測を描画し、を特定したいとします。n X 1、… X n ppppnnnバツ1、… Xnバツ1、…バツnX^1, \ldots X^nppp 特定の関数の経験的期待値を計算しますϕαϕα\phi_\alpha% μ^α= 1n∑ni = 1ϕα(X私)、μ^α=1n∑私=1nϕα(バツ私)、\hat{\mu}_\alpha= \frac{1}{n}\sum^n_{i=1}\phi_\alpha(X^i), すべてのα ∈ Iα∈私\alpha \in \mathcal{I} ここで、いくつかのセットの各、関数インデックスを付けますI φ α:X → Rαα\alpha私私\mathcal{I}ϕα: X→ Rϕα:バツ→R\phi_\alpha: \mathcal{X} \rightarrow R 次に、次の2セットの量を強制的に整合させる、つまり一致させる(を識別する)場合:ppp 期待される分布十分な統計φ PEp[ (ϕα(X)] = ∫バツϕα(x )p (x ) ν( dx )Ep[(ϕα(バツ)]=∫バツϕα(バツ)p(バツ)ν(dバツ)E_p[(\phi_\alpha(X)]=\int_\mathcal{X}\phi_\alpha(x)p(x)\nu(dx)ϕϕ\phippp 経験的分布の下での期待 …


2
「調査者の意図」としきい値/ p値
私はジョン・クルシュケの「Doing Bayesian Data Analysis」スライドを読んでいますが、実際には彼のt検定の解釈および/または帰無仮説有意性テストのフレームワークについて質問があります。彼は、研究者の意図に依存するため、p値は不明確だと主張している。 特に、2つの治療法を比較する同一のデータセットを収集する2つのラボの例を挙げています(3〜6ページ)。1つのラボは12人の被験者(条件ごとに6人)からデータを収集することを約束し、もう1つのラボは一定の期間データを収集します。スライドによると、重要なための-valueこれら二つのデータ収集方式間で異なる:、前者のために、しかし、後者のために!p &lt; 0.05 t crit = 2.33 t crit = 2.45tttp &lt; 0.05p&lt;0.05p<0.05tクリティカル= 2.33tcrit=2.33t_{\textrm{crit}}=2.33tクリティカル= 2.45tcrit=2.45t_{\textrm{crit}}=2.45 ブログ投稿-私は今見つけることができません-固定期間シナリオは、11、13、または他の任意の数の被験者からデータを収集できたので、固定期間シナリオはより自由度があると示唆しました定義はです。N= 12N=12N=12 誰かが私に説明してください: なぜこれらの条件の間で臨界値が異なるのでしょうか? (それが問題だと仮定すると)異なる停止基準の影響を修正/比較する方法は? 有意性に基づいて停止基準を設定すると(たとえば、p &lt;0.05までのサンプルp &lt; 0.05p&lt;0.05p<0.05)、タイプIエラーの可能性が増大する可能性がありますが、停止ルールはどちらの結果にも依存しないため、ここでは行われていないようです解析。


2
距離共分散が線形共分散より適切でない場合
私は(漠然と)ブラウン/距離共分散/相関について紹介されました。これは、依存関係をテストするときに、多くの非線形の状況で特に役立つようです。ただし、非線形/カオスデータには共分散/相関がよく使用されますが、あまり使用されていないようです。 距離の共分散にはいくつかの欠点があるかもしれないと考えています。それでは、それらは何であり、なぜ誰もが常に距離共分散を使用しないのですか?

2
クラスタリングの比較:ランドインデックスと情報のバリエーション
クラスタリングを比較するための情報のバリエーションとランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。 マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」(2007年、多変量解析ジャーナル)を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。

5
独自のトポロジを構築する最新のニューラルネットワーク
標準的なニューラルネットアルゴリズム(backpropなど)の制限は、必要な隠れ層と層ごとのニューロンの数を設計で決定する必要があることです。通常、学習率と一般化はこれらの選択に非常に敏感です。これが、カスケード相関などのニューラルネットアルゴリズムが関心を集めている理由です。最小限のトポロジ(入力ユニットと出力ユニットのみ)で開始し、学習が進むにつれて新しい隠れユニットを募集します。 CC-NNアルゴリズムは、1990年にFahlmanによって、1991年にリカレントバージョンとして導入されました。最小トポロジで始まる最近(1992年以降)のニューラルネットアルゴリズムは何ですか? 関連する質問 CogSci.SE:神経発生の生物学的にもっともらしい説明を伴うニューラルネットワーク

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.