統計とビッグデータ machine-learning

1

トレーニングセットとテストセットを使用して回帰モデルのパフォーマンスを評価していますか？

テストセットを実行し、トレーニングセットでモデルをトレーニングすることにより、分類モデルのパフォーマンスを評価することについてよく耳にします。次に、予測値用と真値用の2つのベクトルを作成します。明らかに比較を行うと、Fスコア、カッパ統計、精度と再現率、ROCカーブなどを使用して、予測力によってモデルのパフォーマンスを判断できます。これは、回帰のような数値予測の評価とどのように比較しますか？トレーニングセットで回帰モデルをトレーニングし、それを使用して値を予測し、これらの予測値をテストセットにある真の値と比較できると思います。これは分類タスクではないため、パフォーマンスの測定値は明らかに異なるはずです。通常の残差と統計は明白な指標ですが、回帰モデルのパフォーマンスを評価するためのより/より良い方法はありますか？分類には非常に多くのオプションがあるようですが、回帰はR 2と残差に任されています。R2R2R^2R2R2R^2

10 regression machine-learning model-evaluation

1

CPH、加速故障時間モデル、または生存分析のためのニューラルネットワークの比較

私は生存分析が初めてですが、特定の目標を前提としてそれを行うにはさまざまな方法があることを最近知りました。これらの方法の実際の実装と妥当性に興味があります。時間、ステータス、その他の医療データを考慮して患者の生存率を上げる方法として、従来のCox比例ハザード、加速故障時間モデル、ニューラルネットワーク（多層パーセプトロン）が提示されました。研究は5年で決定されると言われ、目標は新しい記録が与えられるために毎年生存リスクを与えることです。 Cox PHで他の方法が選択された2つのインスタンスが見つかりました。「Cox PHモデルから生存時間に関する予測を取得する方法」が見つかり、次のように述べられました。特定の時点での生存確率の推定値に特に関心がある場合は、パラメトリック生存モデル（別名、加速故障時間モデル）を紹介します。これらは、Rの生存パッケージに実装されており、パラメトリックな生存時間分布を提供します。ここで、関心のある時間をプラグインするだけで、生存確率を取得できます。私は推奨サイトに行って、survivalパッケージの 1つ-関数を見つけましたsurvreg。このコメントでニューラルネットワークが提案されました： ...生存分析へのニューラルネットアプローチの1つの利点は、Cox分析の根底にある仮定に依存しないことです... 「生存予測を含む出力としてターゲットベクトルを使用したRニューラルネットワークモデル」という質問を持つ別の人は、ニューラルネットワークとCox PHの両方で生存を決定する包括的な方法を示しました。サバイバルを取得するためのRコードは次のようになります。 mymodel <- neuralnet(T1+T2+T3+T4+T5~covar1+covar2+covar3+..., data=mydata, hidden=1) compute(mymodel,data=mydata) 私はRフォーラムに行って、この回答を質問「predict.coxphとpredict.survreg」で見つけました。実際、のpredict()関数からcoxph直接「時間」予測を取得することはできず、線形で指数的なリスクスコアのみを取得できます。これは、時間を取得するためにベースラインハザードを計算する必要があり、Coxモデルでは暗黙的であるため簡単ではないためです。興味のある期間の生存率を得るのに、3つ（またはCox PHに関する議論を考慮した2つ）が最適かどうか疑問に思っていましたか？どちらを生存分析に使用するか混乱しています。

10 r machine-learning survival neural-networks cox-model

2

条件付き独立性とそのグラフィック表現に関する

共分散の選択を研究するとき、私は一度以下の例を読みました。次のモデルに関して：その共分散行列と逆共分散行列は次のように与えられます、ここでと独立性がここで逆共分散によって決定される理由がわかりませんか？xxxyyy この関係の基礎となる数学的ロジックは何ですか？また、次の図の左側のグラフは、と間の独立関係を表すためのものです。どうして？xxxyyy

10 machine-learning bayesian conditional-probability covariance graphical-model

1

ディシジョンツリーの変数（機能）スケーリングと変数（機能）の正規化（調整）は、どの実装で必要ですか？

多くの機械学習アルゴリズムでは、特徴スケーリング（別名変数スケーリング、正規化）が一般的な前処理ステップですWikipedia-特徴スケーリング -この質問は間近でした質問＃41704-正規化と特徴スケーリングはどのように、そしてなぜ機能するのですか？ディシジョンツリーに関して特に2つの質問があります。機能のスケーリングを必要とする決定木の実装はありますか？私は、ほとんどのアルゴリズムの分割基準がスケーリングに無関心であるという印象を受けています。次の変数を検討してください：（1）単位、（2）時間、（3）時間あたりの単位-意思決定ツリーに入力するときにこれらの3つの変数を「そのまま」にしておくか、何らかのタイプの競合に遭遇するのが最善ですか「正規化された」変数（3）は（1）と（2）に関連付けられるため、つまり、3つの変数すべてを組み合わせてこの状況を攻撃しますか、それとも通常は3つの変数の組み合わせを選択するか、単に「正規化/標準化」機能（3）を使用しますか？

10 machine-learning feature-selection cart

6

機械学習における柔軟で柔軟性のないモデル

さまざまなシナリオでの柔軟なモデル（スプラインなど）と柔軟性のないモデル（線形回帰など）の比較に関する簡単な質問に遭遇しました。質問は：一般に、次の場合、柔軟な統計学習法のパフォーマンスは、柔軟性のない方法よりも良いか悪いかを予想しますか？予測子の数は非常に大きく、観測値の数は少ないですか？ npppんnn エラー項の分散、すなわちσ2= Var （e ）σ2=Var(e)σ^2 = \text{Var}(e)は非常に高いですか？（1）については、んnnが小さい場合、柔軟性のないモデルの方が良い（わかりません）と思います。（2）については、どちらのモデルが（比較的）優れているかわかりません。

10 machine-learning model

1

観測48で革新的な異常値をARIMAモデルに組み込むにはどうすればよいですか？

私はデータセットに取り組んでいます。いくつかのモデル識別手法を使用した後、私はARIMA（0,2,1）モデルを思いつきました。 R detectIOのパッケージの関数を使用して、元のデータセットの48回目の観測で革新的な外れ値（IO）TSAを検出しました。この外れ値をモデルに組み込んで、予測に使用するにはどうすればよいですか？Rではそれから予測を行うことができない可能性があるため、ARIMAXモデルを使用したくありません。これを行う方法は他にありますか？これが私の値です。 VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 9.6 9.8 10.0 9.9 9.9 9.8 9.8 9.9 9.9 9.6 9.4 …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

5

トレーニング、検証、テストのパーセンテージをどのように決定しますか？

ラベル付きのデータをトレーニング、検証、テストセットに分割すると、50/25/25から85/5/10までのすべてが聞こえてきました。これは、モデルをどのように使用するか、学習アルゴリズムを過剰に適合させる傾向があるかどうかに依存すると確信しています。決定する方法はありますか、それとも経験則によるものですか？ELSIIでさえ、この件についてはあいまいなようです。

10 machine-learning cross-validation

1

機械学習の統計、ペーパー

私はコンピュータプログラミングと素数理論のバックグラウンドを持っていますが、実際の統計トレーニングはありません。最近、さまざまな技法の驚くべき世界が実際には統計の世界であることを「発見」しました。行列因数分解、行列補完、高次元テンソル、埋め込み、密度推定、ベイズ推定、マルコフ分割、固有ベクトル計算、PageRankはすべて非常に統計的な手法であり、そのようなものを使用する機械学習アルゴリズムは多くの統計を使用しているようです。私の目標は、使用されている表記法、「証明」、統計的引数を理解しながら、そのようなことを論じた論文を読み、アルゴリズムを実装または作成できるようにすることです。私が最も難しいのは、行列を含むすべての証明に従うことです。どのような基本的な論文から始められますか？それとも、取り組む価値のあるエクササイズを含む優れた教科書ですか？具体的には、私が完全に理解したいいくつかの論文は次のとおりです。凸最適化による正確な行列補完、Candes、Recht、2008 高速コーシー変換と高速ロバスト線形回帰、クラークソン他、2013年サポートベクターマシンのランダムプロジェクション、Paul et al、2013 深密度モデルを使用した高次元確率推定、Rippel、Adams、2013年低ランクマトリックス補完のためのエラー最小化推定値と普遍的なエントリ単位のエラー範囲の取得、Király、Theran、2013年

10 machine-learning estimation

1

P（Y | X）の非iidサンプルとP（Y | X）のiidサンプルからの確率的勾配降下法を介してP（Y | X）のモデルをトレーニングできますか？

一部のデータセットで確率勾配降下法を介して（たとえば、可能性を最大化するために）パラメーター化されたモデルをトレーニングする場合、トレーニングサンプルはトレーニングデータ分布からiidで描画されると一般に想定されています。したがって、目標が共同分布をモデル化することである場合、各トレーニングサンプルはその分布からiidで描画されます。P(X,Y)P(X,Y)P(X,Y)(xi,yi)(xi,yi)(x_i,y_i) 代わりに条件付き分布をモデル化することが目的である場合、iid要件はどのように変化しますか？P(Y|X)P(Y|X)P(Y|X) それでも、共同分布から各サンプル iidを描画する必要がありますか？(xi,yi)(xi,yi)(x_i,y_i) から iid を描画し、次にから iidを描画しますか？xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 私たちが描くことができからIIDない（例えば、時間を超える相関）、そして描きからIID？xixix_iP(X)P(X)P(X)yiyiy_iP(Y|X)P(Y|X)P(Y|X) 確率的勾配降下法に対するこれら3つのアプローチの妥当性についてコメントできますか？（または、必要に応じて質問を言い換えてください。）できれば＃3をやりたいです。私のアプリケーションは強化学習であり、パラメーター化された条件付きモデルを制御ポリシーとして使用しています。状態のシーケンスは高度に相関していますが、アクションは、状態を条件とする確率的ポリシーからサンプリングされます。結果のサンプル（またはそれらのサブセット）は、ポリシーのトレーニングに使用されます。（言い換えると、ある環境で制御ポリシーを長時間実行し、状態/アクションサンプルのデータセットを収集することを想像してください。その後、状態が経時的に相関している場合でも、アクションは独立して生成され、状態を条件とします。）これは、このホワイトペーパーの状況と多少似ています。xixix_iyiyiy_i(xi,yi)(xi,yi)(x_i,y_i) 私はRyabko、2006年の「条件付き独立データのパターン認識」という論文を見つけました。ただし、状況は私が必要としているものとは逆になり、（ラベル/カテゴリ/アクション）はからiidではなく描画でき、（オブジェクト/パターン/状態）はからiidで描画されます。yiyiy_iP(Y)P(Y)P(Y)xixix_iP(X|Y)P(X|Y)P(X|Y) 更新： Ryabko論文で言及された2つの論文（hereとhere）は、ここで関連性があるようです。彼らは、が任意のプロセス（たとえば、iidではなく、おそらく非定常）からのものであると想定しています。彼らは、この場合、最近傍とカーネル推定量が一致していることを示しています。しかし、私はこの状況で確率的勾配降下に基づく推定が有効であるかどうかにもっと興味があります。xixix_i

10 machine-learning conditional-probability reinforcement-learning gradient-descent

3

最小限のメモリを使用してデータをトレーニングする最も効率的な方法は何ですか？

これは私のトレーニングデータです：200,000例x 10,000機能。したがって、私のトレーニングデータマトリックスは-200,000 x 10,000です。各例の機能を生成するときに、すべてのデータセットを1つずつ（1つずつ）保存することで、メモリの問題なしにこれをフラットファイルに保存できました。しかし、今、私がMilk、SVM light、またはその他の機械学習アルゴリズムを使用すると、すべてが1つずつトレーニングするのではなく、トレーニングデータ全体をメモリにロードしようとします。ただし、RAMが8 GBしかないので、この方法で進めることはできません。とにかく、アルゴリズムを1つのデータセットごとにトレーニングできることを知っていますか？つまり、トレーニング中にいつでも1つのデータセットをメモリにロードするだけです。

10 machine-learning dataset algorithms python

2

正則化

正則化を実行するには多くの方法があります。たとえば、、L 1、およびL 2ノルムベースの正則化です。Friedman Hastie＆Tibsharaniによると、最適な正則化器は問題に依存します。つまり、真のターゲット関数の性質、使用される特定の基底、信号対雑音比、およびサンプルサイズです。L0L0L_0L1L1L_1L2L2L_2 さまざまな正則化方法の方法とパフォーマンスを比較する実証的研究はありますか？

10 r regression machine-learning regularization

3

統計的有意性を使用して2つの異なるモデルの精度を比較する方法

私は時系列予測に取り組んでいます。2つのデータセットとます。 3つの予測モデルがあります。これらのモデルはすべて、データセットサンプルを使用してトレーニングされ、そのパフォーマンスはデータセットサンプルを使用して測定されます。パフォーマンスメトリックがMSE（またはその他）であるとします。データセットについて測定し、それらのモデルのMSEある及び。あるモデルの別のモデルに対する改善が統計的に有意であることをどのようにテストできますか？D1={x1,x2,....xn}D1={x1,x2,....xn}D1=\{x_1, x_2,....x_n\}D2={xn+1,xn+2,xn+3,....,xn+k}D2={xn+1,xn+2,xn+3,....,xn+k}D2=\{x_n+1, x_n+2, x_n+3,...., x_n+k\}M1,M2,M3M1,M2,M3M1, M2, M3D1D1D1D2D2D2D2D2D2MSE1,MSE2,MSE1,MSE2,MSE_1, MSE_2, MSE3MSE3MSE_3 たとえば、、、、これらのMSEの計算に基づくデータセットサンプルの総数が2000 であるとします、、およびが大幅に異なることをどのようにテストできますか。誰かがこの問題で私を助けることができれば私は非常に感謝します。MSE1=200MSE1=200MSE_1=200MSE2=205MSE2=205MSE_2=205MSE3=210MSE3=210MSE_3=210D2D2D2MSE1MSE1MSE_1MSE2MSE2MSE_2MSE3MSE3MSE_3

10 time-series machine-learning statistical-significance classification model-evaluation

3

バイグラム（N-gram）モデルを使用したテキストドキュメントの特徴ベクトルの構築について

テキストマイニングの機能構築の従来のアプローチはバッグオブワードアプローチであり、tf-idfを使用して、特定のテキストドキュメントを特徴付ける特徴ベクトルを設定することで拡張できます。現在、バイグラム言語モデルまたは（N-gram）を使用して特徴ベクトルを構築しようとしていますが、その方法がよくわかりませんか？単語の代わりにバイグラムで頻度カウントを計算し、tf-idf重み付けスキームを使用してそれを強化する、つまり、bag-of-wordsのアプローチに従うことはできますか？

10 machine-learning data-mining text-mining natural-language language-models

1

フィッシャーカーネルを超えて

しばらくの間、確率モデルからカーネルを構築する方法のように思われたため、Fisher Kernelが人気になるように思われました。ただし、実際に使用されることはめったにありません。また、十分に機能しない傾向があるというのは、十分な権限があるためです。彼らはフィッシャー情報の計算に依存しています-ウィキペディアの引用：フィッシャー情報は、fの自然対数のθに関する2次導関数の期待値の否定です。情報は、θの最尤推定値（MLE）に近いサポート曲線の「曲率」の尺度であると見なすことができます。私が知る限り、これは2点間のカーネル関数がこの曲面に沿った距離であることを意味します-私は正しいですか？ただし、これは、カーネルメソッドでの使用に問題がある可能性があります。 MLEは、特定のモデルの非常に悪い推定値である可能性があります MLEの周囲のサポートカーブの曲率は、インスタンスを区別するために使用できない可能性があります。これはモデルに関する多くの情報を捨てるようですこれが事実である場合、確率論的方法からカーネルを構築するより現代的な方法はありますか？たとえば、ホールドアウトセットを使用して、MAP推定値を同じ方法で使用できますか？（有効な）カーネル関数を構築するために、確率論的手法からの距離または類似性のその他の概念はどのように機能しますか？

10 machine-learning probability kernel-trick generative-models

1

非常に大きな時系列データセットを処理する

非常に大きなデータセットにアクセスできます。データは、4つのジャンルのうちの1つからの、音楽の抜粋を聞いている人々のMEGレコーディングからのものです。データは次のとおりです。 6科目 3実験の繰り返し（エポック）エポックあたり120回の試行 275 MEGチャネルから500Hz（= 4000サンプル）で試行あたり8秒のデータしたがって、ここでの各「例」はサイズ[4000x275]の行列であり、そのような例は2160あり、これは特徴抽出の前です。目標は、脳の信号に基づいてジャンルを予測することです（4クラス分類）。明らかに、ここにはいくつかの挑戦的な問題があります。データセットがメモリに収まりませんデータには強い時間的相関があり、被験者間の変動は非常に大きくなります。その結果、データを分割する方法は明らかではありません S / N比が非常に低い分類子の正しい機能が何であるかは明らかではありませんこれらを順番に取ります：できることはいろいろあります。まず、ナイキスト制限を考慮しても、100Hzを超えると脳の活動が実際に発生しないため、500Hzから〜200Hzに安全にダウンサンプリングできます。一連のチャネルからサブサンプリングすることもできます（たとえば、聴覚領域の中心）が、関心のある他の領域（前頭など）でアクティビティが発生する可能性があるため、これを先験的に行うことは避けます。時間枠の一部を削除することもできます。おそらく、最初の2つだけがタスクにとって重要ですか？それは本当に知られていない。もちろん、誰もが「叫び次元削減を！ "ですが、それも簡単なことではありません。最初に、トレーニング/テストの分割（2を参照）に非常に注意する必要があり、これを機能の生成前または後に行うかどうかも明確ではありません。次に、高価なもの以外相互検証、または骨の折れる目視検査では、適切な方法または適切な次元数のいずれかを選択する明白な方法はありません。もちろん、PCA、ICA、またはランダムな投影法などを使用して、最善の結果を期待できます。これはトリッキーです。トレーニングセットに連続するサンプルがある場合、トレーニングセットにオーバーフィットする可能性があります。一方、連続するサンプルがトレーニングセットとテストセットに分割される場合、トレーニングセットにアンダーフィットする可能性がありますが、テストセットにオーバーフィットする可能性があります。ここにはさまざまなオプションがあるようです：単一主題分類。個々の主題を自分で取り、時代に応じて分割します。私たちは脳全体を予測しようとしているわけではないので、これは最も簡単な作業です。この中で、クロス検証のために2つの残りのエポックを使用できます。完全を期すために、すべての組み合わせをローテーションする必要があります。すべての被験者の平均精度を報告します。もちろん、これらのモデルが一般化することはまったく期待できません。被験者分類内。一緒にすべての主題を取り、時代に従って分割します。これは、トレーニング中のすべての被験者を見てきたので、実際には最も簡単な作業かもしれません。ただし、モデルが新しい主題にうまく一般化するとは思わないでしょう。この中で、クロス検証のために2つの残りのエポックを使用できます。完全を期すために、すべての組み合わせをローテーションする必要があります。被験者間分類。「Leave-one-out」とも呼ばれ、1人の被験者がテストデータとして使用され、残りはトレーニングに使用されます。次に、すべての主題を回転させます。次に、被験者に対して交差検証が実行されます。毎回「新しい脳」を予測しようとしているので、これははるかに困難な作業になると予想します。ここでは、テストと再テストの信頼性（つまり、時間的相関によってどれだけ過剰適合が引き起こされるか）の問題がありますが、モデルはより大きな母集団にうまく一般化すると予想されます。これは古典的な「干し草の中の針」の問題です。音楽ジャンルの認識やジャンル固有の処理に関連する実際の信号は、脳内の活動の「スープ」と比較するとごくわずかです。部分的にしか削除できない顕著なアーティファクトもあります（主に移動に関連）。データから派生した機能、およびデータの処理方法は、対象の信号の一部を破壊しないようにする必要があります。ここでは、さまざまなことを想像できます。1つ目は、生のデータ（ベクターに連結されたもの）を特徴ベクトルとして使用することです。それがどれほど実り多いかはわかりませんが、これらのベクトルはおそらく本質的に一様にランダムであると思います。これは実際には信号処理の問題ですが、従うことができるいくつかの一般的なガイドラインがあります。1つは、スライディングウィンドウ上で標準のフーリエ解析を実行することです。ここから、コンポーネントを個別の周波数帯域（アルファ/ベータ/ガンマなど）に分割でき、これらの統計（平均、標準偏差）を機能として使用できます。または、ウェーブレットやヒルベルト変換を使用したり、混沌としたアトラクタを探したりすることもできます。もちろん、順列の数を増やすカーネル（線形、多項式、RBFなど）を選択できます。おそらく、ここで行う最善の方法は、できるだけ多くの異なる機能セットを生成し、MKLまたはブースティングメソッドを使用してそれらを組み合わせることです。この種類のデータセットにどのように取り組みますか（特にこのデータセットでない場合）？途中で見逃したことはありますか？研究者の時間と計算リソースに限りなく費やすことなく、成功する可能性が最も高い戦略は何ですか？

10 machine-learning feature-selection large-data feature-construction

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」