統計とビッグデータ machine-learning

2

多くの機械学習アプリケーションでは、いわゆるデータ増強方法により、より良いモデルを構築できます。たとえば、猫と犬の枚の画像のトレーニングセットを想定します。回転、ミラーリング、コントラスト調整などにより、元の画像から追加の画像を生成できます。100100100 画像の場合、データの増加は比較的簡単です。ただし、（たとえば）サンプルのトレーニングセットと、さまざまなものを表す数百個の連続変数があるとします。データ拡張は、もはやそれほど直感的ではないようです。そのような場合に何ができますか？100100100

21 machine-learning predictive-models dataset independence data-augmentation

3

SVDを協調フィルタリングの問題に適用するとどうなりますか？2つの違いは何ですか？

協調フィルタリングでは、入力されていない値があります。ユーザーが映画を見なかった場合、そこに「na」を入力する必要があります。このマトリックスのSVDを取得する場合、そこにいくつかの数値（0など）を入力する必要があります。マトリックスを因数分解すると、同様のユーザーを見つける方法があります（どのユーザーが縮小された次元空間）。しかし、予測される嗜好自体-アイテムに対するユーザーにとってはゼロになります。（なぜなら、未知の列に入力したものだからです）。そのため、共同フィルタリングとSVDの問題に悩まされています。それらはほとんど同じように見えますが、完全ではありません。それらの違いは何ですか？SVDを協調フィルタリング問題に適用するとどうなりますか？私はそうしましたが、結果は近くのユーザーを見つけるという点で許容できるように見えますが、これは素晴らしいですが、どのようにですか？

21 machine-learning svd recommender-system

3

ビッグデータの最初のステップ（

1日あたり数十億回の観測値で膨大なデータセットを分析しており、各観測値には数千のスパースで冗長な数値変数およびカテゴリ変数があるとします。回帰問題が1つ、不均衡なバイナリ分類問題が1つ、「どの予測変数が最も重要かを調べる」タスクが1つあるとします。問題にアプローチする方法についての私の考えは次のとおりです。次の状態になるまで、データの次第に大きくなる（ランダムな）サブサンプルに予測モデルを適合させます。モデルの適合と相互検証が計算上困難になります（たとえば、ラップトップで不当に遅くなる、Rでメモリが不足するなど）、またはトレーニングおよびテストRMSEまたは精度/リコール値が安定します。トレーニングエラーとテストエラーが安定しなかった場合（1.）、より単純なモデルを使用するか、モデルのマルチコアバージョンまたはマルチノードバージョンを実装して、最初からやり直します。トレーニングエラーとテストエラーが安定した場合（2.）：場合（つまり、私はまだ上のアルゴリズムを実行することができますそれはまだ大きすぎないよう）、特徴空間の拡大や、より複雑なモデルを使用して、最初から再起動することで、パフォーマンスを改善しよう。Nsubset≪NNsubset≪NN_{subset} \ll NXsubsetXsubsetX_{subset} 場合「大きい」およびさらなる分析を実行することは高価であり、変数の重要度および終了を分析します。NsubsetNsubsetN_{subset} 私のようなパッケージを使用する予定のbiglm、speedglm、multicore、およびffR中に最初に、そして後に必要に応じて、より複雑なアルゴリズムおよび/または（EC2上の）マルチノードを使用します。これは理にかなったアプローチのように聞こえますか？そうであれば、具体的なアドバイスや提案はありますか？そうでない場合、このサイズのデータセットに対して代わりに何を試してみますか？

21 r machine-learning data-mining large-data

2

クラスタリングの比較：ランドインデックスと情報のバリエーション

クラスタリングを比較するための情報のバリエーションとランドインデックスの違いの背後にある洞察や直感を誰かが持っているのではないかと思っていました。マリーナメリアの論文「Comparing Clusterings-An Information Based Distance」（2007年、多変量解析ジャーナル）を読んだことがありますが、定義の違いに気付く以外に、情報のばらつきが何であるかがわかりませんrandインデックスがキャプチャしないことをキャプチャします。

21 machine-learning clustering metric

4

決定木はほとんど常に二分木ですか？

私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか？ほとんどの標準アルゴリズム（C4.5、CARTなど）はバイナリツリーのみをサポートしていますか？私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。

21 machine-learning data-mining cart

4

相関と因果関係の区別は、Googleにどの程度関連していますか？

コンテキストこのサイトでよくある質問は、「一般的な統計上の罪とは何ですか？」です。言及されている罪の1つは、「相関は因果関係を意味する...」リンクを想定していることです次に、5つの賛成票を含むコメントで、「Googleは年に650億ドルを稼ぎ、違いを気にかけない」と提案されています。ライトクイップを過度に分析するリスクがあるため、これは相関と因果関係の区別と区別の実際的な関連性を具体化するための有用な議論のポイントになると思いました。そしておそらく、それは機械学習と相関関係と因果関係の違いとの関係について何かを浮き彫りにすることができます。このコメントは、検索エンジン結果の生成の基礎となるテクノロジーと広告関連のテクノロジーに対処していると思います。質問相関関係と因果関係の区別は、Googleの収入生成にどの程度関連しており、おそらく広告表示関連のテクノロジーと質の高い検索結果による収入の生成に特に焦点を当てていますか？

21 machine-learning causality

2

学習アルゴリズムの選択方法

いくつかのトレーニングデータに基づいてレコードを2つのカテゴリ（true / false）に分類するプログラムを実装する必要があり、どのアルゴリズム/方法論を検討すべきか疑問に思っていました。人工ニューラルネットワーク、遺伝的アルゴリズム、機械学習、ベイジアン最適化など、多くの選択肢があるようで、どこから始めればよいのかわかりませんでした。したがって、私の質問は次のとおりです。問題に使用する学習アルゴリズムをどのように選択すればよいですか。これが役立つ場合、ここに私が解決する必要がある問題があります。トレーニングデータ：トレーニングデータは、次のような多くの行で構成されます。 Precursor1, Precursor2, Boolean (true/false) 実行には、多くの前駆体が与えられます。その後、さまざまなアルゴリズムからアルゴリズムAを選択し（またはアルゴリズムを動的に生成し）、これらの前駆体のあらゆる可能な組み合わせに適用し、放出される「レコード」を収集します。「レコード」は、いくつかのキーと値のペアで構成されています*。いくつかの素晴らしいアルゴリズムを適用し、これらのレコードを2つのカテゴリ（true / false）に分類します。電車のデータと同じ形式のテーブルを生成します。 Precursor1, Precursor2, Boolean そして、プログラム全体は、正解/不正解の数に基づいて採点されます。 *：「レコード」は次のようになります（これが理にかなっていることを願っています） Record [1...*] Score -Precursor1 -Key -Precursor2 -Value 可能なキーの数は限られています。レコードにはこれらのキーの異なるサブセットが含まれます（一部のレコードにはkey1、key2、key3 ...があり、他のレコードにはkey3、key4 ...などがあります）。実際に2つの学習が必要です。1つはステップ1です。前駆体のペアなどを調べて、比較のためにレコードを発行するために適用するアルゴリズムを決定するモジュールが必要です。もう1つは、ステップ2です。レコードのコレクションを分析し、それらを2つのカテゴリ（true / false）に分類するモジュールが必要です。前もって感謝します！

21 machine-learning bayesian optimization genetic-algorithms

2

モデル選択後の相互検証（エラーの一般化）

注：ケースはn >> pです統計学習の要素を読んでいますが、相互検証を行う「正しい」方法についてさまざまな言及があります（60ページ、245ページなど）。具体的には、私の質問は、モデル検索が行われたときに、k分割CVまたはブートストラップを使用して最終モデルを評価する方法です（個別のテストセットなし）。ほとんどの場合（組み込み機能選択なしのMLアルゴリズム）、機能選択ステップメタパラメーターの選択手順（SVMのコストパラメーターなど）。私の質問：トレーニングセット全体で機能の選択を行い、脇に置いて、機能の選択手順を実行できることを確認しました。次に、kフォールドCVを使用して、特徴選択アルゴリズムが各フォールドで使用され（場合によっては毎回選択される異なる特徴を取得）、エラーが平均化されます。次に、すべてのデータ（確保された）を使用して選択された機能を使用して最終モードをトレーニングしますが、クロス検証からのエラーをモデルの将来のパフォーマンスの推定値として使用します。これは正しいです？クロス検証を使用してモデルパラメーターを選択する場合、モデルのパフォーマンスを後で推定する方法は？上記の＃1と同じプロセスですか、54ページ（pdf）または他の何かに示されているようなネストされたCVを使用する必要がありますか？両方のステップ（機能とパラメーターの設定）を実行しているとき.....その後、何をしますか？複雑なネストされたループ？別のホールドアウトサンプルがある場合、懸念はなくなり、クロス検証を使用して機能とパラメーターを選択できます（パフォーマンスの見積もりはホールドアウトセットから取得されるため、心配する必要はありません）？

21 machine-learning model-selection data-mining cross-validation

1

ミクロ平均またはマクロ平均の評価尺度に基づいて決定する必要がありますか？

同じデータセットを使用して、異なるバイナリ分類アルゴリズムで10倍のクロス検証を実行し、マイクロおよびマクロの平均結果の両方を受け取りました。これはマルチラベル分類の問題であることに注意してください。私の場合、真のネガと真のポジティブは等しく重み付けされています。つまり、真の陰性を正しく予測することは、真の陽性を正しく予測することと同様に重要です。ミクロ平均測定値は、マクロ平均測定値よりも低くなっています。ニューラルネットワークとサポートベクターマシンの結果は次のとおりです。また、同じデータセットに対して別のアルゴリズムを使用してパーセンテージ分割テストを実行しました。結果は次のとおりです。パーセンテージ分割テストとマクロ平均結果を比較したいのですが、それは公平ですか？真の陽性と真の陰性が等しく重み付けされているため、マクロ平均の結果に偏りがあるとは思わないが、それでもリンゴとオレンジを比較するのと同じだろうか？更新コメントに基づいて、ミクロ平均とマクロ平均の計算方法を示します。予測する144のラベル（フィーチャまたは属性と同じ）があります。精度、リコール、およびF-Measureは、ラベルごとに計算されます。 --------------------------------------------------- LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144 --------------------------------------------------- ? | ? | ? | ? | .. | ? --------------------------------------------------- 真の陽性（tp）、真の陰性（tn）、偽陽性（fp）、および偽陰性（fn）に基づいて計算されるバイナリ評価尺度B（tp、tn、fp、fn）を検討します。特定のメジャーのマクロおよびミクロ平均は、次のように計算できます。これらの式を使用して、次のようにミクロおよびマクロの平均を計算できます。そのため、マイクロアベレージ測定では、すべてのtp、fp、fn（各ラベル）が追加され、その後、新しいバイナリ評価が行われます。マクロ平均メジャーは、すべてのメジャー（Precision、Recall、またはF-Measure）を追加し、ラベルの数で除算します。これは、平均に似ています。さて、問題はどちらを使用するかです。

21 machine-learning cross-validation

1

カーネルになる可能性のある機能は何ですか？

機械学習とパターン認識のコンテキストには、Kernel Trickと呼ばれる概念があります。関数がカーネル関数であるかどうかを判断するように求められている問題に直面して、正確に何をすべきですか？最初に、多項式、RBF、ガウスなどの3つまたは4つのカーネル関数の形式であるかどうかを確認する必要がありますか？それから私は何をすることになっていますか？正定であることを示す必要がありますか？誰かがそのような問題の段階的な解決策を示すために例を解決できますか？例えば同じように、あるカーネル関数f(x)=extx′f(x)=extx′f(x)=e^{x^tx'}（我々はそれがガウス核であるか分からないと仮定）？

21 machine-learning kernel-trick

3

トレーニング損失は時間とともに増加します[複製]

この質問にはすでに回答があります：コスト関数の変化はどのようにプラスになりますか？（1つの答え）ニューラルネットワークが学習しない場合はどうすればよいですか？（5つの答え）先月閉鎖されました。モデル（リカレントニューラルネットワーク）をトレーニングして、4種類のシーケンスを分類しています。トレーニングを実行すると、トレーニングバッチのサンプルの90％以上を正しく分類するまで、トレーニングの損失が減少します。しかし、数エポック後に、トレーニングの損失が増加し、精度が低下することに気付きました。トレーニングセットでは、パフォーマンスが時間の経過とともに悪化することなく改善されると予想されるため、これは私にとって奇妙に思えます。クロスエントロピー損失を使用しており、学習率は0.0002です。更新：学習率が高すぎることが判明しました。学習率が十分に低い場合、この動作は観察されません。しかし、私はまだこの奇妙なことを見つけます。これが起こる理由についての良い説明は大歓迎です

21 machine-learning neural-networks loss-functions rnn training-error

1

隠れマルコフモデルと粒子フィルター（およびカルマンフィルター）の違い

ここに私の古い質問があります隠れマルコフモデル（HMM）とパーティクルフィルター（PF）の違い（違いがある場合）を誰かが知っているかどうか、そして結果としてカルマンフィルター、またはどの状況でどのアルゴリズムを使用するかを尋ねたいと思います。私は学生で、プロジェクトをしなければなりませんが、最初にいくつかのことを理解する必要があります。そのため、参考文献によれば、両方とも状態空間モデルであり、隠された（または潜在的または観察されていない）状態を含みます。ウィキペディア（Hidden_Markov_model）によると、「HMMでは、隠れ変数の状態空間は離散的ですが、観測自体は離散的（通常はカテゴリ分布から生成）または連続的（通常はガウス分布から）のいずれかです。隠れマルコフモデルは、連続状態空間を可能にするために一般化することもできます。そのようなモデルの例は、隠れ変数に対するマルコフ過程が線形動的システムであり、関連する変数間に線形関係があり、すべての隠れ変数と観測変数がガウス分布に従うモデルです。前述の線形動的システムなどの単純な場合、正確な推論は扱いやすい（この場合は、カルマンフィルターを使用）。ただし、一般に、連続的な潜在変数を持つHMMでの正確な推論は実行不可能であり、近似方法を使用する必要があります。」しかし、私にとってこれは少しわかりにくいです...簡単な言葉で言えば、これは次のことを意味します（私が行ったより多くの研究にも基づいています）： HMMでは、状態空間は離散または連続のいずれかです。また、観測自体は離散または連続のいずれかです。また、HMMは線形およびガウスまたは非ガウスの動的システムです。 PFでは、状態空間は離散または連続のいずれかです。また、観測自体は離散または連続のいずれかです。しかし、PFは非線形（および非ガウス？）動的システムです（その違いは違いますか？）。カルマンフィルター（HMMと同じように見えます）は、線形およびガウスの動的システムがある場合に使用されます。また、どのアルゴリズムを選択するかを知るには、これらはすべて同じように見えるので...また、PFは線形データ（たとえば、センサーKinectからの生データ）を持つことができると言う論文（英語ではない）を見つけました動きを認識する）、動的システムは非線形である場合があります。これは起こりますか？これは正しいです？どうやって？ジェスチャ認識では、研究者はHMMまたはPFのいずれかを使用できますが、各アルゴリズムを選択する理由を説明していません。これらのアルゴリズムを区別し、違いを理解し、最適なアルゴリズムを選択する方法を誰かが知っていますか？私の質問が大きすぎる場合、または一部の部分が素朴な場合は申し訳ありませんが、説得力のある科学的な答えはどこにも見つかりませんでした。ご清聴ありがとうございました！ここに私の新しい質問があります（@conjugatepriorの助けによると）したがって、さらに読みながら、以前のコメントの一部を更新し、何が起こっているのかをもう少し理解したいと思います。簡単に言えば、傘は動的ベイジアンネットワークであり、その下にHMMおよび状態空間のモデル（サブクラス）が含まれます（http://mlg.eng.cam.ac.uk/zoubin/papers/ijprai.pdf）。さらに、2つのモデルの最初の違いは、HMMでは隠れた状態変数が離散的であり、観測値は離散的または連続的であるということです。PFでは、隠れ状態変数は連続的であり（実数値の隠れ状態ベクトル）、観測値はガウス分布を持ちます。また、@ conjugatepriorによれば、各モデルには次の3つのタスクがあります：フィルタリング、平滑化、予測。フィルタリングでは、モデルHMMは離散隠れ状態変数にフォワードアルゴリズム法を使用し、状態空間は連続変数に使用し、線形動的システムはカルマンフィルターなどを使用します。ただし、HMMを一般化して、連続状態空間を許可することもできます。これらのHMMの拡張により、2つのモデルは概念的に同一であるように見えます（隠れマルコフモデルとマルコフ遷移モデルと状態空間モデルで述べられているように...？）。私はもう少し正確な用語を使用していると思いますが、それでもすべてがぼやけています。誰でもHMMと状態空間モデルの違いは何ですか？本当に自分のニーズに合った答えが見つからないからです。もう一度ありがとう！

21 machine-learning self-study hidden-markov-model kalman-filter particle-filter

4

データが線形分離可能かどうかを知る方法は？

データには多くの機能（100など）があり、インスタンスの数は100,000程度です。データはまばらです。ロジスティック回帰またはsvmを使用してデータを近似します。非線形の場合にカーネルトリックを使用できるように、フィーチャが線形か非線形かをどのように知ることができますか？

21 machine-learning logistic svm data-mining

2

アクティベーション機能としてsoftplusよりもReLUを使用する利点は何ですか？

整流線形ユニット（ReLU）は、softplusユニットが線形であり、計算が高速であるため、softplusユニットに取って代わりました。 softplusには、スパース性を誘発するという利点がまだありますか、それともReLUに制限されていますか？私が尋ねる理由は、ReLUのゼロ勾配の負の結果について疑問に思うからです。このプロパティは、再アクティブ化の可能性を与えることが有益な場合に、ゼロでユニットを「トラップ」しませんか？

21 machine-learning neural-networks

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」