統計とビッグデータ machine-learning

2

K分割交差検定を使用して、特定の分類器の一般化機能を推定できます。分散のより良い推定値を取得するために、すべての検証実行からプールされた分散を計算することもできますか？そうでない場合、なぜですか？クロス検証の実行全体でプールされた標準偏差を使用する論文を見つけました。また、検証分散の普遍的な推定量がないことを明示的に述べた論文を見つけました。しかし、一般化エラーの分散推定量を示す論文も見つけました（これを読んで理解しようとしています）。人々は実際に実際に何をする（または報告する）のか？編集： CVを使用して大まかな分類エラーを測定する場合（つまり、サンプルに正しくラベルが付けられているか、ラベルが付けられていない、たとえばtrueまたはfalse）、プールされた分散について話すのは意味がない場合があります。ただし、推定している統計に分散が定義されている場合について説明しています。そのため、特定の分割について、統計値と分散推定値の両方が得られます。この情報を破棄して平均統計のみを考慮するのは適切ではないようです。そして、私はブートストラップ法を使用して分散推定値を作成できることを知っていますが（そうでない場合）、フォールド分散を無視し、統計推定値のみを考慮します（さらに多くの計算能力が必要です）。

27 machine-learning cross-validation

3

教師あり機械学習モデルが過剰適合であるかどうかを判断する方法は？

教師付き機械学習モデルが過剰適合であるかどうかを判断する方法を教えてもらえますか？外部検証データセットがない場合、10倍交差検証のROCを使用してオーバーフィットを説明できるかどうかを知りたいです。外部検証データセットがある場合、次に何をすべきですか？

27 machine-learning

5

ディープニューラルネットワークは正規化なしで乗算関数を近似できますか？

f = x * y標準的なディープニューラルネットワークを使用して単純な回帰を実行するとします。 1つの非表示層を持つNNがすべての関数を近似できることを示す再調査があることを覚えていますが、正規化なしではNNはこの単純な乗算でさえ近似できませんでした。データのログ正規化のみが役立ちましたがm = x*y => ln(m) = ln(x) + ln(y). 、それはチートのように見えます。NNはログ正規化なしでこれを行うことができますか？揺れは明らかに（私にとって）-はい、それで質問はそのようなNNのタイプ/構成/レイアウトはどうあるべきかということですか？

27 regression machine-learning neural-networks deep-learning

4

分類器の最適なしきい値を決定し、ROC曲線を生成する方法

SVM分類器があるとします。ROC曲線を生成する方法を教えてください。（理論的には）（それぞれのしきい値でTPRとFPRを生成しているため）。そして、このSVM分類器の最適なしきい値をどのように決定しますか？

27 machine-learning svm

1

PCAが外れ値に敏感なのはなぜですか？

このSEには、主成分分析（PCA）への堅牢なアプローチを説明する多くの投稿がありますが、そもそもPCAが外れ値に敏感である理由についての良い説明を見つけることができません。

26 machine-learning pca outliers

1

統計、線形代数、機械学習の古典的な表記法は何ですか？そして、これらの表記法の間の関係は何ですか？

本を読むとき、表記を理解することは、内容を理解する上で非常に重要な役割を果たします。残念ながら、異なるコミュニティでは、モデルと最適化問題の定式化に関して異なる表記規則があります。ここに定式化表記をまとめて考えられる理由を教えてください。ここで例を示します：線形代数の文学では、古典的な本はStrangの線形代数入門です。本で最も使用されている表記は Ax=bAx=b A x=b ここで、は係数行列、は解く変数、は方程式の右側のベクトルです。その理由本はこの表記法を選択するには、線形代数の主な目的は、ベクターが何であるかを線形システムと数字解決されている。そのような定式化を考えると、OLS最適化問題はAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 統計または機械学習リテラシー（書籍統計学習の要素）で、人々は同じ表記を表すために異なる表記法を使用します。 Xβ=yXβ=yX \beta= y どこにXXXあるデータマトリックス、ββ\betaある係数または重みが学習を学習する、yyy応答です。理由統計や機械学習コミュニティの人々がされているため、人々はこれを使用するには、あるデータを駆動して、データおよび応答は彼らが使用する場合には、それらの最も興味深いものですXXXとyyy表現するために。ここで、考えられるすべての混乱が存在することがわかります。最初の方程式のAは2番目の方程式のXAAAと同じです。そして、2番目の式Xでは、解決する必要はありません。また、用語について：Aは線形代数の係数行列ですが、統計のデータです。\ betaは「係数」とも呼ばれます。XXXXXXAAAββ\beta さらに、Xβ=yXβ=yX \beta=yは機械学習で広く使用されているものではなく、すべてのデータポイントを要約するハーフベクトル化バージョンを使用していることを述べました。といった min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) この理由は、確率的勾配降下法や他のさまざまな損失関数について話すときに良いからだと思います。また、線形回帰以外の問題については、簡潔なマトリックス表記が消えます。ロジスティック回帰の行列表記誰もが異なる文学にまたがる表記法についてより多くの要約を与えることができますか？この質問に対する賢明な回答が、異なる文学を横断する本を読んでいる人々のための良いリファレンスとして使用できることを望みます。私の例および制限されないでください。他にもたくさんあります。といったAx=bAx=bA x=bXβ=yXβ=yX \beta=y なぜ2つの異なるロジスティック損失定式化/表記法があるのですか？

26 machine-learning probability self-study optimization

6

ROC AUCとF1スコアの選択方法は？

私は最近、Roc aucスコアが競合要件に従って使用されるKaggleコンテストを完了しました。このプロジェクトの前は、通常、モデルのパフォーマンスを測定するためのメトリックとしてf1スコアを使用していました。今後、これらの2つのメトリックをどのように選択したらよいでしょうか？いつ、それぞれの長所と短所を使用するのですか？ところで、私はここで記事を読みましたAUCとF1-scoreの違いは何ですか？、しかし、どちらを使用するかはわかりません。助けてくれてありがとう！

26 machine-learning modeling roc scoring-rules

4

SVMのカーネルの違いは？

誰かがSVMのカーネルの違いを教えてください：リニア多項式ガウス（RBF）シグモイドなぜなら、カーネルは入力空間を高次元の特徴空間にマッピングするために使用されることがわかっているからです。そして、その特徴空間で、線形に分離可能な境界を見つけます。それらはいつ（どのような条件下で）使用されますか、そしてなぜですか？

26 machine-learning svm pattern-recognition kernel-trick

1

svmでOne-vs-AllおよびOne-vs-One？

one-vs-allとone-vs-one SVM分類器の違いは何ですか？ one-vs-allは新しい画像のすべてのタイプ/カテゴリを分類する1つの分類子を意味し、one-vs-oneは新しい画像の各タイプ/カテゴリを異なる分類子で分類することを意味しますか（各カテゴリは特別な分類子によって処理されます）？たとえば、新しい画像が円、長方形、三角形などに分類される場合

26 machine-learning classification svm

3

トピックモデルと単語の共起法

LDAのような人気のあるトピックモデルは通常、同じトピック（クラスター）に共起する傾向がある単語をクラスター化します。このようなトピックモデルと、PMIのような他の単純な共起ベースのクラスタリングアプローチの主な違いは何ですか？（PMIはPointwise Mutual Informationの略で、特定の単語と共起する単語を識別するために使用されます。）

26 machine-learning text-mining natural-language topic-models

2

ニューラルネットワーク：バイナリ分類では、1つまたは2つの出力ニューロンを使用しますか？

バイナリ分類を行うと仮定します（クラスAまたはクラスBに属するもの）。ニューラルネットワークの出力層でこれを行う可能性がいくつかあります。 1つの出力ノードを使用します。出力0（<0.5）はクラスAと見なされ、1（> = 0.5）はクラスBと見なされます（シグモイドの場合） 2つの出力ノードを使用します。入力は、最高の値/確率（argmax）を持つノードのクラスに属します。これを議論する（また）書かれた論文はありますか？検索する特定のキーワードは何ですか？この質問はすでにこのサイトですでに尋ねられています。たとえば、実際の答えのないこのリンクを参照してください。私は選択する必要があります（修士論文）ので、各ソリューションの賛否両論の洞察を得たいと思います。

26 machine-learning classification neural-networks

1

トレーニングの損失は再び減少します。何が起こっている？

トレーニングの損失が減少し、再び増加します。とても奇妙です。交差検証損失は、トレーニング損失を追跡します。何が起こっている？次の2つのスタックLSTMSがあります（Kerasで）。 model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') 100エポックでトレーニングします。 model.fit(X_train, np.array(y_train), batch_size=1024, nb_epoch=100, validation_split=0.2) 127803サンプルのトレーニング、31951サンプルの検証そして、それは損失がどのように見えるかです：

26 machine-learning neural-networks loss-functions lstm

4

なぜ誰もが回帰にKNNを使用するのでしょうか？

私が理解していることから、訓練データの間隔内にある回帰関数のみを構築できます。例（パネルの1つだけが必要です）： KNNリグレッサーを使用して将来をどのように予測しますか？繰り返しますが、トレーニングデータの間隔内にある関数のみを近似しているようです。私の質問：KNNリグレッサーを使用する利点は何ですか？私はそれが分類のための非常に強力なツールであることを理解していますが、回帰シナリオではパフォーマンスが悪いようです。

26 regression machine-learning k-nearest-neighbour

2

キャレットでcvとrepeatedcvの本当の違いは何ですか？

これは、質問キャレットの再サンプリング方法に似ていますが、同意された方法で質問のこの部分に実際に答えたことはありません。キャレットの鉄道機能の提供cvとrepeatedcv。言うことの違いは何ですか： MyTrainControl=trainControl( method = "cv", number=5, repeats=5 ) 対 MyTrainControl=trainControl( method = "repeatedcv", number=5, repeats=5 ) cvセットをk分割（パラメーターnumber）に分割してから、最初からやり直してパラメーターrepeatsを何回も実行することを理解しています。私は考えることができる唯一の事は、多分規則的であるcvとのrepeatsそれぞれの時間を折るために使用するのと同じ正確な指標？基本的にcv毎回同じ正確なフォールドで実行しますが、おそらくrepeatedcv新しいフォールドを毎回選択しますか？誰か明確にできますか？

26 r machine-learning caret

9

自動化できない統計学者は何をしますか？

ソフトウェアは最終的に統計学者を時代遅れにしますか？コンピューターにプログラムできないものは何ですか？

26 machine-learning dataset careers

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」