統計とビッグデータ machine-learning

2

Rでニューラルネットを使用して、14入力と1出力のNNを構築しています。同じ入力トレーニングデータと同じネットワークアーキテクチャ/設定を使用して、ネットワークを数回構築/トレーニングします。各ネットワークが生成されたら、それをスタンドアロンのテストデータセットで使用して、いくつかの予測値を計算します。ネットワークを構築するたびにすべての入力（トレーニングデータとテストデータの両方）が同じままであるにもかかわらず、予測データの反復ごとに大きな差異があることがわかりました。 NN内で毎回生成される重み付けに違いがあり、2つのニューラルネットワークが同一になることはないことを理解していますが、同一のデータが与えられた場合、各トレイン全体でより一貫性のあるネットワークを作成するにはどうすればよいですか？

11 r machine-learning neural-networks

2

データをテストセットとトレーニングセットに分割することは、純粋に「統計」の問題ですか？

私は機械学習/データサイエンスを勉強している物理学の学生なので、この質問が対立を開始することを意味しません:)ただし、物理学部のプログラムの大部分は、ラボ/実験を行うことであり、これは大量のデータを意味します処理と統計分析。しかし、物理学者がデータを処理する方法と、私のデータサイエンス/統計学習ブックがデータを処理する方法との間には、はっきりとした違いがあることに気づきました。主な違いは、物理実験から得られたデータに回帰を実行しようとすると、回帰アルゴリズムがWHOLEデータセットに適用され、トレーニングセットとテストセットに分割されることがまったくないことです。物理の世界では、R ^ 2または何らかのタイプの疑似R ^ 2が、データセット全体に基づいてモデルに対して計算されます。統計の世界では、データはほとんどの場合80-20、70-30などに分割され、モデルはテストデータセットに対して評価されます。このデータ分割を決して行わないいくつかの主要な物理実験（ATLAS、BICEP2など）もあるので、物理学者/実験家が統計を行う方法とデータ科学者が行う方法との間に、なぜそんなに頑固な違いがあるのだろうと思います。統計を行います。

11 regression machine-learning cross-validation dataset experiment-design

4

ホールドアウトセットを作成するためのより適切な方法は何ですか：一部の被験者を削除するか、各被験者からいくつかの観察を削除しますか？

26個のフィーチャと31000行のデータセットがあります。38人の被験者のデータセットです。生体認証システム用です。だから私は主題を識別できるようになりたいです。テストセットを取得するには、いくつかの値を削除する必要があることを知っています。それでは、何をする方が良いのか、そしてその理由は何か。（a）30人の被験者をトレーニングセットとして保持し、8人の被験者をテストセットとして削除する（b）38人の被験者を保持しますが、それぞれの行をいくつか削除します。最後に、トレーニングセット：38800科目の24800行とテストセット：38科目の6200行で終わります。

11 machine-learning cross-validation out-of-sample

2

縦断データの機械学習手法

縦断的データをモデル化するための機械学習技術（教師なし）があるかどうか疑問に思いましたか？私は常に混合効果モデル（主に非線形）を使用してきましたが、これを（機械学習を使用して）実行する他の方法があるかどうか疑問に思っていました。機械学習とは、ランダムフォレスト、分類/クラスタリング、決定木、さらには深層学習などを意味します。

11 machine-learning mixed-model

1

scikit-learn PythonのElasticNetとRのGlmnetの違い

同じデータセットElasticNetでPythonとglmnetRのscikit-learnでElastic Netモデルをフィッティングすると、同じ算術結果が生成されるかどうかを確認しようとした人はいますか？私はパラメーターの多くの組み合わせ（2つの関数は引数に渡すデフォルト値が異なるため）を試し、データをスケーリングしましたが、2つの言語間で同じモデルを生成するものはないようです。誰かが同じ問題に直面しましたか？

11 machine-learning scikit-learn glmnet elastic-net

1

左打ち切りデータで標準の機械学習ツールを使用する

私は、輸入業者が代理店の顧客ネットワークから製品の需要を予測できるようにすることを目的とした予測アプリケーションを開発しています。需要を満たすのに十分な在庫がある限り、売上高は需要のかなり良いプロキシです。ただし、在庫がゼロになると（顧客が回避できるようにするために検討している状況）、目標を達成できなかったことはあまりわかりません。十分な供給があった場合、顧客はいくつの売上を上げましたか？単純なターゲット変数としてセールスを使用する標準的な回帰ベースのMLアプローチは、時間、私の説明変数、および需要の間の関係の一貫性のない推定を生成します。 Tobitモデリングは、問題に取り組む最も明白な方法です：http : //en.wikipedia.org/wiki/Tobit_model。ランダムフォレスト、GBMS、SVM、およびニューラルネットワークのML適応についても疑問に思っています。これは、データの左きき打ち構造も考慮しています。つまり、機械学習ツールを左打ち切りの回帰データに適用して、従属変数と独立変数間の関係の一貫した推定値を取得するにはどうすればよいですか？Rで利用可能なソリューションが最初に優先され、次にPythonが優先されます。乾杯、アーロン

11 r regression machine-learning censoring

2

マハラノビス距離とは何ですか、それはパターン認識でどのように使用されますか？

誰かが私にマハラノビス距離の概念を説明できますか？たとえば、xとyの2点間のマハラノビス距離とは何ですか。特に、パターン認識ではどのように解釈されますか？

11 machine-learning mathematical-statistics distance-functions

2

現在、AIのショウジョウバエは何ですか？

1960年代中頃、研究者たちはチェスを「AIのショウジョウバエ」と呼びました。ショウジョウバエのように、チェスのゲームはアクセスしやすく、実験するのは比較的簡単な問題でしたが、重要な知識がより複雑な問題を生み出しました。さて、人々は「チェスは単なる検索問題である」と言い、「チェスの方法はAIコミュニティにそれ以上の関心をもたらさない」と言っているようです。では、今のAI のショウジョウバエは何ですか？

11 machine-learning

2

*統計学習入門*の*関数*の分散とはどういう意味ですか？

pg。統計学習入門の 34 ：\newcommand{\Var}{{\rm Var}} 数学的な証明は本書の範囲を超えているものの、期待されるテストMSEは、与えられた値のためにあることを示すことが可能である：、常に3つの基本的な量の和に分解することができる分散のF（X 0）、二乗バイアスのF（X 0）と誤差項の分散ε。あれは、バツ0x0x_0f^（x0）f^(x0)\hat{f}(x_0)f^（x0）f^(x0)\hat{f}(x_0)εε\varepsilon E（y0− f^（x0））2= V a r （f^（x0）） + [ B i a s （f^（x0））]2+ V a r（ε ）E(y0−f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε) E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon) [...]分散は、それによって量を意味するfは、我々は異なるトレーニングデータセットを使用して、それを推定した場合に変更します。f^f^\hat{f} 質問：ので、の分散表しているようだ機能を、何が正式にこれが意味するのでしょうか？V a r （f^（x0））Var(f^(x0))\Var\big(\hat{f}(x_0)\big) つまり、私は確率変数分散の概念に精通していますが、関数のセットの分散はどうですか？これは、値が関数の形式を取る別の確率変数の分散と考えることができますか？バツXX

11 machine-learning variance

4

なぜハイパーパラメータを学習しないのですか？

私はかなり人気のある論文「説明と悪用の例の説明」を実装していました。この論文では、それは敵対的な目的関数をトレーニングします J ''（θ）=αJ（θ）+（1 −α）J '（θ） αをハイパーパラメータとして扱います。αは0.1、0.2、0.3などにすることができます。この特定の論文に関係なく、疑問に思っているのですが、パラメーターにαを含めて、最良のαを学習しませんか？そうすることの欠点は何ですか？オーバーフィットのせいですか？もしそうなら、なぜもう1つのパラメータを学習するだけで多くの過剰適合が生じるのですか？

11 machine-learning neural-networks deep-learning hyperparameter

1

トレイン/有効/テストセットの平均の減算に関する質問

私はデータの前処理を行っており、後でデータにConvonetsを構築します。私の質問は、100個の画像を含む合計データセットがあるとします。100個の画像のそれぞれについて平均を計算し、それを各画像から差し引いて、これをトレーニングセットと検証セットに分割しました。特定のテストセットで処理する手順ですが、このリンクによると、これは正しい方法ではないようです。http：//cs231n.github.io/neural-networks-2/#datapre " 一般的な落とし穴。前処理に関して重要なポイントは、前処理の統計情報（データ平均など）はトレーニングデータでのみ計算し、検証/テストデータに適用する必要があることです。たとえば、平均の計算とそれからの減算データセット全体のすべての画像と、データをtrain / val / test分割に分割するのは誤りです。代わりに、平均はトレーニングデータに対してのみ計算され、すべての分割から均等に減算される必要があります（train / val / test）。」著者が言っているのは、平均を計算して各画像内で減算せず、画像セット全体の平均（つまり（image1 + ... + image100）/ 100）を計算して平均を減算することだと思いますそれぞれの画像。だれでも説明できるのかよくわかりません。また、おそらく私がやっていたことが間違っている理由を説明することもできます（実際に間違っている場合）。

11 machine-learning cross-validation data-preprocessing

3

マルチクラス分類器の混同行列を作成するにはどうすればよいですか？

6つのクラスに問題があります。したがって、私は次のようにマルチクラス分類子を作成します。クラスごとに、One vs. Allを使用して1つのロジスティック回帰分類子があります。つまり、6つの異なる分類子があります。分類子ごとに混同行列を報告できます。しかし、ここで多くの例を見てきたように、すべての分類子の混同行列を報告したいと思います。どうすればできますか？One vs. AllではなくOne vs. Oneアルゴリズムを使用して分類戦略を変更する必要がありますか？これらの混同行列では、レポートは各クラスの誤検知を示しているためです。マルチクラス混同行列の例誤分類されたアイテムの数を調べたいのですが。最初の行には、クラス1に分類されたクラス1の例が137個あり、クラス2に分類されたクラス1の例が13個あります。この番号を取得するには？

11 machine-learning logistic classification multi-class confusion-matrix

1

Adaboostで意思決定の切り株を弱学習器として使用する方法

Decision Stumpを使用してAdaboostを実装したい。Adaboostの各反復で、データセットの機能と同じ数の決定の切り株を作ることは正しいですか？たとえば、24の特徴を持つデータセットがある場合、各反復で24の決定株の分類子を使用する必要がありますか？または、いくつかの機能をランダムに選択して、すべての機能ではなくそれらに分類子を作成する必要がありますか？

11 machine-learning classification cart boosting

1

勾配ブースティングは確率推定をどのように計算しますか？

私は、さまざまなブログ、ウェブサイトを読んで勾配ブーストを理解し、たとえばXGBoostソースコードを調べて私の答えを見つけようとしています。ただし、勾配ブースティングアルゴリズムが確率推定値を生成する方法についての理解できる説明は見当たらないようです。それで、彼らはどのように確率を計算しますか？

11 machine-learning classification boosting ensemble xgboost

2

Kerasの単純な線形回帰

この質問を見た後：Kerasを使用して線形回帰をエミュレートすることを試みて、私は勉強の目的で、そして私の直感を発展させるために、自分の例を転がそうとしました。単純なデータセットをダウンロードし、1つの列を使用して別の列を予測しました。データは次のようになります。これで、単一の1ノードの線形レイヤーを持つ単純なケラスモデルを作成し、その上で勾配降下法を実行しました。 from keras.layers import Input, Dense from keras.models import Model inputs = Input(shape=(1,)) preds = Dense(1,activation='linear')(inputs) model = Model(inputs=inputs,outputs=preds) sgd=keras.optimizers.SGD() model.compile(optimizer=sgd ,loss='mse',metrics=['mse']) model.fit(x,y, batch_size=1, epochs=30, shuffle=False) そのようなモデルを実行すると、nanすべてのエポックで損失が出ます。 jupyterノートブックへのリンクだから私はものを試してみることに決めました、そして私が途方もなく小さい学習率を使用する場合にのみまともなモデルを得るsgd=keras.optimizers.SGD(lr=0.0000001)：なぜこれが起こっているのですか？私が直面するすべての問題に対して、このように手動で学習率を調整する必要がありますか？ここで何か悪いことをしていますか？これは可能な限り簡単な問題だと思いますよね？ありがとう！

11 regression machine-learning neural-networks linear keras

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」