統計とビッグデータ machine-learning

1

以下に6つの決定境界を示します。決定境界はスミレ線です。点と十字は2つの異なるデータセットです。どちらを決定する必要があります：線形SVM カーネル化SVM（次数2の多項式カーネル）パーセプトロンロジスティック回帰ニューラルネットワーク（10の修正線形ユニットを含む1つの隠れ層）ニューラルネットワーク（10タン単位の1つの隠れ層）解決策があります。しかし、もっと重要なのは、違いを理解することです。たとえば、c）は線形SVMです。決定境界は線形です。しかし、線形SVM決定境界の座標を均質化することもできます。d）多項式化された次数2であるため、カーネル化されたSVM。f）「粗い」エッジにより修正されたニューラルネットワーク。たぶんa）ロジスティック回帰：線形分類器でもありますが、確率に基づいています。

17 machine-learning self-study classification neural-networks svm

5

ロジスティック回帰で最も重要な機能を理解する

私はデータに対して非常に正確なロジスティック回帰分類器を作成しました。今、私はなぜそれがとてもうまく機能しているのかをよりよく理解したいと思います。具体的には、どの機能が最大の貢献を果たしているか（どの機能が最も重要か）をランク付けし、理想的には、各機能がモデル全体（またはこのようなもの）の精度にどれだけ貢献しているかを定量化します。どうすればいいですか？私の最初の考えは、係数に基づいてそれらをランク付けすることでしたが、これは正しくないと思われます。同様に有用な2つの機能がありますが、最初の機能の広がりが2番目の機能の10倍であれば、1番目の機能は2番目の機能よりも低い係数を受け取ると思います。機能の重要性を評価するより合理的な方法はありますか？機能の小さな変化が結果の確率にどの程度影響するかを理解しようとしているわけではないことに注意してください。むしろ、分類器を正確にするという点で、各機能の重要性を理解しようとしています。また、私の目標は、特徴選択を実行したり、特徴の少ないモデルを構築したりすることではなく、学習したモデルに「説明可能性」を提供することです。したがって、分類子は単なる不透明なブラックボックスではありません。

17 machine-learning logistic feature-selection importance

1

バギングの理論的保証は何ですか

私は（およそ）聞いたことがある：バギングは、予測子/推定子/学習アルゴリズムの分散を減らす技術です。しかし、私はこの声明の正式な数学的な証拠を見たことがない。なぜこれが数学的に正しいのか誰もが知っていますか？これは広く受け入れられている/知られている事実であるように思えるので、これを直接参照することを期待します。非がある場合私は驚かれることでしょう。また、誰がこれがバイアスにどのような影響を与えるか知っていますか？誰かが重要であり、それを共有したいと思っていると考える他のアプローチの理論的保証はありますか？

17 machine-learning mathematical-statistics bagging

3

PCAを行う前に、他の標準化因子ではなく標準偏差で割るのはなぜですか？

生データをその標準偏差で除算する理由について、次の正当化（cs229コースノートから）を読みました。説明が言っていることは理解できますが、なぜ標準偏差で割るとそのような目標が達成されるのかはわかりません。誰もが同じ「スケール」にいるようにそれは言います。ただし、標準偏差で除算することでそれが達成される理由は完全には明らかではありません。同様に、分散で割ると何が悪いのでしょうか？なぜ他の数量ではないのですか？のような...絶対値の合計？または他の標準... STDを選択するための数学的な正当化はありますか？この抽出物の主張は、数学（および/または統計）を通じて導き出される/証明できる理論的な声明なのか、それとも「実践」で機能するように見えるために私たちが行う声明の1つですか？基本的に、その直観が真実である理由の厳密な数学的説明のいずれかを提供できますか？または、それが単なる経験的な観察である場合、なぜPCAを行う前にそれが一般に機能すると考えるのですか？また、PCAのコンテキストでは、これは標準化または正規化のプロセスですか？私が持っていたいくつかの他の考えは、STDがなぜ「説明」するかもしれない： 1n∑ni = 1（x私- μ ）p1n∑i=1n(xi−μ)p\frac{1}{n} \sum^{n}_{i=1} (x_i -\mu)^p おそらく関連する質問があることがわかりました。相関または共分散に関するPCA？しかし、「相関」または「共分散」をいつ使用するかについてはもっと話しているように見えましたが、厳密または説得力のある、または詳細な正当化が欠けていました。同じ：分析前にデータを正規化する必要がある理由関連： SVD / PCAの変数の「正規化」

17 machine-learning pca mathematical-statistics

1

モデルの比較にR 2乗値は適切ですか？

私は、自動車の広告サイトで利用可能な価格と機能を使用して、自動車の価格を予測するための最良のモデルを特定しようとしています。このために、scikit-learnライブラリーのモデルと、pybrainとneurolabのニューラルネットワークモデルを使用しました。これまでに使用したアプローチは、いくつかのモデル（機械学習アルゴリズム）で一定量のデータを実行し、scikit-learnメトリックモジュールで計算されたR2R2R^2値を比較することです。あるR2R2R^2異なるモデルの性能を比較するための良い方法は？エラスティックネットやランダムフォレストなどのモデルでは非常に許容できる結果が得られましたが、ニューラルネットワークモデルのR2R2R^2値は非常に低いので、R2R2R^2はニューラルネットワーク（または非線形手法）を評価するための適切な方法ですか？

17 machine-learning neural-networks random-forest r-squared elastic-net

1

Naive BayesはSVMよりも優れたパフォーマンスを発揮しますか？

私が探していた小さなテキスト分類の問題で、Naive BayesはSVMと同等以上のパフォーマンスを示しており、非常に混乱していました。あるアルゴリズムが他のアルゴリズムよりも勝つことを決定する要因は何かと思いまして。SVMでNaive Bayesを使用しても意味がない状況はありますか？誰かがこれに光を当てることができますか？

17 machine-learning classification svm naive-bayes

4

ニューラルネットワークで「自由度」とはどういう意味ですか？

Bishopの本「Pattern Classification and Machine Learning」では、ニューラルネットワークのコンテキストでの正則化の手法について説明しています。ただし、トレーニングプロセス中に、モデルの複雑度とともに自由度の数が増加することを説明する段落は理解できません。関連する引用は次のとおりです。ネットワークの効果的な複雑さを制御する方法としての正規化の代替は、早期停止の手順です。非線形ネットワークモデルのトレーニングは、トレーニングデータのセットに関して定義されたエラー関数の反復的な削減に対応します。共役勾配など、ネットワークトレーニングに使用される最適化アルゴリズムの多くでは、エラーは反復インデックスの増加しない関数です。ただし、一般に検証セットと呼ばれる独立したデータに関して測定されたエラーは、多くの場合、最初は減少し、その後ネットワークが過剰になり始めると増加します。したがって、図5.12に示すように、検証データセットに関して最小のエラーのポイントでトレーニングを停止して、良好な一般化パフォーマンスを持つネットワークを取得できます。この場合のネットワークの振る舞いは、ネットワーク内の有効な自由度の観点から定性的に説明されることがあります。モデルの複雑さ。また、トレーニングの過程でパラメーターの数が増加することも示しています。「パラメータ」とは、ネットワークの隠されたユニットによって制御される重みの数を指すと仮定していました。おそらく、正則化プロセスによって重みが大きさで増加することは防がれますが、数は変わらないので、私は間違っています。かなりの数の隠れユニットを見つけるプロセスを指しているのでしょうか？ニューラルネットワークの自由度とは何ですか？トレーニング中にどのパラメーターが増加しますか？

17 machine-learning neural-networks regularization degrees-of-freedom

2

証券取引所での取引にニューラルネットワークを使用する

私はニューラルネットワークの分野に飛び込み、それらに夢中になりました。最終的に、証券取引所の取引システムをテストするためのアプリケーションフレームワークを開発しました。次に、最初のニューラルネットワークを実装します。非常にシンプルで原始的なもので、実際の取引用ではなく、初心者向けです。私のアプローチが良いアプローチであるかどうかを知りたいだけです。そして、あなたが私が何かを見逃している（または何かについて間違っている）とわかるか、市場取引のニューラルネットワークの分野で初心者を助けることができるというアイデアを持っているなら、それは私をただ幸せにします:) 私は40のインプット、証券取引所からの市場価値を持っています（S＆P e-miniですが、それは重要ではありません）。これらの40個の入力に対して、2つの数値を知っています。購入注文でどれくらいのお金を稼ぐか失うか売り注文でどれくらいのお金を稼ぐか失うか証券取引所の仕組みにより、両方の数値は実際には負/正になる可能性があり、買いと売りのどちらでもお金を失う/稼ぐことができることを示しています（これは、取引がSTOP、LIMIT動作が異なります）。しかし、それが起こった場合、両方の買い注文と売り注文が正の数を与えたとしても、私はまったく注文をしてはならないことを示しています。使用するのに最適なアクティベーション関数は...シグモイドのものですが、-1から1までの範囲であると思います（インターネットでは多くの名前と呼ばれていることがわかりました...双極シグモイド、タン、タンジェントなもの...私は深遠な数学者ではありません）。バックプロパゲーション学習では、40の入力に対して1つの出力があり、この出力はこれらの数値の1つであることをネットワークに教えます。 -1は、売り注文はお金を稼ぎ、買いはお金を失うことを意味します +1は、買い注文はお金を稼ぎ、売りはお金を失うことを意味します 0は、買いと売りの両方がお金を売る/失うことを意味し、取引を避けるのが最善です学習後、ネットワーク出力は常に-1、1、または0に近い数値になり、売買のしきい値を設定するのは自分次第だと想像しています。これはニューラルネットワークを使用する正しい方法ですか？インターネット上のあらゆる場所で、学習者が逆伝播学習マシンに与える出力は、市場チャートの将来の値であり、異なるトレードエントリ（買いまたは売り）の期待収益率ではありません。将来のチャートの値には興味がなく、獲得したいお金に興味があるので、それは悪いアプローチだと思います。編集：意思決定支援ではなく、自動取引用のニューラルネットワークを構築するつもりです。

17 machine-learning neural-networks

1

ニュース記事に基づいて犯罪指数と政治的不安定性指数を構築したい

私は、この国のローカルニュースWebサイトをクロールし、犯罪指数と政治的不安定性指数を構築するこのサイドプロジェクトを持っています。プロジェクトの情報検索の部分についてはすでに説明しました。私の計画は次のとおりです。監視なしのトピック抽出。ほぼ重複した検出。監視された分類とインシデントレベル（犯罪/政治-高/中/低）。 pythonとsklearnを使用し、それらのタスクに使用できるアルゴリズムを既に研究しています。2.ストーリーの関連性の要因を与えることができると思います。ストーリーやトピックについてより多くの新聞が発行すればするほど、その日により関連するようになります。私の次のステップは、私が持っている機能に基づいて、月ごと、週ごと、日ごとのインデックス（全国および都市ごと）を構築することです。つまり、昨年の主要な不安定事件の指標は、今年の指標よりも低い可能性があります。また、固定スケール0-100を使用するかどうか。後で、これに基づいてインシデントを予測できるようにしたいと思います。たとえば、過去数週間の一連のイベントが重大なインシデントにつながっているかどうかです。しかし、今のところは、分類を機能させ、インデックスモデルを構築することに満足しています。論文へのポインタ、関連する読み物、または考えをいただければ幸いです。ありがとう。 PD：質問がここに属さない場合は申し訳ありません。更新：まだ「作成」していませんが、最近、ニュースアーカイブを使用してイベントを予測するシステムで作業している科学者グループに関するニュースがあり、関連する論文「マイニングthe Web to Predict Future Events」（PDF ）。

17 machine-learning classification text-mining

3

統計的有意性に関する2つの分類器の精度結果をt検定と比較する

統計的有意性について2つの分類器の精度を比較したいと思います。両方の分類器は同じデータセットで実行されます。これは、私が読んでいたものから1つのサンプルt検定を使用するべきだと思うように導きます。例えば： Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 これは使用するのに適切なテストですか？もしそうなら、分類器間の精度の差が有意であるかどうかをどのように計算しますか？または、別のテストを使用する必要がありますか？

17 machine-learning statistical-significance classification t-test

1

潜在ディリクレ割り当てを使用するための入力パラメーター

トピックモデリング（潜在ディリクレ割り当て）を使用する場合、トピックの数はユーザーが指定する必要がある入力パラメーターです。 Dirichletプロセスがサンプリングする必要がある候補トピックセットのコレクションも提供する必要があるように見えますか？私の理解は正しいですか？実際には、この種の候補トピックセットを設定する方法は？

17 machine-learning bayesian clustering text-mining dirichlet-distribution

2

リッジ回帰分類器がテキスト分類で非常にうまく機能するのはなぜですか？

テキスト分類の実験中に、SVM、NB、kNNなどのテキストマイニングタスクに一般的に言及され、適用されている分類子の中で常にテストを上回る結果を生成するリッジ分類子を発見しました。パラメータに関するいくつかの簡単な調整を除き、この特定のテキスト分類タスクで各分類子を最適化する。そのような結果はディクラン・マースピアルにも言及されました。統計の背景から来ていない、オンラインでいくつかの資料を読んだ後、私はまだこれの主な理由を理解することはできません。誰でもそのような結果についての洞察を提供できますか？

17 machine-learning classification text-mining ridge-regression

12

統計データ分析の紹介に最適な本ですか？

ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。私はこの本を買いました：何でも測定する方法：ビジネスにおける無形資産の価値を見つけるそして Head First Data Analysis：学習者向けの大きな数字、統計、適切な意思決定ガイド他にどんな本をお勧めしますか？

17 machine-learning bayesian references

2

複数の出力を持つランダムフォレストは可能/実用的でしょうか？

ランダムフォレスト（RF）は、競合するデータモデリング/マイニング手法です。 RFモデルには、出力/予測変数という1つの出力があります。 RFを使用して複数の出力をモデル化する単純なアプローチは、各出力変数に対してRFを構築することです。したがって、N個の独立したモデルがあり、出力変数間に相関がある場合、冗長/重複モデル構造になります。これは確かに非常に無駄です。また、一般的なルールとして、より多くのモデル変数は、よりオーバーフィットモデル（一般化が少ない）を意味します。ここでこれが当てはまるかどうかはわかりませんが、おそらく当てはまります。原則として、複数の出力を持つRFを使用できます。予測変数はベクトル（nタプル）になりました。各決定木の決定ノードは、しきい値ベクトルに基づいてターゲット/予測ベクトルのセットを分割しています。このしきい値はn次元空間の平面であると考えられるため、しきい値のどちら側を決定できるかそれぞれのターゲットベクトルがオンになっています。決定分割の各側の最適な予測値は、各側のベクトルに対して計算された平均（重心）です。単一変数を操作するときに最適な分割点を見つけるのは簡単で、計算が高速/効率的です。nタプルの場合、最適な分割を見つけることはできません（または、少なくともNが増加すると計算上実行不可能になります）が、モンテカルロタイプの方法（またはモンテカルロとローカルのハイブリッドを使用して、ほぼ最適な分割を見つけることができます。勾配トラバーサル）。これは実際に機能しますか？つまり、一般化せずにトレーニングペアをマッピングするだけですか？この手法はすでに別の名前で存在していますか？また、これが制限付きボルツマンマシン（RBM）やDeep Belief Networksなどのニューラルネットにどのように関連するかを検討することもできます。

17 machine-learning cart random-forest multilabel

3

不均衡なデータセットのROC対精度-再現率曲線

私はこの議論を読み終えました。彼らは、PR AUCが不均衡なデータセットのROC AUCよりも優れていると主張しています。たとえば、テストデータセットには10個のサンプルがあります。9個のサンプルが陽性で、1個が陰性です。私たちはすべてを肯定的に予測する恐ろしいモデルを持っています。したがって、TP = 9、FP = 1、TN = 0、FN = 0というメトリックが得られます。次に、精度= 0.9、再現率= 1.0。精度と再現率はどちらも非常に高いですが、分類子が不十分です。一方、TPR = TP /（TP + FN）= 1.0、FPR = FP /（FP + TN）= 1.0。FPRは非常に高いため、これは適切な分類器ではないことがわかります。明らかに、ROCは不均衡なデータセットのPRよりも優れています。誰かがPRの方が良い理由を説明できますか？

17 machine-learning model-selection roc unbalanced-classes precision-recall

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」