統計とビッグデータ machine-learning

1

「遠隔監視」とは、弱くラベル付けされたトレーニングセットが与えられると分類器が学習される学習スキームです（トレーニングデータはヒューリスティック/ルールに基づいて自動的にラベル付けされます）。ラベル付きデータがヒューリスティック/自動ラベル付けされている場合、教師あり学習と半教師あり学習の両方にこのような「遠隔監視」を含めることができると思います。ただし、このページでは、「遠隔監視」は「半監視学習」と定義されます（つまり、「半監視」に限定されます）。私の質問は、「遠隔監視」はもっぱら準監視を指しているのでしょうか？私の意見では、教師あり学習と半教師あり学習の両方に適用できます。信頼できる参照があれば提供してください。

20 machine-learning data-mining dataset references unsupervised-learning

1

xgboostのオーバーフィットに関する議論

私のセットアップは次のとおりです。「適用された予測モデリング」のガイドラインに従っています。したがって、私は相関する特徴をフィルタリングし、次のようになりました：トレーニングセットの4900データポイントとテストセットの1600データポイント。 26個の機能があり、ターゲットは連続変数です。 caretパッケージを使用してモデルをトレーニングするために、5倍の交差検証を適用します。MARSモデルを適用すると、トレーニングセットとテストセットで平均絶対誤差（MAE）が約4になります。ただし、xgboost（ツリーアルゴリズムまたは線形アルゴリズム）を適用すると、トレーニングセットで0.32（！）、テストセットで2.4のようなものが得られます。したがって、テストエラーがトレーニングエラーの8倍である場合、次のように言います。トレーニングデータをオーバーフィットしました。それでも、テストでは小さなエラーが発生します。 xgboostで次のパラメーターを使用します。 nrounds = 1000そしてeta = 0.01（nroundを増やしてイータを減らすと助けになるかもしれませんが、メモリが不足し、実行時間が長すぎます） max_depth = 16：他の投稿とデフォルトの6を比較すると、これは大きく見えますが、問題はかなり複雑です-この場合、16は大きすぎません。 colsample_bytree = 0.7、subsample = 0.8およびmin_child_weight = 5：これを行うと、オーバーフィットを減らします。 max_depthを減らすと、トレーニングとテストエラーが近づきますが、それでも大きなギャップがあり、テストエラーは大きくなります（3を少し上回る）。線形ブースターを使用すると、最適なパラメーターでほぼ同じトレインとテストエラーが得られます。 lambda = 90 および `alpha = 0：交差検定により検出され、ラムダはオーバーフィットを防ぐはずです。 colsample_bytree = 0.8、subsample = 0.8およびmin_child_weight = 5：これを行うと、オーバーフィットを減らします。私の感覚では、xgboostはまだオーバーフィットしますが、トレーニングエラーとリアルタイムテスト（xgboostモデルとそれらのアンサンブルを実際に4日間使用しました）で確認できる限り、問題ありません（エラーはテストエラーよりも大きくなりますが、機能やその他の変数の予測については実生活により多くの不確実性があります。あなたはどう思いますか：（可能な場合）実生活のパフォーマンスが優れている場合、オーバーフィットを受け入れることができますか？私の設定ではxgboostはオーバーフィットする傾向がありますか？

20 machine-learning boosting overfitting

1

word2vecでネガティブサンプリングはどのように機能しますか？

私はword2vecのコンテキストでネガティブサンプリングの概念を理解しようと懸命に努力しています。[ネガティブ]サンプリングのアイデアを消化できません。たとえば、ミコロフの論文では、負のサンプリング期待値は次のように定式化されています。ログσ（⟨ W 、C ⟩ ）+ K ⋅ EcN〜PD[ ログσ（- ⟨ W 、CN⟩ ）] 。ログ⁡σ（⟨w、c⟩）+k⋅EcN〜PD[ログ⁡σ（−⟨w、cN⟩）]。\log \sigma(\langle w,c\rangle ) + k \cdot \mathbb E_{c_N\sim PD}[\log\sigma(−\langle w,c_N\rangle)]. 私は左の用語理解していますが、ネガティブな単語とコンテキストのペアをサンプリングするアイデアを理解できません。ログσ（⟨ W 、C ⟩ ）ログ⁡σ（⟨w、c⟩）\log \sigma(\langle w,c\rangle)

19 machine-learning word2vec word-embeddings

3

意思決定の切り株は線形モデルですか？

決定切り株は、分割が1つしかない決定木です。また、区分関数として書くこともできます。たとえば、がベクトルであり、がxの最初のコンポーネントであると仮定すると、回帰設定では、いくつかの決定スタンプがx 1 xxxxx1x1x_1バツxx f（x ）= { 35バツ1≤ 2バツ1> 2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} しかし、それは線形モデルですか？ここでf（x）= \ beta ^ T xと書くことができますf（x ）= βTバツf(x)=βTxf(x)=\beta^T xか？この質問は奇妙に聞こえるかもしれません。答えとコメントで述べたように、区分的関数をプロットする場合、それは線ではないからです。この質問をする理由については、次のセクションをご覧ください。編集：この質問をする理由は、ロジスティック回帰が（一般化された）線形モデルであり、決定境界が線であり、これも決定の切り株であるためです。この質問もあることに注意してください：ロジスティック回帰はなぜ線形モデルなのですか？。一方、意思決定の切り株が線形モデルであることは事実ではないようです。私がこれを尋ねたもう一つの理由は、この質問のためです：ブースティングでは、ベース学習者が線形モデルである場合、最終モデルは単なる線形モデルですか？ここで、ベースモデルとして線形モデルを使用すると、線形回帰以外の何も得られません。しかし、ベースラーナーを決定の切り株として選択すると、非常に興味深いモデルが得られます。これは、2つの特徴と1つの連続的な応答を使用した回帰での決定切り株ブースティングの1つの例です。

19 machine-learning cart linear boosting

5

基本的な機械学習アルゴリズムを学習するための優れたデータセットは何ですか？その理由は何ですか？

私は機械学習が初めてであり、さまざまな機械学習アルゴリズム（デシジョンツリー、ブースティング、SVM、ニューラルネットワーク）の違いを比較対照できるデータセットを探していますそのようなデータセットはどこにありますか？データセットを検討する際に何を探す必要がありますか？いくつかの優れたデータセットを指し示し、それらを優れたデータセットにする理由を教えていただければ素晴らしいと思いますか？

19 machine-learning dataset

2

ブースティング：学習率が正則化パラメーターと呼ばれるのはなぜですか？

学習率パラメータ（収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配）。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν∈ [ 0 、1 ]ν∈[0,1]\nu \in [0,1] なぜ学習率が正則化パラメーターと見なされるのかわかりませんか？統計学習の要素の引用、セクション10.12.1、p.364：可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい（収縮が大きい）と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν Mνν\nuMMMνν\nuMMM 正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです（Mが大きすぎると過適合になります）。しかし：MMMMMM 値が小さい（収縮が大きい）と、同じ反復回数Mのトレーニングリスクが大きくなります。νν\nuMMM これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか？

19 machine-learning data-mining predictive-models boosting overfitting

2

リカレントニューラルネットワークをシーケンス分類に使用するにはどうすればよいですか？

RNNは、予測、またはシーケンスからシーケンスへのマッピングに使用できます。しかし、RNNはどのように分類に使用できますか？つまり、シーケンス全体に1つのラベルを付けます。

19 machine-learning neural-networks rnn

2

「ロジスティック回帰」という名前の意味は何ですか？

ここからロジスティック回帰の実装を確認しています。その記事を読んだ後、重要な部分はシグモイド関数を決定するための最良の係数を見つけることであるようです。それで、なぜこの方法が「ロジスティック回帰」と呼ばれるのか疑問に思います。対数関数に関連していますか？それをよりよく理解するために、おそらく歴史的な背景情報が必要です。

19 regression machine-learning logistic

1

予測モデリング-混合モデリングを気にする必要がありますか？

予測モデリングの場合、ランダム効果や観測の非独立性（反復測定）などの統計概念に関心を持つ必要がありますか？例えば.... 5つのダイレクトメールキャンペーン（1年間で発生）のさまざまな属性と購入フラグ付きのデータがあります。理想的には、これらすべてのデータを組み合わせて使用し、キャンペーンの時点で顧客の属性を考慮した購入モデルを構築します。その理由は、購入のイベントがまれであり、できるだけ多くの情報を使用したいからです。特定の顧客が1〜5個のキャンペーンに参加する可能性があります。つまり、レコード間に独立性がないことを意味します。以下を使用する場合、これは重要ですか？ 1）機械学習アプローチ（例、ツリー、MLP、SVM） 2）統計的アプローチ（ロジスティック回帰）？ **ADD:** 予測モデリングに関する私の考えは、モデルが機能する場合、それを使用することです。そのため、仮定の重要性を本当に考えたことはありません。上記のケースについて考えると、私は不思議に思いました。などの機械学習アルゴリズムを使用しMLP and SVMます。これらは、上記の例のようなバイナリイベントのモデル化に使用されますが、時系列データも明確に相関しています。ただし、多くの場合、尤度であり、エラーがiidであると仮定して導出される損失関数を使用します。たとえば、Rの勾配ブーストされたツリーはgbm、二項（ページ10）から派生した逸脱損失関数を使用します。

19 machine-learning predictive-models repeated-measures assumptions

6

機械学習の分野に参入しようとしているプログラマ

私はソフトウェア開発者です（主に.NETとPythonで約5年の経験があります）。機械学習の分野で仕事を得るために私は何ができますか？大学院の学位は厳しい要件ですか？

19 machine-learning data-mining careers

2

線形SVMモデルの決定境界の計算

線形SVMのサポートベクトルが与えられた場合、決定境界の方程式をどのように計算できますか？

19 machine-learning svm

2

今日、「最近傍」はいつ意味がありますか？

1999年、バイエル等。尋ねられ、ときに「最も近い隣人は」意味がありますか？ 1999年以降、距離の平坦性がNN検索に与える影響を分析および視覚化するより良い方法はありますか？ [与えられた]データセットは、1-NN問題に対する意味のある答えを提供しますか？10 NN問題？100-NNの問題？今日、この質問に専門家はどのようにアプローチしますか？ 1月24日月曜日の編集：「次元の増加に伴う距離フラットネス」の短縮名としての「距離ホワイトアウト」はどうですか？「距離ホワイトアウト」を調べる簡単な方法は、2-NNを実行し、最も近い隣人と2番目に近い隣人までの距離をプロットすることです。以下のプロットは、モンテカルロによるnclustersと次元の範囲のdist 1とdist 2を示しています。この例は、スケーリングされた絶対差| dist 2 -dist 1 | に対してかなり良い距離コントラストを示しています。（相対差| dist 2 / dist 1 |→1次元→∞なので、役に立たなくなります。）特定のコンテキストで絶対誤差を使用するか相対誤差を使用するかは、もちろん、存在する「実際の」ノイズに依存します。難しいです。提案：常に2-NNを実行します。2つのネイバーは、近くにあるときに便利で、近くにないときに便利です。

19 machine-learning k-nearest-neighbour

6

パラメーターを推定するための機械学習の「基本的な」アイデアとは何ですか？

パラメーターを推定するための統計の「基本的な」考え方は、最尤法です。機械学習の対応するアイデアは何だろうと思っています。 Qn 1.パラメーターを推定するための機械学習の「基本的な」アイデアは、「損失関数」であると言ってもいいでしょうか。 [注：機械学習アルゴリズムは損失関数を最適化することが多いため、上記の質問が印象的です。] Qn 2：統計と機械学習のギャップを埋めようとする文献はありますか？ [注：おそらく、損失関数を最尤法に関連付けることによって。（たとえば、OLSは正規分布エラーなどの最尤と同等です）]

19 machine-learning maximum-likelihood loss-functions pac-learning

6

データセットのサンプルのハイパーパラメーターチューニングは悪い考えですか？

140000の例と30の機能のデータセットがあり、それらに対してバイナリ分類（SVM、ロジスティック回帰、ランダムフォレストなど）のいくつかの分類器をトレーニングしています。多くの場合、グリッド検索またはランダム検索を使用したデータセット全体のハイパーパラメーター調整は、時間的にコストがかかりすぎます。私は次のテクニックを使い始めましたデータセットのサブサンプル取得した分数を使用して、ハイパーパラメーターを調整します取得したパラメーターを使用して、データセット全体を使用してモデルをトレーニングします第2段階Iの使用に関するパラメータの各セットを評価することsklearnのGridSearchCVCV = 10で。私は第三ステップIの使用中に作成することを最終的なモデルを評価するためにsklearn「S cross_val_predict。その意味で、データの10％を残してモデルを評価し、残りのトレーニングを行い、10％で予測精度を10回繰り返し測定し、スコアの平均を取得します。私が心配したのは、データセット全体のトレーニングから得られる予測精度が、最適なパラメーターセットのパラメーターを調整するときに得られる評価に非常に近いことです（テストされた各パラメーターセットは、平均10-フォールドクロス検証結果）。ほとんどの場合、cross_val_predictすべてのトレーニング例（データセット全体）を使用して測定した精度は、最適なパラメーターの評価が返す値をわずかに上回っています。これをここで説明するために、一連のパラメーターの評価を行います（上記で説明したものよりも小さいデータセット上ですが、効果は同じです） Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores for all sets of parameters 0.851 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.5} 0.852 (+/-0.006) for {'kernel': 'rbf', 'C': 3, 'gamma': 0.1} …

19 machine-learning cross-validation hyperparameter

11

ロジスティック回帰が機械学習アルゴリズムと呼ばれるのはなぜですか？

機械学習アルゴリズムで正しく理解できた場合、モデルはその経験から学習する必要があります。つまり、モデルが新しいケースに対して間違った予測を与える場合、モデルは新しい観測に適応する必要があり、やがてモデルはますます良くなります。ロジスティック回帰にはこの特性があるとは思えません。では、なぜ機械学習アルゴリズムと見なされているのでしょうか？「学習」という用語でのロジスティック回帰と通常の回帰の違いは何ですか？ランダムフォレストについても同じ質問があります！そして、「機械学習」の定義は何ですか？

19 machine-learning logistic random-forest

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」