統計とビッグデータ machine-learning

5

私は大手小売業者のMLスペシャリストによるプレゼンテーションを見ていました。そこでは、在庫切れイベントを予測するモデルを開発していました。しばらくの間、彼らのモデルが非常に正確になったと仮定しましょう。それはどういうわけか「自己敗北」ではないでしょうか？つまり、モデルが本当にうまく機能していれば、在庫切れイベントを予測して回避することができ、最終的に在庫切れイベントがほとんどまたはまったくない状態になります。しかし、その場合、モデルを実行するのに十分な履歴データがないか、モデルが脱線します。これは、在庫切れイベントを示すために使用されていたのと同じ要因がもはや実行されないためです。そのようなシナリオに対処するための戦略は何ですか？さらに、反対の状況を想定することもできます。たとえば、2つのアイテムが実際にはそうでなくても、リコメンダーシステムは、リコメンダーシステムの出力によって駆動されるアイテムペアの売上の増加とともに「自己実現予言」になる場合があります関連。どちらも、予測子の出力とそれに基づいて実行されるアクションの間で発生する一種のフィードバックループの結果であるように思えます。このような状況にどのように対処できますか？

36 machine-learning predictive-models

3

統計学における修士プログラムについて考慮すべきこと

大学院の入学シーズンです。私（および私のような多くの学生）は現在、どの統計プログラムを選択するかを決定しようとしています。統計学を研究している皆さんが、統計学の修士課程について検討することを示唆していることは何ですか？（おそらく学校の評判に関して）学生が犯すよくある落とし穴や間違いはありますか？雇用に関しては、応用統計に焦点を当てるべきか、応用統計と理論統計の組み合わせに注目すべきでしょうか？編集：ここに私の個人的な状況に関するいくつかの追加情報があります：私が現在検討しているすべてのプログラムは米国にあります。より応用的な側面に焦点を合わせ、「応用統計学」の修士号を授与する者もいれば、「統計学」の理論コースとグラント学位を授与する者もいます。私は個人的に、ある業界で別の業界で働くつもりはありません。私はプログラミングのバックグラウンドがあり、たとえば、ゲノミクスやバイオインフォマティクス業界よりもテクノロジー業界を少しよく知っています。しかし、私は主に興味深い問題のあるキャリアを探しています。編集：質問をより一般的に適用できるようにしました。

36 machine-learning mathematical-statistics careers

4

機械学習のためのクラウドコンピューティングプラットフォーム[終了]

Amazon EC2の上に構築されたクラスター上でR、Python、またはオクターブスクリプトを実行するためのプラットフォームを提供する会社の小さなリストがあります。追加する他の名前はありますか？クラウド番号オパニ crdata

36 r machine-learning

3

ランダムフォレストの投票から「確実性スコア」を作成しますか？

私は、約10,000個のオブジェクトの適度に大きなトレーニングセットでオブジェクトType AとType Bオブジェクトを区別する分類子をトレーニングしようType AとしていますType B。データセットは、セルの物理的特性（サイズ、平均半径など）を詳述する100個の連続したフィーチャで構成されています。ペアワイズ散布図と密度プロットでデータを視覚化すると、多くの特徴で癌細胞と正常細胞の分布にかなりの重複があることがわかります。現在、このデータセットの分類方法としてランダムフォレストを調査しており、いくつかの良い結果が得られています。Rを使用すると、ランダムフォレストはオブジェクトの約90％を正しく分類できます。試してみたいことの1つは、オブジェクトの分類に対する自信の程度を定量化する一種の「確実性スコア」を作成することです。私たちは、分類器が100％正確になることはありませんことを知っている、との予測では、高い精度が達成された場合でも、私たちは訓練を受けた技術が真にであるオブジェクトを識別することになるでしょうType AとType B。そのため、Type Aまたはの妥協のない予測を提供する代わりにType B、各オブジェクトの方法AまたはBオブジェクトがどのようであるかを説明するスコアを提示したいと思います。たとえば、0〜10の範囲のスコアを考案した場合、スコア0はオブジェクトがオブジェクトに非常に似ていることを示し、スコア10はオブジェクトが非常に似ているType Aことを示しますType B。ランダムフォレスト内の投票を使用して、このようなスコアを考案できると考えていました。ランダムフォレストの分類は、生成されたツリーのフォレスト内の多数決によって行われるため、ツリーの100％によって投票さType Aれたオブジェクトは、たとえばツリーの51％によって投票されたオブジェクトとは異なると想定しますであるType A。現在、オブジェクトをType AまたはType Bに分類するために受け取る必要がある投票の割合に任意のしきい値を設定しようとしましたが、しきい値を超えていない場合はに分類されUncertainます。たとえば、80％以上のツリーが分類の合格に同意する必要があるという条件を強制すると、クラス予測の99％は正しいが、オブジェクトの約40％がとしてビン化されることがわかりますUncertain。それでは、投票情報を利用して予測の確実性をスコアリングすることは理にかなっていますか？または、私は自分の考えで間違った方向に向かっていますか？

36 r machine-learning random-forest

3

機械学習：バイナリ予測にカテゴリクロスエントロピーまたはバイナリクロスエントロピー損失を使用する必要がありますか？

まず、バイナリ予測を実行する必要がある場合、ワンホットエンコーディングを実行して少なくとも2つのクラスを作成する必要があることに気付きました。これは正しいです？ただし、バイナリクロスエントロピーは、クラスが1つだけの予測に対してのみですか？ほとんどのライブラリ（TensorFlowなど）で通常見られるカテゴリクロスエントロピー損失を使用する場合、大きな違いはありますか？実際、カテゴリクロスエントロピーとバイナリクロスエントロピーの正確な違いは何ですか？TensorFlowでバイナリクロスエントロピーの実装を見たことがないので、おそらくカテゴリー的なものも同じように機能すると思いました。

36 machine-learning neural-networks loss-functions tensorflow cross-entropy

1

変分推論とMCMC：どちらを選択するか

Gibbsサンプリング、Metropolis HastingsなどのMCMCのさまざまなフレーバーを含め、VIとMCMCの両方の一般的なアイデアが得られたと思います。このペーパーでは、両方の方法のすばらしい説明を提供します。次の質問があります。ベイジアン推論を行いたい場合、なぜ一方の方法をもう一方より選択するのですか？各方法の長所と短所は何ですか？これはかなり広範な質問であることを理解していますが、洞察をいただければ幸いです。

36 machine-learning bayesian mcmc variational-bayes approximate-inference

2

線形回帰の勾配ブースティング-なぜ機能しないのですか？

勾配ブースティングについて学習している間、このメソッドがモデルの構築とアンサンブルに使用する「弱い分類器」のプロパティに関する制約について聞いたことがありません。しかし、線形回帰を使用するGBのアプリケーションを想像することはできませんでした。実際、いくつかのテストを実行したとき、それは機能しません。私は、残差の平方和の勾配で最も標準的なアプローチをテストし、後続のモデルを一緒に追加していました。明らかな問題は、最初のモデルからの残差が、もはや適合する回帰線が実際に存在しないような方法で取り込まれることです。私の別の観察では、後続の線形回帰モデルの合計も単一の回帰モデルとして表現できるため（すべての切片と対応する係数を追加）、モデルをどのように改善できるか想像できません。最後の観察結果は、線形回帰（最も一般的なアプローチ）は損失関数として二乗残差の合計を使用していることです-GBが使用しているものと同じです。また、学習率を下げるか、各反復で予測子のサブセットのみを使用することも考えましたが、それでも最終的には単一のモデル表現にまとめることができるため、改善はないと思います。ここで何が欠けていますか？Gradient Boostingで使用するのに線形回帰は何らかの形で不適切ですか？それは、線形回帰が損失関数として残差の二乗和を使用しているからでしょうか？グラディエントブースティングに適用できるように、弱い予測子には特定の制約がありますか？

35 regression machine-learning boosting ensemble gradient

3

PCAとトレイン/テストの分割

複数のバイナリラベルセットがあるデータセットがあります。ラベルのセットごとに、分類器をトレーニングし、相互検証によって評価します。主成分分析（PCA）を使用して次元を減らしたい。私の質問は：データセット全体に対して PCAを一度実行してから、上記のように相互検証に低次元の新しいデータセットを使用することは可能ですか？または、すべてのトレーニングセットに対して個別のPCAを実行する必要がありますか（つまり、すべての分類子およびすべての相互検証フォールドに対して個別のPCAを実行することを意味します）。一方では、PCAはラベルを使用しません。一方、テストデータを使用して変換を行うため、結果に偏りが生じる可能性があります。作業を節約することに加えて、データセット全体でPCAを1回実行すると、すべてのラベルセットのデータセットを一度に視覚化できることに注意してください。ラベルセットごとに異なるPCAがある場合、各ラベルセットを個別に視覚化する必要があります。

35 machine-learning classification pca cross-validation

4

スパースコーディングとオートエンコーダーの違いは何ですか？

スパースコーディングは、入力ベクトル（<-なぜこれが必要なのか）を表すために、基底ベクトルの過剰なセットを学習することと定義されます。スパースコーディングとオートエンコーダーの違いは何ですか？スパースコーディングとオートエンコーダを使用するのはいつですか？

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

5

非常に高次元の分類のための無料のデータセット[終了]

1000を超えるフィーチャ（または曲線を含む場合はサンプルポイント）を使用した分類のために無料で利用できるデータセットは何ですか無料のデータセットに関するコミュニティWikiが既にあります：自由に利用可能なデータサンプルの検索しかし、ここでは、より便利に使用できる、より焦点の絞られたリストがあればいいと思います。また、次の規則を提案します。データセットごとに1つの投稿データセットのセットへのリンクはありません各データセットはに関連付けられている必要があります名前（それが何であるかを把握するため）およびデータセットへのリンク（Rデータセットは、パッケージ名を付けることができます）フィーチャの数（pとする）、データセットのサイズ（nとする）およびラベル/クラスの数（kとする）あなたの経験からの典型的なエラー率（使用されたアルゴリズムを言葉で表す）またはリテラチャーからのこのエラー率（この最後のケースでは論文をリンクします）

35 machine-learning classification dataset large-data

5

CV / Bootstrapを使用して機械学習アルゴリズムをトレーニングすることでオーバーフィットできますか？

この質問は、決定的な答えを得るにはあまりにもオープンエンドかもしれませんが、そうでないことを願っています。 SVM、GBM、ランダムフォレストなどの機械学習アルゴリズムには、一般に、いくつかの経験則を超えて、各データセットに合わせて調整する必要があるいくつかの無料のパラメーターがあります。これは、一般的に、ある種の再サンプリング手法（ブートストラップ、CVなど）で行われ、最良の一般化エラーを与えるパラメーターのセットに適合します。私の質問は、あなたがここにすぎ行くことができるのですか？人々はグリッド検索を行うことなどについて話しますが、なぜこれを最適化問題として扱い、可能な限り最良のパラメータセットにドリルダウンしないのですか？私はこのいくつかの仕組みについて尋ね、この質問が、それは多くの注目を集めていません。質問はひどく聞かれたかもしれませんが、おそらく質問自体は人々が一般にしない悪いアプローチを表しているのでしょうか？どのような私を気にすることは正則の欠如です。再サンプリングすると、このデータセットのGBMで成長するのに最適なツリーの数は647で、相互作用の深さは4ですが、これが新しいデータに当てはまることをどのように確認できますか（新しい母集団を仮定して））トレーニングセットと同一ですか？「縮小」する合理的な価値がない場合（または、情報を提供する事前情報がない場合）、リサンプリングは私たちができる最善の方法のようです。私はこのことについて何も話を聞いていないので、何か足りないものがあるのではないかと思います。明らかに、多くの反復を行ってモデルの予測力の最後のビットを絞り出すことに関連する大きな計算コストがあるため、これは明らかに、最適化とすべてのビットを行うための時間/うなりを持っている場合にあなたがすることですパフォーマンスの改善は貴重です。

34 machine-learning cross-validation bootstrap optimization resampling

3

ランダムフォレストモデルでの精度の平均低下とGINIの平均低下の解釈方法

ランダムフォレストパッケージからの変数の重要度の出力を解釈する方法を理解するのに少し苦労しています。通常、精度の平均低下は、「各フィーチャの値を並べ替えることによるモデルの精度の低下」として説明されます。これは、機能全体または機能内の特定の値に関する記述ですか？どちらの場合でも、平均精度の低下は、問題のフィーチャ（またはフィーチャからの値）をモデルから削除することによって誤って分類された観測の数または割合ですか？次のモデルがあるとします。 require(randomForest) data(iris) set.seed(1) dat <- iris dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other')) model.rf <- randomForest(Species~., dat, ntree=25, importance=TRUE, nodesize=5) model.rf varImpPlot(model.rf) Call: randomForest(formula = Species ~ ., data = dat, ntree = 25, proximity = TRUE, importance = TRUE, nodesize = 5) Type of random forest: classification Number of trees: …

34 r machine-learning classification random-forest

5

ベイジアンモデルとは正確には何ですか？

ベイズの定理が使用されているモデルを「ベイジアンモデル」と呼ぶことはできますか？このような定義は広すぎるかもしれません。では、ベイジアンモデルとは正確には何ですか？

34 machine-learning bayesian

6

データマイニング：機能フォームを見つけるにはどうすればよいですか？

私は、関数の関数形を発見するために使用することができ、再現手順について興味がy = f(A, B, C) + error_term私の唯一の入力は、観測値の集合である場合（y、A、BおよびC）。の機能形式fは不明であることに注意してください。次のデータセットを検討してください。 AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

34 regression machine-learning algorithms model-selection data-mining

4

決定木の弱点は何ですか？

決定木は非常に理解しやすい機械学習方法のようです。一度作成されると、人間が簡単に検査できるため、アプリケーションによっては大きな利点があります。デシジョンツリーの実際の弱点は何ですか？

34 machine-learning nonparametric cart

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」