タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

6
教師あり学習では、相関する特徴があるのはなぜ悪いのですか?
相関が強すぎるフィーチャがある場合、モデルを悪化させる可能性があるため、削除する必要があることをどこかで読みました。相関する特徴は、それらが同じ情報をもたらすことを意味することは明らかなので、それらの1つを削除することは論理的です。しかし、なぜこれがモデルを悪化させるのか理解できません。

6
クロスエントロピー損失の説明
分類用のNNを作成するとします。最後のレイヤーは、ソフトマックスアクティベーションを使用した高密度レイヤーです。分類するクラスは5つあります。単一のトレーニングの例でtrue labelは[1 0 0 0 0]、予測はであると仮定します[0.1 0.5 0.1 0.1 0.2]。この例のクロスエントロピー損失はどのように計算しますか?

1
「Keras」の「Dense」と「TimeDistributedDense」の違い
私はまだの違いについて混乱していますDenseとTimeDistributedDenseのKeras、すでにいくつかの同様の質問が尋ねているにもかかわらず、こことここ。人々は多くのことを議論していますが、共通の結論はありません。 それでも、ここでは、@ fcholletは次のように述べています。 TimeDistributedDenseDense3Dテンソルのすべてのタイムステップに同じ(完全に接続された)操作を適用します。 それらの違いを正確に説明する必要があります。


5
ディープラーニングと勾配ブースティング:いつ使用するか
大きなデータセットに大きなデータの問題があります(たとえば、5,000万行と200列)。データセットは、約100の数値列と100のカテゴリ列、およびバイナリクラス問題を表す応答列で構成されます。各カテゴリ列のカーディナリティは50未満です。 ディープラーニングメソッドまたはアンサンブルツリーベースのメソッド(勾配ブースティング、アダブースト、またはランダムフォレストなど)のどちらを使用すべきかをアプリオリに知りたい。ある方法を他の方法よりも判断するのに役立つ探索的データ分析や他の手法はありますか?

3
softmax分類器では、なぜexp関数を使用して正規化を行うのですか?
標準の正規化ではなく、softmaxを使用する理由 この質問のトップアンサーのコメントエリアで、@ Kilian Batznerは2つの質問を提起しました。数値的な利点を除いて、誰も説明をしていないようです。 クロスエントロピー損失を使用する理由はわかりますが、それはソフトマックスとどのように関連していますか?「ソフトマックス関数は、予測と真実の間のクロスエントロピーを最小化しようとしていると見ることができます」とおっしゃいました。私は標準/線形正規化を使用しますが、クロスエントロピー損失を使用するとします。次に、クロスエントロピーを最小化しようとします。それでは、数値の利点を除いて、ソフトマックスはどのようにクロスエントロピーにリンクされていますか? 確率的ビューについては、ログの確率を見る動機は何ですか?推論は「xを対数確率として解釈するため、softmaxでe ^ xを使用する」に少し似ているようです。同じ理由で、ソフトマックスでe ^ e ^ e ^ xを使用します。これは、xをlog-log-log-probabilitiesとして解釈するためです(もちろん、ここで誇張しています)。softmaxの数値的な利点は得られますが、それを使用する理論的な動機は何ですか?

5
強化学習でのQ関数とV関数とは何ですか?
ように私には思えるVVV機能を簡単に表すことができるQQQ機能ひいてはVVV機能は、私には余分のようです。しかし、強化学習は初めてなので、何か間違ったことがあると思います。 定義 Q学習とV学習は、マルコフ決定プロセスのコンテキストにあります。A MDPは 5タプルである(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma)と SSSは状態のセットです(通常は有限) AAAはアクションのセットです(通常は有限) P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)は、アクション aで状態sssから状態に到達する確率です。s′s′s'aaa R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}状態から行く直後の報酬であるsss状態にs′s′s'アクションとaaa。(通常はのみがs′s′s'重要であるように思えます) γ∈[0,1]γ∈[0,1]\gamma \in [0, 1]割引率と呼ばれ、決定された場合は、1つの即時報酬に焦点を当てて(γ=0γ=0\gamma = 0)、総報酬(γ=1γ=1\gamma = 1)またはいくつかのトレードオフ。 政策ππ\piによると、強化学習:入門サットンによるとバート氏は、関数であるπ:S→Aπ:S→A\pi: S \rightarrow A(これは確率論することができます)。 よるマリオマルティンススライド、VVV関数である Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}V^\pi(s) = E_\pi \{R_t | s_t …

7
機械学習タスクのためにデータをシャッフルする必要がある理由
機械学習タスクでは、データをシャッフルして正規化するのが一般的です。正規化の目的は明確です(同じ範囲の特徴値を持つため)。しかし、多くの苦労の末、データをシャッフルするための価値ある理由は見つかりませんでした。 ここでこの記事を読んで、データをシャッフルする必要がある場合について説明しましたが、データをシャッフルする必要がある理由は明らかではありません。さらに、バッチ勾配降下が必要なAdamやSGDなどのアルゴリズムでよく見かけます(データはミニバッチに分離する必要があり、バッチサイズを指定する必要があります)。この投稿によれば、各エポックのデータをシャッフルして、バッチごとに異なるデータを持つことが重要です。したがって、おそらくデータはシャッフルされ、さらに重要なことに変更されます。 なぜこれを行うのですか?

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
非常に不均衡なデータセットのトレーニングのクイックガイド
トレーニングセットに約1000個の陽性サンプルと10000個の陰性サンプルがある分類問題があります。したがって、このデータセットは非常に不均衡です。プレーンランダムフォレストは、すべてのテストサンプルを多数派クラスとしてマークしようとしています。 ここでは、サブサンプリングと重み付きランダムフォレストに関するいくつかの良い答えを示します。高度にバイアスされたデータセットを使用してツリーアンサンブルをトレーニングすることの意味は何ですか? RF以外のどの分類方法が問題を最善の方法で処理できますか?

2
グラウンドトゥルースとは
Machine Learningのコンテキストでは、Ground Truthという用語が頻繁に使用されるのを見てきました。私はよく検索して、ウィキペディアで次の定義を見つけました。 機械学習では、「グラウンドトゥルース」という用語は、教師あり学習手法に対するトレーニングセットの分類の精度を指します。これは、研究仮説を証明または反証するために統計モデルで使用されます。「グラウンドトゥルースティング」という用語は、このテストの適切な客観的(証明可能な)データを収集するプロセスを指します。ゴールドスタンダードと比較してください。 ベイジアンスパムフィルタリングは、教師あり学習の一般的な例です。このシステムでは、アルゴリズムはスパムと非スパムの違いを手動で学習します。これは、アルゴリズムのトレーニングに使用されるメッセージのグラウンドトゥルースに依存します。グラウンドトゥルースの不正確さは、結果として生じるスパム/非スパム判定の不正確さと相関します。 ポイントは、私が本当にそれが意味するものを得ることができないということです。ことで、ラベルがそれぞれに使用データオブジェクトまたはターゲット関数それぞれにラベルを与え、データオブジェクト、または多分何か他のもの?

4
SVMでランダムフォレストを使用する場合とその逆の場合
いつRandom Forest、SVMまたはその逆を使用しますか? cross-validationモデルの比較はモデル選択の重要な側面であることを理解していますが、ここでは、2つの方法の経験則と経験則について詳しく学びたいと思います。 分類器の微妙さ、長所、短所、およびそれぞれに最適な問題を誰かが説明できますか?

4
履歴書データに基づいてジョブ分類を実行するには、どのアルゴリズムを使用する必要がありますか?
Rですべてを行っていることに注意してください。 問題は次のようになります。 基本的に、履歴書(CV)のリストがあります。一部の候補者は以前に実務経験があり、いくつかはそうではありません。ここでの目標は、CVのテキストに基づいて、それらを異なる職種に分類することです。私は、候補者が経験を持たない/学生である場合に特に興味があり、卒業後にこの候補者がどの職種に属する可能性が高いかを予測する必要があります。 質問1:機械学習アルゴリズムを知っています。ただし、NLPを実行したことはありません。インターネットでLatent Dirichletの割り当てに出会いました。しかし、これが私の問題に取り組むための最良のアプローチであるかどうかはわかりません。 私の元のアイデア: これを教師付き学習問題にします。ラベル付けされたデータがすでに大量にあると仮定します。つまり、候補者のリストのジョブセクターに正しくラベル付けされています。MLアルゴリズム(つまり、最近傍...)を使用してモデルをトレーニングし、これらのラベルのないデータを入力します。これらのデータは、実務経験がない/学生である候補であり、所属するジョブセクターを予測しようとします。 質問2の更新:履歴書のすべてを抽出してテキストファイルを作成し、各履歴書が非構造化文字列を含むテキストファイルに関連付けられるようにテキストファイルを作成することをお勧めします。テキストマイニング手法をテキストファイルに適用し、データを構造化するか、テキストファイルから使用される用語の頻度マトリックスを作成しますか?たとえば、テキストファイルは次のようになります。 I deployed ML algorithm in this project and... Skills: Java, Python, c++ ... これは私が「非構造化」、つまりすべてを1行の文字列に折りたたむことによって意味したものです。 このアプローチは間違っていますか?私のアプローチが間違っていると思われる場合は私を修正してください。 質問3:難しい部分は、キーワードを識別して抽出する方法です。tmRでパッケージを使用しますか?tm パッケージはどのアルゴリズムに基づいていますか?NLPアルゴリズムを使用する必要がありますか?はいの場合、どのアルゴリズムを調べる必要がありますか?ご覧になる良いリソースをいくつか教えてください。 どんなアイデアでも素晴らしいでしょう。

4
新しい観察結果が利用可能な場合、モデルを再トレーニングする必要がありますか?
ですから、このテーマに関する文献を見つけることはできませんでしたが、考えてみる価値のあるもののようです。 新しい観察結果が利用可能な場合のモデルのトレーニングと最適化のベストプラクティスは何ですか? 予測が低下し始める前にモデルを再トレーニングする期間/頻度を決定する方法はありますか? 集約されたデータに対してパラメーターが再最適化されると、過剰適合になりますか? 学習は必ずしもオンラインであるとは限らないことに注意してください。最近の予測で大幅な変動を観察した後、既存のモデルをアップグレードすることもできます。

6
モデルハイパーパラメーターとモデルパラメーターの違いは何ですか?
モデルハイパーパラメーターやモデルパラメーターなどの用語は、事前に明確化することなくWeb上で交換可能に使用されていることに気付きました。これは間違いであり、説明が必要だと思います。機械学習モデル、SVM / NN / NBベースの分類器または画像認識器など、最初に思い浮かぶものを考えてみてください。 モデルのハイパーパラメーターとパラメーターは何ですか? 例を挙げてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.