タグ付けされた質問 「decision-trees」

意思決定ツリーは、意思決定のツリー状のグラフまたはモデルと、偶然のイベントの結果、リソースコスト、およびユーティリティを含むそれらの考えられる結果を使用する意思決定支援ツールです。アルゴリズムを表示する1つの方法です。

2
ニューラルネットワークとディシジョンフォレストのデータを正規化する方法
20000サンプルのデータセットがあり、それぞれに12の異なる機能があります。各サンプルは、カテゴリ0または1のいずれかにあります。ニューラルネットワークと決定フォレストをトレーニングしてサンプルを分類し、結果と両方の手法を比較できるようにします。 最初に遭遇したのは、データの適切な正規化です。一つの特徴は、範囲内にある、で別の[ 30 、40 ]、ほとんどが、私は異なるソースに読み取るように、入力データの適切な正規化を時々値8と7を取ることが一つの特徴がありますニューラルネットワークにとって重要です。私が知ったように、データを正規化する多くの可能な方法があります、例えば:[ 0 、106][0、106][0,10^6][ 30 、40 ][30、40][30,40] ミニマックス正規化:入力範囲は直線区間に変換され(または[ - 1 、1 ]、その問題していますか?)[ 0 、1 ][0、1][0,1][- 1 、1 ][−1、1][-1,1] Zスコアの正規化:データは平均がゼロで分散が単位に変換されます: yん E W= yo l d−意味するVar−−−√yんew=yold−平均Vary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} どの正規化を選択する必要がありますか?意思決定フォレストにも正規化が必要ですか?Zスコアの正規化では、テストデータのさまざまな機能が同じ範囲内にありません。これは問題でしょうか?すべての機能を同じアルゴリズムで正規化して、すべての機能にMin-Maxを使用するか、すべての機能にZスコアを使用するかを決定する必要がありますか? データがマップされる組み合わせがあるまた、ゼロ平均(データの非線形変換を意味し、したがって分散の変化と入力データの他の特徴であろう)を有しているが。[ - 1 、1 ][−1、1][-1,1] これらの質問に答える参考文献が見つからないので、少し迷っています。

2
scikitのmax_depthは、決定木の枝刈りと同等ですか?
決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか?そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

4
機能の重要性に照らしてディシジョンツリーを解釈する
私は、sklearnで構築された決定木分類モデルの決定プロセスを完全に理解する方法を理解しようとしています。私が見ている2つの主な側面は、ツリーのgraphviz表現と機能の重要度のリストです。私が理解していないのは、ツリーのコンテキストで機能の重要度がどのように決定されるかです。たとえば、これは私の機能の重要性のリストです: 機能のランク:1. FeatureA(0.300237) FeatureB(0.166800) FeatureC(0.092472) FeatureD(0.075009) FeatureE(0.068310) FeatureF(0.067118) FeatureG(0.066510) FeatureH(0.043502) フィーチャーI(0.040281) FeatureJ(0.039006) FeatureK(0.032618) FeatureL(0.008136) FeatureM(0.000000) しかし、ツリーの一番上を見ると、次のようになっています。 実際、「最も重要」にランク付けされた機能の一部は、ツリーのずっと下まで表示されません。ツリーの上部は、最も低いランクの機能の1つであるFeatureJです。私の素朴な仮定は、最も重要な機能が最大の影響を与えるためにツリーの上部近くにランク付けされるということです。それが正しくない場合、機能を「重要」にするのは何ですか?

1
バイナリ分類のためのXGBoost:適切なしきい値の選択
私は非常に不均衡なバイナリラベル付きデータセットに取り組んでいます。この場合、真のラベルの数はデータセット全体の7%にすぎません。ただし、機能の組み合わせによっては、サブセット内の機能の数が平均よりも多くなる場合があります。 たとえば、単一の特徴(色)を持つ次のデータセットがあるとします。 180個の赤いサンプル— 0 20個の赤いサンプル— 1個 緑のサンプル300個— 0 緑のサンプル100個— 1 簡単な決定木を作ることができます: (color) red / \ green P(1 | red) = 0.1 P(1 | green) = 0.25 データセット全体のP(1)= 0.2 このデータセットでXGBoostを実行すると、0.25以下の確率を予測できます。つまり、しきい値を0.5に決定した場合、 0-P <0.5 1-P> = 0.5 次に、常にゼロとしてラベル付けされたすべてのサンプルを取得します。私が問題を明確に説明したことを願っています。 ここで、初期データセットで次のプロットを取得しています(x軸のしきい値)。 しきい値= 0.1で最大のf1_scoreを持つ。今私は2つの質問があります: そのような構造のデータセットにf1_scoreを使用する必要がありますか? バイナリ分類にXGBoostを使用する場合、確率をラベルにマッピングするために0.5しきい値を使用することは常に合理的ですか? 更新。私はその話題が興味を引くと思います。以下は、XGBoostを使用して赤/緑の実験を再現するPythonコードです。それは実際に期待される確率を出力します: from xgboost import XGBClassifier from sklearn.model_selection import train_test_split import …

2
Rでの情報獲得
C4.5ディシジョンツリーで主要な属性を選択するための「情報ゲイン」の計算に使用されているパッケージを見つけて、「情報ゲイン」の計算にそれらを使用してみました。 ただし、以下のコードのように、各パッケージの計算結果は異なります。 > IG.CORElearn <- attrEval(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi, dataUSE1, estimator = "InfGain") > IG.RWeka <- InfoGainAttributeEval(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi, dataUSE1) > IG.FSelector <- information.gain(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi,dataUSE1) > IG.CORElearn In_Temp In_Humi In_CO2 In_Illu In_LP Out_Temp Out_Humi 0.04472928 0.02705100 0.09305418 0.35064927 0.44299167 0.01832216 0.05551973 > IG.RWeka In_Temp In_Humi In_CO2 In_Illu In_LP Out_Temp Out_Humi …

1
ランダムフォレスト分類器の最小ツリー数
ランダムフォレスト分類器のツリー数の下限の理論的または実験的推定を探しています。 私は通常、さまざまな組み合わせをテストし、(交差検証を使用して)中央値の最良の結果を提供する組み合わせを選択します。 ただし、観測値とn個の特徴がある場合、エラーへの分散の寄与を減らすために、使用する木の数には下限があると思います。分類子を正しく調整するために確認できるテストまたは参照はありますか?メートルメートルmんんn

1
指定された変数に直交する(相関しない)予測を生成する
私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。 私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。 このコード: import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …
8 correlation  machine-learning  dataset  logistic-regression  prediction  linear-regression  prediction  dummy-variables  neural-network  image-classification  python  k-nn  python  neural-network  neural-network  deep-learning  keras  tensorflow  image-classification  tensorflow  reinforcement-learning  policy-gradients  machine-learning  decision-trees  neural-network  overfitting  data-analysis  metric  python  scikit-learn  distance  scipy  machine-learning  python  scikit-learn  decision-trees  logistic-regression  keras  image-classification  implementation  machine-learning  python  scikit-learn  random-forest  decision-trees  machine-learning  feature-selection  feature-engineering  word2vec  word-embeddings  natural-language-process  scikit-learn  time-series  clustering  k-means  python  cross-validation  pyspark  statistics  cross-validation  multiclass-classification  evaluation  machine-learning  nlp  machine-translation  neural-network  deep-learning  keras  tensorflow  image-classification  machine-learning  python  similarity  distance  lstm  text  named-entity-recognition  machine-learning  keras  optimization  gan  learning-rate  neural-network  data-mining  dataset  databases  books  neural-network  rnn 

1
デシジョンツリーの連続データを(より良く)離散化する方法は?
ID3やC4.5などの標準的なディシジョンツリーアルゴリズムには、連続フィーチャのカットポイントを選択するためのブルートフォースアプローチがあります。すべての値は、可能なカットポイントとしてテストされます。(テスト済みとは、たとえば、情報ゲインがすべての可能な値で計算されることを意味します。) 多くの継続的な機能と多くのデータ(したがって、各機能の値が多い)があるため、このアプローチは非常に非効率的です。 これを行うためのより良い方法を見つけることは、機械学習のホットなトピックだと思います。実際、私のGoogle Scholar検索でいくつかの代替アプローチが明らかになりました。k-meansによる離散化など。次に、特定のドメインの特定の問題に取り組む多くの論文があるようです。 しかし、最近のレビューペーパー、ブログの投稿、または本に、離散化の一般的な手法の概要を説明しているものはありますか?見つかりませんでした... または、おそらくあなたの1人がこのトピックの専門家であり、簡単な概要を書いてくれます。それは非常に役に立ちます!

1
各データファイルの長さが異なる場合、入力フィーチャの形状をどのように決定しますか?
助けるために私はの利点と欠点を理解しdecision trees、KNN、Neural Networks、私は2クラス(中分類という単純な分類器構築したいBird SoundとはNon-Bird Sound)上記の3つの方法のすべてを使用します。そのため、kaggleからサウンドデータセットをダウンロードし、pysoundfileをサウンドファイルを読み取るためのモジュールとして探索していました。したがって、次のスタブ: data, samplerate = sf.read('xc94652.flac') numpy ndarrayを返します。shapeデータの各ファイル、いくつかのビーイングに応じて変化(8637686,)し、いくつかのビーイング(3227894,)。各ファイルは長さが異なるため、ファイルの形状はdataファイルごとに異なります。いくつかの方法があります、私は形をdata等しくすることができますか?すべてのファイルからデータセットの形状を最小の長さにすることを計画していました。しかし、それは間違いなくサウンドファイルデータセットを正当化しません。多くの機能が失われる可能性があり、最終的にモデルの精度が失われる可能性があります。



2
決定木を正しく解釈する方法は?
オンラインで見つけた意思決定ツリーを正しく解釈しているかどうかを調べています。 このディシジョンツリーの従属変数は、BradまたはGoodの2つのクラスを持つ信用格付けです。このツリーのルートには、このデータセット内のすべての2464の観測が含まれています。 良いまたは悪い信用格付けを分類する方法を決定する最も影響力のある属性は、収入レベル属性です。 私たちのサンプルでは、​​収入が低かった人々の大半(553人中454人)の信用格付けも悪かった。プレミアムクレジットカードを無制限にローンチする場合、これらの人々は無視する必要があります。 この決定木を予測に使用して新しい観測値を分類する場合、葉のクラスの最大数が予測として使用されますか?たとえば、観察xは中程度の収入、7枚のクレジットカード、34歳です。信用格付けの予測分類=「良い」 別の新しい観察結果は、観察Yである可能性があります。これは低収入に満たないため、信用度は「悪い」です。 これは決定木を解釈する正しい方法ですか、それとも完全に間違っていますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.