データサイエンス decision-trees

2

20000サンプルのデータセットがあり、それぞれに12の異なる機能があります。各サンプルは、カテゴリ0または1のいずれかにあります。ニューラルネットワークと決定フォレストをトレーニングしてサンプルを分類し、結果と両方の手法を比較できるようにします。最初に遭遇したのは、データの適切な正規化です。一つの特徴は、範囲内にある、で別の[ 30 、40 ]、ほとんどが、私は異なるソースに読み取るように、入力データの適切な正規化を時々値8と7を取ることが一つの特徴がありますニューラルネットワークにとって重要です。私が知ったように、データを正規化する多くの可能な方法があります、例えば：[ 0 、106][0、106][0,10^6][ 30 、40 ][30、40][30,40] ミニマックス正規化：入力範囲は直線区間に変換され（または[ - 1 、1 ]、その問題していますか？）[ 0 、1 ][0、1][0,1][- 1 、1 ][−1、1][-1,1] Zスコアの正規化：データは平均がゼロで分散が単位に変換されます： yん E W= yo l d−意味するVar−−−√yんew=yold−平均Vary_{new}=\frac{y_{old}-\text{mean}}{\sqrt{\text{Var}}} どの正規化を選択する必要がありますか？意思決定フォレストにも正規化が必要ですか？Zスコアの正規化では、テストデータのさまざまな機能が同じ範囲内にありません。これは問題でしょうか？すべての機能を同じアルゴリズムで正規化して、すべての機能にMin-Maxを使用するか、すべての機能にZスコアを使用するかを決定する必要がありますか？データがマップされる組み合わせがあるまた、ゼロ平均（データの非線形変換を意味し、したがって分散の変化と入力データの他の特徴であろう）を有しているが。[ - 1 、1 ][−1、1][-1,1] これらの質問に答える参考文献が見つからないので、少し迷っています。

10 neural-network decision-trees normalization

2

scikitのmax_depthは、決定木の枝刈りと同等ですか？

決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか？そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか？ dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

10 machine-learning python scikit-learn decision-trees supervised-learning

3

数学の畳み込みとCNNの関係

畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか？gウェイトをかけるフィルターのような機能ですか？

10 machine-learning neural-network deep-learning cnn convolution machine-learning ensemble-modeling machine-learning classification data-mining clustering machine-learning feature-selection convnet pandas graphs ipython machine-learning apache-spark multiclass-classification naive-bayes-classifier multilabel-classification machine-learning data-mining dataset data-cleaning data machine-learning data-mining statistics correlation machine-learning data-mining dataset data-cleaning data beginner career python r visualization machine-learning data-mining nlp stanford-nlp dataset linear-regression time-series correlation anomaly-detection ensemble-modeling data-mining machine-learning python data-mining recommender-system machine-learning cross-validation model-selection scoring prediction sequential-pattern-mining categorical-data python tensorflow image-recognition statistics machine-learning data-mining predictive-modeling data-cleaning preprocessing classification deep-learning tensorflow machine-learning algorithms data keras categorical-data reference-request loss-function classification logistic-regression apache-spark prediction naive-bayes-classifier beginner nlp word2vec vector-space-models scikit-learn decision-trees data programming

3

Tensorflowでバッチ内積を行う方法は？

2つのテンソルがありa:[batch_size, dim] b:[batch_size, dim]ます。バッチ内のすべてのペアに対して内積を行い、を生成c:[batch_size, 1]しc[i,0]=a[i,:].T*b[i,:]ます。どうやって？

10 tensorflow scikit-learn svm cross-validation feature-selection bayesian machine-learning decision-trees parameter-estimation neural-network convnet neural-network regularization visualization machine-learning similarity python pandas indexing r data-cleaning machine-learning predictive-modeling data-cleaning recommender-system python sequential-pattern-mining software-recommendation r visualization gaussian distribution machine-learning data-mining bigdata apache-hadoop predictive-modeling logistic-regression sampling machine-learning regression feature-selection mongodb neural-network inception machine-learning classification dataset databases logistic-regression deep-learning backpropagation classification data-mining multilabel-classification text-mining data-cleaning unsupervised-learning anomaly-detection python r python pandas

2

線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression？上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか？決定を下すためにデータセットを調べる必要がある特性は何ですか？そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression？

10 machine-learning algorithms random-forest linear-regression decision-trees machine-learning predictive-modeling forecast r clustering similarity data-mining dataset statistics text-mining text-mining data-cleaning data-wrangling machine-learning classification algorithms xgboost data-mining dataset dataset regression graphs svm unbalanced-classes cross-validation optimization hyperparameter genetic-algorithms visualization predictive-modeling correlation machine-learning predictive-modeling apache-spark statistics normalization apache-spark map-reduce r correlation confusion-matrix r data-cleaning classification terminology dataset image-classification machine-learning regression apache-spark machine-learning data-mining nlp parsing machine-learning dimensionality-reduction visualization clustering multiclass-classification evaluation unsupervised-learning machine-learning machine-learning data-mining supervised-learning unsupervised-learning machine-learning data-mining classification statistics predictive-modeling data-mining clustering python pandas machine-learning dataset data-cleaning data bigdata software-recommendation

4

機能の重要性に照らしてディシジョンツリーを解釈する

私は、sklearnで構築された決定木分類モデルの決定プロセスを完全に理解する方法を理解しようとしています。私が見ている2つの主な側面は、ツリーのgraphviz表現と機能の重要度のリストです。私が理解していないのは、ツリーのコンテキストで機能の重要度がどのように決定されるかです。たとえば、これは私の機能の重要性のリストです：機能のランク：1. FeatureA（0.300237） FeatureB（0.166800） FeatureC（0.092472） FeatureD（0.075009） FeatureE（0.068310） FeatureF（0.067118） FeatureG（0.066510） FeatureH（0.043502）フィーチャーI（0.040281） FeatureJ（0.039006） FeatureK（0.032618） FeatureL（0.008136） FeatureM（0.000000）しかし、ツリーの一番上を見ると、次のようになっています。実際、「最も重要」にランク付けされた機能の一部は、ツリーのずっと下まで表示されません。ツリーの上部は、最も低いランクの機能の1つであるFeatureJです。私の素朴な仮定は、最も重要な機能が最大の影響を与えるためにツリーの上部近くにランク付けされるということです。それが正しくない場合、機能を「重要」にするのは何ですか？

9 machine-learning visualization scikit-learn data decision-trees

1

バイナリ分類のためのXGBoost：適切なしきい値の選択

私は非常に不均衡なバイナリラベル付きデータセットに取り組んでいます。この場合、真のラベルの数はデータセット全体の7％にすぎません。ただし、機能の組み合わせによっては、サブセット内の機能の数が平均よりも多くなる場合があります。たとえば、単一の特徴（色）を持つ次のデータセットがあるとします。 180個の赤いサンプル— 0 20個の赤いサンプル— 1個緑のサンプル300個— 0 緑のサンプル100個— 1 簡単な決定木を作ることができます： (color) red / \ green P(1 | red) = 0.1 P(1 | green) = 0.25 データセット全体のP（1）= 0.2 このデータセットでXGBoostを実行すると、0.25以下の確率を予測できます。つまり、しきい値を0.5に決定した場合、 0-P <0.5 1-P> = 0.5 次に、常にゼロとしてラベル付けされたすべてのサンプルを取得します。私が問題を明確に説明したことを願っています。ここで、初期データセットで次のプロットを取得しています（x軸のしきい値）。しきい値= 0.1で最大のf1_scoreを持つ。今私は2つの質問があります：そのような構造のデータセットにf1_scoreを使用する必要がありますか？バイナリ分類にXGBoostを使用する場合、確率をラベルにマッピングするために0.5しきい値を使用することは常に合理的ですか？更新。私はその話題が興味を引くと思います。以下は、XGBoostを使用して赤/緑の実験を再現するPythonコードです。それは実際に期待される確率を出力します： from xgboost import XGBClassifier from sklearn.model_selection import train_test_split import …

8 decision-trees xgboost

2

Rでの情報獲得

C4.5ディシジョンツリーで主要な属性を選択するための「情報ゲイン」の計算に使用されているパッケージを見つけて、「情報ゲイン」の計算にそれらを使用してみました。ただし、以下のコードのように、各パッケージの計算結果は異なります。 > IG.CORElearn <- attrEval(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi, dataUSE1, estimator = "InfGain") > IG.RWeka <- InfoGainAttributeEval(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi, dataUSE1) > IG.FSelector <- information.gain(In_Occu ~ In_Temp+In_Humi+In_CO2+In_Illu+In_LP+Out_Temp+Out_Humi,dataUSE1) > IG.CORElearn In_Temp In_Humi In_CO2 In_Illu In_LP Out_Temp Out_Humi 0.04472928 0.02705100 0.09305418 0.35064927 0.44299167 0.01832216 0.05551973 > IG.RWeka In_Temp In_Humi In_CO2 In_Illu In_LP Out_Temp Out_Humi …

8 r decision-trees

1

ランダムフォレスト分類器の最小ツリー数

ランダムフォレスト分類器のツリー数の下限の理論的または実験的推定を探しています。私は通常、さまざまな組み合わせをテストし、（交差検証を使用して）中央値の最良の結果を提供する組み合わせを選択します。ただし、観測値とn個の特徴がある場合、エラーへの分散の寄与を減らすために、使用する木の数には下限があると思います。分類子を正しく調整するために確認できるテストまたは参照はありますか？メートルメートルmんんn

8 random-forest decision-trees

1

指定された変数に直交する（相関しない）予測を生成する

私が持っているXマトリックス、y変数、および他の変数をORTHO_VAR。私はをy使用して変数を予測する必要がありますXが、そのモデルからの予測は、可能な限りORTHO_VAR相関する一方で、直交する必要がありますy。私は予測がノンパラメトリックな方法で生成されることを望みxgboost.XGBRegressorますが、どうしても必要な場合は線形法を使用できます。このコード： import numpy as np import pandas as pd from sklearn.datasets import make_regression from xgboost import XGBRegressor ORTHO_VAR = 'ortho_var' TARGET = 'target' PRED = 'yhat' # Create regression dataset with two correlated targets X, y = make_regression(n_features=20, random_state=245, n_targets=2) indep_vars = ['var{}'.format(i) for i in range(X.shape[1])] # …

8 correlation machine-learning dataset logistic-regression prediction linear-regression prediction dummy-variables neural-network image-classification python k-nn python neural-network neural-network deep-learning keras tensorflow image-classification tensorflow reinforcement-learning policy-gradients machine-learning decision-trees neural-network overfitting data-analysis metric python scikit-learn distance scipy machine-learning python scikit-learn decision-trees logistic-regression keras image-classification implementation machine-learning python scikit-learn random-forest decision-trees machine-learning feature-selection feature-engineering word2vec word-embeddings natural-language-process scikit-learn time-series clustering k-means python cross-validation pyspark statistics cross-validation multiclass-classification evaluation machine-learning nlp machine-translation neural-network deep-learning keras tensorflow image-classification machine-learning python similarity distance lstm text named-entity-recognition machine-learning keras optimization gan learning-rate neural-network data-mining dataset databases books neural-network rnn

1

デシジョンツリーの連続データを（より良く）離散化する方法は？

ID3やC4.5などの標準的なディシジョンツリーアルゴリズムには、連続フィーチャのカットポイントを選択するためのブルートフォースアプローチがあります。すべての値は、可能なカットポイントとしてテストされます。（テスト済みとは、たとえば、情報ゲインがすべての可能な値で計算されることを意味します。）多くの継続的な機能と多くのデータ（したがって、各機能の値が多い）があるため、このアプローチは非常に非効率的です。これを行うためのより良い方法を見つけることは、機械学習のホットなトピックだと思います。実際、私のGoogle Scholar検索でいくつかの代替アプローチが明らかになりました。k-meansによる離散化など。次に、特定のドメインの特定の問題に取り組む多くの論文があるようです。しかし、最近のレビューペーパー、ブログの投稿、または本に、離散化の一般的な手法の概要を説明しているものはありますか？見つかりませんでした... または、おそらくあなたの1人がこのトピックの専門家であり、簡単な概要を書いてくれます。それは非常に役に立ちます！

8 decision-trees

1

各データファイルの長さが異なる場合、入力フィーチャの形状をどのように決定しますか？

助けるために私はの利点と欠点を理解しdecision trees、KNN、Neural Networks、私は2クラス（中分類という単純な分類器構築したいBird SoundとはNon-Bird Sound）上記の3つの方法のすべてを使用します。そのため、kaggleからサウンドデータセットをダウンロードし、pysoundfileをサウンドファイルを読み取るためのモジュールとして探索していました。したがって、次のスタブ： data, samplerate = sf.read('xc94652.flac') numpy ndarrayを返します。shapeデータの各ファイル、いくつかのビーイングに応じて変化(8637686,)し、いくつかのビーイング(3227894,)。各ファイルは長さが異なるため、ファイルの形状はdataファイルごとに異なります。いくつかの方法があります、私は形をdata等しくすることができますか？すべてのファイルからデータセットの形状を最小の長さにすることを計画していました。しかし、それは間違いなくサウンドファイルデータセットを正当化しません。多くの機能が失われる可能性があり、最終的にモデルの精度が失われる可能性があります。

7 machine-learning python neural-network decision-trees k-nn

3

Tensorflowはディシジョンツリー分類子をサポートしていますか？

データセットを分類するために決定木分類器を実装しようとしています。私はPythonを使用しています。これでscikit学習で実装するのは簡単ですが、これをテンソルフローに実装するにはどうすればよいですか。

7 machine-learning python deep-learning tensorflow decision-trees

1

予測の信頼スコアを取得するにはどうすればよいですか？

回帰問題で、XGBoostやニューラルネットワークなどのモデルを指定して、特定の予測の信頼性/信頼性スコアを計算することはできますか？

7 machine-learning neural-network regression decision-trees xgboost

2

決定木を正しく解釈する方法は？

オンラインで見つけた意思決定ツリーを正しく解釈しているかどうかを調べています。このディシジョンツリーの従属変数は、BradまたはGoodの2つのクラスを持つ信用格付けです。このツリーのルートには、このデータセット内のすべての2464の観測が含まれています。良いまたは悪い信用格付けを分類する方法を決定する最も影響力のある属性は、収入レベル属性です。私たちのサンプルでは、収入が低かった人々の大半（553人中454人）の信用格付けも悪かった。プレミアムクレジットカードを無制限にローンチする場合、これらの人々は無視する必要があります。この決定木を予測に使用して新しい観測値を分類する場合、葉のクラスの最大数が予測として使用されますか？たとえば、観察xは中程度の収入、7枚のクレジットカード、34歳です。信用格付けの予測分類=「良い」別の新しい観察結果は、観察Yである可能性があります。これは低収入に満たないため、信用度は「悪い」です。これは決定木を解釈する正しい方法ですか、それとも完全に間違っていますか？

7 predictive-modeling decision-trees

タグ付けされた質問 「decision-trees」

タグ付けされた質問「decision-trees」