タグ付けされた質問 「importance」

関心のある結果の説明または予測における独立変数または予測子の重要性。

2
ランダムフォレストの変数重要度の測定
私は回帰のためにランダムフォレストをいじくり回しており、2つの重要度の測定値が何を意味し、どのように解釈すべきかを正確に判断するのに苦労しています。 このimportance()関数は、変数ごとに2つの値を提供します:%IncMSEとIncNodePurity。これらの2つの値の簡単な解釈はありますか? 以下のためにIncNodePurity、特に、これは単にその変数を除去した後の金額RSS増加のですか?

4
可変重要度ランキングは何に役立ちますか?
さまざまな重要度のランキング(すべての種類の多変量モデルのコンテキスト)に関しては、私はややニヒリストになりました。 多くの場合、作業の過程で、他のチームが可変重要度ランキングを作成するのを支援するか、自分の作業から可変重要度ランキングを作成するように依頼されます。これらのリクエストに応えて、私は次の質問をします この変数の重要度ランキングは何にしたいですか?それから何を学びたいですか?それを使用してどのような決定をしたいですか? 私が受け取る答えはほとんどの場合、2つのカテゴリーのいずれかに分類されます。 応答を予測する上で、モデル内のさまざまな変数の重要性を知りたいと思います。 重要度の低い変数を削除して、機能の選択に使用したいと思います。 最初の応答はトートロジーです(変数の重要度ランキングが必要なため、変数の重要度ランキングが必要です)。多変量モデルの出力を使用する場合、これらのランキングは心理的なニーズを満たすと仮定する必要があります。変数「重要度」を個別にランク付けすると、問題のモデルの多次元の性質が暗黙的に拒否されるように見えるため、これを理解するのは困難です。 2番目の応答は、基本的に後方選択の非公式バージョンに還元され、その統計的な罪はCrossValidatedの他の部分で十分に文書化されています。 また、重要度ランキングの不明確な性質と格闘しています。ランキングがどのような基礎概念を測定すべきかについてはほとんど合意がないようで、非常にアドホックな風味を与えています。重要度スコアまたはランキングを割り当てるには多くの方法があり、一般に欠点と注意事項があります。 ランダムフォレストおよびgbmsの重要度ランキングのように、アルゴリズムに大きく依存する場合があります。 それらは非常に大きな分散を持ち、基礎となるデータへの摂動で劇的に変化します。 それらは、入力予測子の相関の影響を大きく受ける可能性があります。 だから、私の質問は、変数重要度ランキングの統計的に有効な使用法は何ですか、またはそのような欲望の無益さに対する説得力のある議論(統計学者または素人に対する)は何ですか?私は、一般的な理論的議論とケーススタディの両方に興味があります。



2
GLMNETからの変数の重要性
機能を選択し、予測モデルをバイナリターゲットに適合させる方法として投げ縄を使用することを検討しています。以下は、正規化されたロジスティック回帰でメソッドを試すために遊んでいたコードです。 私の質問は、「重要な」変数のグループを取得することですが、それぞれの相対的な重要性を推定するためにこれらを順序付けすることはできますか?この目的のために係数を絶対値でランク付けすることはできますか(coef関数を介して元の変数スケールで表示されることを理解しています)?その場合、その方法(xとyの標準偏差を使用)回帰係数を標準化します。 サンプルコード: library(glmnet) #data comes from #http://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic) datasetTest <- read.csv('C:/Documents and Settings/E997608/Desktop/wdbc.data.txt',head=FALSE) #appears to use the first level as the target success datasetTest$V2<-as.factor(ifelse(as.character(datasetTest$V2)=="M","0","1")) #cross validation to find optimal lambda #using the lasso because alpha=1 cv.result<-cv.glmnet( x=as.matrix(dataset[,3:ncol(datasetTest)]), y=datasetTest[,2], family="binomial", nfolds=10, type.measure="deviance", alpha=1 ) #values of lambda used histogram(cv.result$lambda) #plot of …

5
ロジスティック回帰で最も重要な機能を理解する
私はデータに対して非常に正確なロジスティック回帰分類器を作成しました。今、私はなぜそれがとてもうまく機能しているのかをよりよく理解したいと思います。具体的には、どの機能が最大の貢献を果たしているか(どの機能が最も重要か)をランク付けし、理想的には、各機能がモデル全体(またはこのようなもの)の精度にどれだけ貢献しているかを定量化します。どうすればいいですか? 私の最初の考えは、係数に基づいてそれらをランク付けすることでしたが、これは正しくないと思われます。同様に有用な2つの機能がありますが、最初の機能の広がりが2番目の機能の10倍であれば、1番目の機能は2番目の機能よりも低い係数を受け取ると思います。機能の重要性を評価するより合理的な方法はありますか? 機能の小さな変化が結果の確率にどの程度影響するかを理解しようとしているわけではないことに注意してください。むしろ、分類器を正確にするという点で、各機能の重要性を理解しようとしています。また、私の目標は、特徴選択を実行したり、特徴の少ないモデルを構築したりすることではなく、学習したモデルに「説明可能性」を提供することです。したがって、分類子は単なる不透明なブラックボックスではありません。

2
ダミー変数による機能の重要性
ダミー変数に分解されたカテゴリー変数の機能の重要性をどのように取得できるかを理解しようとしています。Rまたはh2oのようにカテゴリ変数を処理しないscikit-learnを使用しています。 カテゴリ変数をダミー変数に分解すると、その変数のクラスごとに個別の機能の重要性が得られます。 私の質問は、それらを単純に合計することによって、それらのダミー変数の重要度をカテゴリー変数の重要度値に再結合することは理にかなっていますか? 統計学習の要素の368ページから: 変数相対的な重要度の2乗は、それが分割変数として選択されたすべての内部ノードに対する改善の2乗の合計です。バツℓバツℓX_{ℓ} これにより、変数が選択された各ノードでメトリックを合計することで重要度値がすでに作成されているため、ダミー変数の変数重要度値を組み合わせてカテゴリ変数の重要度を「回復」できるはずです。もちろん、正確に正しいとは思いませんが、これらの値はランダムなプロセスで検出されるため、とにかく本当に正確な値です。 調査として、次のPythonコード(jupyterで)を作成しました。 import numpy as np import pandas as pd import matplotlib.pyplot as plt from matplotlib import animation, rc from sklearn.datasets import load_diabetes from sklearn.ensemble import RandomForestClassifier import re #%matplotlib inline from IPython.display import HTML from IPython.display import set_matplotlib_formats plt.rcParams['figure.autolayout'] = False plt.rcParams['figure.figsize'] = 10, …

3
重回帰の予測変数間でr 2乗を分割する方法は?
著者が2つの予測変数を使用して重回帰を実行した論文を読んだばかりです。全体のr 2乗値は0.65でした。彼らは、2つの予測変数の間でr 2乗を分割する表を提供しました。テーブルは次のようになりました。 rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 1, 10 0.030 データセットRを使用して実行したこのモデルではmtcars、全体のr 2乗値は0.76です。 summary(lm(mpg ~ drat + wt, mtcars)) Call: lm(formula = mpg ~ drat + wt, data = mtcars) Residuals: Min 1Q …

4
予測変数の異なるセットの重要性の比較
私は特定の問題を抱えている研究生にアドバイスをしていましたが、このサイトで他の人の意見を聞きたいと思いました。 環境: 研究者には3種類の予測変数がありました。各タイプには、異なる数の予測変数が含まれていました。各予測変数は連続変数でした: ソーシャル:S1、S2、S3、S4(4つの予測子) 認知:C1、C2(つまり、2つの予測子) 行動:B1、B2、B3(つまり、3つの予測子) 結果変数も連続的でした。サンプルには約60人の参加者が含まれていました。 研究者は、結果変数を説明する上でどのタイプの予測因子がより重要であるかについてコメントしたかった。これは、これらのタイプの予測因子の相対的な重要性に関するより広範な理論的懸念に関連していました。 ご質問 1つの予測変数セットと別の予測変数セットの相対的な重要性を評価する良い方法は何ですか? 各セットに異なる数の予測変数があるという事実に対処するための良い戦略は何ですか? 解釈の際に注意すべき点は何ですか? 例への参照や技術の議論も大歓迎です。

1
ランダムフォレストでは、ツリーレベルではなくノードレベルでフィーチャのランダムサブセットが選択されるのはなぜですか?
私の質問:ランダムフォレストは、ツリーレベルではなく各ツリー内のノードレベルで分割するために、フィーチャのランダムサブセットを考慮するのはなぜですか? 背景:これは歴史の質問です。ティン・カム・ホーが公開され、この論文をランダムにそれぞれ成長させるために使用する機能のサブセットを選択することにより、「意思決定の森」を構築する上で木を 2001年に、後に1998数年で、レオ・ブレイマンは彼の独創性に富んランダムフォレストの公表論文特徴サブセットがランダムであるが、各ツリーではなく、各ツリー内の各ノードで選択されます。ブライマンはHoを引用しましたが、ツリーレベルからノードレベルのランダムな特徴選択への移行については特に説明しませんでした。 この開発の具体的な動機は何だと思います。ツリーレベルでフィーチャサブセットを選択すると、ツリーの目的の非相関化が依然として達成されるようです。 私の理論:これは他の場所で明確に表現されていませんが、ランダムなサブスペース法は、特徴の重要性の推定値を取得するという点では効率が低いようです。変数の重要度の推定値を取得するために、各ツリーについて、特徴が1つずつランダムに並べ替えられ、誤判別の増加またはアウトオブバッグ観測のエラーの増加が記録されます。このランダムな順列から生じる誤分類またはエラーの増加が大きい変数は、最も重要です。 ランダム部分空間法を使用する場合、ツリーごとに、特徴のうちだけを考慮します。すべての予測子を一度でも考慮するには、いくつかの木が必要になる場合があります。我々は異なるサブセット考える一方、の特徴各ノードで、私たちは私たちにフィーチャー重要性のより堅牢な見積もりを与え、少数の木の後に、各機能に多くの時間を考慮します。mmmppppppm私m私m_ippp これまで見てきたこと:これまでのところ、私はブライマンの論文とホーの論文を読み、決定的な答えを見つけることなく方法の比較のために広範なオンライン検索を行いました。同様の質問が以前に聞かれたことに注意してください。この質問は、考えられる解決策に向けた私の推測/作業を含めることで、さらに先へと進みます。答え、関連する引用、または2つのアプローチを比較するシミュレーション研究に興味があります。予定されていない場合は、2つの方法を比較して独自のシミュレーションを実行する予定です。

2
ロジスティック回帰における相対変数の重要度をpで定量化する方法
オンライン買い物客が一連のオンライン広告(予測子:Ad1、Ad2、およびAd3)をクリックした後に、オンライン買い物客が商品を購入する(結果:購入)かどうかを予測するためにロジスティック回帰モデルを使用するとします。 結果はバイナリ変数です。1(購入済み)または0(購入済みではありません)。予測子も2変数です:1(クリック)または0(クリックされません)。したがって、すべての変数は同じスケールです。 Ad1、Ad2、およびAd3の結果の係数が0.1、0.2、および03である場合、Ad3はAd2よりも重要であり、Ad2はAd1よりも重要であると結論付けることができます。さらに、すべての変数は同じスケールであるため、標準化された係数と標準化されていない係数は同じである必要があり、ロジット(対数オッズ)レベルへの影響の観点から、Ad2はAd1よりも2倍重要であると結論付けることができます。 しかし、実際には、logit(log-odds)ではなく、p(購入の確率)レベルの観点から変数の相対的な重要性を比較および解釈する方法をより重視します。 したがって問題は次のとおりです。これらの変数の相対的な重要度をpで定量化するアプローチはありますか?

1
randomForestと変数の重要性のバグ?
MeanDecreaseAccuracy列のrfobject$importanceとの違いがimportance(rfobject)わかりません。 例: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 1.277324 …


1
観測されたイベントと期待されたイベントを比較する方法は?
4つの可能なイベントの頻度の1つのサンプルがあるとします。 Event1 - 5 E2 - 1 E3 - 0 E4 - 12 そして、私は自分のイベントの発生が予想される確率を持っています: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 4つのイベントの観測頻度の合計(18)を使用して、イベントの予想頻度を計算できますか? expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 = 1.8 expectedE1 - …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
変数の説明力
単純な線形回帰モデルがあります。私が計算したいのは、各入力変数がどの程度「重要」であるか、つまり次のようなステートメントを作成することです。 「このモデルの予測力の60%は、変数var1からのもので、var2とvar3はそれぞれ30%と10%です」 これらのパーセンテージを計算するために何をする必要がありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.