タグ付けされた質問 「association-rules」

3
データマイニングにおけるアソシエーションルールとデシジョンツリーの実際の違いは何ですか?
これら2つの手法の実際の違いについて、本当に簡単な説明はありますか? どちらも教師あり学習に使用されるようです(ただし、関連付けルールは教師なし学習も処理できます)。 両方とも予測に使用できます 「良い」説明に最も近いのは、Statsoft Textbookです。アソシエーションルールは次の目的で使用されると言われています。 ...大規模なデータセットのカテゴリ変数の特定の値間の関係または関連付けを検出します。 ながら、ディシジョン・ツリー分類をするために使用されるものとして説明されています。 ... 1つ以上の予測変数の測定値から、カテゴリ従属変数のクラスのケースまたはオブジェクトのメンバーシップを予測します。 ただし、Rデータマイニングでは、ターゲットフィールドで使用されるアソシエーションルールの例を示しています。 したがって、両方を使用してグループのメンバーシップを予測できますが、決定木は非カテゴリー入力データを処理できますが、関連付けルールは処理できないという重要な違いはありますか?または、より基本的なものがありますか?1つのサイト(sqlserverdatamining.com)は、主な違いは次のとおりであると述べています。 デシジョンツリールールは情報獲得に基づいており、アソシエーションルールは人気や信頼に基づいています。 したがって、(おそらく自分の質問に答える)それは、決定木が実際に分散を最小化しようとしている間に、データセットに表示される頻度(およびそれらが「真」である頻度)に基づいて関連付けルールが純粋に評価されることを意味しますか? 誰かが良い説明を知っているなら、彼らは私にそれを向けたいと思うでしょう、それは素晴らしいでしょう。

1
arulesを使用して新しいデータに適したルールを見つける
アソシエーションルールのトランザクションのマイニングにR(およびarulesパッケージ)を使用しています。私がやりたいことは、ルールを作成して、それを新しいデータに適用することです。 たとえば、私が多くのルールを持っているとしましょう{Beer=YES} -> {Diapers=YES}。そのうちの1つは正規のものです。 次に、レコードの1つがビールを購入したがおむつは購入していない新しいトランザクションデータがあります。LHSは満たされているがRHSは満たされていないルールを特定するにはどうすればよいですか? Rの例: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成されるルールは次のとおりです。 > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

3
カテゴリ変数の人気のある、または一般的な組み合わせを見つけるために使用できる統計的方法は何ですか?
多剤使用の研究をしています。私は400人の麻薬常用者のデータセットを持っています。10種類以上の薬物が存在するため、可能な組み合わせは大きくなります。私はそれらが消費する薬物の大部分をバイナリ変数に再コード化しました(つまり、薬物中毒者がヘロインを乱用した場合、ヘロインは1で、それ以外は0です)。2つまたは3つの薬物の人気のある、または一般的な組み合わせを見つけたいのですが。使用できる統計的方法はありますか?


2
膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか?
現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます(idは識別目的のみです)。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット(応答変数は含まれるが、含まれない)には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行(この場合は300万行)を投げた場合に潜在的な問題はありますか?計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか?データセットのサイズの問題を完全に説明している本/紙はありますか?
8 modeling  large-data  overfitting  clustering  algorithms  error  spatial  r  regression  predictive-models  linear-model  average  measurement-error  weighted-mean  error-propagation  python  standard-error  weighted-regression  hypothesis-testing  time-series  machine-learning  self-study  arima  regression  correlation  anova  statistical-significance  excel  r  regression  distributions  statistical-significance  contingency-tables  regression  optimization  measurement-error  loss-functions  image-processing  java  panel-data  probability  conditional-probability  r  lme4-nlme  model-comparison  time-series  probability  probability  conditional-probability  logistic  multiple-regression  model-selection  r  regression  model-based-clustering  svm  feature-selection  feature-construction  time-series  forecasting  stationarity  r  distributions  bootstrap  r  distributions  estimation  maximum-likelihood  garch  references  probability  conditional-probability  regression  logistic  regression-coefficients  model-comparison  confidence-interval  r  regression  r  generalized-linear-model  outliers  robust  regression  classification  categorical-data  r  association-rules  machine-learning  distributions  posterior  likelihood  r  hypothesis-testing  normality-assumption  missing-data  convergence  expectation-maximization  regression  self-study  categorical-data  regression  simulation  regression  self-study  self-study  gamma-distribution  modeling  microarray  synthetic-data 
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.