統計とビッグデータ association-rules

3

データマイニングにおけるアソシエーションルールとデシジョンツリーの実際の違いは何ですか？

これら2つの手法の実際の違いについて、本当に簡単な説明はありますか？どちらも教師あり学習に使用されるようです（ただし、関連付けルールは教師なし学習も処理できます）。両方とも予測に使用できます「良い」説明に最も近いのは、Statsoft Textbookです。アソシエーションルールは次の目的で使用されると言われています。 ...大規模なデータセットのカテゴリ変数の特定の値間の関係または関連付けを検出します。ながら、ディシジョン・ツリー分類をするために使用されるものとして説明されています。 ... 1つ以上の予測変数の測定値から、カテゴリ従属変数のクラスのケースまたはオブジェクトのメンバーシップを予測します。ただし、Rデータマイニングでは、ターゲットフィールドで使用されるアソシエーションルールの例を示しています。したがって、両方を使用してグループのメンバーシップを予測できますが、決定木は非カテゴリー入力データを処理できますが、関連付けルールは処理できないという重要な違いはありますか？または、より基本的なものがありますか？1つのサイト（sqlserverdatamining.com）は、主な違いは次のとおりであると述べています。デシジョンツリールールは情報獲得に基づいており、アソシエーションルールは人気や信頼に基づいています。したがって、（おそらく自分の質問に答える）それは、決定木が実際に分散を最小化しようとしている間に、データセットに表示される頻度（およびそれらが「真」である頻度）に基づいて関連付けルールが純粋に評価されることを意味しますか？誰かが良い説明を知っているなら、彼らは私にそれを向けたいと思うでしょう、それは素晴らしいでしょう。

19 data-mining association-rules

1

arulesを使用して新しいデータに適したルールを見つける

アソシエーションルールのトランザクションのマイニングにR（およびarulesパッケージ）を使用しています。私がやりたいことは、ルールを作成して、それを新しいデータに適用することです。たとえば、私が多くのルールを持っているとしましょう{Beer=YES} -> {Diapers=YES}。そのうちの1つは正規のものです。次に、レコードの1つがビールを購入したがおむつは購入していない新しいトランザクションデータがあります。LHSは満たされているがRHSは満たされていないルールを特定するにはどうすればよいですか？ Rの例： install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成されるルールは次のとおりです。 > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

11 r data-mining association-rules

3

多剤使用の研究をしています。私は400人の麻薬常用者のデータセットを持っています。10種類以上の薬物が存在するため、可能な組み合わせは大きくなります。私はそれらが消費する薬物の大部分をバイナリ変数に再コード化しました（つまり、薬物中毒者がヘロインを乱用した場合、ヘロインは1で、それ以外は0です）。2つまたは3つの薬物の人気のある、または一般的な組み合わせを見つけたいのですが。使用できる統計的方法はありますか？

10 hypothesis-testing clustering combinatorics association-measure association-rules

2

最大＆頻繁に閉鎖—回答が含まれています

1 ：A 、B 、C 、E 2 ：A 、C 、D 、E 3 ：B 、C 、E 4 ：A 、C 、D 、E 5 ：C 、D 、E 6 ：A 、D 、EMy da t a s e t ：My dataset:My \ \ dataset: 1 ：A 、B 、C、E1:A,B,C,E1: A,B,C,E 2 ：A 、C、D 、E2:A,C,D,E2:A,C,D,E 3 ：B 、C …

10 data-mining dataset association-rules

2

膨大なデータセットが与えられた場合、なぜ統計モデルは過剰適合しますか？

現在のプロジェクトでは、特定のグループの行動を予測するモデルを構築する必要があるかもしれません。トレーニングデータセットには6つの変数のみが含まれます（idは識別目的のみです）。 id, age, income, gender, job category, monthly spend その中で monthly spend応答変数です。ただし、トレーニングデータセットには約300万行が含まれid, age, income, gender, job category、予測されるデータセット（応答変数は含まれるが、含まれない）には100万行が含まれます。私の質問は、統計モデルにあまりにも多くの行（この場合は300万行）を投げた場合に潜在的な問題はありますか？計算コストが懸念事項の1つであることを理解していますが、他に懸念事項はありますか？データセットのサイズの問題を完全に説明している本/紙はありますか？

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

タグ付けされた質問 「association-rules」

タグ付けされた質問「association-rules」