タグ付けされた質問 「data-mining」

データマイニングは、データベースコンテキストで人工知能の手法を使用して、以前は未知だったパターンを発見します。そのため、メソッドは通常監視されていません。機械学習とは密接に関連していますが、同一ではありません。データマイニングの主要なタスクは、クラスター分析、異常値の検出、相関ルールのマイニングです。



2
このモデル化アプローチには過剰適合がありますか
最近、私が従ったプロセス(修士論文のコンポーネント)は適合しすぎていると見なすことができると言われました。私はこれをよりよく理解し、他の人が同意するかどうかを確認したいと思っています。 論文のこの部分の目的は 勾配ブースト回帰ツリーとデータセットのランダムフォレストのパフォーマンスを比較します。 選択した最終モデル(GBMまたはRF)のパフォーマンスを確認します。 R のgbmおよびrandomForestパッケージが、とともに使用されてい caretます。 実行されたプロセスは次のとおりです。 データの予備的な前処理(例:名目上の予測値の欠損値を "欠落"と呼ばれる明確なカテゴリで埋める)。ターゲット変数は、前処理に関しては調べられませんでした(これは非常に最小限でした)。 各アルゴリズムのメタパラメータの値のグリッドを作成します(GBMの反復回数など)。 データセットの25のランダムな分割を作成します(65%のトレーニングと35%のテスト)。 GBMに対して次の25回を繰り返します(毎回、ランダムトレイン/テストスプリットの1つを利用します。毎回、どのトレーニングとテストセットがコース変更の「最新」であるかを確認します。これは、グループ脱退相互検証の繰り返しです)。 5分割交差検証を使用して、グリッド検索でアルゴリズムの「最適な」パラメーター設定を見つけます。現在の実行では、以前の実行の何も使用されていません。 決定したら、モデルを完全な「現在の」トレーニングセットに適合させ、「現在の」テストセットを予測します。この実行のパフォーマンス測定を取っておきます。 この方法で25のパフォーマンス指標(実際にはドメイン固有の指標ですが、精度と考えることができます)が取得されたら、RFに対してまったく同じ独立したトレーニングとテストのサンプルを使用して、まったく同じプロセスに従います(同じプロセス、異なるプロセスのみ)もちろんグリッド検索)。 現在、GBMとRFの当時の「現在の」テストセットから、25のパフォーマンス測定があります。ウィルコクソン符号順位検定と順列検定を使用してそれらを比較します。GBMの方が優れていることがわかりました。また、GBMに対するこれらの25回の実行からのパフォーマンス測定の分布は、最終的なGBM分類器の期待されるパフォーマンスであると主張しました。 私がしなかったことは、ランダムなテストセットを最初から引き出して、すべてのトレーニングデータから構築された最終的なGBMモデルと比較するために脇に置いておくことでした。データの分割、モデルの調整、ホールドアウトプロセスのテストを25回繰り返したのと比べて1回だけ行ったので、実際に行った方がはるかに優れていたと私は思います。 ここに過剰適合がありますか?25回の実行を使用してGBMとRFを選択したので、プロセスから取得したパフォーマンス測定値を完全なモデルのパフォーマンス推定として使用できないことを意味しますか? 編集 ウェインのコメントに応えて、25回の実行のそれぞれの間に行われたことを以下に示します。 i番目のトレーニングセット(i = 1、..、25)についてサンプリングされたデータは、5つの同じサイズのグループに分割されました。5つのグループのうち4つを使用してモデルを適合させ、GBMパラメーター(たとえば、反復回数)をj番目(j = 1、..、18)グリッドの値と等しく設定しました。 5番目のグループのパフォーマンスは、このモデルを使用して計算されました。 ステップ1と2をさらに4回繰り返しました(k = 5の通常の古いk倍CV)。パフォーマンスは5回のサブランの平均であり、これは特定のパラメーター値のセットでGBMの予想されるパフォーマンスを構成しました。 グリッド内の他の17行について、手順1〜3を繰り返しました。 完了すると、上記の演習から最適なパラメーター値が決定され、GBMはこれらのパラメーター値と完全なi番目のトレーニングセットを使用して適合されました。そのパフォーマンスは、i番目のテストセットで推定されました。 このプロセス全体が25回実行されると、GBMで使用できるパフォーマンスの測定値は25になります。その後、彼らはまったく同じ方法でRFのために集められました。 GBMを比較して選択した後、25のパフォーマンス測定値を調べ、平均と標準誤差を使用して、このデータのGBMモデルの信頼区間を決定しました。

3
データを使用した実用的なPCAチュートリアル
PCAチュートリアルをインターネットで検索すると、何千もの結果が得られます(ビデオも)。チュートリアルの多くは非常に優れています。しかし、デモに使用できるいくつかのデータセットを使用してPCAが説明される実際的な例を見つけることができません。PCA分析の前後に、簡単にプロットできる小さなデータセット(数千行のデータの10000行ではない)を提供するチュートリアルが必要です。その違い/結果を明確に示すことができます。(約100行と3次元のデータを使用した段階的な実践例はすばらしいと思います)。 何か提案はありますか?

1
arulesを使用して新しいデータに適したルールを見つける
アソシエーションルールのトランザクションのマイニングにR(およびarulesパッケージ)を使用しています。私がやりたいことは、ルールを作成して、それを新しいデータに適用することです。 たとえば、私が多くのルールを持っているとしましょう{Beer=YES} -> {Diapers=YES}。そのうちの1つは正規のものです。 次に、レコードの1つがビールを購入したがおむつは購入していない新しいトランザクションデータがあります。LHSは満たされているがRHSは満たされていないルールを特定するにはどうすればよいですか? Rの例: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成されるルールは次のとおりです。 > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

14
名前からどれだけの情報を抽出できますか?
名前:最初に、おそらくミドルネームと姓。 公開されているデータセットを使用して、名前からどれだけの情報をマイニングできるか知りたいです。米国国勢調査データを使用して、低入力(入力によって異なります)の間のどこでも以下を取得できることを知っています。1)性別。2)レース。 たとえばFacebookは、それを正確に使用して、まともなレベルの正確さで、サイトのユーザーの人種分布を見つけました(https://www.facebook.com/note.php?note_id=205925658858)。 他に何が採掘できますか?私は具体的なものを探しているわけではありません。これは私の好奇心を和らげるための非常に自由な質問です。 私の例は米国固有のものなので、名前は米国にいる誰かの名前であると想定します。しかし、他の国で公開されているデータセットを知っている人がいれば、私もそれらを受け入れるだけではありません。 これがこの場所に適しているかどうかはよくわかりません。そうでない場合は、誰かが私をより適切な場所に案内してくれるとありがたいです。 これが面白い質問だといいのですが、これは適切な場所です!

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
データの前処理と外れ値の検出手法を扱った優れた本
タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか? 本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。 欠落データを処理するための手法が望ましいが、必須ではない...

1
オバマ氏のキャンペーンにおけるデータマイニング手法
私はオバマ氏の再選キャンペーンのデータマイニングチームに関するこの記事に出くわしました。残念ながら、この記事は統計アルゴリズムの実際の仕組みについて非常にあいまいです。しかし、一般的な手法は社会科学や政治学で知られているように思えました。これは私の専門分野ではないので、誰かがこの種の技法についての文献(概要)を指摘してもらえますか?

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
「モデルを学ぶ」という用語はどこから来たのですか
ここのデータマイナーがこの用語を使用することをよく耳にします。分類の問題に取り組んだ統計学者として、「分類子を訓練する」という用語をよく知っており、「モデルを学習する」と同じことを想定しています。「分類子を訓練する」という言葉は気にしません。これは、トレーニングデータを使用してモデルパラメータの適切な「改善された」推定値を取得するため、モデルの当てはめのアイデアを描いているようです。しかし、それは知識を得るための手段を学ぶでしょう。わかりやすい英語で「モデルを学ぶ」とは、それが何かを知ることを意味します。しかし、実際にはモデルを「知る」ことはありません。モデルは現実に近似していますが、正しいモデルはありません。それはボックスが「モデルは正しくないが、いくつかは有用である」と言ったようです。 データマイナーの応答を聞きたいです。この用語の由来は?それを使うなら、なぜそれが好きですか?

5
ロジスティック回帰のデータを分割する手段としてのクラスタリング
私は、ロジスティック回帰モデルのいくつかの機能に基づいて、学生の成功または失敗を予測しようとしています。モデルのパフォーマンスを向上させるために、明らかな違いに基づいて学生を複数のグループに分割し、各グループに個別のモデルを構築することをすでに考えました。しかし、これらのグループを試験で特定するのは難しいかもしれないと思うので、生徒の特徴をクラスタリングして、生徒を分割することを考えました。これは、そのようなモデルを構築する際の一般的な方法ですか?それを明白なグループに分けて(たとえば、最初の学期の生徒と帰国の生徒)、それらのグループでクラスタリングを実行するか、最初からクラスタリングすることを提案しますか? 明確にするために: つまり、クラスタリングアルゴリズムを使用して、ロジスティック回帰のトレーニングセットをグループに分割することを検討しています。次に、これらのグループごとに個別のロジスティック回帰を行います。次に、ロジスティック回帰を使用して学生の結果を予測する場合、どのグループに最も適合するかに基づいて、使用するモデルを選択します。 おそらく、グループ識別子を含めることで同じことを行うことができます。たとえば、学生が戻ってきた場合は1、戻っていない場合は0などです。 これで、母集団ごとに個別のロジスティック回帰モデルを構築するのではなく、トレーニングデータセットをクラスター化し、それらのクラスターラベルをロジスティック回帰の機能として使用する方が有利かどうかについて考えました。 帰国生と新入生のグループ識別子を含めると便利な場合は、グループのリストを拡張すると便利でしょうか。クラスタリングは、これを行う自然な方法のようです。 それが明確であることを願っています...

3
バイグラム(N-gram)モデルを使用したテキストドキュメントの特徴ベクトルの構築について
テキストマイニングの機能構築の従来のアプローチはバッグオブワードアプローチであり、tf-idfを使用して、特定のテキストドキュメントを特徴付ける特徴ベクトルを設定することで拡張できます。現在、バイグラム言語モデルまたは(N-gram)を使用して特徴ベクトルを構築しようとしていますが、その方法がよくわかりませんか?単語の代わりにバイグラムで頻度カウントを計算し、tf-idf重み付けスキームを使用してそれを強化する、つまり、bag-of-wordsのアプローチに従うことはできますか?

2
一般的なテーマで文字列をグループ化するにはどうすればよいですか?
たとえば、プログラミングに関する文字列とプログラミングに関する他の文字列、物理学に関する文字列と物理学に関する他の文字列などを、さまざまなトピックについてグループ化しようとしています。問題の明白な理論的な言語的側面にもかかわらず、私は実際にプログラミング/ソフトウェアを使用してこれを行うことを探しています。 まとめ:多数の文字列がある場合、それらをセマンティックテーマでグループ化するにはどうすればよいですか? 特定のアプリケーション:一般的なグループ(車、コンピューター、政治、カナダ、食品、バラクオバマなど)に分類したい約20万の雑学クイズがあります。 調べた内容:ウィキペディアには自然言語処理ツールキットのリストがあります(私がやろうとしていることが実際にはNLPと呼ばれていると仮定しています)。 注:これを行うには追加の知識が必要であることが指摘されています(たとえば、ポルシェは自動車であり、C ++はプログラミング言語です)。次に、トレーニングデータが必要だと思いますが、質問と回答のリストしかない場合、どうすればトレーニングデータを生成できますか?次に、トレーニングデータをどのように使用しますか? その他のメモ: Q&Aヘルプの現在のフォーマット(JSONのように見えますが、基本的には未加工のテキストファイルです)の場合: // row 1: is metadata // row 2: is a very specific kind of "category" // row 3: is the question // row 4: is the answer { 15343 A MUSICAL PASTICHE Of classical music's "three B's", he was the one born …

3
データセットを最初に一目で見る
私の無知を許してください、しかし... 自分で見つけた新しいデータの束に直面している状況で、自分を見つけ続けています。このデータは通常、次のようになります。 Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常、一見、ここに傾向があるかどうかは本当にわかりません。さまざまな列間の相関関係はそれほど重要ではないかもしれませんが、列/カテゴリのすべての可能な組み合わせに対して手動でプロットを作成する必要がなかったとしたら嬉しいです。 データのテーブルと、列を数値、日付、カテゴリとして扱う必要がある情報を受け入れ、プロットを開始するツールはありますか? 各2つの数値列間の相関 各2つの数値列間の相関関係、各カテゴリの個別のトレンドライン 時系列としての各数値列、 カテゴリで区切られた時系列としての各数値列、 等 最終的に、これは多数のプロットを生成し、そのほとんどはノイズのみを示します。理想的には、このツールは相関によってプロットにスコアを付け、最終的に最もスコアの高いプロットからスライドショーを表示できます。これは非常に不完全ですが、データセットを一見すると便利です。 そう?誰もがこれに使用するツールがあり、私はそれについて知らないだけですか、これは私たちが作る必要があるものですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.