統計とビッグデータ data-mining

1

平易な英語の変分推論

YouTubeで動画を視聴していて、変分推論とは何なのか本当に定義できないような気がします。ビデオ講義を見ながら手続きができます。しかし、実際には何であるかを定義するのは難しい。それについて聞いてほしい。

11 machine-learning mathematical-statistics data-mining

1

ジニ不純物を使用する場合と情報獲得を使用する場合？

誰かがGiniの不純物と情報獲得を意思決定ツリーにいつ使用するか説明してくれませんか？どのような場合にどの方法を使用するのが最適かについての状況/例を教えていただけますか？

11 machine-learning classification data-mining cart

2

このモデル化アプローチには過剰適合がありますか

最近、私が従ったプロセス（修士論文のコンポーネント）は適合しすぎていると見なすことができると言われました。私はこれをよりよく理解し、他の人が同意するかどうかを確認したいと思っています。論文のこの部分の目的は勾配ブースト回帰ツリーとデータセットのランダムフォレストのパフォーマンスを比較します。選択した最終モデル（GBMまたはRF）のパフォーマンスを確認します。 R のgbmおよびrandomForestパッケージが、とともに使用されてい caretます。実行されたプロセスは次のとおりです。データの予備的な前処理（例：名目上の予測値の欠損値を "欠落"と呼ばれる明確なカテゴリで埋める）。ターゲット変数は、前処理に関しては調べられませんでした（これは非常に最小限でした）。各アルゴリズムのメタパラメータの値のグリッドを作成します（GBMの反復回数など）。データセットの25のランダムな分割を作成します（65％のトレーニングと35％のテスト）。 GBMに対して次の25回を繰り返します（毎回、ランダムトレイン/テストスプリットの1つを利用します。毎回、どのトレーニングとテストセットがコース変更の「最新」であるかを確認します。これは、グループ脱退相互検証の繰り返しです）。 5分割交差検証を使用して、グリッド検索でアルゴリズムの「最適な」パラメーター設定を見つけます。現在の実行では、以前の実行の何も使用されていません。決定したら、モデルを完全な「現在の」トレーニングセットに適合させ、「現在の」テストセットを予測します。この実行のパフォーマンス測定を取っておきます。この方法で25のパフォーマンス指標（実際にはドメイン固有の指標ですが、精度と考えることができます）が取得されたら、RFに対してまったく同じ独立したトレーニングとテストのサンプルを使用して、まったく同じプロセスに従います（同じプロセス、異なるプロセスのみ）もちろんグリッド検索）。現在、GBMとRFの当時の「現在の」テストセットから、25のパフォーマンス測定があります。ウィルコクソン符号順位検定と順列検定を使用してそれらを比較します。GBMの方が優れていることがわかりました。また、GBMに対するこれらの25回の実行からのパフォーマンス測定の分布は、最終的なGBM分類器の期待されるパフォーマンスであると主張しました。私がしなかったことは、ランダムなテストセットを最初から引き出して、すべてのトレーニングデータから構築された最終的なGBMモデルと比較するために脇に置いておくことでした。データの分割、モデルの調整、ホールドアウトプロセスのテストを25回繰り返したのと比べて1回だけ行ったので、実際に行った方がはるかに優れていたと私は思います。ここに過剰適合がありますか？25回の実行を使用してGBMとRFを選択したので、プロセスから取得したパフォーマンス測定値を完全なモデルのパフォーマンス推定として使用できないことを意味しますか？編集ウェインのコメントに応えて、25回の実行のそれぞれの間に行われたことを以下に示します。 i番目のトレーニングセット（i = 1、..、25）についてサンプリングされたデータは、5つの同じサイズのグループに分割されました。5つのグループのうち4つを使用してモデルを適合させ、GBMパラメーター（たとえば、反復回数）をj番目（j = 1、..、18）グリッドの値と等しく設定しました。 5番目のグループのパフォーマンスは、このモデルを使用して計算されました。ステップ1と2をさらに4回繰り返しました（k = 5の通常の古いk倍CV）。パフォーマンスは5回のサブランの平均であり、これは特定のパラメーター値のセットでGBMの予想されるパフォーマンスを構成しました。グリッド内の他の17行について、手順1〜3を繰り返しました。完了すると、上記の演習から最適なパラメーター値が決定され、GBMはこれらのパラメーター値と完全なi番目のトレーニングセットを使用して適合されました。そのパフォーマンスは、i番目のテストセットで推定されました。このプロセス全体が25回実行されると、GBMで使用できるパフォーマンスの測定値は25になります。その後、彼らはまったく同じ方法でRFのために集められました。 GBMを比較して選択した後、25のパフォーマンス測定値を調べ、平均と標準誤差を使用して、このデータのGBMモデルの信頼区間を決定しました。

11 machine-learning data-mining predictive-models

3

データを使用した実用的なPCAチュートリアル

PCAチュートリアルをインターネットで検索すると、何千もの結果が得られます（ビデオも）。チュートリアルの多くは非常に優れています。しかし、デモに使用できるいくつかのデータセットを使用してPCAが説明される実際的な例を見つけることができません。PCA分析の前後に、簡単にプロットできる小さなデータセット（数千行のデータの10000行ではない）を提供するチュートリアルが必要です。その違い/結果を明確に示すことができます。（約100行と3次元のデータを使用した段階的な実践例はすばらしいと思います）。何か提案はありますか？

11 data-visualization dataset pca data-mining

1

arulesを使用して新しいデータに適したルールを見つける

アソシエーションルールのトランザクションのマイニングにR（およびarulesパッケージ）を使用しています。私がやりたいことは、ルールを作成して、それを新しいデータに適用することです。たとえば、私が多くのルールを持っているとしましょう{Beer=YES} -> {Diapers=YES}。そのうちの1つは正規のものです。次に、レコードの1つがビールを購入したがおむつは購入していない新しいトランザクションデータがあります。LHSは満たされているがRHSは満たされていないルールを特定するにはどうすればよいですか？ Rの例： install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) 生成されるルールは次のとおりです。 > inspect(rules) lhs rhs support confidence lift 1 {} => {whole milk} 0.25554200 0.2555420 1.000000 2 {yogurt} => {whole milk} 0.05603010 0.4018964 1.572722 …

11 r data-mining association-rules

14

名前からどれだけの情報を抽出できますか？

名前：最初に、おそらくミドルネームと姓。公開されているデータセットを使用して、名前からどれだけの情報をマイニングできるか知りたいです。米国国勢調査データを使用して、低入力（入力によって異なります）の間のどこでも以下を取得できることを知っています。1）性別。2）レース。たとえばFacebookは、それを正確に使用して、まともなレベルの正確さで、サイトのユーザーの人種分布を見つけました（https://www.facebook.com/note.php?note_id=205925658858）。他に何が採掘できますか？私は具体的なものを探しているわけではありません。これは私の好奇心を和らげるための非常に自由な質問です。私の例は米国固有のものなので、名前は米国にいる誰かの名前であると想定します。しかし、他の国で公開されているデータセットを知っている人がいれば、私もそれらを受け入れるだけではありません。これがこの場所に適しているかどうかはよくわかりません。そうでない場合は、誰かが私をより適切な場所に案内してくれるとありがたいです。これが面白い質問だといいのですが、これは適切な場所です！

11 dataset data-mining census

1

R / mgcv：なぜte（）とti（）テンソル積が異なる表面を生成するのですか？

のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています（非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか）。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)（わずかに）異なる結果を生成するのかということです。 MWE（から適応?ti）： require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

データの前処理と外れ値の検出手法を扱った優れた本

タイトルが進むにつれ、データの前処理全般、特に外れ値の検出手法を扱った最新の優れた本を知っている人はいますか？本はそれだけに焦点を合わせる必要はありませんが、前述のトピックを徹底的に扱う必要があります-私は出発点であるものに満足せず、論文のリストを引用し、さまざまな手法の説明が本自体。欠落データを処理するための手法が望ましいが、必須ではない...

11 dataset data-mining references outliers

1

オバマ氏のキャンペーンにおけるデータマイニング手法

私はオバマ氏の再選キャンペーンのデータマイニングチームに関するこの記事に出くわしました。残念ながら、この記事は統計アルゴリズムの実際の仕組みについて非常にあいまいです。しかし、一般的な手法は社会科学や政治学で知られているように思えました。これは私の専門分野ではないので、誰かがこの種の技法についての文献（概要）を指摘してもらえますか？

10 data-mining social-network social-science

1

Anova（）とdrop1（）がGLMMに異なる回答を提供したのはなぜですか？

次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル（異なるグループでnが等しくない場合）、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。これらの2つの方法の間に違いがあるのはなぜですか？ GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか？これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか？

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

「モデルを学ぶ」という用語はどこから来たのですか

ここのデータマイナーがこの用語を使用することをよく耳にします。分類の問題に取り組んだ統計学者として、「分類子を訓練する」という用語をよく知っており、「モデルを学習する」と同じことを想定しています。「分類子を訓練する」という言葉は気にしません。これは、トレーニングデータを使用してモデルパラメータの適切な「改善された」推定値を取得するため、モデルの当てはめのアイデアを描いているようです。しかし、それは知識を得るための手段を学ぶでしょう。わかりやすい英語で「モデルを学ぶ」とは、それが何かを知ることを意味します。しかし、実際にはモデルを「知る」ことはありません。モデルは現実に近似していますが、正しいモデルはありません。それはボックスが「モデルは正しくないが、いくつかは有用である」と言ったようです。データマイナーの応答を聞きたいです。この用語の由来は？それを使うなら、なぜそれが好きですか？

10 classification data-mining terminology model

5

ロジスティック回帰のデータを分割する手段としてのクラスタリング

私は、ロジスティック回帰モデルのいくつかの機能に基づいて、学生の成功または失敗を予測しようとしています。モデルのパフォーマンスを向上させるために、明らかな違いに基づいて学生を複数のグループに分割し、各グループに個別のモデルを構築することをすでに考えました。しかし、これらのグループを試験で特定するのは難しいかもしれないと思うので、生徒の特徴をクラスタリングして、生徒を分割することを考えました。これは、そのようなモデルを構築する際の一般的な方法ですか？それを明白なグループに分けて（たとえば、最初の学期の生徒と帰国の生徒）、それらのグループでクラスタリングを実行するか、最初からクラスタリングすることを提案しますか？明確にするために：つまり、クラスタリングアルゴリズムを使用して、ロジスティック回帰のトレーニングセットをグループに分割することを検討しています。次に、これらのグループごとに個別のロジスティック回帰を行います。次に、ロジスティック回帰を使用して学生の結果を予測する場合、どのグループに最も適合するかに基づいて、使用するモデルを選択します。おそらく、グループ識別子を含めることで同じことを行うことができます。たとえば、学生が戻ってきた場合は1、戻っていない場合は0などです。これで、母集団ごとに個別のロジスティック回帰モデルを構築するのではなく、トレーニングデータセットをクラスター化し、それらのクラスターラベルをロジスティック回帰の機能として使用する方が有利かどうかについて考えました。帰国生と新入生のグループ識別子を含めると便利な場合は、グループのリストを拡張すると便利でしょうか。クラスタリングは、これを行う自然な方法のようです。それが明確であることを願っています...

10 clustering data-mining logistic

3

バイグラム（N-gram）モデルを使用したテキストドキュメントの特徴ベクトルの構築について

テキストマイニングの機能構築の従来のアプローチはバッグオブワードアプローチであり、tf-idfを使用して、特定のテキストドキュメントを特徴付ける特徴ベクトルを設定することで拡張できます。現在、バイグラム言語モデルまたは（N-gram）を使用して特徴ベクトルを構築しようとしていますが、その方法がよくわかりませんか？単語の代わりにバイグラムで頻度カウントを計算し、tf-idf重み付けスキームを使用してそれを強化する、つまり、bag-of-wordsのアプローチに従うことはできますか？

10 machine-learning data-mining text-mining natural-language language-models

2

一般的なテーマで文字列をグループ化するにはどうすればよいですか？

たとえば、プログラミングに関する文字列とプログラミングに関する他の文字列、物理学に関する文字列と物理学に関する他の文字列などを、さまざまなトピックについてグループ化しようとしています。問題の明白な理論的な言語的側面にもかかわらず、私は実際にプログラミング/ソフトウェアを使用してこれを行うことを探しています。まとめ：多数の文字列がある場合、それらをセマンティックテーマでグループ化するにはどうすればよいですか？特定のアプリケーション：一般的なグループ（車、コンピューター、政治、カナダ、食品、バラクオバマなど）に分類したい約20万の雑学クイズがあります。調べた内容：ウィキペディアには自然言語処理ツールキットのリストがあります（私がやろうとしていることが実際にはNLPと呼ばれていると仮定しています）。注：これを行うには追加の知識が必要であることが指摘されています（たとえば、ポルシェは自動車であり、C ++はプログラミング言語です）。次に、トレーニングデータが必要だと思いますが、質問と回答のリストしかない場合、どうすればトレーニングデータを生成できますか？次に、トレーニングデータをどのように使用しますか？その他のメモ： Q＆Aヘルプの現在のフォーマット（JSONのように見えますが、基本的には未加工のテキストファイルです）の場合： // row 1: is metadata // row 2: is a very specific kind of "category" // row 3: is the question // row 4: is the answer { 15343 A MUSICAL PASTICHE Of classical music's "three B's", he was the one born …

10 natural-language data-mining

3

データセットを最初に一目で見る

私の無知を許してください、しかし... 自分で見つけた新しいデータの束に直面している状況で、自分を見つけ続けています。このデータは通常、次のようになります。 Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 通常、一見、ここに傾向があるかどうかは本当にわかりません。さまざまな列間の相関関係はそれほど重要ではないかもしれませんが、列/カテゴリのすべての可能な組み合わせに対して手動でプロットを作成する必要がなかったとしたら嬉しいです。データのテーブルと、列を数値、日付、カテゴリとして扱う必要がある情報を受け入れ、プロットを開始するツールはありますか？各2つの数値列間の相関各2つの数値列間の相関関係、各カテゴリの個別のトレンドライン時系列としての各数値列、カテゴリで区切られた時系列としての各数値列、等最終的に、これは多数のプロットを生成し、そのほとんどはノイズのみを示します。理想的には、このツールは相関によってプロットにスコアを付け、最終的に最もスコアの高いプロットからスライドショーを表示できます。これは非常に不完全ですが、データセットを一見すると便利です。そう？誰もがこれに使用するツールがあり、私はそれについて知らないだけですか、これは私たちが作る必要があるものですか？

10 data-visualization correlation data-mining eda

タグ付けされた質問 「data-mining」

タグ付けされた質問「data-mining」