統計とビッグデータ data-mining

2

統計についてはあまり知りませんので、ご容赦ください。1000人の労働者のセットがあるとします。私は最も困難な労働者が誰であるかを知りたいのですが、1時間に相当する1時間から100人のグループで行われる作業量しか測定できません。各労働者が常にほぼ同じ量の作業を行うと仮定すると、多数の試行と組み合わせで、最も勤勉な人によって私の労働者をランク付けできますか？注：これは単なる比喩なので、実際にテストを実行することについて心配しないでください。大量のデータセットがすでにあると仮定してください。編集：「各労働者が常にほぼ同じ量の仕事をすることを想定している」と私が言うとき、私は各個人が日常的にほぼ同じ量の仕事をすることを意味します。したがって、Joeyは毎日約100単位の作業を行い、Gregは約50の作業を行います。問題は、グループで行われた作業単位の数しか観察できないことです。その他の編集：一度に作業する労働者の数と作業頻度について。同時に働く労働者の数はいくらでもあり得ます。一部の労働者はおそらく他の労働者よりもはるかに多く働くことになります。つまり、一部の労働者はほぼ90％の時間勤務し、他の労働者はほとんど勤務しないと想定できます。私はそれが難しいことを知っていますが、私は非常に大きなデータセットを持っているので、それが少し簡単になることを願っています。 1時間ごとに、どのワーカーが作業しているか、どのくらいの作業が完了したかがわかります。その情報から、誰が最も多くの仕事をしているのかを知りたいのです。データがJSON形式の場合、次のようになります。 [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] }, { "work_done": 432, "Workers": [ "steve", "joe", "andy"] }, { "work_done": 59042, "Workers": [ "bob", "aaron", "michelle", "scott", "henry" ] }, ... ]

9 r regression data-mining

2

サポートベクターマシンでのガンマパラメーターの使用

を使用するlibsvm場合、パラメーターはカーネル関数のパラメーターです。デフォルト値はγ = 1に設定されていますγγ\gammaγ=1number of features.γ=1number of features.\gamma = \frac{1}{\text{number of features.}} グリッド検索などの既存の方法以外に、このパラメーターを設定するための理論的なガイダンスはありますか？

9 machine-learning svm data-mining libsvm kernel-trick

2

感情分析の理解と適用

私は、いくつかのドキュメントコレクションの感情分析を行うプロジェクトに割り当てられていたところです。グーグルによって、多くの感情関連の研究が浮上しています。私の質問は：機械学習と統計分析の分野における感情分析の主な方法/アルゴリズムは何ですか？確立された結果はありますか？感情分析を実行できる既存のオープンソースソフトウェアはありますか？

9 machine-learning data-mining text-mining information-retrieval sentiment-analysis

2

分類のためにトレーニングセットから重複を削除する

分類問題のための行がたくさんあるとしましょう：バツ1、。。。バツN、Yバツ1、。。。バツN、YX_1, ... X_N, Y どこ機能/予測因子であると、行の機能の組み合わせが属するクラスです。バツ1、。。。、XNバツ1、。。。、バツNX_1, ..., X_NYYY 多くの特徴の組み合わせとそれらのクラスがデータセットで繰り返されています。これは、分類器を適合させるために使用しています。重複を削除することは許容できるかどうか疑問に思っていgroup by X1 ... XN Yます（基本的にSQLでa を実行します）？ありがとう。 PS：これは、クラスの事前分布がかなり歪んでいるバイナリプレゼンスのみのデータセット用です。

9 machine-learning classification data-mining logistic stratification

5

ピアソン相関を超えて何ができますか？

2つの変数が相関しているかどうかを確認しているときに、ピアソン相関を適用すると0.1と低い数値が得られ、相関がないことを示しました。この主張を強化するために私にできることはありますか？私が見ているデータセット（投稿制限のためのサブセット）はこれです： 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 0.867394771 5357.506176 0.052263122 3612.97728 0.091337414 6162.178176 0.053065652 867.436416 0.129116092 556.833024 1.01107509 1517.611392 168.1484478 1517.611392 35.11570899 4675.14432 0.053902079 4182.685056 0.070289777 2808.30528 0.071929502 5969.056896 0.47193385 3247.656192 0.896646636 4387.071744 0.056985619 6273.222912 0.046547047 4387.071744 0.034875199 7946.940672 0.074997414 …

9 correlation data-mining pearson-r

3

平易な英語のアプリオリアルゴリズム？

アプリオリに関するウィキの記事を読みました。プルーンと結合のステップを理解できません。Aprioriアルゴリズムがどのように機能するかを簡単に説明できますか（私のような初心者が簡単に理解できるように）。誰かがそれに含まれる段階的なプロセスを説明してくれると良いでしょう。

9 data-mining algorithms frequentist

3

非常に大きなデータセットから重要な変数をすばやく選択するにはどうすればよいですか？

約2,000のバイナリ変数/ 200,000行のデータセットがあり、単一のバイナリ従属変数を予測しようとしています。この段階での私の主な目標は、予測の正確さを得ることではなく、これらの変数のどれが重要な予測子であるかを識別することです。最終モデルの変数の数を約100に減らしたいのですが。最も重要な変数を取得する比較的迅速な方法はありますか？randomForestに時間がかかっているようです。 200,000件すべてを使用する必要はないので、サンプリングはテーブルのオプションです。

9 machine-learning data-mining large-data

2

バイクラスタリングの概要

私は、バイクラスターに関するカジュアルなインターネット調査を行っています。（私はWikiの記事を何度か読みました。）これまでのところ、定義や標準的な用語がほとんどないようです。バイクラスターを見つけるためのアルゴリズムに興味がある人なら誰でも読むべき標準的な論文や本があるのかと思っていました。この分野の最新技術とは何でしょうか。遺伝的アルゴリズムを使用してバイクラスターを見つけるという概念に興味をそそられたので、特に他のアプローチのコンテキストでそのアプローチについてコメントをいただければ幸いです。通常、クラスタリングの目的は、データセットをグループに分割して、各要素がいくつかのグループに含まれるようにすることです。バイクラスターアルゴリズムは、すべての要素を特定のグループに配置することも試みますか？

9 clustering data-mining

2

データのROC曲線を計算する

そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線（FPR対TPR OR FAR対FRR）を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

ランダムフォレストは、不均衡なデータ分類に適したオプションですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか？

9 machine-learning classification data-mining supervised-learning statistical-learning

2

高度に不均衡なテストデータセットと分類におけるバランスのとれたトレーニングデータ

約3000の正のインスタンスと3000の負のインスタンスのトレーニングセットがあります。しかし、私のテストデータセットはほとんどバランスが取れていません。正のセットには50個のインスタンスしかなく、負のセットには1500個のインスタンスがあります。これにより、精度が非常に低くなります。この問題を解決する方法はありますか？SVMを使用して分類子を作成します。

9 machine-learning classification data-mining svm

1

過剰適合を測定して回避するためのベストプラクティスは？

株式市場向けの自動取引システムを開発しています。大きな課題は過剰適合です。過剰適合を測定して回避する方法を説明するリソースをいくつか推奨できますか？私はトレーニング/検証セットから始めましたが、検証セットは常に汚染されています。また、市場は常に変化しているため、時系列データも常に変化しています。これをどのように測定し、目に見えないデータで一貫した結果が得られる可能性を判断しますか？ありがとう。

9 time-series machine-learning dataset data-mining validation

1

SVMコスト関数：新旧の定義

ソフトマージンSVMコスト/損失関数のさまざまな定義を主形式で調整しようとしています。理解できない「max（）」演算子があります。 SVMについては、Tan、Steinbach、およびKumarによる2006年の学部レベルの教科書「Introduction to Data Mining」で2006年に学びました。第5章のp。267-268。max（）演算子については言及されていないことに注意してください。これは、最適化問題の制約に正の値のスラック変数（）を導入することで実行できます。...修正された目的関数は次の方程式で与えられます。ξξ\xi f(w)=∥w∥22+C(∑Ni=1ξ)kf(w)=‖w‖22+C(∑i=1Nξ)k f(\mathbf{w}) = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k ここで、CCCとkkkはユーザー指定のパラメーターであり、トレーニングインスタンスの誤分類のペナルティを表します。このセクションの残りの部分では、問題を簡単にするためにkkk = 1 と仮定します。パラメータCCCは、検証セットでのモデルのパフォーマンスに基づいて選択できます。したがって、この制約付き最適化問題のラグランジアンは次のように書くことができます。 Lp=∥w∥22+C(∑Ni=1ξ)k−∑Ni=1λi(yi(w⋅xi+b)−1+ξi)−∑Ni=1μiξiLp=‖w‖22+C(∑i=1Nξ)k−∑i=1Nλi(yi(w⋅xi+b)−1+ξi)−∑i=1Nμiξi L_{p} = \frac{\left \| \mathbf{w} \right \|^2}{2} + C(\sum_{i=1}^{N} \xi)^k - \sum_{i=1}^{N} \lambda_i (y_i (\mathbf{w} \cdot \mathbf{x_i} + b) - 1 + \xi_i) - \sum_{i=1}^{N} \mu_i \xi_i …

9 machine-learning classification svm data-mining loss-functions

1

CART：不純物減少の増加が等しい場合の分割に最適な予測子の選択？

私の質問は分類木を扱っています。Irisデータセットの次の例を考えてみます。最初の分割に最適な予測子を手動で選択したい。CARTアルゴリズムによると、分割を行うための最良の機能は、パーティションの不純性の減少を最大化する機能であり、ジニゲインとも呼ばれます。 G i n i G a i n （N、X）= G i n i （N）− | N1|| N|G i n i （N1）− | N2|| N|G i n i （N1）G私ん私Ga私ん（N、バツ）=G私ん私（N）−|N1||N|G私ん私（N1）−|N2||N|G私ん私（N1）GiniGain(N,X)=Gini(N)-\frac{\lvert N_{1} \rvert }{\lvert N \rvert }Gini(N_{1})-\frac{\lvert N_{2} \rvert }{\lvert N \rvert }Gini(N_{1}) ここで、与えられた機能であり、分割がなされるべきでノードであり、と分割することによって作成された2つのつの子ノードである。は、ノードの要素数です。バツバツXNNNN1N1N_{1}N2N2N_{2}NNN| 。||。|\lvert . \rvert そして、。ここで、はノード内のカテゴリの数です KG i n …

8 r machine-learning classification data-mining cart

1

PCAを前処理ステップとして使用するのが適切なのはいつですか？

PCAは、データセットを2Dまたは3Dでプロットできるように次元削減に使用されることを理解しています。しかし、PCAを分類シナリオの前処理ステップとして適用して特徴の数を減らし、新しい特徴としていくつかの主成分（共分散行列の固有ベクトル）を使用する人を見たこともあります。私の質問：分類のパフォーマンスにどのような影響がありますか？そのような前処理ステップをいつ適用するのですか？実数として10個の特徴とカテゴリカル特徴を表す600個のバイナリ特徴を含むデータセットがあり、それらを表すために1対多のエンコーディングを使用しています。ここでPCAを適用すると意味があり、より良い結果が得られますか？質問が広すぎる場合は、そのようにPCAを使用する方法の詳細をより詳しく説明するペーパーまたはチュートリアルを提供していただければありがたいです。少し読んだ後、カテゴリ属性のバイナリ機能の数を減らすには、潜在セマンティック分析を使用する方が良いことがわかりましたか？したがって、私は実数値の特徴には触れず、バイナリ特徴を前処理して、実数値の特徴を新しい特徴と組み合わせ、分類器をトレーニングするだけです。どう思いますか？

8 machine-learning pca data-mining dimensionality-reduction

タグ付けされた質問 「data-mining」

タグ付けされた質問「data-mining」