タグ付けされた質問 「data-mining」

データマイニングは、データベースコンテキストで人工知能の手法を使用して、以前は未知だったパターンを発見します。そのため、メソッドは通常監視されていません。機械学習とは密接に関連していますが、同一ではありません。データマイニングの主要なタスクは、クラスター分析、異常値の検出、相関ルールのマイニングです。

2
「ビッグデータ」から有効な結論を引き出すには?
「ビッグデータ」はメディアのいたるところにあります。「ビッグデータ」は2012年の大きなものだと誰もが言います。たとえば、KDNuggetsは2012年のホットなトピックについて投票します。しかし、私はここで深い懸念を持っています。ビッグデータでは、誰もが何かを手に入れるだけで幸せに思えます。しかし、仮説検定や代表的なサンプリングなど、古典的な統計原則すべてに違反しているのではないでしょうか? 同じデータセットについてのみ予測を行う限り、これは問題ないはずです。したがって、Twitterユーザーの行動を予測するためにTwitterデータを使用する場合、おそらく大丈夫です。ただし、たとえば選挙を予測するためにTwitterデータを使用すると、Twitterユーザーが全人口の代表的なサンプルではないという事実は完全に無視されます。さらに、ほとんどの方法では実際に「草の根」の雰囲気とキャンペーンを区別できません。そしてツイッターはキャンペーンでいっぱいです。そのため、Twitterを分析するとき、すぐにキャンペーンとボットを測定することになります。(たとえば、「Yahooはアメリカの政治的勝者を予測する」を参照してください)これは世論調査のバッシングと「感情分析がはるかに優れている」でいっぱいです。彼らは、「ロムニーはノミネートに勝ち、サウスカロライナのプライマリーに勝つ可能性が90%以上ある」と予測した(彼は28%、ギンリッチはこのプライマリーに40%いた)。 他のそのようなビッグデータが失敗することを知っていますか?ある科学者は、あなたが150以上の友情を維持できないと予測したことを大まかに覚えています。彼は実際にフレンドスターの上限を発見しただけでした... twitterデータ、または実際にWebから収集された「ビッグデータ」については、データを収集する方法によって人々がさらにバイアスをかけることさえあると思います。ツイッターのすべてを持つ人はほとんどいません。彼らはスパイダーした特定のサブセットを持ちますが、これはデータセットのさらに別のバイアスです。 データをテストセットに分割したり、相互検証を実行したりすることは、あまり役に立ちません。他のセットには同じバイアスがあります。また、ビッグデータの場合、情報を「圧縮」する必要があるため、過剰に圧縮されることはほとんどありません。 最近、このジョークを聞いたことがあります。ビッグデータの科学者は、世界には約6種類の性別があることを発見しました...そして、これはまさに想像できます。 それでは、特に「ビッグデータ」データセット以外の何かを予測しようとする場合、分析に統計的妥当性を戻すためにどのような方法が必要ですか?

5
データマイニングのリフトメジャー
私は多くのウェブサイトを検索して、リフトが正確に何をするのかを知りましたか?私が見つけたすべての結果は、それ自体ではなくアプリケーションでそれを使用することに関するものでした。 サポートと信頼機能について知っています。ウィキペディアのデータマイニングでは、リフトはケースの予測または分類におけるモデルのパフォーマンスの尺度であり、ランダム選択モデルに対して測定されます。しかし、どのように?信頼度*サポートはリフトの値です別の数式も検索しましたが、リフトチャートが予測値の精度で重要である理由を理解できませんリフトの背後にあるポリシーと理由を知りたいですか?

5
ベイジアンのように考え、頻度の高い人のように確認してください。それはどういう意味ですか?
ここにあるデータサイエンスコースの講義スライドをいくつか見ています。 https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf 残念ながら、この講義のビデオを見ることができず、スライドのある時点で、プレゼンターには次のテキストがあります。 いくつかの重要な原則 ベイジアンのように考え、周波数主義者のように確認する(和解) 誰がそれが実際に何を意味するか知っていますか?これから集められるべきこれらの2つの考え方について、良い洞察があると感じています。

3
ロジスティック回帰の95%信頼区間を手動で計算することと、Rでconfint()関数を使用することに違いがあるのはなぜですか?
皆さん、私は説明できない奇妙なことに気づきました、できますか?要約すると、ロジスティック回帰モデルで信頼区間を計算する手動のアプローチとR関数confint()は異なる結果をもたらします。 Hosmer&LemeshowのApplied Logistic Regression(第2版)を行ってきました。第3章には、オッズ比と95%の信頼区間を計算する例があります。Rを使用すると、モデルを簡単に再現できます。 Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.8408 0.2551 -3.296 0.00098 *** as.factor(dataset$dich.age)1 2.0935 0.5285 3.961 7.46e-05 *** --- Signif. codes: 0 ‘***’ 0.001 …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

6
データマイニング:機能フォームを見つけるにはどうすればよいですか?
私は、関数の関数形を発見するために使用することができ、再現手順について興味がy = f(A, B, C) + error_term私の唯一の入力は、観測値の集合である場合(y、A、BおよびC)。の機能形式fは不明であることに注意してください。 次のデータセットを検討してください。 AA BB CC DD EE FF == == == == == == 98 11 66 84 67 10500 71 44 48 12 47 7250 54 28 90 73 95 5463 34 95 15 45 75 2581 56 37 0 79 43 3221 …

1
ブースティングの相対的な変数の重要性
Gradient Boosted Treesで相対的な変数の重要度がどのように計算されるかについての説明を探しています。 メジャーは、変数が分割用に選択された回数に基づいており、各分割の結果としてモデルに対する2乗改善によって重み付けされ、すべてのツリーで平均されます。[ Elith et al。2008年、回帰ツリーをブーストするためのワーキングガイド ] そして、それは以下よりも抽象的ではありません: I2j^(T)=∑t=1J−1i2t^1(vt=j)Ij2^(T)=∑t=1J−1it2^1(vt=j)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 合計がJ末端ノードツリーTの非末端ノードに対するものであり、v tはノードtに関連付けられた分割変数であり、^ i 2 tは、定義された分割の結果としての二乗誤差の対応する経験的改善ですas i 2(R l、R r)= w l w rtttJJJTTTvtvtv_{t}ttti2t^it2^\hat{i_{t}^2}、 ¯ のY L、 ¯ Y Rはそれぞれ左右娘応答手段であり、WL、WR重みの対応する和です。i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2yl¯,yr¯yl¯,yr¯\bar{y_{l}}, \bar{y_{r}}wl,wrwl,wrw_{l}, w_{r}[フリードマン2001、グリーディ関数近似:勾配ブースティングマシン] 最後に、関連するセクション(10.13.1ページ367)が上記の2番目のリファレンス(説明される可能性がある)と非常に似ているため、統計学習の要素(Hastie et al。2008)がここで非常に役立つとは思いませんでした。フリードマンが本の共著者であるという事実によって)。 PS:相対変数の重要度の測定値は、gbm Rパッケージのsummary.gbmによって提供されることを知っています。ソースコードを調べようとしましたが、実際の計算がどこで行われているのか見つけることができないようです。 ブラウニーポイント:これらのプロットをRで取得する方法を知りたい

1
「聖書コード」エピソードから統計的な教訓がありますか
この質問は多少主観的ですが、よくある質問のガイドラインに従って、それが良い主観的な質問として適格であることを願っています。それは、1年前にOlleHäggströmが私に尋ねた質問に基づいています。私はそれについていくつかの考えを持っていますが、明確な答えはありません。 バックグラウンド: D. Witztum、E。Rips、およびY. Rosenbergによる「創世記の等距離文字列」と題された論文は、創世記のヘブライ語のテキストは、テキストの千年後まで起こらなかった出来事をコード化するという異常な主張をした書かれた。この論文は、1994年に「Statistical Science」(Vol。9 429-438)によって発行され、その解決策が統計分野に貢献する可能性のある「挑戦的なパズル」として提供されました。 返信として、B。マッケイ、D。バー-ナタン、M。バー-ヒレル、G。カライによる「Solving the Bible code puzzle」というタイトルの別の論文が1999年に統計科学に登場しました(Vol。14(1999)150-173) 。新しい論文は、ウィッツトゥム、リプス、ローゼンバーグの事例は致命的な欠陥であり、実際、それらの結果は実験の設計とそのためのデータ収集で行われた選択にのみ反映していると主張しています。この論文は、その結論を裏付ける広範な証拠を提示しています。 (私たちの紙の第8章にまとめられている私自身の関心は別で詳述されている技術的なレポートと題しバーヒレルとマッケイと「2つの有名なラビ実験を:あまりにも似ているか似て?」も参照してください。このサイト。) 質問: OlleHäggströmの具体的な質問: 「かつて、データマイニングと関連技術の落とし穴を説明する目的で、あなたの論文が上級学部レベルの統計コースで役立つかもしれないと提案しました。同意しますか?」 オルレの質問に加えて、より一般的な質問をさせてください。 聖書コードのエピソードから学んだ統計に関連する何か(おそらく興味深い質問を含む)はありますか。 明確にするために、私の質問は統計に関連する洞察に限定され、このエピソードの他の側面には限定されません。

8
データマイニングと機械学習の準備として、どのような数学の科目を提案しますか?
私は、データマイニングと機械学習の学習に備えるために、自主的な数学のカリキュラムをまとめようとしています。これは、Andrew Ngの機械学習クラスをCourseraで開始し、先に進む前に数学のスキルを向上させる必要があると感じたことがきっかけです。私は少し前に大学を卒業したので、私の代数と統計(特に政治学/心理学のクラスから)はさびています。 スレッドの回答数学の強力なバックグラウンドはMLの必須条件ですか?機械学習に直接関連する書籍またはクラスのみを提案します。私はすでにそれらのクラスと本のいくつかを調べましたが、どの数学の研究対象かを正確に知りません(たとえば:数学のどの分野が「コスト関数を最小化する」方程式を導き出しますか?)。提案されているもう1つのスレッド(スキルとコースワークはデータアナリストである必要があります)は、データの分析に必要なスキルの幅広いカテゴリのみに言及しています。私はまだ数学の学位を持っていないので、スレッド「数学者のための統計入門」は当てはまりません。同様のスレッド数学者は、同等の知識を質の高い統計学の程度に望んでいます 統計書の信じられないほどのリストを持っていますが、再び、私は代数のさびた思い出から数学を始めて、そこから上に向かっているのを見ています。 それで、機械学習とデータマイニングで働く人にとって、仕事をするために数学のどの分野が不可欠だと思いますか?データマイニングと機械学習の準備として、どのような数学科目を、どのような順序で提案しますか?ここに私がこれまでに持っているリストと順序があります: 代数 事前計算 微積分 線形代数 確率 統計(ここには多くの異なるサブフィールドがありますが、それらをどのように分割するかわかりません) データマイニングと機械学習については、現在の仕事を通じて、ウェブサイト/アプリのアクティビティ、顧客/サブスクリプショントランザクション、および不動産データ(静的および時系列の両方)の記録にアクセスできます。これらのデータセットにデータマイニングと機械学習を適用したいと考えています。 ありがとうございました! 編集: 後世のために、Geoffrey Gordon / Alex Smolaの機械学習入門で役立つ数学の自己評価を共有したかった CMUのクラスでです。

2
段階的な選択を実行した後にp値が誤解を招くのはなぜですか?
たとえば、線形回帰モデルを考えてみましょう。データマイニングで、AIC基準に基づいて段階的な選択を行った後、p値を見て、各真の回帰係数がゼロであるという帰無仮説をテストするのは誤解を招くと聞きました。代わりに、モデルに残っているすべての変数がゼロとは異なる真の回帰係数を持っていると考える必要があると聞きました。誰も私に理由を説明できますか?ありがとうございました。

1
標準および球面k-meansアルゴリズムの違い
標準と球状のk-meansクラスタリングアルゴリズムの主要な実装の違いは何かを理解したいと思います。 各ステップで、k-meansは要素ベクトルとクラスター重心間の距離を計算し、重心が最も近いクラスターにドキュメントを再割り当てします。次に、すべての重心が再計算されます。 球面k-meansでは、すべてのベクトルが正規化され、距離測定は余弦の非類似度です。 それだけですか、それとも何かありますか?

9
大規模なデータセットを扱うための統計およびデータマイニングソフトウェアツール
現在、約2,000万件のレコードを分析し、予測モデルを作成する必要があります。これまでのところ、Statistica、SPSS、RapidMiner、Rを試しました。これらの中で、Statisticaはデータマイニングに最も適しているようで、RapidMinerユーザーインターフェイスも非常に便利ですが、Statistica、RapidMiner、およびSPSSは小さなデータセットにのみ適しているようです。 誰もが大規模なデータセットに適したツールを推奨できますか? ありがとうございます!

7
機械学習科学者の毎日の仕事は何ですか?
私は現在、論文を書いているドイツの大学のマスターCS学生です。私は博士号を継続するか、業界で仕事を見つける必要がある場合、私は非常に難しい決定を下す必要があります2ヶ月で完了します。 博士号取得の理由: 私は非常に好奇心が強い人だと私は私がまだ欠けていると感じあまり知識を。私は多くのことを学びたいです。博士課程はそのために役立ちます。より良いコースを行い、大量の論文を読み、データマイニングと機械学習の専門家になることができるからです。私は数学が大好きですが、私の学部では得意ではありませんでした(悪い大学)。今、このドイツ語のユニで、私は多くの素晴らしい数学スキルを開発したと感じています。私は本当に数学が大好きなので、それを改善したいと思います!(私は学部生と生涯で数学が本当に悪かったのですが、今ではうまく数学ができると思います!) 知的にやりがいのある仕事をします。 私は正直に言う必要があり、また、私は私よりも高い学位を持つ他の人に会うことを嫌います。したがって、私が通りを歩いて博士号を持つ人に会ったら、「ああ、この男は私より賢いわ」と言う必要はありません。私は反対側にいることを好む。;) 博士号を取得しない理由: 私はインターネットで博士号を取得するかしないかについて読みました。ほとんどの場合、博士号を持つ人は、マスターを持つ人と同じような仕事をすることがわかりました。(これはコンピューターサイエンスの一般的な観察であり、ML / DMに関するものではありませんでした)。 キャリアを始めて1〜2年で大金を稼ぐことができれば、おそらく自分の会社を始めることができます。 まだ明確ではないもの: 最後に私の最終目標が何であるかはまだわかりません。それは有名な小さな会社を持つことですか?それとも有名な科学者になることですか?まだこの質問に対する答えがありません。 決断を下すために、次の2つのことを知りたいと思います。 業界で修士号を取得したデータサイエンティスト/機械学習者として働くことはどのようなものですか?どんな仕事をしていますか?特に、機械学習の科学者としてアマゾンでそれらの広告を読んだとき、私はいつも彼らが何をするのだろうと思います。 前と同じ質問ですが、博士号があります。マスターと何か違うことや同じことをしていますか? 挑戦的な興味深い問題に対処するつもりですか?または退屈なものですか? ちょっとした注意として:私は機械学習の博士号を持つ男(ドイツ)を見て、機械学習ソフトウェアを宣伝する会社で働いています。私が理解したように、彼の仕事のほとんどは、人々に方法とソフトウェア(意思決定ツリーなど)を使用するように訓練することです。 いくつかの有名な良い会社でドイツ/スイスに関連した経験の答えを得ることができれば素晴らしいと思います。

3
LSAとPCA(ドキュメントクラスタリング)
ドキュメントクラスタリングで使用されるさまざまな手法を調査していますが、PCA(主成分分析)およびLSA(潜在的意味分析)に関するいくつかの疑問をクリアしたいと思います。 まず、それらの違いは何ですか?PCAでは、SVD分解が用語共分散行列に適用されるのに対して、LSAでは用語文書行列です。他に何かありますか? 第二-文書クラスタリング手順における彼らの役割は何ですか?これまで読んだことから、それらの目的は次元の削減、ノイズの削減、表現間の用語間の関係の組み込みであると推測します。PCAまたはLSAを実行した後、k-meansやagglomerative methodなどの従来のアルゴリズムが縮小タームスペースに適用され、コサイン距離などの一般的な類似度が使用されます。私が間違っている場合は修正してください。 第三-PCA / LSAを適用する前にTF / IDF項ベクトルを正規化するかどうかは重要ですか?そして、その後、再び正規化する必要がありますか? 4番目-LSA / PCAによって削減された用語スペースでクラスタリングを実行したとしましょう。次に、結果クラスターにラベルをどのように割り当てる必要がありますか?寸法は実際の単語に対応していないため、かなり難しい問題です。私の頭に浮かぶ唯一のアイデアは、元の用語ベクトルを使用して各クラスターの重心を計算し、上位の重みを持つ用語を選択することですが、あまり効率的ではありません。この問題の特定の解決策はありますか?何も見つかりませんでした。 これらの問題を明確にしてくれてとても感謝しています。

3
マルチラベルデータの精度の尺度は何ですか?
KnownLabel MatrixおよびPredictedLabelマトリックスが提供されているシナリオを考えます。KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定したいと思います。 ただし、ここでの課題は、KnownLabel Matrixに含まれる行の数が1のみであり、他の少数の行に1が多いことです(これらのインスタンスには複数のラベルが付けられます)。KnownLabel Matrixの例を以下に示します。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 上記のマトリックスでは、データインスタンス1と2は単一のラベルデータ、データインスタンス3と4は2つのラベルデータ、データインスタンス5は3つのラベルデータです。 これで、アルゴリズムを使用したデータインスタンスのPredictedLabel Matrixができました。 KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定するために使用できるさまざまな測定値を知りたいです。 私は、それらの間のフロベヌスのノルムの違いを尺度の一つと考えることができます。しかし、精度などの指標を探してい(= Correctly_predicted_instancetotal_instance)(=Correctly_predicted_instancetotal_instance)(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) ここで、複数のデータインスタンスに対してをどのように定義できますか?C O R 、R 、E 、C 、T 、LのY _ P R E D I C T E …


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.