タグ付けされた質問 「data-mining」

データマイニングは、データベースコンテキストで人工知能の手法を使用して、以前は未知だったパターンを発見します。そのため、メソッドは通常監視されていません。機械学習とは密接に関連していますが、同一ではありません。データマイニングの主要なタスクは、クラスター分析、異常値の検出、相関ルールのマイニングです。


8
特徴点ごとのデータではなく、距離行列のみを使用してK平均(またはその近縁)クラスタリングを実行します。
所有しているオブジェクトに対してK-meansクラスタリングを実行したいのですが、オブジェクトは空間内のポイント、つまりobjects x featuresデータセットによって記述されていません。ただし、2つのオブジェクト間の距離は計算できます(類似度関数に基づいています)。そのため、距離行列を破棄しobjects x objectsます。 私は以前にK-meansを実装しましたが、それはポイントデータセットの入力でした。距離行列の入力では、ポイント表現なしでクラスタを「中心」に更新する方法が明確ではありません。これは通常どのように行われますか?そのために、それに近いK-meansまたはメソッドのバージョンはありますか?

5
データマイニングの新しい革新的な方法は?
次の抜粋は、一貫して成功しているヘッジファンドマネージャーのJaffray WoodriffとのインタビューであるSchwagerのHedge Fund Market Wizzards(2012年5月)からのものです。 「データマイニングで発生する最悪のエラーにはどのようなものがありますか?」: 多くの人は、トレーニングにサンプル内データを使用し、テストにサンプル外データを使用するため、大丈夫だと考えています。次に、サンプル内のデータで実行した方法に基づいてモデルを並べ替え、サンプル外のデータでテストするのに最適なモデルを選択します。人間の傾向は、サンプル外のデータで引き続き成功するモデルを採用し、それらのモデルを取引用に選択することです。このタイプのプロセスは、サンプル外のデータをトレーニングデータの一部に単純に変換します。これは、サンプル外の期間で最高の結果が得られたモデルを選択するためです。これは、人々が犯す最も一般的なエラーの1つであり、通常適用されるデータマイニングがひどい結果をもたらす理由の1つです。 インタビュアーは、「あなたは代わりに何をすべきですか?」 平均して、サンプル外のすべてのモデルが引き続き良好に機能するパターンを探すことができます。サンプル外モデルの平均がサンプル内スコアのかなりの割合である場合、あなたはうまくやっていることがわかります。一般的に、サンプル外の結果がサンプル内の50%を超える場合、実際にどこかに到達しています。SASとIBMが優れた予測モデリングソフトウェアを構築していた場合、QIMのビジネスモデルは機能しませんでした。 私の質問 これは理にかなっていますか?彼はどういう意味ですか?あなたは手がかりを持っていますか?あるいは提案された方法といくつかの参考文献の名前さえありますか?または、この男は誰も理解していない聖杯を見つけましたか?彼はこのインタビューで、彼の方法は潜在的に科学に革命をもたらす可能性があるとも述べています...

3
ビッグデータの最初のステップ(
1日あたり数十億回の観測値で膨大なデータセットを分析しており、各観測値には数千のスパースで冗長な数値変数およびカテゴリ変数があるとします。回帰問題が1つ、不均衡なバイナリ分類問題が1つ、「どの予測変数が最も重要かを調べる」タスクが1つあるとします。問題にアプローチする方法についての私の考えは次のとおりです。 次の状態になるまで、データの次第に大きくなる(ランダムな)サブサンプルに予測モデルを適合させます。 モデルの適合と相互検証が計算上困難になります(たとえば、ラップトップで不当に遅くなる、Rでメモリが不足するなど)、または トレーニングおよびテストRMSEまたは精度/リコール値が安定します。 トレーニングエラーとテストエラーが安定しなかった場合(1.)、より単純なモデルを使用するか、モデルのマルチコアバージョンまたはマルチノードバージョンを実装して、最初からやり直します。 トレーニングエラーとテストエラーが安定した場合(2.): 場合(つまり、私はまだ上のアルゴリズムを実行することができますそれはまだ大きすぎないよう)、特徴空間の拡大や、より複雑なモデルを使用して、最初から再起動することで、パフォーマンスを改善しよう。Nsubset≪NNsubset≪NN_{subset} \ll NXsubsetXsubsetX_{subset} 場合「大きい」およびさらなる分析を実行することは高価であり、変数の重要度および終了を分析します。NsubsetNsubsetN_{subset} 私のようなパッケージを使用する予定のbiglm、speedglm、multicore、およびffR中に最初に、そして後に必要に応じて、より複雑なアルゴリズムおよび/または(EC2上の)マルチノードを使用します。 これは理にかなったアプローチのように聞こえますか?そうであれば、具体的なアドバイスや提案はありますか?そうでない場合、このサイズのデータ​​セットに対して代わりに何を試してみますか?

4
決定木はほとんど常に二分木ですか?
私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか?ほとんどの標準アルゴリズム(C4.5、CARTなど)はバイナリツリーのみをサポートしていますか?私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。 子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。

2
モデル選択後の相互検証(エラーの一般化)
注:ケースはn >> pです 統計学習の要素を読んでいますが、相互検証を行う「正しい」方法についてさまざまな言及があります(60ページ、245ページなど)。具体的には、私の質問は、モデル検索が行われたときに、k分割CVまたはブートストラップを使用して最終モデルを評価する方法です(個別のテストセットなし)。ほとんどの場合(組み込み機能選択なしのMLアルゴリズム)、 機能選択ステップ メタパラメーターの選択手順(SVMのコストパラメーターなど)。 私の質問: トレーニングセット全体で機能の選択を行い、脇に置いて、機能の選択手順を実行できることを確認しました。次に、kフォールドCVを使用して、特徴選択アルゴリズムが各フォールドで使用され(場合によっては毎回選択される異なる特徴を取得)、エラーが平均化されます。次に、すべてのデータ(確保された)を使用して選択された機能を使用して最終モードをトレーニングしますが、クロス検証からのエラーをモデルの将来のパフォーマンスの推定値として使用します。これは正しいです? クロス検証を使用してモデルパラメーターを選択する場合、モデルのパフォーマンスを後で推定する方法は?上記の#1と同じプロセスですか、54ページ(pdf)または他の何かに示されているようなネストされたCVを使用する必要がありますか? 両方のステップ(機能とパラメーターの設定)を実行しているとき.....その後、何をしますか?複雑なネストされたループ? 別のホールドアウトサンプルがある場合、懸念はなくなり、クロス検証を使用して機能とパラメーターを選択できます(パフォーマンスの見積もりはホールドアウトセットから取得されるため、心配する必要はありません)?

2
k-meansクラスタリングが混合ガウスモデリングの形式である場合、データが正常でない場合に使用できますか?
GMMのEMアルゴリズムと、GMMとk-meansの関係についてBishopを読んでいます。 この本では、k-meansはGMMのハードアサインバージョンです。私は、クラスター化しようとしているデータがガウスではない場合、k-meansを使用できない(または少なくとも使用に適していない)ことを意味しているのだろうか?たとえば、データがそれぞれ値0または1の8 * 8ピクセルで構成される手書き数字の画像である場合(そしてそれらが独立していると仮定して、ベルヌーイの混合物である必要がある場合)? 私はこれについて少し混乱していますが、どんな考えでも感謝します。

4
データが線形分離可能かどうかを知る方法は?
データには多くの機能(100など)があり、インスタンスの数は100,000程度です。データはまばらです。ロジスティック回帰またはsvmを使用してデータを近似します。非線形の場合にカーネルトリックを使用できるように、フィーチャが線形か非線形かをどのように知ることができますか?

2
ディープラーニングはどこで、なぜ輝くのですか?
最近のディープラーニングに関するすべてのメディアトークと誇大広告で、私はそれについていくつかの基本的なものを読みました。データからパターンを学習するのは、別の機械学習方法であることがわかりました。しかし、私の質問は次のとおりです。この方法がどこで、なぜ輝くのか。なぜ今それについてのすべての話ですか?つまり、大騒ぎとは何ですか?

2
StackExchangeの質問に対する「興味深い」機能
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 8年前に移行され ました。 StackExchangeサイトのデータマイニングパッケージを作成しようとしています。特に、「最も興味深い」質問を決定しようとしています。質問スコアを使用したいが、ビューの数に起因するバイアスを削除したいが、これに厳密にアプローチする方法がわからない。 理想的な世界では、計算することで質問を並べ替えることができます。ここで、は総投票数、は視聴回数です。結局、質問に賛成票を投じた人の割合から、質問に反対票を投じた人の割合を引いたものを測定します。 vnvnvn\frac{v}{n}vvvnnn 残念ながら、投票パターンははるかに複雑です。投票は一定のレベルまで「停滞」する傾向があり、これは非常に人気のある質問を大幅に過小評価する効果があります。実際には、1回のビューと1回の賛成票を持つ質問は、確実にスコアが付けられ、10,000回のビューを持つが10,000票未満のその他の質問よりも高くソートされます。 現在、を経験式として使用していますが、正確にしたいと思います。数学的な厳密さでこの問題にどのようにアプローチできますか?vログn +1vlog⁡n+1\frac{v}{\log{n}+1} コメントのいくつかに対処するために、より良い方法で問題を再度説明しようとします。 合計票とビューの質問があるとします。ビューが達したときに、合計投票数が最も高いと推定できるものを作成したいと思います。n 0 v 1 n 1v0v0v_0n0n0n_0v1v1v_1n1n1n_1 このようにして、名目値を選択し、予想される合計に従ってすべての質問をことができます。v 1n1n1n_1v1v1v_1 SOデータダンプで2つのクエリを作成し、私が話している効果をより良く示します。 スコア別平均視聴回数 結果: ビュー別の平均スコア(100ビューバケット) 結果: 比較した2つの式 結果ではなく、確か真っ直ぐが優れている場合:(青色で、赤) vvnvn\frac{v}{n}vL O Gn +1vlogn+1\frac{v}{log{n}+1}

1
遠隔監視:監視あり、半監視、またはその両方?
「遠隔監視」とは、弱くラベル付けされたトレーニングセットが与えられると分類器が学習される学習スキームです(トレーニングデータはヒューリスティック/ルールに基づいて自動的にラベル付けされます)。ラベル付きデータがヒューリスティック/自動ラベル付けされている場合、教師あり学習と半教師あり学習の両方にこのような「遠隔監視」を含めることができると思います。ただし、このページでは、「遠隔監視」は「半監視学習」と定義されます(つまり、「半監視」に限定されます)。 私の質問は、「遠隔監視」はもっぱら準監視を指しているのでしょうか?私の意見では、教師あり学習と半教師あり学習の両方に適用できます。信頼できる参照があれば提供してください。

2
ブースティング:学習率が正則化パラメーターと呼ばれるのはなぜですか?
学習率パラメータ(収縮を直列に追加され-typically浅いのTREE-各新しいベースモデルの寄与を昇圧勾配)。テストセットの精度が劇的に向上することが示されました。これは、より小さなステップで、損失関数の最小値をより正確に達成できるためです。 ν∈ [ 0 、1 ]ν∈[0,1]\nu \in [0,1] なぜ学習率が正則化パラメーターと見なされるのかわかりませんか?統計学習の要素の引用、セクション10.12.1、p.364: 可能な正則化戦略は、木の数の制御だけではありません。リッジ回帰およびニューラルネットワークと同様に、収縮手法も使用できます。値が小さい (収縮が大きい)と、同じ反復回数トレーニングリスクが大きくなります。したがって、と両方がトレーニングデータの予測リスクを制御します。M ν Mνν\nuMMMνν\nuMMM 正則化とは「過適合を回避する方法」を意味するため、その点で反復回数が重要であることは明らかです(Mが大きすぎると過適合になります)。しかし:MMMMMM 値が小さい(収縮が大きい)と、同じ反復回数Mのトレーニングリスクが大きくなります。νν\nuMMM これは、学習率が低い場合、トレーニングセットで同じ精度を実現するにはより多くの反復が必要であることを意味します。それで、それはどのように過適合に関係しますか?

3
データマイニングにおけるアソシエーションルールとデシジョンツリーの実際の違いは何ですか?
これら2つの手法の実際の違いについて、本当に簡単な説明はありますか? どちらも教師あり学習に使用されるようです(ただし、関連付けルールは教師なし学習も処理できます)。 両方とも予測に使用できます 「良い」説明に最も近いのは、Statsoft Textbookです。アソシエーションルールは次の目的で使用されると言われています。 ...大規模なデータセットのカテゴリ変数の特定の値間の関係または関連付けを検出します。 ながら、ディシジョン・ツリー分類をするために使用されるものとして説明されています。 ... 1つ以上の予測変数の測定値から、カテゴリ従属変数のクラスのケースまたはオブジェクトのメンバーシップを予測します。 ただし、Rデータマイニングでは、ターゲットフィールドで使用されるアソシエーションルールの例を示しています。 したがって、両方を使用してグループのメンバーシップを予測できますが、決定木は非カテゴリー入力データを処理できますが、関連付けルールは処理できないという重要な違いはありますか?または、より基本的なものがありますか?1つのサイト(sqlserverdatamining.com)は、主な違いは次のとおりであると述べています。 デシジョンツリールールは情報獲得に基づいており、アソシエーションルールは人気や信頼に基づいています。 したがって、(おそらく自分の質問に答える)それは、決定木が実際に分散を最小化しようとしている間に、データセットに表示される頻度(およびそれらが「真」である頻度)に基づいて関連付けルールが純粋に評価されることを意味しますか? 誰かが良い説明を知っているなら、彼らは私にそれを向けたいと思うでしょう、それは素晴らしいでしょう。


6
データマイニングと統計分析の違いは何ですか?
データマイニングと統計分析の違いは何ですか? ある程度の背景として、私の統計教育はかなり伝統的だったと思います。特定の質問が提起され、調査が設計され、データが収集および分析されて、その質問に関する洞察が得られます。その結果、私は常に「データed」、つまり大規模なデータセット内のパターンを探し、これらのパターンを使用して結論を​​出すことを検討していました。私は後者をデータマイニングに関連付ける傾向があり、これは常に(アルゴリズム変数選択ルーチンのようなものとともに)いくぶん無原則だと考えてきました。 それにもかかわらず、データマイニングに関する大規模で成長中の文献があります。多くの場合、このラベルは、クラスタリング、ツリーベースの分類などの特定の手法を指します。しかし、少なくとも私の観点からは、これらの手法は、データのセットに対して「緩め」またはアドレス指定に構造化された方法で使用できます質問。前者をデータマイニング、後者を統計分析と呼びます。 私は学術行政で働いており、問題や機会を特定するために「データマイニング」を行うように頼まれています。私の背景と一致して、私の最初の質問は次のとおりでした:あなたは何を学びたいですか、あなたは問題に貢献すると思うものは何ですか?彼らの回答から、私と質問をする人は、データマイニングの性質と価値について異なる考えを持っていることが明らかでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.