タグ付けされた質問 「data-mining」

データマイニングは、データベースコンテキストで人工知能の手法を使用して、以前は未知だったパターンを発見します。そのため、メソッドは通常監視されていません。機械学習とは密接に関連していますが、同一ではありません。データマイニングの主要なタスクは、クラスター分析、異常値の検出、相関ルールのマイニングです。

2
前のイベントの時間に基づいて、次のイベントがいつ発生するかを予測する方法は?
私は高校生で、コンピュータープログラミングプロジェクトに取り組んでいますが、高校の統計コース以外の統計やモデリングデータの経験はあまりないので、ちょっと混乱しています。 基本的に、私は誰かがドキュメントを印刷することを決めた時間のかなり大きなリストを持っています(統計的なテストや測定の仮定を満たすのに十分大きいと仮定します)。このリストに基づいて、以前のすべてのイベント時間を考慮して、次の印刷ジョブの最も可能性の高い時間を予測するある種の統計モデルを構築したいと思います。 私はすでにこれを読んでいますが、回答は私のプロジェクトで私が念頭に置いていることを正確に助けません。いくつかの追加調査を行った結果、隠れマルコフモデルを使用すると正確に行うことができる可能性が高いことがわかりましたが、時間のリストだけを使用して隠れマルコフモデルを生成する方法に関するリンクは見つかりません。また、リストでカルマンフィルターを使用すると便利な場合があることもわかりましたが、基本的には、実際にそれらを使用し、制限や要件を知っている人から、何かを試して動作することを期待する前に、それに関する詳細情報を取得したいと思います。 本当にありがとう!

7
機械学習のバイアスデータ
私は、既にデータ選択によって(かなり)偏っているデータを使用した機械学習プロジェクトに取り組んでいます。 ハードコーディングされたルールのセットがあると仮定しましょう。使用できるすべてのデータがこれらのルールによって既にフィルター処理されたデータである場合、それを置き換える機械学習モデルをどのように構築しますか? 物事を明確にするために、最良の例は信用リスク評価でしょう。タスクは、支払いに失敗する可能性のあるすべてのクライアントをフィルタリングすることです。 今、あなたが持っている唯一の(ラベル付けされた)データは、ルールのセットによって受け入れられたクライアントからのものです。受け入れた後にのみ、誰かが支払うかどうか(明らかに)を見るからです。ルールのセットがどれだけ優れているか、そしてそれらがどれだけ有料から非有料の分布に影響するかはわかりません。また、一連のルールにより、拒否されたクライアントからのラベルのないデータがあります。したがって、それらのクライアントが受け入れられた場合、それらのクライアントで何が起こるかはわかりません。 たとえば、ルールの1つは次のようになります。「クライアントの年齢が18歳未満の場合、受け入れない」 分類子には、これらのルールによってフィルタリングされたクライアントを処理する方法を学習する方法がありません。ここで分類器はどのようにパターンを学習することになっていますか? この問題を無視すると、これまでに遭遇したことのないデータにモデルがさらされることになります。基本的に、ここでxが[a、b]の外側にあるときのf(x)の値を推定したいと思います。

3
インタラクティブなデータ視覚化はいつ使用すると便利ですか?
すぐに話す講演の準備をしている間、私は最近、インタラクティブなデータ視覚化のための2つの主要な(無料)ツールであるGGobiとmondrianを掘り始めました。 明確に表現するためにあなた自身の助けを求めたい(自分自身と私の将来の聴衆の両方に)インタラクティブなプロットを使用することはいつ役に立ちますか?データ探索(自分用)とデータ表示(「クライアント」)のどちらか クライアントにデータを説明するとき、次のアニメーションの価値を確認できます。 「識別/リンク/ブラッシング」を使用して、グラフ内のどのデータポイントが何であるかを確認します。 データの感度分析の提示(例:「このポイントを削除すると、ここに得られるものがあります) データ内のさまざまなグループの効果を示す(例:「男性のグラフを見て、今度は女性のグラフを見てみましょう」) 時間の効果を示す(または年齢、または一般に、プレゼンテーションに別の次元を提供する) 自分でデータを調べる場合、作業中のデータセットの外れ値を調べるときに、識別/リンク/ブラッシングの価値がわかります。 しかし、これら2つの例以外では、これらの手法が他の実用的な用途を提供するかどうかはわかりません。特に私たち自身のデータ探索のために! インタラクティブな部分は、データ内のさまざまなグループ/クラスターのさまざまな動作を探索するのに適していると主張できます。しかし、(実際に)そのような状況に近づいたとき、私がしがちだったのは、関連する統計手順(および事後検定)を実行することでした-そして、重要であることがわかった場合は、データを関連グループ。私が見てきたことから、これはデータを「不思議に思う」よりも安全なアプローチです(データのdrに簡単につながる可能性があります(修正に必要な多重比較の範囲は明確ではありませんでした)。 この件に関するあなたの経験/考えを読んでとてもうれしいです。 (この質問はウィキにすることができます-主観的ではなく、よく考えられた答えが喜んで私の「答え」マークを獲得します:))


2
非常に不均衡なデータセットのトレーニングアプローチ
非常に不均衡なテストデータセットがあります。正のセットは100ケースで構成され、負のセットは1500ケースで構成されます。トレーニング面では、より大きな候補プールがあります。ポジティブトレーニングセットには1200ケース、ネガティブトレーニングセットには12000ケースがあります。この種のシナリオでは、いくつかの選択肢があります。 1)トレーニングセット全体に重み付きSVMを使用する(P:1200、N:12000) 2)サンプリングされたトレーニングセット(P:1200、N:1200)に基づくSVMを使用して、1200のネガティブケースが12000のケースからサンプリングされます。 どのアプローチが優れているかを決定するための理論的なガイダンスはありますか?テストデータセットは非常に不均衡であるため、不均衡なトレーニングセットも使用する必要がありますか?

3
データブレンドとは
この用語は、メソッド関連のスレッドで頻繁に使用されます。 されたブレンドデータマイニングと統計的学習における具体的な方法を?Googleから関連する結果を取得できません。 ブレンディングは多くのモデルの結果を混合し、より良い結果をもたらしているようです。それについてもっと知るのに役立つリソースはありますか?

10
データマイニングソフトウェアツールの調査
私はエンジニアとして訓練されていましたが、データマイニングにより興味を持っていることがわかりました。現在、私はさらにフィールドを調査しようとしています。特に、存在するソフトウェアツールのさまざまなカテゴリと、各カテゴリで注目すべきツールとその理由を理解したいと思います。(「最高の」ツールとは言いませんでしたが、注目すべきは炎戦争を始めないことです。)特に、オープンソースで自由に利用できるツールに注意してください-これを意味するものではありません私はオープンソースと無料にのみ興味があります。

4
潜在的な特徴の意味?
推奨システムの行列因子分解モデルを理解しようとしていますが、常に「潜在機能」を読みますが、それはどういう意味ですか?トレーニングデータセットにとって機能が何を意味するかは知っていますが、潜在的な機能の概念を理解することはできません。私が見つけることができるトピックに関するすべての論文はあまりにも浅いです。 編集: 少なくともアイデアを説明するいくつかの論文を教えていただければ。

1
ロジスティック回帰とサポートベクターマシンの違いは?
ロジスティック回帰により、トレーニングサンプルを分離する超平面が検出されることがわかっています。また、サポートベクターマシンが最大マージンを持つ超平面を検出することも知っています。 私の質問:ロジスティック回帰(LR)とサポートベクターマシン(SVM)の違いは、LRがトレーニングサンプルを分離する超平面を見つけ、SVMが最大マージンを持つ超平面を見つけることですか?それとも私は間違っていますか? 注:LRでは、場合、ロジスティック関数はをます。を分類しきい値と仮定すると、は超平面または決定境界です。θ ⋅ のx = 0θ⋅バツ=0\theta \cdot x = 00.50.50.50.50.50.5θ ⋅ のx = 0θ⋅バツ=0\theta \cdot x = 0

3
他のアルゴリズムの代わりにk-meansを使用するのはなぜですか?
私はk-meansについて調査しましたが、これらは私が得たものです。k-meansは、教師なし学習法を使用して既知のクラスタリングの問題を解決する最も単純なアルゴリズムの1つです。大規模なデータセットで非常にうまく機能します。 ただし、K-Meansには次の欠点もあります。 外れ値とノイズに対する強い感度 非円形のクラスター形状ではうまく機能しません-クラスターの数と初期シード値を事前に指定する必要があります 局所最適を渡す低い能力。 欠点はk-meansの良いところを超えているように見えるので、k-meansには素晴らしいことはありますか。 教えて下さい。

2
分位モデリングのモデルパフォーマンス
私は分位点回帰を使用しています(たとえば、R を介して、gbmまたはquantregRで)-中央値ではなく、上位の分位点(たとえば75番目)に焦点を当てています。予測モデリングの背景から、モデルがテストセットにどの程度適合するかを測定し、これをビジネスユーザーに説明できるようにします。私の質問はどうですか?継続的なターゲットの典型的な設定では、次のことができます。 全体のRMSEを計算する データセットを予測値で十分位取りし、実際の平均値を各十分位数で予測された平均値と比較します。 等。 この場合、予測と比較する実際の値が実際にない(少なくとも考えていない)場合、何ができますか? コードの例を次に示します。 install.packages("quantreg") library(quantreg) install.packages("gbm") library(gbm) data("barro") trainIndx<-sample(1:nrow(barro),size=round(nrow(barro)*0.7),replace=FALSE) train<-barro[trainIndx,] valid<-barro[-trainIndx,] modGBM<-gbm(y.net~., # formula data=train, # dataset distribution=list(name="quantile",alpha=0.75), # see the help for other choices n.trees=5000, # number of trees shrinkage=0.005, # shrinkage or learning rate, # 0.001 to 0.1 usually work interaction.depth=5, # 1: additive …

3
適切な分析手法とテストの選択を支援するフローチャート
統計的知識を必要とするが、正式に訓練された統計学者ではない人として、特定の問題を解決するための正しいアプローチを選択するのに役立つフローチャート(またはある種の決定ツリー)があると便利だと思いますこれが必要であり、それを知っており、データが正規分布していると考えますか?テクニックXを使用します。データが正規でない場合は、YまたはZを使用します。 いくつかのグーグル検索の後、さまざまなカバレッジと品質のいくつかの試みを見てきました(現時点では利用できないものもあります)。また、図書館で相談した統計教科書でも同様のフローチャートを見ました。 ボーナスはインタラクティブなサイトであり、チャートを持つだけでなく、追加の情報(仮定など)を提供し、人気のあるstatパッケージでこれらの手法を実行する方法を示します。「RでANOVAを行う必要がありますか?パッケージXが必要です。ここにチュートリアルがあります」。 私は見つけられなかったより良いリソースがあることを期待して、コミュニティのウィキの質問として尋ねています。統計は大きな主題であるため、このようなフローチャートは、初心者または中級レベルの知識を持っている人がアプローチできる手法に適していると思います。より複雑なものには、正式なトレーニングを受けた人が必要です。




弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.