タグ付けされた質問 「data-mining」

データマイニングは、データベースコンテキストで人工知能の手法を使用して、以前は未知だったパターンを発見します。そのため、メソッドは通常監視されていません。機械学習とは密接に関連していますが、同一ではありません。データマイニングの主要なタスクは、クラスター分析、異常値の検出、相関ルールのマイニングです。

5
K-meansの欠点を理解する方法
K-meansは、クラスター分析で広く使用されている方法です。私の理解では、この方法はいかなる仮定も必要とせず、すなわち、データセットと事前に指定されたクラスター数kを与え、二乗誤差の合計(SSE)を最小化するこのアルゴリズムを適用します。エラー。 したがって、k-meansは本質的に最適化の問題です。 k-meansの欠点に関する資料を読みました。それらのほとんどはそれを言う: k-meansは、各属性(変数)の分布の分散が球形であると仮定します。 すべての変数の分散は同じです。 すべてのkクラスターの事前確率は同じです。つまり、各クラスターの観測数はほぼ同じです。 これら3つの仮定のいずれかに違反した場合、k-meansは失敗します。 この声明の背後にある論理を理解できませんでした。k-means法は本質的に仮定をしておらず、SSEを最小化するだけなので、SSEの最小化とこれらの3つの「仮定」の間のリンクはわかりません。

12
データマイニング、統計、機械学習、AIの違いは何ですか?
データマイニング、統計、機械学習、AIの違いは何ですか? 非常によく似た問題を解決しようとする4つの分野であるが、異なるアプローチであると言うのは正確でしょうか?彼らは正確に何を共有していて、どこで違うのですか?それらの間に何らかの階層がある場合、それは何でしょうか? 同様の質問が以前に聞かれましたが、まだわかりません。 データマイニングと統計分析 二つの文化:統計と機械学習?

4
平易な英語でのコーエンのカッパ
データマイニングの本を読んでいますが、分類器の予測パフォーマンスを評価する手段としてカッパ統計に言及しています。しかし、私はこれを理解できません。私はまた、ウィキペディアをチェックしますが、それはあまりにも助けなかった:https://en.wikipedia.org/wiki/Cohen's_kappaを。 Cohenのカッパは、分類器の予測パフォーマンスの評価にどのように役立ちますか?それは何を伝えますか? 100%のカッパは、分類器がランダムな分類器と完全に一致していることを意味しますが、これが分類器のパフォーマンスの評価にどのように役立つかわかりませんか? 40%kappaはどういう意味ですか?40%の時間、分類器はランダム分類器と一致しているということですか?もしそうなら、それは私に何を伝え、分類器を評価するのに役立ちますか?

9
ランダムフォレストから知識を取得する
ランダムフォレストはブラックボックスと見なされますが、最近、ランダムフォレストからどのような知識が得られるのかと考えていましたか? 最も明白なことは、変数の重要性です。最も単純なバリアントでは、変数の出現回数を計算するだけでそれを行うことができます。 私が考えていた2番目のことは相互作用です。木の数が十分に大きければ、変数のペアの出現回数をテストできると思います(カイ二乗独立のようなもの)。3番目のことは、変数の非線形性です。私の最初のアイデアは、変数対スコアのチャートを見ることでしたが、それが意味をなすかどうかはまだわかりません。 追加された2012.01.2012 動機 この知識を使用して、ロジットモデルを改善したいと思います。見落とされた相互作用と非線形性を見つけることは可能だと思います(または少なくとも希望します)。

11
博士号なしでデータマイニングの仕事をする
私はしばらくの間、データマイニングと機械学習に非常に興味がありました。その理由の1つは、学校でその分野を専攻していましたが、プログラミングだけでなく、知識とそのソリューションが複数の形式を持つことができます。私には研究者/科学者のバックグラウンドはありません。データ分析に重点を置いたコンピューターサイエンスのバックグラウンドから来ました。博士号ではなく修士号を取得しています。私は現在、データ分析に関連する立場を持っています。たとえそれが私がしていることの主な焦点ではないとしても、少なくともある程度はそれをよく知っています。 数年前にいくつかの企業と仕事をするためにインタビューし、数人のリクルーターと話をするようになったとき、機械学習を行うには博士号が必要だと人々が考える一般的なパターンを見つけました。少し一般化しすぎています(一部の企業は、特に博士号を本当に探していませんでした)。 その分野で博士号を取得するのは良いことだと思いますが、これが絶対に必要だとは思いません。私はほとんどの現実世界の機械学習アルゴリズムについてかなり適切な知識を持ち、それらのほとんどを自分で(学校でも個人プロジェクトでも)実装しており、機械学習/データマイニングおよび統計一般に関する問題に取り組む際にかなり自信を持っています。また、似たようなプロフィールを持っている友人もいますが、これについても非常に精通しているようですが、博士号を取得していない場合、一般的に企業はデータマイニングの採用についてかなり恥ずかしがっていると感じています。 フィードバックをもらいたいのですが、その分野に非常に焦点を当てた仕事をするためには、博士号が絶対に必要だと思いますか? (ここでこの質問を投稿する前に少し迷いましたが、メタに関する許容可能なトピックであると思われるため、私はしばらくの間考えていたこの質問を投稿することにしました。)

7
ユークリッド距離は通常、スパースデータには適していませんか?
多次元データとスパースデータがある場合、古典的な距離(ユークリッド距離など)が弱判別性になることをどこかで見ました。どうして?ユークリッド距離がうまく機能しない2つのスパースデータベクトルの例はありますか?この場合、どの類似性を使用する必要がありますか?

8
機械学習者で見つけるのは難しいスキルですか?
データマイニングと機械学習は非常に人気が高まったため、ほとんどすべてのCS学生が分類子、クラスタリング、統計NLPなどについて知っているようです。 私の質問は、データマイナーが他のスキルとは異なるスキルを身に付けるにはどうすればよいでしょうか?彼をあまりにも見つけにくい誰かに似た人にすること。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

2
なぜ3つのパーティションしかないのですか?(トレーニング、検証、テスト)
モデルを大規模なデータセットに適合させようとする場合、一般的なアドバイスは、データを3つの部分(トレーニング、検証、テストデータセット)に分割することです。 これは、通常、モデルには3つの「レベル」のパラメーターがあるためです。最初の「パラメーター」はモデルクラス(SVM、ニューラルネットワーク、ランダムフォレストなど)、2番目のパラメーターセットは「正規化」パラメーターまたは「ハイパーパラメーター」(たとえば、投げ縄ペナルティ係数、カーネルの選択、ニューラルネットワーク構造)および3番目のセットは、通常「パラメーター」と見なされるものです(共変量の係数など)。 モデルクラスとハイパーパラメーターの選択が与えられると、トレーニングセットのエラーを最小化するパラメーターを選択してパラメーターを選択します。モデルクラスが与えられると、検証セットのエラーを最小化することでハイパーパラメーターを調整します。テストセットのパフォーマンスによってモデルクラスを選択します。 しかし、なぜこれ以上パーティションがないのですか?多くの場合、ハイパーパラメータを2つのグループに分割し、「検証1」を使用して最初に適合させ、「検証2」を使用して2番目に適合させることができます。または、トレーニングデータ/検証データのサイズを調整するハイパーパラメーターとして扱うこともできます。 これは一部のアプリケーションですでに一般的な慣行ですか?データの最適な分割に関する理論的な作業はありますか?

12
グラフからデータを取得するために必要なソフトウェア[終了]
デカルト座標(標準の日常プロット)にプロットされたデータのイメージを取得し、グラフにプロットされたポイントの座標を抽出するソフトウェア(できれば無料、できればオープンソース)の経験がありますか? 本質的に、これはデータマイニングの問題であり、データの可視化の逆の問題です。

8
サンプリングは「ビッグデータ」の時期に関連していますか?
それとももっと「そうなる」のでしょうか?ビッグデータは統計と関連知識をさらに重要にしますが、サンプリング理論を過小評価しているようです。 私は「ビッグデータ」の周りでこの誇大広告を見てきましたが、「なぜ」すべてを分析したいのか不思議に思わないでしょうか?「サンプリング理論」を設計/実装/発明/発見する理由はありませんでしたか?データセットの「母集団」全体を分析する意味がありません。できるからといって、やるべきだというわけではありません(愚かさは特権ですが、悪用すべきではありません:) だから私の質問はこれです:データセット全体を分析することは統計的に関連していますか?できることは、サンプリングを行った場合のエラーを最小限にすることです。しかし、そのエラーを最小化するコストは本当に価値がありますか?「情報の価値」は、超並列コンピューターでのビッグデータの分析に費やされる労力、時間コストなどの価値が本当にあるのでしょうか? 母集団全体を分析しても、結果はせいぜい推測であり、正しい確率が高くなります。おそらくサンプリングよりも少し高いでしょうか(それとももっと多いでしょうか?)、母集団の分析とサンプルの分析から得られる洞察は大きく異なりますか? それとも、「時代が変わった」と認めるべきでしょうか?十分な計算能力があれば、アクティビティとしてのサンプリングはそれほど重要ではなくなる可能性があります:) 注:私は議論を始めようとはしていませんが、ビッグデータが何をするのか(つまり、すべてを分析する)を理解し、サンプリングの理論を無視する(またはそうしない?)答えを探しています

3
「残念な賛成票」の問題はありますか?
これは話題から外れているように聞こえるかもしれませんが、聞いてください。 スタックオーバーフローでは、ここで投稿に対する投票を得ます。これはすべて表形式で保存されます。 例えば: 投稿ID投票者ID投票タイプ日時 ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 2000-1-1 10:00:01 10 5 2 2000-1-1 10:00:01 ... 等々。投票タイプ2は投票、投票タイプ3は投票です。このデータの匿名バージョンをhttp://data.stackexchange.comで照会できます 投稿のスコアが-1以下になると、投稿される可能性が高くなるという認識があります。これは単に確認バイアスである場合もあれば、実際に根付いている場合もあります。 この仮説を確認または否定するために、このデータをどのように分析しますか?このバイアスの影響をどのように測定しますか?

3
K-MeansとEMを使用したクラスタリング:それらはどのように関連していますか?
データのクラスタリング(教師なし学習)アルゴリズム、EM、k-meansを研究しました。私は次を読み続けます: k-meansはEMの変形であり、クラスターが球形であるという仮定があります。 誰かが上記の文を説明できますか?1つは確率的割り当てを行い、もう1つは決定論的な方法で行うため、球面が何を意味するのか、およびkmeansとEMがどのように関連するのかがわかりません。 また、どのような状況でk-meansクラスタリングを使用したほうがよいでしょうか?またはEMクラスタリングを使用しますか?


3
隠れマルコフモデルとニューラルネットワークの違いは何ですか?
私は統計に足を踏み入れたばかりなので、この質問が意味をなさない場合は申し訳ありません。私はマルコフモデルを使用して、隠れた状態(不公平なカジノ、サイコロロールなど)とニューラルネットワークを予測し、検索エンジンでのユーザークリックを調べました。どちらも、観測を使用して把握しようとしている隠された状態がありました。 私の理解では、それらは両方とも隠れ状態を予測するので、ニューラルネットワークでマルコフモデルをいつ使用するのだろうか?それらは、同様の問題に対する異なるアプローチですか? (私は学習に興味がありますが、別の動機もあります。隠れたマルコフモデルを使用して解決しようとしている問題があります。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.