統計とビッグデータ data-mining

2

データマイニングにおけるカオス理論の既知の既存の実用的なアプリケーションは何ですか？

過去数年間、大衆市場でカオス理論に関するいくつかの作品をさりげなく読んでいるうちに、ニューラルネット、パターン認識、不確実性管理など、データマイニングや関連分野にそのさまざまな側面をどのように適用できるのか疑問に思い始めました。 '公開された研究でそのようなアプリケーションの例が非常に少ないので、a）既知の公開された実験およびプロジェクトで実際に実行されているか、b）そうでない場合、これらの相互関係でほとんど使用されていないのか疑問に思う田畑？私がこれまで見てきたカオス理論の議論のほとんどは、完全に有用な科学アプリケーションを中心に展開していますが、データマイニングやパターン認識などの関連分野とはほとんど関係ありません。典型的な例の1つは、物理学の3体問題です。私はこの種の通常の科学的応用の議論を控えて、データマイニングと関連分野に明らかに関連する応用だけに質問を制限したいと思います。以下の潜在的なアプリケーションのリストは、公開された研究の検索の出発点として使用できますが、実際に実行されているアプリケーションがある場合は、それらにのみ興味があります。私が探しているのは、データマイニングに対するカオス理論の既知の実装です。潜在的なアプリケーションのリストとは対照的に、はるかに広いです。これは、読んでいるときに私が思いついたデータマイニングアプリケーションの簡単なアイデアの小さなサンプルです。おそらく、それらのどれも実用的ではなく、おそらくいくつかは私たちが話すように実用化されていますが、私はまだ慣れていない用語で行きます：マンデルブロが数十年前にアナログ電話回線のエラーバーストの場合に実用的な方法で行ったように、パターン認識で自己相似構造を識別します。マイニングの結果にフェイゲンバウムの定数に出会う（おそらく、研究の過程で予想外の場所にマックスウェルの方程式がポップアップするのを見て、ストリング理論家が驚いたのと同様の方法で）。ニューラルネットの重みとさまざまなマイニングテストの最適なビット深度を特定します。カオス関連関数の予測不可能性の一部を担っている初期条件への感度が出てくる、非常に小さい数値スケールのために、これについて疑問に思いました。メンジャースポンジ、コッホカーブ、シェルピンスキーカーペットなど、魅力的なフラクタルの好奇心とは必ずしも関係のない他の方法で、分数次元の概念を使用します。おそらく概念をマイニングモデルの次元に、フラクショナルとして扱うことにより、何らかの有益な方法で適用できますか？フラクタルで作用するような法則の導出。フラクタルで遭遇する関数は非線形であるため、非線形回帰への実用的なアプリケーションがあるのだろうかと思います。カオス理論にはエントロピーとの接線的（そして時には誇張された）関係があるので、カオス理論で使用される関数からシャノンのエントロピー（またはその制限とその親類の制限）を計算する方法はあるのでしょうか？データの周期倍増動作を識別します。有用な方法で「自己組織化」する可能性が最も高いものをインテリジェントに選択することにより、ニューラルネットの最適な構造を特定します。カオスやフラクタルなども、計算の複雑さに正接しているため、複雑さを使用してカオス構造を特定できるのか、またはその逆の可能性があるのでしょうか。私は最初にカオス理論の観点からリアプノフ指数を聞いたことがあり、それから特定のニューラルネットのレシピとエントロピーの議論で数回気づきました。私がここにリストしていない他の関係はおそらく数十あります。これはすべて私の頭の上から外れました。私はこれらの特定の推測に対する具体的な答えにあまり興味がありませんが、野生に存在する可能性のあるアプリケーションのタイプの例として、それらを単に投げ捨てています。アプリケーションがデータマイニングに特に適用可能である限り、現在の研究の例や、このようなアイデアの既存の実装を含む返信を見たいと思います。おそらく、私がよく知っている分野（情報理論、ファジィ集合、ニューラルネットなど）や、回帰などの能力がさらに低いものでも、気付いていない既存の実装がおそらく存在します。どういたしましてここでの私の実用的な目的は、カオス理論の特定の側面について学習するためにもっと投資するかどうかを決定することです。明らかな有用性が見つからない場合は、後回しにします。 CrossValidatedを検索しましたが、データマイニングなどへのカオス理論の実用的なアプリケーションに直接対処するトピックは表示されませんでした。最も近いのは、スレッドカオス理論、方程式のないモデリング、ノンパラメトリック統計です。特定のサブセットで。

13 self-study mathematical-statistics references data-mining fractal

3

ランダムフォレストとブースティングはパラメトリックですか、ノンパラメトリックですか？

優れた統計モデリング：2つの文化（Breiman 2001）を読むことにより、従来の統計モデル（線形回帰など）と機械学習アルゴリズム（バギング、ランダムフォレスト、ブーストツリーなど）のすべての違いを把握できます。ブライマンはデータモデル（パラメトリック）を批判します。これは、統計が統計学者によって規定された既知の正式なモデルによって観測が生成されるという仮定に基づいているためです。一方、MLアルゴは正式なモデルを想定せず、データから入力変数と出力変数の間の関連付けを直接学習します。 Bagging / RFとBoostingもパラメータの一種であることに気付きました。たとえば、ntree、RFのmtry、学習率、bag fraction、Stochastic Gradient Boosted ツリーのツリー複雑度はすべてチューニングパラメーターです。また、データを使用してこれらのパラメーターの最適な値を見つけるため、データからこれらのパラメーターを推定することもできます。それで、違いは何ですか？RFおよびブーストツリーはパラメトリックモデルですか？

13 machine-learning data-mining random-forest boosting bagging

2

自習はどこまでできますか？

私は公式または構造化されたデータ分析または機械学習コース（最近のオンラインサービス以外）に参加したことがなく、物事を読んだり試したりして知っていることのほとんどを学びました。私は仕事に就くことができるとは程遠いことを知っています。私の質問は（この質問のように）何が良いかということではなく、むしろ、私は仕事に応募でき、実際に独学でチャンスを得ることができるレベルに達することができますか？また、妥当な時間枠内でこれを行うことは可能ですか（おそらく10年ですか？私は31歳です...）？それとも、ある種の大学/大学に通う方法を見つける必要がありますか？

13 machine-learning data-mining careers

2

分類および回帰木の背後にある数学

誰でもCARTの分類の背後にある数学のいくつかを説明できますか？2つの主要な段階がどのように発生するかを理解したいと思っています。たとえば、データセットでCART分類器をトレーニングし、テストデータセットを使用してその予測パフォーマンスをマークしましたが、ツリーの初期ルートはどのように選択されますか？各ブランチはなぜ、どのように形成されますか？ 15列23クラスの40万件のレコードであるデータセットは、混同マトリックスから100％の精度を達成します。データセットで10倍の交差検証を使用します。誰かがCART分類の段階を説明するのを手伝ってもらえたら本当にうれしいです。

13 regression classification data-mining cart

2

まれなイベント予測モデルのオーバーサンプリングによるバギング

次のものが記述されているかどうか、また（どちらにしても）ターゲット変数が非常に不均衡な予測モデルを学習するためのもっともらしい方法のように聞こえるかどうか、誰もが知っていますか？データマイニングのCRMアプリケーションでは、多くの場合、ポジティブイベント（成功）が多数派（ネガティブクラス）に比べて非常にまれなモデルを探します。たとえば、肯定的な興味のあるクラス（例：顧客が購入した）が0.1％だけである500,000のインスタンスがあるとします。したがって、予測モデルを作成するための1つの方法は、データをサンプリングすることです。これにより、すべてのポジティブクラスインスタンスとネガティブクラスインスタンスのサンプルのみを保持し、ポジティブクラスとネガティブクラスの比率が1に近くなります（おそらく25％プラスからマイナス75％）。オーバーサンプリング、アンダーサンプリング、SMOTEなどはすべて、文献の方法です。私が興味を持っているのは、上記の基本的なサンプリング戦略と、ネガティブクラスのバギングを組み合わせることです。すべてのポジティブクラスインスタンスを保持する（例：1,000）バランスの取れたサンプル（たとえば1,000）を作成するために、ネガティブクラスインスタンスをサンプリングします。モデルを適合させる繰り返す前にこれを行うことを聞いた人はいますか？バギングがないと思われる問題は、500,000の場合にネガティブクラスの1,000インスタンスのみをサンプリングすると、予測子スペースがまばらになり、予測子の値/パターンの表現がない可能性があることです。バギングはこれに役立つようです。サンプルの1つに予測変数のすべての値が含まれていない場合、rpartを見て、「壊れない」ことを確認しました（これらの予測変数の値を使用してインスタンスを予測するときに壊れません： library(rpart) tree<-rpart(skips ~ PadType,data=solder[solder$PadType !='D6',], method="anova") predict(tree,newdata=subset(solder,PadType =='D6')) 何かご意見は？更新：現実世界のデータセット（ダイレクトメール応答データのマーケティング）を取得し、それをトレーニングと検証にランダムに分割しました。618個の予測変数と1つのバイナリターゲットがあります（非常にまれです）。 Training: Total Cases: 167,923 Cases with Y=1: 521 Validation: Total Cases: 141,755 Cases with Y=1: 410 トレーニングセットからすべての肯定的な例（521）と、バランスの取れたサンプルに対して同じサイズの否定的な例のランダムサンプルを取りました。私はrpartツリーに適合します： models[[length(models)+1]]<-rpart(Y~.,data=trainSample,method="class") このプロセスを100回繰り返しました。次に、これらの100個のモデルそれぞれの検証サンプルのケースでY = 1の確率を予測しました。最終的な推定のために、100個の確率を単純に平均しました。検証セットの確率を調整し、各十分位数で、Y = 1（モデルのランキング能力を推定するための従来の方法）のケースの割合を計算しました。 Result$decile<-as.numeric(cut(Result[,"Score"],breaks=10,labels=1:10)) パフォーマンスは次のとおりです。これをバギングなしと比較する方法を確認するために、最初のサンプルのみで検証サンプルを予測しました（すべての陽性例と同じサイズのランダムサンプル）。明らかに、サンプリングされたデータはあまりにもまばらであるか、適合しすぎて、検証サンプルを有効にするには有効ではありません。まれなイベントと大きなnおよびpがある場合のバギングルーチンの有効性の提案。

13 data-mining predictive-models

4

データマイニングについて読み始めるには？

私は、データマイニングについて読み始める初心者です。私はAIと統計の基本的な知識を持っています。機械学習はデータマイニングでも重要な役割を果たすと多くの人が言っているので、データマイニングに進む前に機械学習について読む必要がありますか？

13 machine-learning references data-mining

2

時空間予報誤差の探索的分析

データ：私は最近、風力発電の生産予測誤差の時空間フィールドの確率的特性の分析に取り組みました。正式には、プロセス（時間的に二回インデックスさTとH）と（空間に一度のpで）Hは、（周りに何か等しいルックアヘッド・回数であること24、規則的にサンプリングし、）Tは、数あること「予測時刻」（つまり、予測が発行される時刻、私の場合は約30000、定期的にサンプリング）、およびnは空間位置の数（グリッドなし、私の場合は約300）。これは天気関連のプロセスであるため、使用できる天気予報、分析、気象測定もたくさんあります。（εpt + h | t）t = 1 … 、T;h = 1 、… 、H、p = p1、… 、pn（ϵt+h|tp）t=1…、T;h=1、…、H、p=p1、…、pn \left (\epsilon^p_{t+h|t} \right )_{t=1\dots,T;\; h=1,\dots,H,\;p=p_1,\dots,p_n}ttthhhpppHHH242424TTTnnn 質問：このタイプのデータに対して実行する探索分析を説明して、プロセスの相互依存構造（線形ではない場合があります）の性質を理解し、プロセスの詳細なモデリングを提案できますか？

13 forecasting data-mining stochastic-processes spatial spatio-temporal

3

kmeansを実行する前に、相関/共線の変数を削除する必要がありますか？

顧客のクラスターを識別するためにkmeansを実行しています。クラスターを識別する変数は約100個あります。これらの各変数は、カテゴリに対する顧客の支出の割合を表します。そのため、100個のカテゴリがある場合、これらの変数の合計が各顧客に対して100％になるように、これらの100個の変数があります。現在、これらの変数は互いに強く相関しています。kmeansを実行する前に、これらのいくつかをドロップして共線性を除去する必要がありますか？サンプルデータは次のとおりです。実際には、100個の変数と1,000万人の顧客がいます。 Customer CatA CatB CatC 1 10% 70% 20% 2 15% 60% 25%

13 clustering data-mining k-means multicollinearity compositional-data

4

データを集約して分析する最良の方法

最近、機械学習とデータ分析を自分で教え始めたので、大量のデータを作成してクエリを実行する必要性に直面しています。私は自分の職業生活や個人生活で収集してきたデータを取得して分析したいと思いますが、次のことを行うための最良の方法がわかりません。このデータをどのように保存する必要がありますか？エクセル？SQL？？初心者がこのデータを分析しようとする良い方法は何ですか？私はプロのコンピュータープログラマーですので、複雑さはプログラムを書くことではなく、データ分析の分野に多少なりとも特有です。編集：私のあいまいさをおologiesび申し上げます。最初に何かについて学び始めたとき、あなたが知らないことを知るのは難しいですよね？;）そうは言っても、私の目標はこれを2つの主要なトピックに適用することです。ソフトウェアチームのメトリクス（アジャイルの速度、リスクの定量化、xポイントのストーリーポイントが与えられた場合に反復が正常に完了する可能性を考える）機械学習（例：特定のモジュールのセットでシステム例外が発生しました。フィールドでモジュールが例外をスローする可能性、そのコスト、データが改善する重要なモジュールについて教えてくれること私は自分の支出に見合う最高の価値を持ち、データの読み込みを開始するためにユーザーが次に使用するシステムの部分を予測します）。

13 data-mining dataset eda

3

データにゼロ平均を持たせるという考え方

多くの場合、すべての要素から平均値を削除することで、データセットのディメンション/機能をゼロ平均にする人がいます。しかし、なぜそうするのか理解できませんでしたか？前処理ステップとしてそれを行うことの効果は何ですか？分類のパフォーマンスが向上しますか？データセットについて何か答えることは役に立ちますか？データを理解するために視覚化を行うときに役立ちますか？

12 data-mining dataset

5

用語頻度/逆文書頻度（TF / IDF）：重み付け

1000個のドキュメントとその中に表示されるすべての単語を表すデータセットがあります。したがって、行はドキュメントを表し、列は単語を表します。したがって、たとえば、セルの値は、ドキュメントで単語が出現する回数を表します。ここで、tf / idfメソッドを使用して、単語の「重み」を見つける必要がありますが、実際にはこれを行う方法がわかりません。誰かが私を助けてくれますか？（i 、j ）（私、j）(i,j)jjj私私i

12 r data-mining feature-selection

3

データマイニングおよび人工知能アルゴリズムの数学ベース

データマイニングと人工知能アルゴリズムについて説明してください。彼らが使用した数学の基礎は何ですか？これらのタイプのアルゴリズムを理解するために、数学の出発点を教えてください。

12 mathematical-statistics references data-mining algorithms artificial-intelligence

1

RのPROC Mixedとlme / lmerの違い-自由度

注：法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。次のデータセットから開始します（以下のRコード）。 ind：測定が行われる個人を示す因子 fac：測定が行われる臓器 trt：治療を示す因子 y：連続応答変数アイデアは、次の単純なモデルを構築することです： y ~ trt + (ind)：indランダムな要因として y ~ trt + (fac(ind))：facにネストされたindランダムな要因として、最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

PRの値が1つしかない場合、精度-再現率曲線を作成するにはどうすればよいですか？

コンテンツベースの画像検索システムを作成するデータマイニングの割り当てがあります。5匹の動物の画像が20枚あります。つまり、合計100枚の画像になります。私のシステムは、最も関連性の高い10個の画像を入力画像に返します。次に、Precision-Recall曲線を使用してシステムのパフォーマンスを評価する必要があります。しかし、私はプレシジョンリコール曲線の概念を理解していません。私のシステムがゴリラ画像に対して10個の画像を返すとしましょう。ただし、ゴリラは4つだけです。返される他の6つの画像は他の動物のものです。したがって、精度は4/10 = 0.4（関連性が返される）/（すべて返される）再現率は4/20 = 0.2（関連性が返される）/（すべての関連）つまり<0.2,0.4>、カーブではなくポイントしかありません。曲線（つまり、ポイントのセット）はどのように作成しますか？返される画像の数を変更する必要がありますか（これは私の場合10に固定されています）？

12 data-mining matlab precision-recall curves computer-vision

1

ヘッセ行列と共分散行列の関係

私は最尤推定を研究していますが、最尤推定で推論を行うには、分散を知る必要があります。分散を見つけるには、曲率に2次微分を持つヘッセ行列のように見えるクラマーのラオ下限を知る必要があります。共分散行列とヘッセ行列の間の関係を定義するために、私はちょっと混乱しています。質問についてのいくつかの説明を聞くことを願っています。簡単な例が評価されます。

12 machine-learning mathematical-statistics maximum-likelihood data-mining

タグ付けされた質問 「data-mining」

タグ付けされた質問「data-mining」