統計とビッグデータ data-mining

1

私は自由な時間に、Delphi Windowsアプリケーションから送信されたクラッシュレポート（ただし、他の非クラッシュバグレポートではない）を収集する小さなWebベースのシステムに取り組んでいます。トラブルシューティングの場合、ユーザーは、ハードウェアまたはオペレーティングシステムのバージョンと特定のバグまたはクラッシュ、あるいはその両方との関係を見つけるためのデータマイニング機能が必要です。これがどのように機能するかの例として：クラッシュごとに、データベースにレポートがあり、クラッシュの瞬間のスタックトレース（コールスタック）のフィンガープリント/ハッシュコードがあり、重複を識別します。アルゴリズムは、バグレポートのすべての複製に他の一般的な属性があるかどうかをチェックします。たとえば、オペレーティングシステムのサービスパックの欠落などです。分析結果には、バグレポートに共通するすべてのプロパティが一覧表示されますこれらの自動バグレポートに、現在実行中のすべてのプロセスの名前、ファイル名、ロードされたDLLのバージョン情報などのすべての重要な情報が含まれているとしましょう。繰り返し発生するクラッシュと環境間の相関関係を見つけるにはどうすればよいですか？役立つ特定のアルゴリズムまたは統計的方法はありますか？

10 data-mining

1

計量経済学的手法の実際のアプリケーションの成功の文書化された/再現可能な例？

この質問は非常に広範に聞こえるかもしれませんが、ここで私が探しているものです。計量経済学的手法に関する優れた本や計量経済学的手法に関する優れた解説記事がたくさんあることは知っています。このCrossValidated 質問で説明されているように、計量経済学の再現可能な優れた例もあります。実際、この質問の例は、私が探しているものに非常に近いものです。これらの例で唯一欠けているのは、それらが調査レポートにすぎず、実際のアプリケーションでの調査結果の経緯についての言及がないことです。私が探しているのは、理想的には次の特性を持つ計量経済理論の実際のアプリケーションの文書化された/再現可能な例です。それらは再現可能である必要があります。つまり、データの詳細な説明（およびデータへのポインタ）、計量経済学的手法、およびコードが含まれている必要があります。コードはR言語であるのが理想的です。十分に定量化された成功の測定基準に従って、技術が現実の世界で成功したことを示す詳細なドキュメントがあるはずです（たとえば、「この技術は需要の予測を改善することができ、ここに含まれる数があるため、収益の増加に役立ちました」）。ここでは、計量経済学という用語をかなり広く使用しています。つまり、あらゆる種類のデータマイニング、統計データ分析、予測、予測、機械学習の手法を意味します。そのような例を見つける際の1つの差し迫った問題：計量経済学の多くの成功したアプリケーションは営利目的の設定で行われるため、独自のものであるため、手法がうまく機能した場合、おそらく公開されません（これは、独自の取引の場合に特に当てはまります）。ただし、（1）と（2）の両方ではないにしても、少なくとも上記（2）の特性を持つ例が公開されていることを期待しています。

10 r machine-learning forecasting data-mining econometrics

2

機能データ分析と高次元データ分析の違いは何ですか

統計文献には、「機能データ」（つまり、曲線であるデータ）、および「高次元データ」（つまり、データが高次元ベクトルの場合）への言及がたくさんあります。私の質問は、2つのタイプのデータの違いについてです。ケース1に適用される適用された統計的方法論について話す場合、ケース2から方法論を関数の空間の有限次元部分空間への射影を通じて言い換えると、多項式、スプライン、ウェーブレット、フーリエなどが考えられます... 。そして、機能問題を有限次元ベクトル問題に変換します（適用された数学では、すべての点ですべてが有限になるため）。私の質問は、機能データに適用される統計手順は高次元データにも（ほぼ直接）適用でき、高次元データ専用の手順は機能データに（ほとんど直接）適用できると言えるでしょうか。答えが「いいえ」の場合、説明できますか？サイモンバーンの回答を利用した編集/更新：スパース性（S-sparse仮定、 ballおよび弱い ball ）は、高次元統計分析の構造的仮定として使用されます。lplpl^plplpl^pp < 1p<1p<1 「滑らかさ」は、機能データ分析の構造的仮定として使用されます。一方、逆フーリエ変換と逆ウェーブレット変換は、スパース性を滑らかさに変換し、滑らかさはウェーブレットとフーリエ変換によってスパース性に変換されます。これは、サイモンが言及した重要な違いをそれほど重要ではないものにしますか？

10 data-mining signal-processing curve-fitting wavelet

6

傾向を特定するための信号処理原理の疑わしい使用

非常にノイズの多い長期データの傾向を見つけてみることを提案しています。データは基本的に、約8か月の間に約5mm移動したものの毎週の測定値です。データは1mmの精度であり、1週間に+/- 1または2mmで定期的に変化する非常に騒々しいものです。最も近いmmまでのデータしかありません。基本的な信号処理と高速フーリエ変換を使用して、生データからノイズを分離する予定です。基本的な前提は、データセットをミラーリングして既存のデータセットの最後に追加すると、データの全波長を作成できるため、データが高速フーリエ変換で表示され、うまくいけば、データを分離できることです。。これは私には少し怪しいように思えますが、これは追跡する価値のある方法ですか、それともデータセットをミラーリングして追加する方法になんらかの根本的な欠陥がありますか？ローパスフィルターの使用など、他のアプローチも検討しています。

10 time-series data-mining signal-processing trend

2

コンポーネントの数を選択するために、PCAフィットの品質を評価するための適切なメトリックは何ですか？

主成分分析（PCA）の品質を評価するための適切なメトリックは何ですか？このアルゴリズムをデータセットで実行しました。私の目的は、機能の数を減らすことでした（情報は非常に冗長でした）。保持される差異の割合は、保持する情報量の良い指標であることを知っています。冗長な情報を削除し、そのような情報を「失った」ことを確認するために使用できる他の情報メトリックはありますか？

10 machine-learning pca data-mining information-theory

1

K-means：実際の状況での反復回数は？

私はデータマイニングやビッグデータの業界での経験がないので、いくつかの経験を共有してほしいと思います。人々は実際に本当に大きなデータセットでk-means、PAM、CLARAなどを実行していますか？または、ランダムにサンプルをランダムに選択しますか？データセットのサンプルを取得するだけの場合、データセットが正常に分散されていなければ、結果は信頼できますか？これらのアルゴリズムを実行する実際の状況では、収束が発生するまでに通常何回の反復が必要かを知ることができますか？または、反復の数は常にデータサイズとともに増加しますか？収束する前に反復アルゴリズムを終了するアプローチを開発しようと考えていますが、結果はまだ許容範囲なので、これを求めています。計算のコストと時間を節約できるように、反復数が1,000を超える場合は、試してみる価値があると思います。どう思いますか？

10 clustering data-mining k-means convergence large-data

2

Fメジャーは正確さと同義ですか？

fメジャー（精度と再現率に基づく）は、分類子の正確さの見積もりであることを理解しています。また、不均衡なデータセットがある場合、fメジャーは精度よりも優先されます。簡単な質問があります（これはテクノロジーよりも正しい用語を使用することについてです）。不均衡なデータセットがあり、実験でfメジャーを使用しています。機械学習/データマイニング会議用ではない論文を書こうとしています。したがって、このコンテキストでは、fメジャーを正確に同義で参照できますか。たとえば、f値が0.82の場合、分類子は82％の正確な予測を達成したと言えますか？

10 machine-learning classification data-mining unbalanced-classes accuracy

2

最大＆頻繁に閉鎖—回答が含まれています

1 ：A 、B 、C 、E 2 ：A 、C 、D 、E 3 ：B 、C 、E 4 ：A 、C 、D 、E 5 ：C 、D 、E 6 ：A 、D 、EMy da t a s e t ：My dataset:My \ \ dataset: 1 ：A 、B 、C、E1:A,B,C,E1: A,B,C,E 2 ：A 、C、D 、E2:A,C,D,E2:A,C,D,E 3 ：B 、C …

10 data-mining dataset association-rules

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

5

データマイニングに関するビデオ講義？

データマイニングを学びたい。データマイニングのプロセスを詳細に説明する無料のビデオ講義はありますか？

10 references data-mining

2

ブースティングのout-of-bagエラー推定？

ランダムフォレストでは、各ツリーはデータの一意のブーストラップサンプルで並行して成長します。各ブーストラップサンプルには一意の観測値の約63％が含まれていると予想されるため、観測値の約37％が除外され、ツリーのテストに使用できます。現在、確率的勾配ブースティングでは、RFと同様の推定値もあるようです。OOBerrorOOBerrorOOB_{error} bag.fractionが0（0.5を推奨）より大きい値に設定されている場合、gbmは予測パフォーマンスの改善のout-of-bag推定を計算します。次の回帰ツリーの選択に使用されていない観測値の逸脱の減少を評価します。出典：Ridgeway（2007）、セクション3.3（8ページ）。それがどのように機能するか/有効であるかを理解するのに問題があります。シーケンスにツリーを追加するとします。元のデータセットのランダムなサブサンプルでこのツリーを成長させています。私はそれを育てるために使用されなかった観察でこの単一の木をテストすることができました。同意した。しかし、ブースティングはシーケンシャルなので、これらの省略された観測の予測を提供するために、これまでに構築されたツリーのシーケンス全体を使用しています。そして、先行する木々の多くがこれらの観察をすでに見ている可能性が高いです。したがって、モデルは実際にはRFのような目に見えない観測について各ラウンドでテストされていませんね？では、なぜこれが「out-of-bag」エラー推定と呼ばれるのでしょうか。私には、観察がすでに見られているので、それはどのバッグからも「出ていない」ように見えますか？

9 machine-learning cross-validation data-mining random-forest boosting

2

CARTツリーは予測子間の相互作用をキャプチャしますか？

この論文では、CARTでは各ステップで単一の共変量に対してバイナリ分割が実行されるため、すべての分割は直交し、したがって共変量間の相互作用は考慮されないと主張しています。ただし、非常に深刻な参考文献の多くは、逆に、ツリーの階層構造が予測子間の相互作用を自動的にモデル化することを保証していると主張しています（たとえば、この論文、そしてもちろんHastie）。誰が正しいのですか？CARTで生成されたツリーは、入力変数間の相互作用をキャプチャしますか？

9 machine-learning classification data-mining cart

1

Local Outlier Factor（LOF）検出分析のk値の選択

一連の3次元データがあり、局所異常値因子分析を使用して、最もユニークまたは奇妙な値を特定しようとしています。LOF分析で使用するk値をどのように決定しますか？私はk値が何を決定するかを理解しているので、異なるkを使用してわずかに異なる結果が表示されても驚くことはありませんが、他の値よりも1つの値に向かわせるデータセットの特性があるかどうかはわかりません。ありがとう！

9 data-mining outliers

1

計量経済学のためのテキストマイニング/自然言語処理ツールの使用

この質問がここで完全に適切かどうかはわかりませんが、適切でない場合は削除してください。私は経済学の大学院生です。社会保険の問題を調査するプロジェクトの場合、適格性の評価を扱う多数の行政訴訟（> 20万件）にアクセスできます。これらのレポートは、個別の管理情報にリンクされている可能性があります。これらのレポートから、定量分析に使用できる情報を抽出したいと思います。理想的には、grep/ awkなどを使用した単純なキーワード/正規表現検索以上のものです。このための自然言語処理はどの程度役に立ちますか？他の有用なテキストマイニングアプローチは何ですか？私が理解しているところによると、これは大きなフィールドであり、コーパスとして使用するにはレポートの一部を変換する必要があると考えられます。文献や方法に慣れるために、少し時間をかける価値はありますか？それは役に立ちますか？同様のことが以前に行われましたか？報酬の点でそれは価値がありますか？すなわち、経済学の実証的研究のためにNLPを使用して潜在的に有用な情報を抽出できますか？一部のレポートを読んで準備するために誰かを雇うための資金が存在する可能性があります。これはより大きなプロジェクトであり、より多くの資金を申請する可能性があります。必要に応じて、トピックの詳細を提供できます。複雑になる可能性の1つは、言語が英語ではなくドイツ語であることです。資格に関しては、私は主に計量経済学の訓練を受けており、Hastieらのレベルでの計算統計についてある程度の知識があります。本。私はPython、R、Stataを知っており、おそらくMatlabにすぐに慣れるでしょう。ライブラリを考えると、Pythonがこれに最適なツールであると思います。これに関連する場合、定性的な方法のトレーニングはまったくありませんが、私が連絡をとることができる人を知っています。私はこれに関する任意の入力を喜んでいます。つまり、これが潜在的に有用かどうか、もしそうなら、どこから読み始めるべきか、そしてどのツールに特に焦点を当てるべきか、です。

9 machine-learning data-mining econometrics text-mining natural-language

5

事前クラスタリングは、より優れた予測モデルの構築に役立ちますか？

チャーンモデリングのタスクについて、私は検討していました：データのk個のクラスターを計算する各クラスターのkモデルを個別に作成します。その根拠は、サブスクライバの母集団が均一であることを証明するものは何もないため、データ生成プロセスが異なる「グループ」では異なる可能性があると仮定するのが妥当です私の質問は、それは適切な方法ですか？それは何かに違反していますか、それとも何らかの理由で悪いと考えられていますか？もしそうなら、なぜですか？そうでない場合、その問題に関するいくつかのベストプラクティスを共有しますか？2つ目は、モデルツリーよりも事前クラスタリングを行う方が一般に良いか悪いかです（Witten、Frankで定義されているように、葉にモデルがある分類/回帰ツリー。「通常の」クラスタリングよりも優れている場合はidk。

9 machine-learning clustering data-mining predictive-models

タグ付けされた質問 「data-mining」

タグ付けされた質問「data-mining」