統計とビッグデータ data-mining

3

私は次のようなバイナリシーケンスを持っています 11111011011110101100000000000100101011011111101111100000000000011010100000010000000011101111 以下の図のように、ほとんどが1のクラスターの後に多数のゼロが続きます（黒は1を表します）。これらの1のクラスターを自動的に検出し、スパン（画像では赤い線で示されます）を生成できる手法（RまたはPythonが望ましい）を適用したいと思います。私はこれをしきい値で実行できることを知っています。つまり、2つのクラスターを少なくともn 0 で区切ってクラスターにする必要があると言いますが、事前定義されたしきい値を使用しない他の確立された方法があるのだろうかと思います。何か案が？

8 classification clustering data-mining pattern-recognition binary-data

3

分類入力のシリーズ次元削減

私は、結果変数がバイナリで入力が時系列である予測モデルを構築しようとしています。より具体的にするために、モデルは、過去60日間に会社で費やした金額に基づいて、顧客が解約するかどうか（会社を去る、1または0としてコード化）を予測します。したがって、データは行ごとに1人の顧客であり、列は結果因子（1または0）であり、時間t-1、t-2 .... t-60で費やされた金額の60の追加列です。ここにいくつかのサンプルデータがあります： #create the data a series of length 60 and a class ID sc <- read.table("http://kdd.ics.uci.edu/databases/synthetic_control/synthetic_control.data", header=F, sep="") #binary class lable classId <- as.factor(c(rep(0,300), rep(1,300))) newSc <- data.frame(cbind(classId, sc)) newSc$ID<-seq(1,600,1) 実際のモデルには、顧客ごとにこれらのシリーズの多くがある可能性があるため、シリーズのデータの次元を減らす必要があります。たとえば、60の値を使用する代わりに、これを一握りに減らす必要があります。もちろん、系列の平均値、最小値、最大値などを使用できますが、離散フーリエ変換の使用について読んでいます。質問： RのDFFTは私の目的に使用する適切な方法ですか？それがどのように機能するかについてのあらゆる情報がいただければ幸いです。このR関数が正しいと仮定して、次元削減を実現するために最も意味のある係数だけをどのように抽出しますか？追加：次元削減にDFFTを使用することは賢明な選択ではないというコンセンサスがあるようですが、データマイニングでは、この関数、DWTおよびSVDがすべて一般的に使用されているようです： 20ページから始まる時系列マイニング。

8 data-mining data-transformation dimensionality-reduction signal-processing

2

ランダムフォレストの補完

ランダムフォレスト（特にRのrandomForest）を（予測子空間で）欠損値補完に使用することについて、2つの質問があります。 1）代入アルゴリズムはどのように機能しますか？特に、代入にクラスラベルがどのようにそしてなぜ必要なのですか？クラスごとに定義された欠損値を補完するために平均値に重みを付ける役割を果たす近接行列は何ですか？ 2）欠損値を補完するためにクラスラベルが必要な場合-これを使用して、予測しようとしている新しいデータの欠損値を補完する方法を教えてください。

8 data-mining predictive-models missing-data random-forest data-imputation

1

名義属性を持つ順次データの分析のためのデータマイニングアプローチ

経験豊富なデータマイナーへの質問：このシナリオを考えると： N個のショッピングカートがあります各ショッピングカートには、無限に大きいセットからの任意の数のMアイテムが入っています（私が持っている現在のデータ量では、その任意の数は約1500に達する可能性があります）。各カートが満たされる順序は重要です買い物客の地理位置情報などの他の属性もありますが、アルゴリズムをより簡単にするために、これらの属性を破棄することができます（現在は除外しています）。する必要がある：特定の時点で、各カートに注文されたアイテムのセットのみが与えられている場合、クラスラベルの事前の知識がなくても「類似した」カートを識別します一定量のデータが収集され、データが処理されてラベルが割り当てられたら、将来の目に見えないデータをすばやく処理できる分類子を作成します最初のアプローチ：これまでのところ、私のアプローチは最初の点に焦点を当ててきました。私の方法では、k平均クラスタリングを使用し、カート間のハミング距離を計算して生成された距離行列を使用して、データの順次的な性質を処理します。このように、[りんご、バナナ、梨]は[梨、りんご、バナナ]とは異なりますが、[りんご、バナナ、梨]は[りんご、バナナ、カモシカ]とそれほど異なりません。kの適切な値は、シルエット係数の調査を通じて決定されます。これから生成されたクラスターは理にかなっているように見えますが、私のデータセットがスケーリングするため、私のメソッドの実行時間は明らかに禁止されます。質問：誰かがこの問題について初心者のデータマイナーに何か提案をすることはありますか？詳細情報を含む編集： n-gram機能を使用してペアで比較することを検討する提案を見つけました。これについて私が懸念しているのは順序です。n-gramモデルが使用されている場合、シーケンスの順序は維持されますか？また、この方法ではパフォーマンスの問題が発生する可能性が高くなります。

8 clustering classification data-mining ordinal-data

2

コンピュータゲームデータセット

私はコンピュータゲームのデータセットを探していましたが、これまではWoWの「アバター履歴」データセットしか見つけることができませんでした。他のジャンルのために、他に興味深いデータセットはありますか？

8 data-mining dataset

10

データマイニング会議？[閉まっている]

休業。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善してみませんか？この投稿を編集して、事実と引用で回答できるように質問を更新してください。 5か月前に閉鎖。最も重要な年次データマイニング会議は何ですか？ルール：回答ごとに1つの会議会議へのリンクを含める

8 data-mining conferences

5

データマイニングペーパー/例

特に、1つのデータセットがデータの準備から最終的なモデルに至るまで詳細に検討されている、データマイニングに関する中程度から長めの論文/ウェブサイトなどを探しています。特に、機械学習アルゴリズムの適用と基本的なデータモデリングについての議論に興味があります。例としては、Luis Torgoの著書「Data Mining with R」があります。任意の提案をいただければ幸いです。

8 r data-mining

1

このグラフの線の周りのぼかしはどういう意味ですか？

私は次のコマンドを使用してggplot2をいじって、データに行を合わせました。 ggplot(data=datNorm, aes(x=Num, y=Val)) + geom_point() + stat_summary(fun.data = "mean_cl_boot", geom="errorbar", colour="red", width=0.8) + stat_sum_single(median) + stat_sum_single(mean, colour="blue") + geom_smooth(level = 0.95, aes(group=1), method="lm") 赤い点は中央値、青は平均値、垂直の赤い線はエラーバーを示します。最後のステップとして、geom_smooth線形平滑化を使用して線をフィットするために使用しましたmethod="lm"。ラインに沿って、ラインの周りにも鈍い色合いが生成されました。ドキュメントから削除する方法を見つけましたが、オフにするために使用したオプションは次のとおりです。 se: display confidence interval around smooth? 誰かが私が線の周りの陰から理解すべきことを教えてもらえますか？具体的には、解釈の仕方を理解しようとしています。それはおそらくその行に適したものであるに違いありませんが、追加の情報は私にとって非常に役立つでしょう。助言がありますか？

8 r modeling dataset data-mining ggplot2

1

完全畳み込みニューラルネットワークでのパッチごとのトレーニングと完全畳み込みトレーニング

完全畳み込みニューラルネットワークの論文では、著者はパッチワイズトレーニングと完全畳み込みトレーニングの両方に言及しています。トレーニングセットの構築に関する私の理解は次のとおりです。与えられたM*M画像、抽出サブ画像とN*N（、 N<M）を。選択したサブ画像は、他のサブ画像と重複しています。トレーニングプロセスのバッチごとに、特定の画像または複数の画像のすべてのサブ画像を含めることができます。私の理解は正しいですか？それでは、パッチごとのトレーニングと完全なたたみ込みトレーニングの違いは何ですか？関連セクションを参照として含めます。

8 machine-learning deep-learning data-mining conv-neural-network computer-vision

2

機械学習を使用してテキストから特定の情報を抽出する方法は？

以下のようなテキストがあり、通常2/3の文と100〜200文字のテキストがあるとします。ジョニーはウォルマートから50ドルの牛乳を買いました。今、彼はたったの20ドルしか残していない。抽出したい人名：ジョニー使用済み：50ドル残金：20ドル。使用した場所：ウォルマート。私はリカレントニューラルネットワークに関する多くの資料を調べてきました。RNNでcs231nビデオを見て、次のキャラクター予測を理解しました。これらのケースでは、確率を使用して次の文字を見つけるために出力クラスとして使用できる26文字のセットがあります。しかし、ここでは出力クラスがわからないため、問題はまったく異なるように見えます。出力は、テキスト内の単語や数字に依存します。ランダムな単語や数字を使用できます。畳み込みニューラルネットワークでもテキストの特徴を抽出できることをQuoraで読みました。それもこの特定の問題を解決できるかどうか疑問に思いますか？

7 machine-learning deep-learning data-mining text-mining rnn

1

ベイジアンネットワークと相関ルール

Aprioriアルゴリズムは、いくつかの含意規則を見つけます。同様の結果がベイジアンネットワークによって提供されます。本質的な違いは何ですか？具体的な長所/短所は何ですか？編集： Aprioriアルゴリズムは、次の図（このホワイトペーパーから取得）で視覚的に確認できるように、一種の影響としてアソシエーションルールを生成します。

7 machine-learning data-mining bayesian-network apriori

タグ付けされた質問 「data-mining」

タグ付けされた質問「data-mining」