統計とビッグデータ partitioning

8

重みのある無向のエッジを持つグラフでコミュニティ検出/グラフ分割/クラスタリングを実行することに関して、誰かが良い出発点を提案できるかどうか疑問に思っています。問題のグラフには約300万のエッジがあり、各エッジは接続する2つの頂点間の類似度を表します。特に、このデータセットでは、エッジは個人であり、頂点は観測された動作の類似性の尺度です。過去に私はstats.stackexchange.comでここに着いた提案に従い、Newmanのモジュール性クラスタリングのigraphの実装を使用し、結果に満足しましたが、それは重みのないデータセットにありました。私が見るべき特定のアルゴリズムはありますか？

42 clustering data-visualization networks partitioning modularity

5

時系列予測のためにデータセットを分割する方法は？

パン屋からの過去の販売データがあります（毎日、3年以上）。次に、将来の売上を予測するためのモデルを構築します（平日、天気変数などの機能を使用）。モデルの適合と評価のためにデータセットを分割するにはどうすればよいですか？時系列の列車/検証/テストの分割である必要がありますか？その後、トレインと検証セットを使用してハイパーパラメーターチューニングを行いますか？（ネストされた）相互検証は、時系列問題にとって悪い戦略ですか？編集 @ ene100によって提案されたURLを辿った後に出会ったいくつかのリンクを以下に示します。理論および実際の「ローリング予測の起源」を説明するロブ・ハインドマン（Rコードを使用）ローリングフォーキャスト予測のその他の用語は、「ウォークフォワード最適化」（ここまたはここ）、「ローリングホライズン」または「ムービングオリジン」です。「これらの技術の需要と半数性は不明確である」ため、これらの技術は近い将来scikit-learnに統合されないようです（ここで説明します）。そして、これは時系列相互検証の別の提案です。

22 cross-validation partitioning

2

Rでのツリーの分割：パーティとrpart

木を分割するのを見てからしばらく経ちました。前回このようなことをしたとき、R（Hothornが作成）のパーティーが好きです。サンプリングによる条件付き推論のアイデアは私にとって理にかなっています。しかし、rpartにも魅力がありました。現在のアプリケーションでは（詳細は説明できませんが、逮捕者の大規模なサンプルの中で誰が刑務所に入るかを決定することを伴います）ランダムフォレスト、バギング、ブースティングなどの高度な方法は使用できません-簡単に説明できるものが必要ですルール。また、Zhang＆Singer（2010）Recursive Partitioning and Applicationsで推奨されているように、どのノードを分割するかを手動で制御したいと思います。その本に付属しているフリーウェアはこれを可能にしますが、それ以外の点ではユーザー入力がかなり原始的です。推奨事項や提案はありますか？

15 r cart rpart partitioning

1

決定木のバイナリ分割の実装の違い

カテゴリー予測変数レベルに関連するため、決定ツリーでのバイナリ分割の実用的な実装に興味があります。バツjバツjX{j} 具体的には、意思決定ツリーを使用して予測モデルを構築するときに、予測精度と安定性を向上させるために、ある種のサンプリングスキーム（バギング、オーバーサンプリングなど）をよく利用します。これらのサンプリングルーチン中に、カテゴリ変数が完全なレベルセットよりも少ないツリーフィッティングアルゴリズムに提示される可能性があります。変数Xがレベルを取るとしましょう{A,B,C,D,E}。サンプルでは、おそらくレベルのみ{A,B,C,D}が存在します。次に、結果のツリーを予測に使用すると、完全なセットが存在する場合があります。この例を続けて、Xでツリーが分割さ{A,B}れ、左と{C,D}右に送信されるとします。バイナリ分割のロジックは、新しいデータに直面したときに「Xの値がAまたはBである場合は左に送信し、そうでない場合はこのケースを右に送信する」と言います。一部の実装で発生するように見えるのは、「Xの値がAまたはBの場合、左に送信し、Xの値がCまたはDの場合、右に送信する」です。このケースが値Eをとると、アルゴリズムは故障します。バイナリ分割を処理する「正しい」方法は何ですか？はるかに堅牢な方法が頻繁に実装されているようですが、常にそうではありません（以下のRpartを参照）。次に例を示します。 Rpartは失敗しますが、他は大丈夫です。 #test trees and missing values summary(solder) table(solder$PadType) # create train and validation set.seed(12345) t_rows<-sample(1:nrow(solder),size=360, replace=FALSE) train_solder<-solder[t_rows,] val_solder<-solder[-t_rows,] #look at PadType table(train_solder$PadType) table(val_solder$PadType) #set a bunch to missing levels(train_solder$PadType)[train_solder$PadType %in% c('L8','L9','W4','W9')] <- 'MISSING' #Fit several trees, may have to play with the parameters to …

12 cart rpart partitioning

3

ニューマンのネットワークモジュール性は、署名された重み付きグラフで機能しますか？

グラフのモジュール性は、ウィキペディアのページで定義されています。異なるポスト、誰かが隣接行列ので、そのモジュールを容易に重み付けネットワークについて計算（および最大化）することができる説明同様に価値の関係を含むことができます。ただし、これが、たとえば-10〜+10の範囲の符号付きの値付きエッジでも機能するかどうかを知りたいのですが。この問題について、直感、証明、または参照を提供できますか？AijAijA_{ij}

11 clustering data-visualization networks partitioning modularity

1

R線形回帰のカテゴリ変数「非表示」の値

これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する： a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因（要因x2であること）に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか？たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか？これの例を他の場所（例：ここ）で見ましたが、理解できる説明は見つかりませんでした。

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

1

ベイズの定理を使用する場合の信頼区間

いくつかの条件付き確率と、95％の信頼区間を計算しています。私のケースの多くでは、（分割表からの）試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合：baaabbb P（a | b ）= P（B |）⋅ P（a ）P（b ）P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}（\＃\ left（b \ cap {} a）、\＃（a）\ right）を使用してP（b | a）の周りの95％信頼区間を計算でき、比率P（a）/ P（b）を周波数比\＃（a）/ \＃（b）として。この情報を使用してP（a | b）の周囲の信頼区間を導出することは可能ですか？P（b | a ）P(b|a)P(b|a)binom.confint（＃（B ∩a ）、＃（a ））binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P（a ）/ P（b ）P(a)/P(b)P(a)/P(b)＃（a ）/＃（b ）#(a)/#(b)\#(a)/\#(b)P（a | b ）P(a|b)P(a|b) ありがとう。

8 r bayesian confidence-interval conditional-probability hidden-markov-model segmentation hypothesis-testing statistical-significance multiple-comparisons multiple-regression r regression survey sample finite-population pca model-selection dataset partitioning clustering time-series least-squares regression standard-error causality r time-series outliers missing-data machine-learning svm hypothesis-testing discrete-data r data-visualization survey likert finance regression pca feature-selection stepwise-regression underdetermined svm natural-language

タグ付けされた質問 「partitioning」

タグ付けされた質問「partitioning」