タグ付けされた質問 「partitioning」

8
重み付けされたソーシャルネットワーク/グラフでコミュニティを検出する方法
重みのある無向のエッジを持つグラフでコミュニティ検出/グラフ分割/クラスタリングを実行することに関して、誰かが良い出発点を提案できるかどうか疑問に思っています。問題のグラフには約300万のエッジがあり、各エッジは接続する2つの頂点間の類似度を表します。特に、このデータセットでは、エッジは個人であり、頂点は観測された動作の類似性の尺度です。 過去に私はstats.stackexchange.comでここに着いた提案に従い、Newmanのモジュール性クラスタリングのigraphの実装を使用し、結果に満足しましたが、それは重みのないデータセットにありました。 私が見るべき特定のアルゴリズムはありますか?

5
時系列予測のためにデータセットを分割する方法は?
パン屋からの過去の販売データがあります(毎日、3年以上)。次に、将来の売上を予測するためのモデルを構築します(平日、天気変数などの機能を使用)。 モデルの適合と評価のためにデータセットを分割するにはどうすればよいですか? 時系列の列車/検証/テストの分割である必要がありますか? その後、トレインと検証セットを使用してハイパーパラメーターチューニングを行いますか? (ネストされた)相互検証は、時系列問題にとって悪い戦略ですか? 編集 @ ene100によって提案されたURLを辿った後に出会ったいくつかのリンクを以下に示します。 理論および実際の「ローリング予測の起源」を説明するロブ・ハインドマン(Rコードを使用) ローリングフォーキャスト予測のその他の用語は、「ウォークフォワード最適化」(ここまたはここ)、「ローリングホライズン」または「ムービングオリジン」です。 「これらの技術の需要と半数性は不明確である」ため、これらの技術は近い将来scikit-learnに統合されないようです(ここで説明します)。 そして、これは時系列相互検証の別の提案です。

2
Rでのツリーの分割:パーティとrpart
木を分割するのを見てからしばらく経ちました。前回このようなことをしたとき、R(Hothornが作成)のパーティーが好きです。サンプリングによる条件付き推論のアイデアは私にとって理にかなっています。しかし、rpartにも魅力がありました。 現在のアプリケーションでは(詳細は説明できませんが、逮捕者の大規模なサンプルの中で誰が刑務所に入るかを決定することを伴います)ランダムフォレスト、バギング、ブースティングなどの高度な方法は使用できません-簡単に説明できるものが必要ですルール。 また、Zhang&Singer(2010)Recursive Partitioning and Applicationsで推奨されているように、どのノードを分割するかを手動で制御したいと思います。その本に付属しているフリーウェアはこれを可能にしますが、それ以外の点ではユーザー入力がかなり原始的です。 推奨事項や提案はありますか?
15 r  cart  rpart  partitioning 

1
決定木のバイナリ分割の実装の違い
カテゴリー予測変数レベルに関連するため、決定ツリーでのバイナリ分割の実用的な実装に興味があります。バツjバツjX{j} 具体的には、意思決定ツリーを使用して予測モデルを構築するときに、予測精度と安定性を向上させるために、ある種のサンプリングスキーム(バギング、オーバーサンプリングなど)をよく利用します。これらのサンプリングルーチン中に、カテゴリ変数が完全なレベルセットよりも少ないツリーフィッティングアルゴリズムに提示される可能性があります。 変数Xがレベルを取るとしましょう{A,B,C,D,E}。サンプルでは、​​おそらくレベルのみ{A,B,C,D}が存在します。次に、結果のツリーを予測に使用すると、完全なセットが存在する場合があります。 この例を続けて、Xでツリーが分割さ{A,B}れ、左と{C,D}右に送信されるとします。バイナリ分割のロジックは、新しいデータに直面したときに「Xの値がAまたはBである場合は左に送信し、そうでない場合はこのケースを右に送信する」と言います。一部の実装で発生するように見えるのは、「Xの値がAまたはBの場合、左に送信し、Xの値がCまたはDの場合、右に送信する」です。このケースが値Eをとると、アルゴリズムは故障します。 バイナリ分割を処理する「正しい」方法は何ですか?はるかに堅牢な方法が頻繁に実装されているようですが、常にそうではありません(以下のRpartを参照)。 次に例を示します。 Rpartは失敗しますが、他は大丈夫です。 #test trees and missing values summary(solder) table(solder$PadType) # create train and validation set.seed(12345) t_rows<-sample(1:nrow(solder),size=360, replace=FALSE) train_solder<-solder[t_rows,] val_solder<-solder[-t_rows,] #look at PadType table(train_solder$PadType) table(val_solder$PadType) #set a bunch to missing levels(train_solder$PadType)[train_solder$PadType %in% c('L8','L9','W4','W9')] <- 'MISSING' #Fit several trees, may have to play with the parameters to …

3
ニューマンのネットワークモジュール性は、署名された重み付きグラフで機能しますか?
グラフのモジュール性は、ウィキペディアのページで定義されています。異なるポスト、誰かが隣接行列ので、そのモジュールを容易に重み付けネットワークについて計算(および最大化)することができる説明同様に価値の関係を含むことができます。ただし、これが、たとえば-10〜+10の範囲の符号付きの値付きエッジでも機能するかどうかを知りたいのですが。この問題について、直感、証明、または参照を提供できますか?AijAijA_{ij}

1
R線形回帰のカテゴリ変数「非表示」の値
これは私が何度か遭遇した例にすぎないため、サンプルデータはありません。Rで線形回帰モデルを実行する: a.lm = lm(Y ~ x1 + x2) x1は連続変数です。x2カテゴリ型で、「低」、「中」、「高」の3つの値があります。ただし、Rによって与えられる出力は次のようになります。 summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 私は、Rがそのような要因(要因x2であること)に何らかのダミーコーディングを導入していることを理解しています。私はただ疑問に思っていx2ます。「高」の値をどのように解釈しますか?たとえば、ここで示した例の「High」x2は応答変数にどのような影響を与えますか? これの例を他の場所(例:ここ)で見ましたが、理解できる説明は見つかりませんでした。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ベイズの定理を使用する場合の信頼区間
いくつかの条件付き確率と、95%の信頼区間を計算しています。私のケースの多くでは、(分割表からの)試行からのx成功の単純なカウントがあるnため、で提供さbinom.confint(x, n, method='exact')れてRいるような二項信頼区間を使用できます。 しかし、他の場合では、そのようなデータがないので、ベイズの定理を使用して、持っている情報から計算します。たとえば、イベントおよび与えられた場合:baaabbb P(a | b )= P(B |)⋅ P(a )P(b )P(a|b)=P(b|a)⋅P(a)P(b) P(a|b) = \frac{P(b|a) \cdot P(a)}{P(b)} \ textrm {binom.confint}(\#\ left(b \ cap {} a)、\#(a)\ right)を使用してP(b | a)の周りの95%信頼区間を計算でき、比率P(a)/ P(b)を周波数比\#(a)/ \#(b)として。この情報を使用してP(a | b)の周囲の信頼区間を導出することは可能ですか?P(b | a )P(b|a)P(b|a)binom.confint(#(B ∩a )、#(a ))binom.confint(#(b∩a),#(a))\textrm{binom.confint}(\#\left(b\cap{}a),\#(a)\right)P(a )/ P(b )P(a)/P(b)P(a)/P(b)#(a )/#(b )#(a)/#(b)\#(a)/\#(b)P(a | b )P(a|b)P(a|b) ありがとう。
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.