タグ付けされた質問 「binary-data」

バイナリ変数は、通常「0」と「1」としてコード化された2つの値のいずれかを取ります。

1
帰無仮説の下で交換可能なサンプルの背後にある直感は何ですか?
順列テスト(ランダム化テスト、再ランダム化テスト、または正確なテストとも呼ばれます)は非常に便利で、たとえば、必要な正規分布の仮定がt-test満たされていない場合や、ランク付けによる値の変換時に役立ちますノンパラメトリックテストのようにMann-Whitney-U-test、より多くの情報が失われます。ただし、この種の検定を使用する場合、帰無仮説の下でのサンプルの交換可能性の仮定は1つだけの仮定を見落とすべきではありません。coinRパッケージで実装されているようなサンプルが3つ以上ある場合にも、この種のアプローチを適用できることも注目に値します。 この仮定を説明するために、平易な英語で比fig的な言葉や概念的な直観を使ってください。これは、私のような非統計学者の間で見過ごされているこの問題を明確にするのに非常に役立つでしょう。 注: 置換テストの適用が同じ仮定の下で保持または無効にならない場合に言及することは非常に役立ちます。 更新: 私の地区の地元の診療所から無作為に50人の被験者を収集したとします。彼らは、1:1の比率で薬またはプラセボを無作為に割り当てられました。それらはすべてPar1、V1(ベースライン)、V2(3か月後)、およびV3(1年後)のパラメーター1について測定されました。50個の被験者はすべて、機能Aに基づいて2つのグループにサブグループ化できます。Aポジティブ= 20およびAネガティブ=30。これらは、機能Bに基づいて別の2つのグループにサブグループ化することもできます。Bポジティブ= 15およびBネガティブ=35 。今、私はPar1すべての訪問ですべての被験者からの値を持っています。交換可能性の仮定の下で、次のPar1場合に順列検定を使用するレベルを比較でき ますか?-薬物と被験者をV2でプラセボを投与した被験者と比較する ますか?-機能Aの対象とV2の機能Bの対象を比較しますか? -V2で機能Aを持つ対象とV3で機能Aを持つ対象を比較しますか? -この比較はどのような状況で無効であり、交換可能性の仮定に違反しますか?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
1クラスのテキスト分類を行う方法
テキスト分類の問題に対処する必要があります。Webクローラーは、特定のドメインのWebページをクロールします。Webページごとに、特定の1つのクラスのみに属しているかどうかを確認します。つまり、このクラスをPositiveと呼ぶと、クロールされた各WebページはPositiveクラスまたはNon-Positiveクラスに属します。 クラスPositiveのWebページの大きなトレーニングセットが既にあります。しかし、可能な限り代表的な非陽性クラスのトレーニングセットを作成する方法は?つまり、基本的にそのクラスにすべてを使用できます。確実にクラスPositiveに属さない任意のページを収集できますか?テキスト分類アルゴリズム(私はNaive Bayesアルゴリズムを使用することを好みます)のパフォーマンスは、Non-Positiveクラスに選択したWebページに大きく依存すると確信しています。 だから私は何をしますか?誰かアドバイスをください。どうもありがとうございました!

1
Rを使用した二分データ(バイナリ変数)の因子分析の例を介してステップを探しています
バイナリ変数のみのいくつかの二分データがあり、上司は四分相関行列を使用して因子分析を実行するように頼みました。私は以前、ここにある例とUCLAのstatサイトなどのサイトに基づいて異なる分析を実行する方法を自分自身に教えることができましたが、二分法の因子分析の例を通してステップを見つけることはできないようです。 Rを使用したデータ(バイナリ変数) 私が見たのCHLの応答ややまねの質問には、私も見ましたttnphns'答えを、私はもっと何かを探しています綴ら、私が一緒に働くことができる例を通してステップ。 ここの誰かが、Rを使用したバイナリ変数の因子分析の例を通してそのようなステップを知っていますか? 更新2012-07-11 22:03:35Z また、3次元の確立された機器で作業していることを追加する必要があります。これにいくつかの質問を追加し、4つの異なる次元を見つけたいと考えています。さらに、サンプルサイズはのみで、現在個のアイテムがあります。サンプルサイズとアイテムの数をいくつかの心理学の記事と比較しましたが、間違いなく低価格ですが、とにかく試してみたかったのです。しかし、これは私が探しているステップスルーの例にとって重要ではなく、以下のカラカルの例は本当に素晴らしいようです。朝一番に自分のデータを使って作業を進めます。n = 153n=153n=153191919

1
バイナリデータとの相関における分散分割と縦方向の変化
ロジスティック線形混合効果モデル(ランダムインターセプト)を使用して、175校の300,000人の生徒に関するデータを分析しています。各生徒は1回だけ発生し、データは6年間に及びます。 継続的な成果のためにVPC / ICCと同様の方法で、学校レベルと生徒レベル間の分散をどのように分割しますか?私は4つの方法を提案するこの記事を見てきましたが、そのうちAとBは私にとって興味深いものですが、これらのいずれかを使用することでどのような利点/欠点があるか、そしてもちろん他の方法があるかどうかを知りたいですそれ。 年ごと(または他の期間)の学校レベルの残差をどのように比較できますか?これまでのところ私は年によってデータを分割し、データの各年に対するモデルを実行することによって、これを行っているが、私はので、これは欠陥があると思う:私は)私はによって分割すべき理由は明白な理由がない年は、ii)固定効果の推定値は年ごとに異なるため、年ごとの変量効果の比較は意味をなさない場合があります(これは私の直感であり、誰かがこれをより正式に説明できれば正しいと思います)。 注:whuberおよびMacroとのメタでの議論の後、この質問を書き直しました。


2
連続時間縦断バイナリ応答用のRパッケージはありますか?
このbildパッケージは、シリアルバイナリレスポンスに最適なパッケージのようです。しかし、それは離散時間のためです。現在の応答Yと、以前に測定されたバイナリ応答、または少なくとも1次のマルコフバージョンのオッズ比接続の時間の滑らかな関数を指定したいと思います。これは交互ロジスティック回帰と呼ばれます。連続時間を処理するRパッケージを知っている人はいますか?つまり、測定時間はフォローアップ時間になりますか?モデルにランダム効果は必要ありません。

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

2
確率モデルを調整しながら最適なビン幅を選択する方法は?
背景:発生する結果の確率を予測するモデルを調整する方法について、いくつかの素晴らしい質問/回答があります。例えば ブライアースコア、および解像度、不確実性、信頼性への分解。 較正プロットと等張回帰。 これらの方法では、予測結果に対するビニング方法の使用が必要になることが多く、結果(0、1)の振る舞いは、平均結果をとることによりビン上で平滑化されます。 問題: ただし、ビンの幅を選択する方法を教えてくれるものは見つかりません。 質問:最適なビン幅を選択するにはどうすればよいですか? 試行:使用されている2つの一般的なビンの幅は次のようです。 等幅ビニング、たとえば、間隔[0、1]の10%をカバーする10個のビン。 ここで説明する Tukeyのビニング方法。 しかし、最も誤ってキャリブレーションされた予測確率の間隔を見つけることに関心がある場合、ビンのこれらの選択は最も最適ですか?

4
バイナリ時系列の予測
車が動いていないときは1、車が動いているときは0のバイナリ時系列があります。36時間先までの時間範囲と1時間ごとの予測を行います。 私の最初のアプローチは、次の入力を使用してNaive Bayesを使用することでした:t-24(毎日の季節)、t-48(毎週の季節)、時間。ただし、結果はあまり良くありません。 この問題に対してどの記事またはソフトウェアをお勧めしますか?

2
バイナリ分類問題でのaucとloglossの最適化
私は、結果の確率がかなり低い(aroung 3%)バイナリ分類タスクを実行しています。AUCで最適化するか、ログ損失で最適化するかを決定しようとしています。私が理解しているように、AUCはモデルの能力を最大化してクラスを区別しますが、対数損失は実際の確率と推定された確率の相違にペナルティを課します。私の仕事では、精度の精度を校正することが非常に重要です。だから私はログロスを選びますが、最高のログロスモデルは最高のAUC / GINIモデルでもあるべきかどうか疑問に思います。


4
ロジスティック回帰と変曲点
バイナリの結果といくつかの共変量のデータがあります。ロジスティック回帰を使用してデータをモデル化しました。単純な分析だけで、異常なことは何もありません。最終出力は、特定の共変量に対して確率がどのように変化するかを示す用量反応曲線であると想定されています。このようなもの: ロジスティック回帰を選択したことについて、(純粋な統計家ではなく)内部のレビューアからいくつかの批判を受けました。ロジスティック回帰は、確率スケールでのS字型曲線の変曲点が確率0.5であると想定(または定義)します。彼は、変曲点が確かに確率0.5であると仮定する理由はないと主張し、実際の位置がデータに基づくように変曲点を変化させることができる別の回帰モデルを選択する必要があります。 私はこの点について考えたことがないので、最初は彼の議論に油断しました。変曲点が0.5であると仮定することが正当化される理由について、私は何の議論もしませんでした。いくつかの調査を行った後、私はまだこの質問に対する答えがありません。 変曲点が追加のパラメーターである5パラメーターロジスティック回帰に出くわしましたが、この回帰モデルは通常、連続的な結果を伴う用量反応曲線を作成するときに使用されているようです。バイナリ応答変数に拡張できるかどうか、またどのように拡張できるかはわかりません。 私の主な質問は、ロジスティック回帰の変曲点が0.5であると仮定してよいのはなぜですか?それも重要ですか?ロジスティック回帰モデルをフィッティングして、変曲点の問題を明確に議論する人を見たことがありません。変曲点が必ずしも0.5とは限らない線量応答曲線を作成するための代替手段はありますか? 完全を期すために、上の図を生成するためのRコード: dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") dat$rank <- factor(dat$rank) logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat) newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4))) pp <- predict(logit, newdata, type = "response", se.fit = TRUE) …

3
バイナリデータのクラスタリングが重要かどうかをテストするにはどうすればよいですか
私はショッピングカートを分析しています。私のデータセットはトランザクションベクトルのセットであり、購入する商品が含まれています。 トランザクションにk-meansを適用すると、常に何らかの結果が得られます。ランダム行列はおそらくいくつかのクラスターも表示します。 私が見つけたクラスタリングが重要なものであるかどうかをテストする方法はありますか、それは偶然かもしれません。はいの場合、どうすればよいですか。

1
R / mgcv:なぜte()とti()テンソル積が異なる表面を生成するのですか?
のmgcvパッケージにRは、テンソル積の相互作用をフィッティングするための2つの関数がte()ありti()ます。私は2つの作業の基本的な分業を理解しています(非線形の相互作用を当てはめるか、この相互作用を主効果と相互作用に分解するか)。私が理解していないのは、なぜte(x1, x2)、そしてti(x1) + ti(x2) + ti(x1, x2)(わずかに)異なる結果を生成するのかということです。 MWE(から適応?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
巨大なバイナリデータセットをいくつかのカテゴリにクラスター化するには、どのアルゴリズムを使用する必要がありますか?
バイナリデータの大規模な(650K行* 62列)行列(0-1エントリのみ)があります。マトリックスはほとんどスパースです。約8%が満たされます。 それを5つのグループにクラスター化したいと思います。たとえば、1から5までの名前が付けられています。階層的クラスター化を試みましたが、サイズを処理できませんでした。長さ62の650Kビットベクトルを考慮して、ハミング距離ベースのK平均クラスタリングアルゴリズムも使用しました。これらのいずれでも適切な結果が得られませんでした。 助けてください。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.