タグ付けされた質問 「multinomial」

結果の それぞれが名目上のカテゴリーの1つに配置されるランダムな実験の結果を記述するために使用される多変量の離散確率分布。 nk

2
多項ロジスティック回帰対1対残りのバイナリロジスティック回帰
いくつかのカテゴリと独立変数のセットを持つ従属変数とします。 YYY バイナリロジスティック回帰のセット(すなわち、1対レストスキーム)に対する多項ロジスティック回帰の利点は何ですか?バイナリロジスティック回帰のセットにより、各カテゴリに対して、場合はtarget = 1、それ以外の場合は0の個別のバイナリロジスティック回帰モデルを構築します。Y = Y Iy私∈ Yyi∈Yy_{i} \in YY= y私Y=yiY=y_{i}

1
Multinomial(1 / n、…、1 / n)は、離散化されたディリクレ(1、..、1)として特徴付けられますか?
そのため、この質問は少し厄介ですが、それを補うためにカラフルなグラフを含めます!最初に背景、次に質問。 バックグラウンド あなたが持っていると言う以上の等しいprobailitesと次元の多項分布カテゴリを。してみましょう正規化数(可能:つまり、その分布から)、N π = (π 1、... 、π N)Cnnnnnnπ= (π1、… 、πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1、… 、cn)〜多項(1 / n 、… 、1 / n )π私= c私n(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 現在、を介した分布は -simplexをサポートしていますが、個別のステップがあります。たとえば、場合、この分布には次のサポートがあります(赤い点):N 、N = 3ππ\pinnnn = 3n=3n = 3 同様のサポートを備えた別の分布は、次元の分布、つまり単位シンプレックス上の均一な分布です。たとえば、次は3次元の 1、1、1)からのランダムな描画です。ディリクレ(1 、... 、1 …

3
結果が分数(2つのカウントの比率)の場合、Rでロジスティック回帰を行う方法は?
私は次の生物学的実験がある論文をレビューしています。デバイスを使用して、細胞をさまざまな量の流体せん断応力にさらします。より大きなせん断応力がセルに適用されると、より多くのセルが基板から剥離し始めます。せん断応力の各レベルで、付着したままの細胞をカウントします。また、最初に付着した細胞の総数を知っているため、部分的な付着(または剥離)を計算できます。 付着率とせん断応力をプロットすると、結果はロジスティック曲線になります。理論的には、個々のセルはそれぞれ1つの観測ですが、明らかに数千または数万のセルがあるため、通常の方法(各行が観測)でセットアップされた場合、データセットは巨大になります。 ですから、当然、私の質問(タイトルで述べられているように)は今では意味があります。DVとして分数の結果を使用してロジスティック回帰を行うにはどうすればよいですか?glmで実行できる自動変換はありますか? 同じ線に沿って、潜在的に3つ以上の(分数の)測定がある場合、多項ロジスティック回帰の場合、これをどのように行いますか?

3
NPS(ネットプロモータースコア)結果の誤差を計算するにはどうすればよいですか?
ウィキペディアにNPSの計算方法を説明します。 ネットプロモータースコアは、0〜10の評価尺度で顧客に1つの質問をすることで得られます。10は「非常に可能性が高い」、0は「まったくそうではない」です。友達ですか?」回答に基づいて、顧客は3つのグループ(プロモーター(9〜10の評価)、受動的(7〜8の評価)、および中傷者(0〜6の評価)のいずれかに分類されます。次に、中傷者の割合をプロモーターの割合から差し引いて、ネットプロモータースコア(NPS)を取得します。NPSは、-100程度の低さ(全員が批判者)、または+100程度の高さ(全員がプロモーター)です。 この調査は数年間定期的に実施されています。毎回数百の応答があります。結果のスコアは、時間の経過とともに20〜30ポイント変化しました。私は、もしあれば、どのスコアの動きが重要かを見極めようとしています。 それが単純に難しすぎると判明した場合、計算の基本の誤差を把握することに興味があります。各「バケツ」(プロモーター、パッシブ、ディトラクター)の許容誤差はどのくらいですか?スコアの平均を見るだけで、データを調査の実行ごとに1つの数値に減らした場合、誤差の範囲はどのくらいでしょうか?それは私をどこにでも連れて行くでしょうか? ここでのアイデアは役に立ちます。「NPSを使用しないでください」を除きます。その決定は、私の変化する能力の範囲外です!

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
Rで多項ロジットモデルを設定および推定する方法
JMPで多項ロジットモデルを実行し、各パラメーター推定値のAICとカイ2乗p値を含む結果を取得しました。このモデルには、1つのカテゴリー結果と7つのカテゴリー説明変数があります。 次にmultinom、nnetパッケージの関数を使用して、Rで同じモデルを構築すると考えていたものに適合させました。 コードは基本的に: fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); ただし、2つの結果は異なります。JMPでは、AICは2923.21、nnet::multinomAICでは3116.588です。 私の最初の質問は、モデルの1つが間違っているということです。 2つ目は、JMPが各パラメーター推定値のカイ2乗p値を提供することです。マルチノムでサマリーを実行fit1しても、推定値、AIC、および逸脱は表示されません。 私の2番目の質問はこうです:モデルのp値を取得し、使用するときに推定する方法はありnnet::multinomますか? 私が知っているmlogitは、このための別のRパッケージであり、その出力はp値が含まれてように見えます。ただし、mlogitデータを使用して実行することはできません。データは正しくフォーマットされていたと思いますが、無効な数式があったと言われました。私が使用したものと同じ式を使用しましたmultinomが、パイプを使用した別の形式が必要なようで、その仕組みがわかりません。 ありがとう。
20 r  logistic  multinomial  logit  jmp 

1
Rの「マルチノム」のp値の取得(nnetパッケージ)
パッケージのmultinom関数を使用してp値を取得するにはどうすればよいですか?nnetR 結果変数として「病理スコア」(不在、軽度、重度)、および2つの主な効果で構成されるデータセットがあります。 ATB1;感染+ ATB2;感染+ ATB3)。 最初に、順序変数回帰モデルを適合させようとしました。これは、私の従属変数(順序)の特性を考えると、より適切と思われます。ただし、オッズの比例性の仮定は(グラフィック的に)大きく違反しているため、代わりにnnetパッケージを使用して多項モデルを使用する必要がありました。 最初に、ベースラインカテゴリとして使用する必要がある結果レベルを選択しました。 Data$Path <- relevel(Data$Path, ref = "Absent") 次に、独立変数のベースラインカテゴリを設定する必要がありました。 Data$Age <- relevel(Data$Age, ref = "Twenty") Data$Treat <- relevel(Data$Treat, ref="infected without ATB") モデル: test <- multinom(Path ~ Treat + Age, data = Data) # weights: 18 (10 variable) initial value 128.537638 iter 10 value 80.623608 final …

1
確率シンプレックスのいくつかの分布は何ですか?
ましょう次元の確率単純である、すなわち、ようであると。 K - 1 のx ∈ Δ K X I ≥ 0 Σ I X 、I = 1△KΔK\Delta_{K}K− 1K−1K-1X ∈ ΔKx∈ΔKx \in \Delta_{K}バツ私≥ 0xi≥0x_i \ge 0∑私バツ私= 1∑私バツ私=1\sum_i x_i = 1 介して頻繁に(またはよく知られている、または過去に定義された)分布は何ですか?△K△K\Delta_{K} 明らかに、ディリクレ分布とロジット正規分布があります。この文脈で自然に出てくる他の分布はありますか?

4
多項ロジスティック回帰におけるexp(B)の解釈
これは多少初心者の質問ですが、多項ロジスティック回帰モデルで6.012のexp(B)結果をどのように解釈するのでしょうか? 1)6.012-1.0 = 5.012 = 5012%のリスク増加ですか? または 2)6.012 /(1 + 6.012)= 0.857 = 85.7%のリスク増加? 両方の選択肢が間違っている場合、誰かが正しい方法を言及してもらえますか? 私はインターネットで多くのリソースを検索しましたが、これらの2つの選択肢にたどり着きましたが、どちらが正しいか完全にはわかりません。


3
なぜ誰もベイジアン多項式ナイーブベイズ分類器を使用しないのですか?
(教師なし)テキストモデリングでは、潜在ディリクレ割り当て(LDA)は確率的潜在セマンティック分析(PLSA)のベイジアンバージョンです。基本的に、LDA = PLSA + Dirichletはそのパラメーターよりも優先されます。私の理解では、LDAは現在、参照アルゴリズムであり、さまざまなパッケージに実装されていますが、PLSAはもう使用すべきではありません。 ただし、(教師付き)テキスト分類では、多項分布のナイーブベイズ分類器に対してまったく同じことを行い、パラメーターよりも先にディリクレを置くことができます。しかし、私は誰もそれをするのを見たことがないと思います、そして多項式のNaive Bayesの「ポイント推定」バージョンはほとんどのパッケージで実装されたバージョンのようです。その理由はありますか?

1
文脈上の盗賊のコスト関数
私は文脈依存バンディット問題を解決するためにvowpal wabbitを使用しています。ユーザーに広告を表示していますが、広告が表示されるコンテキスト(ユーザーが誰なのか、ユーザーがどのサイトにいるのかなど)に関するかなりの情報を持っています。これは、ジョン・ラングフォードによって説明されているように、かなり古典的な文脈上の盗賊の問題のようです。 私の状況では、ユーザーが広告に対して持つことができる主な応答は2つあります。クリック(おそらく複数回)またはクリックしないことです。選択できる広告は約1,000個あります。Vowpal Wabbitには、action:cost:probability各コンテキストの形式のターゲット変数が必要です。私の場合、actionおよびprobability把握するのは簡単です:action私は、ディスプレイに選んだ広告であり、probability広告を表示するための私の現在のポリシーを与えられたその広告を選択する可能性があります。 しかし、ペイオフ(クリック)をコストにマッピングする良い方法を思い付くのに苦労しています。クリックは明らかに優れており、同じ広告を複数回クリックすることは、同じ広告を1回クリックするよりも優れています。ただし、広告をクリックしないことは中立です。実際にクリックの機会を逃したこと以外に費用はかかりません(私は奇妙な広告コンテキストで作業しています)。 私が持っていたいくつかのアイデアは次のとおりです。 cost = -1 * sign(clicks)+ 0 *(クリックされていない) コスト= -1 *クリック+ 0 *(クリックされない) cost = -1 * sign(clicks)+ 0.01 *(クリックされていない) コスト= -1 *クリック+ 0.01 *(クリックされない) (0, 1, 5, 0)これら4つの機能のコストのアクションベクトルの場合は、次のようになります。 (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) …

2
割合を分析する
合計が1になる複数の比率を含むデータセットがあります。勾配に沿ったこれらの比率の変更に興味があります(データの例については以下を参照)。 gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 = A2, A3 = A3) require(ggplot2) require(reshape2) dfm <- melt(df, id = "gradient") ggplot(dfm, aes(x = gradient, y = value, …
13 r  multinomial 

2
2つの従属多変量正規確率変数の線形結合
我々は確率変数の二つのベクトルを持って、両方とも正常である、すなわち、想定X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)とY∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)。線形結合の分布に興味があります。Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + Cここで、AAAとBBBは行列、CCCはベクトルです。場合XXXとYYY独立しており、Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)。質問は依存関係にあり、任意のペアの相関がわかっていると仮定し(Xi,Yi)(Xi,Yi)(X_i, Y_i)ます。ありがとうございました。 よろしくお願いします、イヴァン

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.