タグ付けされた質問 「multinomial」

結果の それぞれが名目上のカテゴリーの1つに配置されるランダムな実験の結果を記述するために使用される多変量の離散確率分布。 nk

3
結果をカテゴリーではなく順序と見なした場合、何が得られますか?
順序変数とカテゴリ変数の予測には、さまざまな方法があります。 私が理解していないのは、この区別がいかに重要かということです。注文を落とすと何が悪いのかを明確にする簡単な例はありますか?どのような状況でそれは重要ではありませんか?たとえば、独立変数もすべてカテゴリカル/オーディナルである場合、違いはありますか? この関連する質問は、独立変数のタイプに焦点を当てています。ここでは、結果変数について尋ねています。 編集: 順序構造を使用するとモデルパラメーターの数が減るという点がわかりますが、それでもまだ確信が持てません。 ここに例があります(順序付きロジスティック回帰の序論から取られていますが、私が見る限り、順序ロジスティック回帰は多項ロジスティック回帰よりもパフォーマンスが良くありません: library(nnet) library(MASS) gradapply <- read.csv(url("http://www.ats.ucla.edu/stat/r/dae/ologit.csv"), colClasses=c("factor", "factor", "factor", "numeric")) ordered_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- gradapply[train_rows,] test_data <- gradapply[setdiff(1:nrow(gradapply), train_rows),] m <- polr(apply~pared+gpa, data=train_data) pred <- predict(m, test_data) return(sum(pred==test_data$apply)) } multinomial_result <- function() { train_rows <- sample(nrow(gradapply), round(nrow(gradapply)*0.9)) train_data <- …

2
glmnet:多項式パラメーター化を理解する方法は?
次の問題:glmnet()を使用して、1つ(または複数)のカテゴリ変数でカテゴリ応答変数を予測したい。 ただし、glmnetが提供する出力を理解することはできません。 では、まず2つの関連するカテゴリ変数を生成しましょう。 データを生成する p <- 2 #number variables mu <- rep(0,p) sigma <- matrix(rep(0,p^2), ncol=p) sigma[1,2] <- .8 #some relationship .. diag(sigma) <- 1 sigma <- pmax(sigma, t(sigma)) n <- 100 set.seed(1) library(MASS) dat <- mvrnorm(n, mu, sigma) #discretize k <- 3 # number of categories d <- apply(dat, …

6
Rでmlogit関数を実行した後に予測する
これが私がやりたいことですがpredict、mlogitの方法がないようです。何か案は? library(mlogit) data("Fishing", package = "mlogit") Fish <- mlogit.data(Fishing, varying = c(2:9), shape = "wide", choice = "mode") Fish_fit<-Fish[-1,] Fish_test<-Fish[1,] m <- mlogit(mode ~price+ catch | income, data = Fish_fit) predict(m,newdata=Fish_test)

2
フィッシャーの正確確率検定はどの分布を想定していますか?
私の仕事では、フィッシャーの正確確率検定のいくつかの使用法を見てきましたが、それが自分のデータにどれだけうまく適合するかと思っていました。いくつかの情報源を見て、統計の計算方法を理解しましたが、仮定された帰無仮説の明確で正式な説明を見たことはありません。 誰かが私に仮定された分布の正式な説明を説明したり参照したりできますか?分割表の値に関する説明に感謝します。

1
2サンプルのカイ2乗検定
この質問は、ファンデルファールトの本、漸近統計、pg。253.#3: その仮定とYを n個のパラメータと独立多項ベクターである(M 、1、... 、K)と(N 、B 1、... 、BのK)。帰無仮説の下で、私は = bが、私はあることを示しますXmバツメートル\mathbf{X}_mYnYん\mathbf{Y}_n(m,a1,…,ak)(メートル、a1、…、ak)(m,a_1,\ldots,a_k)(n,b1,…,bk)(ん、b1、…、bk)(n,b_1,\ldots,b_k)ai=bia私=b私a_i=b_i 有するχ 2 K - 1つの分布。ここで、C I=を(XはM、I+YN、I)/(M+N)。∑i=1k(Xm 、私− m c^私)2m c^私+ ∑i = 1k(Yn 、i− n c^私)2n c^私Σ私=1k(バツメートル、私−メートルc^私)2メートルc^私+Σ私=1k(Yん、私−んc^私)2んc^私\sum_{i=1}^k \dfrac{(X_{m,i} - m\hat{c}_i)^2}{m\hat{c}_i} + \sum_{i=1}^k \dfrac{(Y_{n,i} - n\hat{c}_i)^2}{n\hat{c}_i}χ2k − 1χk−12\chi^2_{k-1}c^私= (Xm 、私+ Yn 、i)/(m + n )c^私=(バツメートル、私+Yん、私)/(メートル+ん)\hat{c}_i = (X_{m,i} + Y_{n,i})/(m+n) 始めるのに助けが必要です。ここの戦略は何ですか?2つの加数を次のように組み合わせることができました。 Σi …

2
多項分布の係数の合計
\newcommand{\P}{\mathbb{P}}私は公平なサイコロを投げています。1、2、または3を取得するたびに、「1」を書き留めます。4を取得するたびに、「2」を書き留めます。5または6を取得するたびに、「3」を書き留めます。 してみましょうNNNの総数は私はあることを書き留めたすべての数値の積のために必要なスロー可能≥100000≥100000\geq 100000。\ P(N \ geq 25)を計算(または概算)したいのですP(N≥25)P(N≥25)\P(N\geq 25)が、正規分布の関数として概算を与えることができます。 まず、\ log_3 100.000 \約10.48であるため、P(N≥11)=1P(N≥11)=1\P(N\geq 11) = 1ことがlog3100.000≈10.48log3⁡100.000≈10.48\log_3 100.000 \approx 10.48。ここで、aaa、bbb、cccそれぞれ1、2、3と書き留めた回数とします。次に: P(a,b,c∣n)=⎧⎩⎨⎪⎪(na,b,c)(12)a(16)b(13)c0 if a+b+c=n otherwiseP(a,b,c∣n)={(na,b,c)(12)a(16)b(13)c if a+b+c=n0 otherwise\P(a,b,c\mid n) = \begin{cases}\displaystyle\binom {n}{a, b, c} \left(\frac 1 2\right) ^ a \left(\frac 1 6\right)^b\left(\frac 1 3\right)^c &\text{ if } a + b + c = …

2
いくつかのロジスティック回帰と多項回帰
多項式回帰を実行する代わりに、いくつかのバイナリロジスティック回帰を実行することは実行可能ですか?この質問から:多項ロジスティック回帰と1対restバイナリロジスティック回帰の比較多項式回帰の方が標準誤差が低いことがわかります。 ただし、利用したいパッケージは多項式回帰に一般化されていないため(ncvreg:http : //cran.r-project.org/web/packages/ncvreg/ncvreg.pdf)、簡単にできるのかと思っていました。代わりにいくつかのバイナリロジスティック回帰。

3
濃度パラメーターに超優先分布がある多項式ディリクレモデル
手元にある問題をできるだけ一般的に説明するようにします。私は、観測値をパラメーター確率ベクトルシータを持つカテゴリカル分布としてモデル化しています。 その後、私はパラメータベクトルシータは、以下を前提とディリクレ事前パラメータを持つ分布。α1、α2、… 、αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k また、パラメータを超えるhyperprior分布を課すことがことが可能である?カテゴリー分布やディリクレ分布などの多変量分布でなければなりませんか?私にはアルファが常に正であるように見えるので、ガンマハイパープライアが機能するはずです。α1、α2、… 、αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k 誰かがそのような(おそらく)過剰パラメータ化されたモデルをフィッティングしようとしたが、アルファは修正されるべきではなく、ガンマ分布からのものであると考えるのが合理的であるかどうかわからない。 このようなアプローチを実際にどのように試すことができるかについての参考情報と洞察を提供してください。

2
マルチクラスのロジスティック回帰
によって与えられるマルチクラスのロジスティック回帰のモデルを得ま​​した P(Y=j|X(i))=exp(θTjX(i))1+∑km=1exp(θTmX(i))P(Y=j|X(i))=exp⁡(θjTX(i))1+∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^TX^{(i)})}{1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)})} ここで、kはクラスの数thetaは推定されるパラメーターjはj番目のクラスXiはトレーニングデータ 分からなかったのは、分母の部分 がモデルを正規化したです。つまり、確率が0と1の間に留まるということです。1+∑m=1kexp(θTmX(i))1+∑m=1kexp⁡(θmTX(i)) 1+ \sum_{m=1}^{k}\exp(\theta_m^T X^{(i)}) 私はロジスティック回帰に慣れていることを意味します P(Y=1|X(i))=1/(1+exp(−θTX(i)))P(Y=1|X(i))=1/(1+exp⁡(−θTX(i))) P(Y=1|X^{(i)}) = 1/ (1 + \exp(-\theta^T X^{(i)})) 実際、私は正規化のことと混同しています。この場合、シグモイド関数であるため、値が0未満または1を超えることはありませんが、マルチクラスの場合は混乱します。なぜそうなのですか? これは私の参照https://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.htmlです。正規化するべきだったと思います P(Y=j|X(i))=exp(θTjX(i))∑km=1exp(θTmX(i))P(Y=j|X(i))=exp⁡(θjTX(i))∑m=1kexp⁡(θmTX(i)) P(Y=j|X^{(i)}) = \frac{\exp(\theta_j^T X^{(i)})}{\sum_{m=1}^{k} \exp(\theta_m^T X^{(i)})}


4
コミュニティの構成を比較するためのテストは何ですか?
この初心者の質問がこのサイトの正しい質問であることを願っています: 2つのサイトA、Bの生態系コミュニティの構成を比較したいとします。3つのサイトすべてに犬、猫、牛、鳥がいることを知っているので、各サイトでその存在量をサンプリングします(実際には「各サイトの各動物の予想される存在量)。 たとえば、各サイトで各動物の5匹を数えると、AとBは非常に「類似」しています(実際、それらは「同じ」です)。 しかし、サイトAで100匹の犬、5匹の猫、2頭の牛、および3羽の鳥を見つけた場合、サイトBで5匹の犬、3匹の猫、75頭の牛、および2羽の鳥を見つけます。サイトAとBは「異なる」と言えます。 、彼らは正確に同じ種の組成を持っているにもかかわらず。 (私はSorensenとBray-Curtisのインデックスを読みましたが、それらは犬や猫などの不在/存在のみを考慮し、それらの存在量は考慮していないようです。) これを決定する統計的検定はありますか?

4
多項式の漸近分布
私は、dの結果に対する多項分布の限定分布を探しています。IE、以下の配布 limn→∞n−12Xnlimn→∞n−12Xn\lim_{n\to \infty} n^{-\frac{1}{2}} \mathbf{X_n} ここでXnXn\mathbf{X_n}密度を持つベクトル値確率変数であるfn(x)fn(x)f_n(\mathbf{x})のためにxx\mathbf{x}よう∑ixi=n∑ixi=n\sum_i x_i=n、xi∈Z,xi≥0xi∈Z,xi≥0x_i\in \mathbb{Z}, x_i\ge 0と他のすべてのxx\mathbf{x}場合は0、ここで fn(x)=n!∏i=1dpxiixi!fn(x)=n!∏i=1dpixixi!f_{n}(\mathbf{x})=n!\prod_{i=1}^d\frac{p_i^{x_i}}{x_i!} Larry Wassermanの237ページの「All of Statistics」定理14.6で1つの形式を見つけましたが、分布を制限するために、特異な共分散行列を持つNormalが得られるため、それを正規化する方法がわかりません。ランダムベクトルを(d-1)次元空間に射影して共分散行列をフルランクにすることができますが、どの射影を使用しますか? アップデート11/5 レイ・コープマンは、特異ガウスの問題の素晴らしい要約を持っています。基本的に、特異共分散行列は変数間の完全な相関を表します。これはガウスでは表現できません。ただし、ランダムベクトルの値が有効であることを条件として、条件付き密度のガウス分布を得ることができます(上記の場合、コンポーネントの合計はnnnになります)。 条件付きガウスの違いは、逆が疑似逆に置き換えられ、正規化係数が「すべての固有値の積」の代わりに「ゼロ以外の固有値の積」を使用することです。Ian Frisceがいくつかの詳細とのリンクを示しています。 固有値を参照することなく、条件付きガウスの正規化係数を表現する方法もあります、 ここでは「派生よ

1
Luce選択公理、条件付き確率についての質問[終了]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 私はルース(1959)を読んでいます。それから私はこの声明を見つけました: 人が選択肢の中から選択すると、非常に多くの場合、それらの応答は、選択セットで条件付けられた確率によって管理されているように見えます。しかし、条件付き確率の標準的な定義を伴う通常の確率理論は、必要なものとはかなり思えません。例は難しさを示しています。自宅から別の都市への移動方法を決定する場合、飛行機(a)、バス(b)、または車(c)のいずれかを選択できます。旅行の形態に関連する自然の不確実な状態をA、B、Cで表すことにします。cを選択した場合、AとBのすべての不確実性が残ることに注意してください。ただし、aまたはbのいずれかを選択した場合、車はガレージに残り、セットCは車の運転時から大幅に変更されます。 第1章の選択公理は、固定された普遍的なサンプル空間の仮定をバイパスした確率のような選択理論を構築する最初の試みとして導入されました。 ソース:http://www.scholarpedia.org/article/Luce's_choice_axiom ΩΩ\OmegaFF\mathcal{F}PPP 上記の例に関して、私が定義した場合に問題になると思われるもの: Ω = { バス、車、飛行機}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} 一般的な統計における重要な仮定の1つは、子宮口筋の状態です。これは、cpの仮定に違反しているため、選択動作のコンテキストで基本的な確率理論を調整する必要がある理由ですか?


2
切り捨てられた多項分布をサンプリングする方法は?
切り捨てられた多項分布をサンプリングするアルゴリズムが必要です。あれは、 x⃗ ∼1Zpx11…pxkkx1!…xk!x→∼1Zp1x1…pkxkx1!…xk!\vec x \sim \frac{1}{Z} \frac{p_1^{x_1} \dots p_k^{x_k}}{x_1!\dots x_k!} ここで、は正規化定数、→ xはk個の正の成分を持ち、∑ x i = nです。私は唯一の値を検討→ Xの範囲内→ ≤ → X ≤ → Bを。ZZZx⃗ x→\vec xkkk∑xi=n∑xi=n\sum x_i = nx⃗ x→\vec{x}a⃗ ≤x⃗ ≤b⃗ a→≤x→≤b→\vec a \le \vec x \le \vec b この切り捨てられた多項分布をどのようにサンプリングできますか? 注:切り捨てられていない多項分布をサンプリングするアルゴリズムについては、Wikipediaを参照してください。このアルゴリズムを切り捨てられた分布に適応させる方法はありますか? 均一バージョン:問題のより単純なバージョンは、すべての等しくする、p i = 1 / kです。この場合、少なくとも切り捨てられた分布をサンプリングするアルゴリズムを設計できる場合は、それを投稿してください。一般的な答えではありませんが、それは現時点で他の実際的な問題を解決するのに役立ちます。pipip_ipi=1/kpi=1/kp_i = 1/k

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.