統計とビッグデータ multinomial

2

いくつかのカテゴリと独立変数のセットを持つ従属変数とします。 YYY バイナリロジスティック回帰のセット（すなわち、1対レストスキーム）に対する多項ロジスティック回帰の利点は何ですか？バイナリロジスティック回帰のセットにより、各カテゴリに対して、場合はtarget = 1、それ以外の場合は0の個別のバイナリロジスティック回帰モデルを構築します。Y = Y Iy私∈ Yyi∈Yy_{i} \in YY= y私Y=yiY=y_{i}

36 logistic categorical-data multinomial

1

Multinomial（1 / n、…、1 / n）は、離散化されたディリクレ（1、..、1）として特徴付けられますか？

そのため、この質問は少し厄介ですが、それを補うためにカラフルなグラフを含めます！最初に背景、次に質問。バックグラウンドあなたが持っていると言う以上の等しいprobailitesと次元の多項分布カテゴリを。してみましょう正規化数（可能：つまり、その分布から）、N π = （π 1、... 、π N）Cnnnnnnπ= （π1、… 、πn）π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc （c1、… 、cn）〜多項（1 / n 、… 、1 / n ）π私= c私n(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 現在、を介した分布は -simplexをサポートしていますが、個別のステップがあります。たとえば、場合、この分布には次のサポートがあります（赤い点）：N 、N = 3ππ\pinnnn = 3n=3n = 3 同様のサポートを備えた別の分布は、次元の分布、つまり単位シンプレックス上の均一な分布です。たとえば、次は3次元の 1、1、1）からのランダムな描画です。ディリクレ（1 、... 、1 …

24 distributions bayesian bootstrap multinomial dirichlet-distribution

3

結果が分数（2つのカウントの比率）の場合、Rでロジスティック回帰を行う方法は？

私は次の生物学的実験がある論文をレビューしています。デバイスを使用して、細胞をさまざまな量の流体せん断応力にさらします。より大きなせん断応力がセルに適用されると、より多くのセルが基板から剥離し始めます。せん断応力の各レベルで、付着したままの細胞をカウントします。また、最初に付着した細胞の総数を知っているため、部分的な付着（または剥離）を計算できます。付着率とせん断応力をプロットすると、結果はロジスティック曲線になります。理論的には、個々のセルはそれぞれ1つの観測ですが、明らかに数千または数万のセルがあるため、通常の方法（各行が観測）でセットアップされた場合、データセットは巨大になります。ですから、当然、私の質問（タイトルで述べられているように）は今では意味があります。DVとして分数の結果を使用してロジスティック回帰を行うにはどうすればよいですか？glmで実行できる自動変換はありますか？同じ線に沿って、潜在的に3つ以上の（分数の）測定がある場合、多項ロジスティック回帰の場合、これをどのように行いますか？

24 r logistic multinomial

3

NPS（ネットプロモータースコア）結果の誤差を計算するにはどうすればよいですか？

ウィキペディアにNPSの計算方法を説明します。ネットプロモータースコアは、0〜10の評価尺度で顧客に1つの質問をすることで得られます。10は「非常に可能性が高い」、0は「まったくそうではない」です。友達ですか？」回答に基づいて、顧客は3つのグループ（プロモーター（9〜10の評価）、受動的（7〜8の評価）、および中傷者（0〜6の評価）のいずれかに分類されます。次に、中傷者の割合をプロモーターの割合から差し引いて、ネットプロモータースコア（NPS）を取得します。NPSは、-100程度の低さ（全員が批判者）、または+100程度の高さ（全員がプロモーター）です。この調査は数年間定期的に実施されています。毎回数百の応答があります。結果のスコアは、時間の経過とともに20〜30ポイント変化しました。私は、もしあれば、どのスコアの動きが重要かを見極めようとしています。それが単純に難しすぎると判明した場合、計算の基本の誤差を把握することに興味があります。各「バケツ」（プロモーター、パッシブ、ディトラクター）の許容誤差はどのくらいですか？スコアの平均を見るだけで、データを調査の実行ごとに1つの数値に減らした場合、誤差の範囲はどのくらいでしょうか？それは私をどこにでも連れて行くでしょうか？ここでのアイデアは役に立ちます。「NPSを使用しないでください」を除きます。その決定は、私の変化する能力の範囲外です！

21 hypothesis-testing statistical-significance standard-error multinomial nps

4

新しいベクターをPCA空間に投影する方法は？

主成分分析（PCA）を実行した後、新しいベクトルをPCA空間に投影します（つまり、PCA座標系で座標を見つけます）。を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか？

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Rで多項ロジットモデルを設定および推定する方法

JMPで多項ロジットモデルを実行し、各パラメーター推定値のAICとカイ2乗p値を含む結果を取得しました。このモデルには、1つのカテゴリー結果と7つのカテゴリー説明変数があります。次にmultinom、nnetパッケージの関数を使用して、Rで同じモデルを構築すると考えていたものに適合させました。コードは基本的に： fit1 <- multinom(y ~ x1+x2+...xn,data=mydata); summary(fit1); ただし、2つの結果は異なります。JMPでは、AICは2923.21、nnet::multinomAICでは3116.588です。私の最初の質問は、モデルの1つが間違っているということです。 2つ目は、JMPが各パラメーター推定値のカイ2乗p値を提供することです。マルチノムでサマリーを実行fit1しても、推定値、AIC、および逸脱は表示されません。私の2番目の質問はこうです：モデルのp値を取得し、使用するときに推定する方法はありnnet::multinomますか？私が知っているmlogitは、このための別のRパッケージであり、その出力はp値が含まれてように見えます。ただし、mlogitデータを使用して実行することはできません。データは正しくフォーマットされていたと思いますが、無効な数式があったと言われました。私が使用したものと同じ式を使用しましたmultinomが、パイプを使用した別の形式が必要なようで、その仕組みがわかりません。ありがとう。

20 r logistic multinomial logit jmp

1

Rの「マルチノム」のp値の取得（nnetパッケージ）

パッケージのmultinom関数を使用してp値を取得するにはどうすればよいですか？nnetR 結果変数として「病理スコア」（不在、軽度、重度）、および2つの主な効果で構成されるデータセットがあります。 ATB1;感染+ ATB2;感染+ ATB3）。最初に、順序変数回帰モデルを適合させようとしました。これは、私の従属変数（順序）の特性を考えると、より適切と思われます。ただし、オッズの比例性の仮定は（グラフィック的に）大きく違反しているため、代わりにnnetパッケージを使用して多項モデルを使用する必要がありました。最初に、ベースラインカテゴリとして使用する必要がある結果レベルを選択しました。 Data$Path <- relevel(Data$Path, ref = "Absent") 次に、独立変数のベースラインカテゴリを設定する必要がありました。 Data$Age <- relevel(Data$Age, ref = "Twenty") Data$Treat <- relevel(Data$Treat, ref="infected without ATB") モデル： test <- multinom(Path ~ Treat + Age, data = Data) # weights: 18 (10 variable) initial value 128.537638 iter 10 value 80.623608 final …

19 r regression p-value multinomial

1

確率シンプレックスのいくつかの分布は何ですか？

ましょう次元の確率単純である、すなわち、ようであると。 K - 1 のx ∈ Δ K X I ≥ 0 Σ I X 、I = 1△KΔK\Delta_{K}K− 1K−1K-1X ∈ ΔKx∈ΔKx \in \Delta_{K}バツ私≥ 0xi≥0x_i \ge 0∑私バツ私= 1∑私バツ私=1\sum_i x_i = 1 介して頻繁に（またはよく知られている、または過去に定義された）分布は何ですか？△K△K\Delta_{K} 明らかに、ディリクレ分布とロジット正規分布があります。この文脈で自然に出てくる他の分布はありますか？

16 distributions multinomial compositional-data

4

多項ロジスティック回帰におけるexp（B）の解釈

これは多少初心者の質問ですが、多項ロジスティック回帰モデルで6.012のexp（B）結果をどのように解釈するのでしょうか？ 1）6.012-1.0 = 5.012 = 5012％のリスク増加ですか？または 2）6.012 /（1 + 6.012）= 0.857 = 85.7％のリスク増加？両方の選択肢が間違っている場合、誰かが正しい方法を言及してもらえますか？私はインターネットで多くのリソースを検索しましたが、これらの2つの選択肢にたどり着きましたが、どちらが正しいか完全にはわかりません。

16 multinomial

2

各面が3回現れるまでダイスを振る回数

各サイドが3回出現するまでダイスを振る必要があると予想される回数はいくつですか？この質問はニュージーランドの小学校で尋ねられ、シミュレーションを使用して解決されました。この問題の分析ソリューションは何ですか？

15 probability multinomial negative-binomial coupon-collector-problem

3

なぜ誰もベイジアン多項式ナイーブベイズ分類器を使用しないのですか？

（教師なし）テキストモデリングでは、潜在ディリクレ割り当て（LDA）は確率的潜在セマンティック分析（PLSA）のベイジアンバージョンです。基本的に、LDA = PLSA + Dirichletはそのパラメーターよりも優先されます。私の理解では、LDAは現在、参照アルゴリズムであり、さまざまなパッケージに実装されていますが、PLSAはもう使用すべきではありません。ただし、（教師付き）テキスト分類では、多項分布のナイーブベイズ分類器に対してまったく同じことを行い、パラメーターよりも先にディリクレを置くことができます。しかし、私は誰もそれをするのを見たことがないと思います、そして多項式のNaive Bayesの「ポイント推定」バージョンはほとんどのパッケージで実装されたバージョンのようです。その理由はありますか？

15 bayesian multinomial prior naive-bayes dirichlet-distribution

1

文脈上の盗賊のコスト関数

私は文脈依存バンディット問題を解決するためにvowpal wabbitを使用しています。ユーザーに広告を表示していますが、広告が表示されるコンテキスト（ユーザーが誰なのか、ユーザーがどのサイトにいるのかなど）に関するかなりの情報を持っています。これは、ジョン・ラングフォードによって説明されているように、かなり古典的な文脈上の盗賊の問題のようです。私の状況では、ユーザーが広告に対して持つことができる主な応答は2つあります。クリック（おそらく複数回）またはクリックしないことです。選択できる広告は約1,000個あります。Vowpal Wabbitには、action:cost:probability各コンテキストの形式のターゲット変数が必要です。私の場合、actionおよびprobability把握するのは簡単です：action私は、ディスプレイに選んだ広告であり、probability広告を表示するための私の現在のポリシーを与えられたその広告を選択する可能性があります。しかし、ペイオフ（クリック）をコストにマッピングする良い方法を思い付くのに苦労しています。クリックは明らかに優れており、同じ広告を複数回クリックすることは、同じ広告を1回クリックするよりも優れています。ただし、広告をクリックしないことは中立です。実際にクリックの機会を逃したこと以外に費用はかかりません（私は奇妙な広告コンテキストで作業しています）。私が持っていたいくつかのアイデアは次のとおりです。 cost = -1 * sign（clicks）+ 0 *（クリックされていない）コスト= -1 *クリック+ 0 *（クリックされない） cost = -1 * sign（clicks）+ 0.01 *（クリックされていない）コスト= -1 *クリック+ 0.01 *（クリックされない） (0, 1, 5, 0)これら4つの機能のコストのアクションベクトルの場合は、次のようになります。 (0, -1, -1, 0) (0, -1, -5, 0) (0.01, -1, -1, 0.01) (0.01, -1, -5, 0.01) …

14 multinomial gradient-descent multiarmed-bandit vowpal-wabbit contextual-bandit

2

割合を分析する

合計が1になる複数の比率を含むデータセットがあります。勾配に沿ったこれらの比率の変更に興味があります（データの例については以下を参照）。 gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 = A2, A3 = A3) require(ggplot2) require(reshape2) dfm <- melt(df, id = "gradient") ggplot(dfm, aes(x = gradient, y = value, …

13 r multinomial

2

2つの従属多変量正規確率変数の線形結合

我々は確率変数の二つのベクトルを持って、両方とも正常である、すなわち、想定X∼N(μX,ΣX)X∼N(μX,ΣX)X \sim N(\mu_X, \Sigma_X)とY∼N(μY,ΣY)Y∼N(μY,ΣY)Y \sim N(\mu_Y, \Sigma_Y)。線形結合の分布に興味があります。Z=AX+BY+CZ=AX+BY+CZ = A X + B Y + Cここで、AAAとBBBは行列、CCCはベクトルです。場合XXXとYYY独立しており、Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z∼N(AμX+BμY+C,AΣXAT+BΣYBT)Z \sim N(A \mu_X + B \mu_Y + C, A \Sigma_X A^T + B \Sigma_Y B^T)。質問は依存関係にあり、任意のペアの相関がわかっていると仮定し(Xi,Yi)(Xi,Yi)(X_i, Y_i)ます。ありがとうございました。よろしくお願いします、イヴァン

13 probability normal-distribution multinomial

5

非常に多数のデータポイントで値の代入を実行する方法は？

非常に大きなデータセットがあり、約5％のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

タグ付けされた質問 「multinomial」

タグ付けされた質問「multinomial」