タグ付けされた質問 「self-study」

クラスまたは自習用に使用される教科書、コース、またはテストからの定期的な練習。このコミュニティのポリシーは、完全な回答ではなく、そのような質問に「役立つヒントを提供する」ことです。

1
k最近傍のVC次元
kが使用されるトレーニングポイントの数と等しい場合、k最近傍アルゴリズムのVCディメンションは何ですか? コンテキスト:この質問は私が受講したコースで尋ねられ、そこに与えられた回答は0でした。しかし、なぜそうなのか理解していません。私の直感は、すべてのポイントが最初のモデルに従って1つのクラスに属し、別のクラスに属しているとラベル付けされるように、2つのモデル(つまり、トレーニングポイントのセット)を選択できるため、VCディメンションは1である必要があるということです2番目のモデルによれば、単一のポイントを粉砕することが可能であるはずです。私の推論のどこに間違いがありますか?


1
最小の指数分布のための最尤推定量
私はこの問題を解決する方法にこだわっています。 したがって、ランダム変数の2つのシーケンス、およびがあります。現在、とは、パラメータと持つ独立した指数分布です。ただし、とを観測する代わりに、とを観測し。、Y I、I = 1 、。。。、nはX Y λ μ X Y Z WXiXiX_iYiYiY_ii=1,...,ni=1,...,ni=1,...,nXXXYYYλλ\lambdaμμ\muXXXYYYZZZWWW Z=min(Xi,Yi)Z=min(Xi,Yi)Z=\min(X_i,Y_i)及びW=1W=1W=1であればZi=XiZi=XiZ_i=X_iと0の場合Zi=YiZi=YiZ_i=Y_i。ZとWに基づいてλλ\lambdaと\ muの最尤推定量の閉形式を見つける必要があります。さらに、これらがグローバルな最大値であることを示す必要があります。μμ\muZZZWWW これで、2つの独立した指数の最小値自体が指数であり、レートはレートの合計に等しいため、ZZZがパラメーター\ lambda + \ muで指数関数であることがわかりますλ+μλ+μ\lambda+\mu。したがって、最尤推定量はλ^+μ^=Z¯λ^+μ^=Z¯\hat{\lambda}+\hat{\mu}=\bar{Z}です。 しかし、私はここからどこへ行くべきか悩んでいます。WWWがパラメーターp = P(Z_i = X_i)のベルヌーイ分布であることは知っていますが、p=P(Zi=Xi)p=P(Zi=Xi)p=P(Z_i=X_i)これをパラメーターの1つに関するステートメントに変換する方法がわかりません。たとえば、MLEのW¯W¯\bar{W}はλλ\lambdaや\ muの観点から何を推定するμμ\muでしょうか?私は理解しているかのZi=XiZi=XiZ_i=X_i、その後、μ=0μ=0\mu=0が、私はここで、任意の代数の文を思い付く方法を考え出す苦労しています。 更新1:ZZZとWの共同分布の可能性を導き出すようコメントで言われましたWWW。 したがって、 whereです。正しい?この場合、とは独立していないため、共同分布を導出する他の方法がわかりません。f(Z,W)=f(Z|W=1)⋅p+f(Z|W=0)⋅(1−p)f(Z,W)=f(Z|W=1)⋅p+f(Z|W=0)⋅(1−p)f(Z,W)=f(Z|W=1)\cdot p+f(Z|W=0)\cdot (1-p)p=P(Zi=Xi)p=P(Zi=Xi)p=P(Z_i=X_i)ZZZWWW したがって、これは、上記のの定義により、を与えます。しかし、今何ですか?これではどこにも行けません。可能性を計算する手順を実行すると、次のようになります(混合物の各部分のサンプルサイズとしてとを使用...)f(Zi,Wi)=pλe−λzi+(1−p)μe−μzif(Zi,Wi)=pλe−λzi+(1−p)μe−μzif(Z_i,W_i)=p\lambda e^{-\lambda z_i}+(1-p)\mu e^{-\mu z_i}WWWmmmnnn L(λ,μ)=pmλme−λ∑zi+(1−p)nμne−μ∑ziL(λ,μ)=pmλme−λ∑zi+(1−p)nμne−μ∑ziL(\lambda,\mu)=p^m\lambda^m e^{-\lambda \sum{z_i}}+(1-p)^n\mu^n e^{-\mu \sum{z_i}} logL=mlogp+mlogλ−λ∑zi+nlog(1−p)+nlogμ−μ∑zilog⁡L=mlog⁡p+mlog⁡λ−λ∑zi+nlog⁡(1−p)+nlog⁡μ−μ∑zi\log L=m\log p+m\log\lambda-\lambda \sum{z_i}+n\log(1-p)+n\log\mu-\mu \sum{z_i} 偏微分をとると、これはと MLE推定が条件とするの平均にすぎないことを示してます。あれは、λλ\lambdaμμ\muZZZWWW λ^=∑Zimλ^=∑Zim\hat{\lambda}=\frac{\sum{Z_i}}{m} μ^=∑Zinμ^=∑Zin\hat{\mu}=\frac{\sum{Z_i}}{n} …

4
私が表示したい
LET確率空間上の確率変数である .SHOWそのX:Ω→NX:Ω→NX:\Omega \to \mathbb N(Ω,B,P)(Ω,B,P)(\Omega,\mathcal B,P)E(X)=∑n=1∞P(X≥n).E(X)=∑n=1∞P(X≥n).E(X)=\sum_{n=1}^\infty P(X\ge n). からの私の定義は、と等しくなり E(X)E(X)E(X)E(X)=∫ΩXdP.E(X)=∫ΩXdP.E(X)=\int_\Omega X \, dP. ありがとう。

1
比率と二項分布によるサンプルサイズの決定
私は、SokalとRohlfによるBiometry(3e)という本を使用して、いくつかの統計を学ぼうとしています。これは、確率、二項分布、およびポアソン分布をカバーする第5章の演習です。 この質問への答えを生成する式があることを理解しています: ただし、この式はこのテキストにはありません。確率、望ましい信頼レベル、および二項分布のみを知ってサンプルサイズを計算する方法を知りたいのですが。私が指摘できるこのトピックをカバーするリソースはありますか?私はGoogleを試しましたが、これまでに見たものには、この問題でアクセスできない情報が必要です。n=4(p–√−q√)2n=4(p−q)2 n = \frac 4 {( \sqrt{p} - \sqrt{q} )^2}

3
コインを弾く確率の深刻で深刻な問題
コインを1枚投げるとします。連続して4つ以上の連続したヘッドを得るのに必要なフリップの確率を知りたいのですが。 カウントは次のように機能します。連続する1回のフリップのカウントは、ヘッドのみ(4ヘッド以上)です。テールがヒットしてヘッドのストリークを壊すと、カウントは次のフリップから再開します。これは、10,000回のフリップで繰り返されます。 4連以上の頭だけでなく、6頭以上10頭以上の確率を知りたい。9ヘッドのストリークが達成されているかどうかを明確にするために、2つの別々のストリークではなく、1ストリークを4以上(および/または6以上)として集計します。たとえば、コインがTHTHTHTHHHHHH /// THAHTHT ....であった場合、カウントは13になり、次のテイルで再び始まります。 データが右側に大きく歪んでいるとしましょう。平均が40フリップであるので、ストリークが4以上になるには平均がかかり、分布はu = 28です。明らかにゆがんでいます。 現時点では何も見つからない場合を除いて、説明的なデータから意味のある方法を見つけるために最善を尽くしています。 私はそれからある意味のある確率を得る何らかの方法を見つけたいです。+/- 1 SDが68%である通常の曲線のように、ログの正規化を調べましたが、これは実際には私の目標ではないパラメトリックテストにのみ使用されています。 私はベータ版のディストリビューションについて教えられましたが、私がこれまでに提案したことはすべてかなり混乱しています。私は1年前にこの質問をして、いくつかの洞察を得ましたが、残念ながら、私にはまだ答えがありません。アイデアをお持ちの方、ありがとうございました。

1
統計的検定の提案
私は、次の上の適切な統計的検定(尤度比検定、t検定など)を見つける必要がある:レッツをランダムベクトルのIID試料で(X 、Y )と仮定する(Y X)〜N [ (μ 1 μ 2)、(1 0.5 0.5 1) ]。仮説がある: H 0 = μ 1 + μ{Xi;Yi}ni=1{Xi;Yi}i=1n\{X_i;Y_i\}^n_{i=1}(X;Y)(X;Y)(X;Y)(YX)(YX)\bigl( \begin{smallmatrix} Y\\ X \end{smallmatrix} \bigr)NNN [(μ1μ2),(1.5.51)][(μ1μ2),(1.5.51)]\left[\bigl( \begin{smallmatrix} \mu_1\\ \mu_2 \end{smallmatrix} \bigr), \bigl( \begin{smallmatrix} 1 & .5\\ .5 & 1 \end{smallmatrix} \bigr) \right]。 H 1 = μ 1 + μ 2 …

1
Anova()とdrop1()がGLMMに異なる回答を提供したのはなぜですか?
次の形式のGLMMがあります。 lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 私が使用している場合drop1(model, test="Chi")、私は私が使用している場合とは異なる結果を得るAnova(model, type="III")車のパッケージからかsummary(model)。後者の2つは同じ答えを与えます。 大量の偽造データを使用して、これらの2つの方法は通常違いがないことがわかりました。それらは、平衡線形モデル、不平衡線形モデル(異なるグループでnが等しくない場合)、および平衡一般化線形モデルに対して同じ答えを示しますが、平衡一般化線形混合モデルに対しては同じ答えを与えません。したがって、ランダムな要素が含まれている場合にのみ、この不一致が現れます。 これらの2つの方法の間に違いがあるのはなぜですか? GLMMを使用する場合は必要がありますAnova()かdrop1()使用できますか? これらの2つの違いは、少なくとも私のデータでは、かなりわずかです。どちらを使用するかは問題ですか?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
注文統計を介して推定値がパーセンタイルに収束することを示します
LET からサンプリングIIDランダム変数のシーケンスであるアルファ安定分布パラメータで、α = 1.5 、バツ1、X2、… 、X3 nX1,X2,…,X3nX_1, X_2, \ldots, X_{3n}。α = 1.5 、β= 0 、c = 1.0 、μ = 1.0α=1.5,β=0,c=1.0,μ=1.0\alpha = 1.5, \; \beta = 0, \; c = 1.0, \; \mu = 1.0 今配列検討、Y J + 1 = X 3 J + 1 X 3 J + 2 X …

4
仮定
タイトルのとおり。仮定のPDFに連続しiid確率変数であり、F。そのイベントを考えるX 1 ≤ X 2 ... ≤ X N - 1 > X N、N ≥ 2従って、Nはシーケンスが最初に低下した場合です。次に、E [ N ]の値は何ですか?バツ1、X2、… 、XんX1,X2,…,XnX_1, X_2, \dotsc, X_nfffバツ1≤ X2... ≤ XN− 1> XNX1≤X2…≤XN−1>XNX_1 \leq X_2 \dotsc \leq X_{N-1} > X_NN≥ 2N≥2N \geq 2NNNE[ N]E[N]E[N] 最初にを評価しようとしました。私は P [ N = 2 ]P[ N= i ]P[N=i]P[N = …

4
この場合、xのyの回帰はxのyよりも明らかに良いですか?
人の血液中のブドウ糖のレベルを測定するために使用される機器は、10人のランダムなサンプルで監視されます。レベルはまた、非常に正確な実験室手順を使用して測定されます。計器メジャーはxで示されます。検査手順の測定値はyで示されます。 個人的には、実験室の測定値を予測するために機器の測定値を使用することを目的としているため、y on xの方が正しいと思います。そして、y on xは、そのような予測の誤差を最小限に抑えます。 しかし、提供された答えはx対yでした。

1
Luce選択公理、条件付き確率についての質問[終了]
休業。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善してみませんか?詳細を追加し、この投稿を編集して問題を明確にしてください。 2年前休業。 私はルース(1959)を読んでいます。それから私はこの声明を見つけました: 人が選択肢の中から選択すると、非常に多くの場合、それらの応答は、選択セットで条件付けられた確率によって管理されているように見えます。しかし、条件付き確率の標準的な定義を伴う通常の確率理論は、必要なものとはかなり思えません。例は難しさを示しています。自宅から別の都市への移動方法を決定する場合、飛行機(a)、バス(b)、または車(c)のいずれかを選択できます。旅行の形態に関連する自然の不確実な状態をA、B、Cで表すことにします。cを選択した場合、AとBのすべての不確実性が残ることに注意してください。ただし、aまたはbのいずれかを選択した場合、車はガレージに残り、セットCは車の運転時から大幅に変更されます。 第1章の選択公理は、固定された普遍的なサンプル空間の仮定をバイパスした確率のような選択理論を構築する最初の試みとして導入されました。 ソース:http://www.scholarpedia.org/article/Luce's_choice_axiom ΩΩ\OmegaFF\mathcal{F}PPP 上記の例に関して、私が定義した場合に問題になると思われるもの: Ω = { バス、車、飛行機}Ω={bus,car,airplane}\Omega = \{ \text{bus}, \text{car}, \text{airplane} \} 一般的な統計における重要な仮定の1つは、子宮口筋の状態です。これは、cpの仮定に違反しているため、選択動作のコンテキストで基本的な確率理論を調整する必要がある理由ですか?

1
多変数依存の共同分布から周辺分布を見つける方法は?
私の教科書の問題点の1つは次のとおりです。2次元の確率的連続ベクトルには、次の密度関数があります。 fX,Y(x,y)={15xy20if 0 &lt; x &lt; 1 and 0 &lt; y &lt; xotherwisefX,Y(x,y)={15xy2if 0 &lt; x &lt; 1 and 0 &lt; y &lt; x0otherwise f_{X,Y}(x,y)= \begin{cases} 15xy^2 & \text{if 0 < x < 1 and 0 < y < x}\\ 0 & \text{otherwise}\\ \end{cases} 周辺密度関数およびf Yが次のとおりであることを示します。fXfXf_XfYfYf_Y fX(x)={5x40if 0 &lt; x …


1
0で切り捨てられた2つの独立した一様変数の差の分布
ましょとYが同じ均一分布を有する二つの独立確率変数であるU (0 、1 )密度をバツXXYYYU(0 、1 )U(0,1)U(0,1) であれば 0 ≤ X ≤ 1(および 0他の場所)。f(x )= 1f(x)=1f(x)=10 ≤ X ≤ 10≤x≤10≤x≤1000 してみましょうで定義された本当のランダム変数であります:ZZZ なら X &gt; Y(および 0他の場所)。Z= X− YZ=X−YZ=X-YX&gt;YX&gt;YX>Y000 の分布を導き出します。ZZZ 期待値と分散V (Z )を計算します。E(Z)E(Z)E(Z)V(Z)V(Z)V(Z)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.