タグ付けされた質問 「self-study」

クラスまたは自習用に使用される教科書、コース、またはテストからの定期的な練習。このコミュニティのポリシーは、完全な回答ではなく、そのような質問に「役立つヒントを提供する」ことです。

5
非常に多数のデータポイントで値の代入を実行する方法は?
非常に大きなデータセットがあり、約5%のランダムな値が欠落しています。これらの変数は互いに相関しています。次のRデータセットの例は、ダミーの相関データを使用した単なるおもちゃの例です。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


4
カードを引いた後、エース、2、3などを獲得するまでの数字
以下を解決するのに苦労しています。 エースを獲得するまで、標準の52カードデッキからカードを交換せずに引きます。2を得るまで残っているものから引きます。3に進みます。デッキ全体がなくなった後、予想される数はどれくらいですか。 させるのは自然でした Ti=first position of card whose value is iTi=first position of card whose value is iT_i = \text{first position of card whose value is }i Ui=last position of card whose value is iUi=last position of card whose value is iU_i = \text{last position of card whose value is …

2
完全な十分な統計とは何ですか?
完全な十分な統計を理解するのに苦労していますか? レッツ十分統計量とします。T=ΣxiT=ΣxiT=\Sigma x_i 場合確率が1で、いくつかの機能のためにG、それは完全に十分統計量です。E[g(T)]=0E[g(T)]=0E[g(T)]=0ggg しかし、これはどういう意味ですか?ユニフォームとベルヌーイ(6ページhttp://amath.colorado.edu/courses/4520/2011fall/HandOuts/umvue.pdf)の例を見てきましたが、直観的ではなく、統合を見るともっと混乱しました。 誰かがシンプルで直感的な方法で説明できますか?

1
RのPROC Mixedとlme / lmerの違い-自由度
注:法的な理由で以前の質問を削除する必要があったため、この質問は再投稿です。 SASのPROC MIXED をR lmeのnlmeパッケージの関数と比較していると、やや紛らわしい違いを見つけました。より具体的には、異なるテストの自由度はとの間PROC MIXEDで異なり、lmeなぜだろうと思いました。 次のデータセットから開始します(以下のRコード)。 ind:測定が行われる個人を示す因子 fac:測定が行われる臓器 trt:治療を示す因子 y:連続応答変数 アイデアは、次の単純なモデルを構築することです: y ~ trt + (ind):indランダムな要因として y ~ trt + (fac(ind)):facにネストされたindランダムな要因として、 最後のモデルでは特異性が生じることに注意してください。とのyすべての組み合わせに対しての値は1つだけです。indfac 最初のモデル SASでは、次のモデルを作成します。 PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; チュートリアルによると、使用しているRの同じモデルnlmeは次のようになります。 > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 両方のモデルは、係数とそのSEに対して同じ推定値を与えますがtrt、の効果に対してF検定を実行する場合、異なる自由度を使用します。 SAS …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
Rでのモンテカルロシミュレーションを使用した積分の近似
MCシミュレーションを使用して次の積分を近似するにはどうすればよいですか? ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y ありがとう! 編集(一部のコンテキスト):シミュレーションを使用して積分を近似する方法を学習しようとしており、いくつかの困難に直面したときにいくつかの練習を行っています。 編集2 + 3:どういうわけか混乱して、積分を別々の部分に分割する必要があると思いました。だから、私は実際にそれを理解しました: n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

5
ロジスティック回帰におけるデフォルトのより良い分類
完全な開示:これは宿題です。データセットへのリンクを含めました(http://www.bertelsen.ca/R/logistic-regression.sav) 私の目標は、このデータセットのローン債務不履行の予測を最大化することです。 私がこれまでに考え出したすべてのモデルは、非デフォルト者の90%を超えると予測していますが、デフォルト値の40%未満は全体として分類効率を最大80%にします。だから、変数間に相互作用効果があるのだろうか?ロジスティック回帰では、考えられる各組み合わせをテストする以外に、潜在的な相互作用効果を特定する方法はありますか?あるいは、債務不履行者の分類の効率を高める方法。 私は立ち往生しています。推奨事項は、単語、Rコード、またはSPSS構文の選択に役立ちます。 私の主な変数は、次のヒストグラムと散布図で概説されています(二項変数を除く) 主な変数の説明: age: Age in years employ: Years with current employer address: Years at current address income: Household income in thousands debtinc: Debt to income ratio (x100) creddebt: Credit card debt in thousands othdebt: Other debt in thousands default: Previously defaulted (dichotomous, yes/no, 0/1) ed: Level …
12 r  logistic  spss  self-study 

4
なげなわが機能選択に対して不安定になる原因は何ですか?
圧縮センシングでは、 が一意のスパースソリューションcを持つという定理が保証され (詳細は付録を参照)。argmin∥c∥1subject to y=Xcargmin‖c‖1subject to y=Xc\text{argmin} \Vert c \Vert_1\\ \text{subject to } y = Xc ccc 投げ縄に同様の定理はありますか?そのような定理がある場合は、投げ縄の安定性を保証するだけでなく、投げ縄にさらに意味のある解釈を提供します。 lassoは、y = Xcによって応答yを生成するために使用されるスパース回帰係数ベクトルcccを明らかにできます。yyyy=Xcy=Xcy = Xc この質問をする理由は2つあります。 「lassoはスパースソリューションを優先する」とは、選択した機能の利点が何であるかさえわからないため、機能選択にlassoを使用する理由に対する答えではないと思います。 なげなわは機能選択が不安定であることで有名です。実際には、その安定性を評価するためにブートストラップサンプルを実行する必要があります。この不安定性を引き起こす最も重要な理由は何ですか? 付録: X_ {N \ times M} =(x_1、\ cdots、x_M)が与えられXN×M=(x1,⋯,xM)XN×M=(x1,⋯,xM)X_{N \times M} = (x_1, \cdots, x_M)ます。cccはΩΩ\Omega -sparse vector(Ω⩽MΩ⩽M\Omega \leqslant M)です。プロセスy=Xcy=Xcy = Xcは応答yを生成しyyyます。場合XXXオーダーのNSP(ヌル空間プロパティ)を有するΩΩ\Omegaとの共分散行列XXXゼロへの固有値近いを持っていない、に固有のソリューションが存在することになる argmin∥c∥1subject to y=Xcargmin‖c‖1subject to …

1
バックドアとフロントドアの調整による因果関係
以下の因果関係グラフでに対するの因果関係の影響を計算する場合は、バックドア調整とフロントドア調整の定理の両方を使用できます。つまり、 Y P (y | do(X = x ))= ∑ u P (y | x 、u )P (u )バツXXYYYP(y| する(X= x ))= ∑あなたP(y| x、u)P(u )P(y|do(X=x))=∑uP(y|x,u)P(u)P(y | \textit{do}(X = x)) = \sum_u P(y | x, u) P(u) そして P(y| する(X= x ))= ∑zP(z| x) ∑バツ』P(y| バツ』、z)P(x』)。P(y|do(X=x))=∑zP(z|x)∑x′P(y|x′,z)P(x′).P(y | \textit{do}(X = x)) = …

1
フィッシャーの厳密検定と超幾何分布
私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。 フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。 。この観察の可能性は何ですか?この質問に答えるために、次のコマンドを使用しました。 …

3
Coursera機械学習コースごとの正則化線形回帰コスト関数の導出
私はAndrew Ngのコース「機械学習」を数か月前にCourseraで受講しましたが、ほとんどの数学/派生物に注意を払うことなく、実装と実用性に焦点を合わせていました。それ以来、私は根本的な理論のいくつかを研究し始め、Ng教授の講義のいくつかを再訪しました。私は彼の "Regularized Linear Regression"についての講義を読んでいましたが、彼が次のコスト関数を与えることがわかりました。 J(θ )= 12 メートル[ ∑i = 1メートル(hθ(x(私))− y(私))2+ λ Σj = 1んθ2j]J(θ)=12m[∑i=1m(hθ(x(i))−y(i))2+λ∑j=1nθj2]J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j] 次に、このコスト関数に次の勾配を与えます。 ∂∂θjJ(θ )= 1メートル[ ∑i = 1メートル(hθ(x(私))− y(私))x(私)j- λ θj]∂∂θjJ(θ)=1m[∑i=1m(hθ(x(i))−y(i))xj(i)−λθj]\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j - \lambda\theta_j] 私は彼がどのように一方から他方へと移るのかについて少し混乱しています。自分で導出しようとすると、次の結果が得られました。 ∂∂θjJ(θ )= 1メートル[ ∑i = 1メートル(hθ(x(私))+ y(私))x(私)j+ …


4
ブートストラップ、モンテカルロ
宿題の一部として次の質問が設定されました。 データの1変量サンプルの平均で95%の信頼区間を取得するためのブートストラップのパフォーマンスを調べるシミュレーションスタディを設計および実装します。RまたはSASで実装できます。 確認したいパフォーマンスの側面は、信頼区間カバレッジ(つまり、信頼区間に真の平均が含まれる割合)とモンテカルロ変動(つまり、シミュレーション間で信頼限界の上限と下限がどれだけ変化するか)です。 誰かがこれのモンテカルロ変動の側面に取り組む方法を知っていますか?アルゴリズムなど何も考えられないようです。それはモンテカルロ統合と関係がありますか?ありがとう!

1
分散のMLEがガウス分布でバイアスされていることを理解するにはどうすればよいですか?
PRMLを読んでいて、画像が理解できません。絵を理解するためのヒントと、ガウス分布の分散のMLEが偏っている理由を教えてください。 式1.55: 式1.56 σ 2 M L E =1μMLE=1N∑n=1NxnμMLE=1N∑n=1Nxn \mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n σ2MLE=1N∑n=1N(xn−μMLE)2σMLE2=1N∑n=1N(xn−μMLE)2 \sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2

1
iidガンマ変量の合計の制限
レッツ確率密度関数とは独立同一分布確率変数のシーケンスです。 ショーそのf (x )= { 1X1,X2,…X1,X2,…X_1,X_2,\ldotsf(x)={12x2e−x0if x>0;otherwise.f(x)={12x2e−xif x>0;0otherwise. f(x) = \left\{ \begin{array}{ll} \frac{1}{2}x^2 e^{-x} & \mbox{if $x>0$};\\ 0 & \mbox{otherwise}.\end{array} \right. limn→∞P[X1+X2+…+Xn≥3(n−n−−√)]≥12limn→∞P[X1+X2+…+Xn≥3(n−n)]≥12\lim_{n\to \infty} P[X_1+X_2+\ldots+X_n\ge 3(n-\sqrt{n})] \ge \frac{1}{2} 私が試みたもの 問題は下限を表示することを求めているため、一見してチェビシェフの不等式を使用する必要があると思いました。しかし、問題が中央限界定理(CLT)に何らかの形で関連している可能性があることを明確に示す限界標識について考えました X1+X2+…+XnX1+X2+…+XnX_1+X_2+\ldots +X_n ましょうSn=X1+X2+…+XnSn=X1+X2+…+XnS_n=X_1+X_2+\ldots +X_n E(Sn)=∑i=0nE(Xi)=3n (since E(Xi)=3)V(Sn)=∑i=0nV(Xi)=3n (since V(Xi)=3 and Xi are i.i.d)E(Sn)=∑i=0nE(Xi)=3n (since E(Xi)=3)V(Sn)=∑i=0nV(Xi)=3n (since V(Xi)=3 and Xi are i.i.d)E(S_n)=\sum_{i=0}^{n} …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.