タグ付けされた質問 「self-study」

クラスまたは自習用に使用される教科書、コース、またはテストからの定期的な練習。このコミュニティのポリシーは、完全な回答ではなく、そのような質問に「役立つヒントを提供する」ことです。


3
もし IIDであり、その後、計算、ここで、
質問 場合 IID、次いで計算され、ここで、。X 1、⋯ 、X N〜N(μ 、1 )X1,⋯,Xn∼N(μ,1)X_1,\cdots,X_n \sim \mathcal{N}(\mu, 1)E (X 1 | T )E(X1∣T)\mathbb{E}\left( X_1 \mid T \right) T = Σ I X IT=∑iXiT = \sum_i X_i 試行:以下が正しいかどうかを確認してください。 たとえば、 これは、X_1、\ ldots、X_nがIIDである、各ことを意味します。Σ I E(X I |T) =E(Σ I X I |T) =T。∑iE(Xi∣T)=E(∑iXi∣T)=T.\begin{align} \sum_i \mathbb{E}\left( X_i \mid T \right) = …


2
2つの線形回帰モデルがある場合、どちらのモデルのほうがパフォーマンスが向上しますか?
私は大学で機械学習コースを始めました。クイズの1つで、この質問が尋ねられました。 モデル1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon モデル2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 上記のモデルのどれがデータによりよく適合しますか?(線形回帰を使用してデータをモデル化できると仮定) (教授によると)正しい答えは、両方のモデルが同等にうまく機能するということです。ただし、最初のモデルの方が適していると思います。 これが私の答えの背後にある理由です。以下のように書き換えることができる第2のモデル、αx+ϵαx+ϵ \alpha x + \epsilon 、α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2第一のモデルと同じではないであろう。αα\alpha実際に放物線であるため、最小値を有する(−0.25−0.25 -0.25 この場合は)。このため、最初のモデルのθθ \theta の範囲は、2番目のモデルのの範囲よりも大きくなっていますαα \alpha 。したがって、データがそのようなもので、最適な近似の勾配が-−0.25−0.25-0.25、第2のモデルは、最初の1に比べて非常にうまく機能しないでしょう。ただし、ベストフィットの勾配が−0.25−0.25-0.25、両方のモデルのパフォーマンスは同等です。 最初の方が良いのですか、それともまったく同じですか?

3
なぜそれらの合計が1を超えるために必要な(0,1)上の連続した均一変数の数は平均
ランダム変数のストリーム合計してみましょう。聞かせて私たちが1を超え、合計のために必要な用語の数である、すなわち、このような最小の数ですX I I I D 〜 U(0 、1 )Xi∼iidU(0,1)X_i \overset{iid}\sim \mathcal{U}(0,1)Y YYYYY X 1 + X 2 + ⋯ + X Y > 1。X1+X2+⋯+XY>1.X_1 + X_2 + \dots + X_Y > 1. の平均がオイラーの定数と等しいのはなぜですか?Y YYEee E(Y )= e = 10 !+11 !+12 !+13 !+…E(Y)=e=10!+11!+12!+13!+…\mathbb{E}(Y) = e = \frac{1}{0!} + \frac{1}{1!} + …

1
経験的CDFの信頼区間
ランダムプロセスから100個のデータポイントがあります。推定値の周りに信頼区間を配置するにはどうすればよいですか?分布関数は不明であり、正に歪んでいます。私の最初の傾向は、このクラスで読んだ資料に基づいてブートストラップを使用することですが、これを行う他の方法はありますか?Pr(X>x)Pr(X>x)\Pr(X>x)
14 self-study 

4
統計的コンテキストを消化するには?
まず、この興味深いサイトのすべてのアクティブなメンバーが統計学者であるとは限りません。それ以外の場合、次のように尋ねられる質問は意味をなしません!もちろんそれらは尊重しますが、概念的な説明よりも少し実用的な説明が必要です。 定義するウィキペディアの例から始めますpoint process。 Sをボレルσ代数B(S)を備えた局所的にコンパクトな2番目の可算ハウスドルフ空間とする。書き込み Sと上のローカル有限カウント対策のセットのためのNの最小σ代数のためのNのすべてのポイント数をレンダリングする...測定可能。NN\mathfrak{N}NN\mathcal{N}NN\mathfrak{N} 私にはこれは意味がありません。エンジニアリングのコンテキストでの説明は、私にとってより理解しやすいものです。 コメント:ほとんどの場合、ウィキペディアの説明は、(少なくとも私にとっては)同様の複雑なテキストのために役に立たないと感じました。私の経験から、統計に関する参考書は2種類のみです。a )非常に単純化されたb)非常に複雑な 両方を読むことは、私にはまったく利益がありません! 質問: この問題の解決策はありますか?または同様の経験? この投稿が有用であると感じた人には、チェックするメリットもあります:異なる観点から関連トピックを議論するクライアントに統計を相談するためのリファレンス。

2
Rでのdrop1出力の解釈
Rでは、drop1コマンドは適切なものを出力します。 次の2つのコマンドにより、出力が得られます。 example(step)#-> swiss drop1(lm1, test="F") 私のものは次のようになります。 > drop1(lm1, test="F") Single term deletions Model: Fertility ~ Agriculture + Examination + Education + Catholic + Infant.Mortality Df Sum of Sq RSS AIC F value Pr(F) <none> 2105.0 190.69 Agriculture 1 307.72 2412.8 195.10 5.9934 0.018727 * Examination 1 53.03 2158.1 189.86 …

1
キャレットglmnetとcv.glmnet
glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。 次のような多くの質問が提起されました。 分類モデルtrain.glmnet対cv.glmnet? キャレットでglmnetを使用する適切な方法は何ですか? 「キャレット」を使用して「glmnet」を相互検証する しかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります:推定されるラムダはなぜそんなに違うのですか? library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

2
ポアソンGLM結果のパラメーター推定値の解釈方法[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 5年前に閉鎖されました。 Call: glm(formula = darters ~ river + pH + temp, family = poisson, data = darterData) Deviance Residuals: Min 1Q Median 3Q Max -3.7422 -1.0257 0.0027 0.7169 3.5347 Coefficients: Estimate Std.Error z value Pr(>|z|) (Intercept) 3.144257 0.218646 14.381 < 2e-16 *** riverWatauga -0.049016 0.051548 -0.951 0.34166 …

2
パラメータの推定可能性に関する問題
レッツと、このような、4つのランダム変数である、ここでは不明なパラメーターです。また、、と仮定し次に、どれが本当ですか?Y1,Y2,Y3Y1,Y2,Y3Y_1,Y_2,Y_3Y4Y4Y_4E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y1)=θ1−θ3; E(Y2)=θ1+θ2−θ3; E(Y3)=θ1−θ3; E(Y4)=θ1−θ2−θ3E(Y_1)=\theta_1-\theta_3;\space\space E(Y_2)=\theta_1+\theta_2-\theta_3;\space\space E(Y_3)=\theta_1-\theta_3;\space\space E(Y_4)=\theta_1-\theta_2-\theta_3θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3Var(Yi)=σ2Var(Yi)=σ2Var(Y_i)=\sigma^2i=1,2,3,4.i=1,2,3,4.i=1,2,3,4. A.は推定可能です。θ1,θ2,θ3θ1,θ2,θ3\theta_1,\theta_2,\theta_3 B.は推定可能です。θ1+θ3θ1+θ3\theta_1+\theta_3 C.は推定可能であり、は最良の線形不偏推定値です。θ1−θ3θ1−θ3\theta_1-\theta_312(Y1+Y3)12(Y1+Y3)\dfrac{1}{2}(Y_1+Y_3)θ1−θ3θ1−θ3\theta_1-\theta_3 D.は推定可能です。θ2θ2\theta_2 答えはCです。これは私には奇妙に見えます(Dを取得したため)。 なぜ私はDを得たのですか?以来、。E(Y2−Y4)=2θ2E(Y2−Y4)=2θ2E(Y_2-Y_4)=2\theta_2 Cが答えだと理解できないのはなぜですか?わかりました、は不偏推定量であり、その分散は未満です。Y1+Y2+Y3+Y44Y1+Y2+Y3+Y44\dfrac{Y_1+Y_2+Y_3+Y_4}{4}θ1−θ3θ1−θ3\theta_1-\theta_3Y1+Y32Y1+Y32\dfrac{Y_1+Y_3}{2} どこが間違っているのか教えてください。 こちらにも投稿されています:https : //math.stackexchange.com/questions/2568894/a-problem-on-estimability-of-parameters

2
データマイニングにおけるカオス理論の既知の既存の実用的なアプリケーションは何ですか?
過去数年間、大衆市場でカオス理論に関するいくつかの作品をさりげなく読んでいるうちに、ニューラルネット、パターン認識、不確実性管理など、データマイニングや関連分野にそのさまざまな側面をどのように適用できるのか疑問に思い始めました。 '公開された研究でそのようなアプリケーションの例が非常に少ないので、a)既知の公開された実験およびプロジェクトで実際に実行されているか、b)そうでない場合、これらの相互関係でほとんど使用されていないのか疑問に思う田畑? 私がこれまで見てきたカオス理論の議論のほとんどは、完全に有用な科学アプリケーションを中心に展開していますが、データマイニングやパターン認識などの関連分野とはほとんど関係ありません。典型的な例の1つは、物理学の3体問題です。私はこの種の通常の科学的応用の議論を控えて、データマイニングと関連分野に明らかに関連する応用だけに質問を制限したいと思います。以下の潜在的なアプリケーションのリストは、公開された研究の検索の出発点として使用できますが、実際に実行されているアプリケーションがある場合は、それらにのみ興味があります。私が探しているのは、データマイニングに対するカオス理論の既知の実装です。潜在的なアプリケーションのリストとは対照的に、はるかに広いです。これは、読んでいるときに私が思いついたデータマイニングアプリケーションの簡単なアイデアの小さなサンプルです。おそらく、それらのどれも実用的ではなく、おそらくいくつかは私たちが話すように実用化されていますが、私はまだ慣れていない用語で行きます: マンデルブロが数十年前にアナログ電話回線のエラーバーストの場合に実用的な方法で行ったように、パターン認識で自己相似構造を識別します。 マイニングの結果にフェイゲンバウムの定数に出会う(おそらく、研究の過程で予想外の場所にマックスウェルの方程式がポップアップするのを見て、ストリング理論家が驚いたのと同様の方法で)。 ニューラルネットの重みとさまざまなマイニングテストの最適なビット深度を特定します。カオス関連関数の予測不可能性の一部を担っている初期条件への感度が出てくる、非常に小さい数値スケールのために、これについて疑問に思いました。 メンジャースポンジ、コッホカーブ、シェルピンスキーカーペットなど、魅力的なフラクタルの好奇心とは必ずしも関係のない他の方法で、分数次元の概念を使用します。おそらく概念をマイニングモデルの次元に、フラクショナルとして扱うことにより、何らかの有益な方法で適用できますか? フラクタルで作用するような法則の導出。 フラクタルで遭遇する関数は非線形であるため、非線形回帰への実用的なアプリケーションがあるのだろうかと思います。 カオス理論にはエントロピーとの接線的(そして時には誇張された)関係があるので、カオス理論で使用される関数からシャノンのエントロピー(またはその制限とその親類の制限)を計算する方法はあるのでしょうか? データの周期倍増動作を識別します。 有用な方法で「自己組織化」する可能性が最も高いものをインテリジェントに選択することにより、ニューラルネットの最適な構造を特定します。 カオスやフラクタルなども、計算の複雑さに正接しているため、複雑さを使用してカオス構造を特定できるのか、またはその逆の可能性があるのでしょうか。 私は最初にカオス理論の観点からリアプノフ指数を聞いたことがあり、それから特定のニューラルネットのレシピとエントロピーの議論で数回気づきました。 私がここにリストしていない他の関係はおそらく数十あります。これはすべて私の頭の上から外れました。私はこれらの特定の推測に対する具体的な答えにあまり興味がありませんが、野生に存在する可能性のあるアプリケーションのタイプの例として、それらを単に投げ捨てています。アプリケーションがデータマイニングに特に適用可能である限り、現在の研究の例や、このようなアイデアの既存の実装を含む返信を見たいと思います。 おそらく、私がよく知っている分野(情報理論、ファジィ集合、ニューラルネットなど)や、回帰などの能力がさらに低いものでも、気付いていない既存の実装がおそらく存在します。どういたしまして ここでの私の実用的な目的は、カオス理論の特定の側面について学習するためにもっと投資するかどうかを決定することです。明らかな有用性が見つからない場合は、後回しにします。 CrossValidatedを検索しましたが、データマイニングなどへのカオス理論の実用的なアプリケーションに直接対処するトピックは表示されませんでした。最も近いのは、スレッドカオス理論、方程式のないモデリング、ノンパラメトリック統計です。特定のサブセットで。

1
バイアス分散分解
Bishopのパターン認識と機械学習のセクション3.2で、彼はバイアス分散分解について説明し、損失関数の2乗について、期待損失を2乗バイアス項に分解できることを述べています(これは、平均予測が真からどれだけ離れているかを説明しています)モデル)、分散項(平均の周りの予測の広がりを表す)、およびノイズ項(データの固有のノイズを与える)。 バイアス分散分解は、2乗損失以外の損失関数で実行できますか? 特定のモデルデータセットについて、予想損失がすべてのモデルで最小となるモデルが複数ありますか?その場合、同じ最小予想損失をもたらすバイアスと分散の異なる組み合わせが存在する可能性があるということですか? モデルに正則化が含まれる場合、バイアス、分散、正則化係数間に数学的な関係がありますか?λλ\lambda 真のモデルがわからない場合、どのようにバイアスを計算できますか? 予想される損失(バイアスと分散の2乗の合計)よりも、バイアスまたは分散を最小化する方が理にかなっている状況はありますか?

1
Borel-Cantelli Lemmaに関連する質問
注意: Borel-Cantelli Lemmaは次のように述べています ∑n=1∞P(An)<∞⇒P(limsupAn)=0∑n=1∞P(An)<∞⇒P(limsupAn)=0\sum_{n=1}^\infty P(A_n) \lt \infty \Rightarrow P(\lim\sup A_n)=0 ∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1∑n=1∞P(An)=∞ and An's are independent⇒P(limsupAn)=1\sum_{n=1}^\infty P(A_n) =\infty \textrm{ and } A_n\textrm{'s are independent} \Rightarrow P(\lim\sup A_n)=1 次に、 もし∑n=1∞P(AnAcn+1)<∞∑n=1∞P(AnAn+1c)<∞\sum_{n=1}^\infty P(A_nA_{n+1}^c )\lt \infty Borel-Cantelli Lemmaを使用して それを見せたい まず、 存在limn→∞P(An)limn→∞P(An)\lim_{n\to \infty}P(A_n) 第二に、 limn→∞P(An)=P(limsupAn)limn→∞P(An)=P(limsupAn)\lim_{n\to \infty}P(A_n) =P(\lim\sup A_n) これら2つの部分を見せてください。ありがとうございました。

1
なぜRのlm()は私の教科書とは異なる係数推定値を返すのですか?
バックグラウンド モデルのフィッティングのコースの最初の例を理解しようとしています(これはばかげて単純に見えるかもしれません)。私は手作業で計算を行っており、例と一致していますが、Rでそれらを繰り返すと、モデル係数はオフになります。Rは標本分散()を使用しているのに対し、母分散()を使用している教科書に違いがあるのではないかと考えましたが、これらが計算でどこで使用されているかわかりません。たとえば、どこかで使用している場合 、メモに関するヘルプセクション:σ2σ2\sigma^2S2S2S^2lm()var()var() 分母n-1が使用され、iid観測の(共)分散の不偏推定量が得られます。 私は両方のコードを見てlm()おりlm.fit()、どちらも使用していませんが、そのデータをコンパイルされたCコード()に渡しますがvar()、アクセスできません。lm.fit()z <- .Call(C_Cdqrls, x, y, tol, FALSE) 質問 Rが異なる結果を出している理由を誰でも説明できますか?サンプルの使用と母集団の分散に違いがある場合でも、係数の推定値が異なるのはなぜですか? データ 学校の成績から靴のサイズを予測するために線を合わせます。 # model data mod.dat <- read.table( text = 'grade shoe 1 1 2 5 4 9' , header = T); # mean mod.mu <- mean(mod.dat$shoe); # variability mod.var <- sum((mod.dat$shoe - mod.mu)^2) # model coefficients …
13 r  regression  self-study  lm 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.