タグ付けされた質問 「self-study」

クラスまたは自習用に使用される教科書、コース、またはテストからの定期的な練習。このコミュニティのポリシーは、完全な回答ではなく、そのような質問に「役立つヒントを提供する」ことです。

1
コーシー分布の位置パラメーターのMLE
センタリング後、2つの測定値xおよび−xは、確率密度関数を使用したコーシー分布からの独立した観測値であると仮定できます。 1f(x:θ)=f(x:θ)=f(x :\theta) = 、-∞&lt;X&lt;∞1π(1+(x−θ)2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) ,−∞&lt;x&lt;∞,−∞&lt;x&lt;∞, -∞ < x < ∞ 場合、のMLE は0であるが、場合、±に等しいの2つのMLEがあることを示すθ のx 2 &gt; 1 θ √x2≤1x2≤1x^2≤ 1θθ\thetax2&gt;1x2&gt;1x^2>1θθ\thetax2−1−−−−−√x2−1\sqrt {x^2-1} 対数尤度を区別する必要があるMLEを見つけると思います。 =Σ2(XI-θ)dldθdldθdl\over d\theta =∑=∑=\sum =2(-X-θ)2(xi−θ)1+(xi−θ)22(xi−θ)1+(xi−θ)22(x_i-\theta)\over 1+(x_i-\theta)^2 === 2(−x−θ)1+(−x−θ)22(−x−θ)1+(−x−θ)22(-x-\theta)\over 1+(-x-\theta)^2 + =02(x−θ)1+(x−θ)22(x−θ)1+(x−θ)22(x-\theta)\over 1+(x-\theta)^2 =0=0=0 そう、 =2(X+θ)2(x−θ)1+(x−θ)22(x−θ)1+(x−θ)22(x-\theta)\over 1+(x-\theta)^2 === 2(x+θ)1+(x−θ)22(x+θ)1+(x−θ)22(x+\theta)\over 1+(x-\theta)^2 その後、私はそれを 5x2=3θ2+2θx+35x2=3θ2+2θx+35x^2 = 3\theta^2+2\theta x+3 今、私は壁にぶつかった。私はおそらくある時点で間違っていたかもしれませんが、どちらにせよ質問の答え方がわかりません。誰でも助けることができますか?

4
ヒストグラムに平均をプロットするのは適切ですか?
平均値を視覚化するためにヒストグラムに垂直線を追加することは「大丈夫」ですか? 私には大丈夫のようですが、教科書などでこれを見たことがないので、そうしない慣習があるのではないかと思っています。 グラフは学期論文用であり、非常に重要な暗黙の統計ルールを誤って破らないようにしたいだけです。:)

4
特徴スケーリングと平均正規化
私はAndrew Ngの機械学習コースを受講していますが、数回試行してもこの質問に対する答えを正しく得ることができませんでした。レベルを通過しましたが、これを解決してください。 仮定の学生は、いくつかのクラスをとっている、とクラスは中間試験と最終試験を持っていました。次の2つの試験で得点のデータセットを収集しました。m=4m=4m=4 midterm (midterm)^2 final 89 7921 96 72 5184 74 94 8836 87 69 4761 78 多項式回帰を使用して、中間試験の得点から学生の最終試験の得点を予測します。具体的には、フォームのモデルに適合したいと、X 1は、中期スコアで、X 2は、(中期スコア)^ 2です。さらに、フィーチャスケーリング(フィーチャの「最大-最小」または範囲で除算)と平均正規化の両方を使用することを計画します。hθ(x)=θ0+θ1x1+θ2x2hθ(x)=θ0+θ1x1+θ2x2h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2x1x1x_1x2x2x_2 正規化された特徴何ですか?(ヒント:中間= 89、最終= 96はトレーニング例1です。)下のテキストボックスに回答を入力してください。該当する場合、小数点以下2桁以上を指定してください。x(4)2x2(4)x_2^{(4)}

2
n回のトスからk個のヘッドを観察します。コインは公正ですか?
私はインタビューでこの質問をされました。「正しい」答えはありますか?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) トスがiidで、ヘッドの確率がと仮定します。その場合、400回のトスでの頭の数の分布はNormal(200、10 ^ 2)に近く、220頭は平均から2標準偏差離れています。そのような結果を観察する確率(つまり、どちらの方向でも平均から2 SD離れている)は、5%未満です。p=0.5p=0.5p=0.5 インタビュアーは、本質的に、「平均値から2 SD以上を観察した場合、何か他のことが起こっていると結論付けます。コインが公正であることに賭けます」と言った。それは理にかなっています-結局のところ、それはほとんどの仮説テストが行​​うことです。しかし、それで話は終わりですか?「正解」と思われるインタビュアーにとって。ここで質問しているのは、ニュアンスが正当化されるかどうかです。 このコイン投げの文脈では、コインが公平ではないと判断することは奇妙な結論であると指摘するしかありませんでした。私はそれを言う権利がありますか?以下で説明します。 まず第一に、私は-そして私はほとんどの人も-コインについて強い優先順位を持っていると思います:彼らは公平である可能性が非常に高いです。もちろん、それは公正という意味によって異なります。1つの可能性は、「公正」を「頭が0.5に「近い」、たとえば0.49から0.51の確率を持つ」と定義することです。 (また、完全に公正なコインは今むしろ思われる場合持つには、ヘッドの確率は正確に0.50であることを意味するものとして「公正」を定義することができ、未そう。) 事前の判断は、コインに関する一般的な信念だけでなく、コンテキストにも依存する可能性があります。自分のポケットからコインを引き出した場合、それが公正であることを事実上確信するかもしれません。あなたの魔術師の友人が彼からそれを引き出した場合、あなたの先輩は双頭コインにもっと重みを置くかもしれません。 いずれにせよ、(i)コインが公正である可能性を高くし、(ii)220の頭部を観察した後でも、後部を非常によく似たものにする合理的な優先順位を簡単に思い付きます。次に、平均から2 SDの結果を観察したにもかかわらず、コインは非常に公平である可能性が高いと結論付けます。 実際、たとえば、すべての不公平なコインがある可能性がある場合、400回のトスで220のヘッドを観察することで、後部がより公平なコインに重みを置く例を構築することもできます。{0,1}{0,1}\{0, 1\} 誰かが私のためにこれにいくらか光を当てることができますか? この質問を書いた後、私は以前にこの一般的な状況について聞いたことがあることを思い出しました-それはリンドリーの「パラドックス」ではありませんか? Whuberはコメントに非常に興味深いリンクを追加しました。ダイをロードできますが、コインをバイアスできません。3ページ目から: コインが頭の確率pを持っていると言うのは意味がありません。なぜなら、コインは投げられる方法によって完全に決定できるからです。バウンスなし。この場合、p = 1/2。 かなりクール!これは興味深い方法で私の質問と結びついています。コインが「空中に素早く回転して投げ込まれ、跳ね返ることなく空中に閉じ込められている」ことがわかっているとします。それから、コインが公正であるという仮説を絶対に拒否すべきではありません(ここで、「公正」とは、上記の方法で投げたときにp = 1/2を意味することを意味します)。コインは公平です。220のヘッドが観察された後、nullを拒否するのが不快な理由はある程度正当化されるかもしれません。

1
多重線形回帰の自由度
重回帰の自由度はに等しく、は変数の数です。N− k − 1N−k−1N-k-1kkk ん(すなわち、応答変数が含ま)?たとえば、モデルでは、(つまり、、、およびに対してそれぞれ1 df )ですか?kkkYYYY=B0+B1X1+B2X2Y=B0+B1X1+B2X2Y = B_0 + B_1X_1 + B_2X_2k=3k=3k = 3YYYX1X1X_1X2X2X_2

1
一般的に、推論を行うことは予測を行うことよりも困難ですか?
私の質問は次の事実から来ています。私は機械学習に関する投稿、ブログ、講義、および本を読んでいます。私の印象は、機械学習の実践者は統計学者/計量経済学が気にする多くのことに無関心であるように思われるということです。特に、機械学習の実践者は、推論よりも予測精度を重視しています。 そのような例の1つは、CourseraでAndrew Ngの機械学習を受けていたときに発生しました。彼は単純な線形モデルについて説明するとき、推定量のBLUEプロパティ、または不均一性がどのように信頼区間を「無効化」するかについては何も言及しませんでした。代わりに、彼は勾配降下法の実装と相互検証/ ROC曲線の概念に焦点を当てています。これらのトピックは私の計量経済学/統計学のクラスでは取り上げられていません。 もう1つの例は、カグルコンペティションに参加したときです。他の人のコードや考えを読んでいました。参加者の大部分は、すべてをSVM /ランダムフォレスト/ XGBoostに投入します。 さらに別の例は、段階的なモデル選択です。この手法は、少なくともオンラインとKaggleで広く使用されています。統計学習の紹介など、多くの古典的な機械学習の教科書でも取り上げています。ただし、この答え(かなり説得力のある)によると、ステップワイズモデルの選択は、特に「真のモデルを発見する」ことになると、多くの問題に直面します。可能性は2つしかないようです。機械学習の実践者が段階的に問題を認識していないか、問題を認識していても気にしていません。 だからここに私の質問があります: (一般的に)機械学習の実践者は予測に焦点を当てているため、統計学者/経済学者が気にする多くのことを気にしないのは本当ですか? それが本当なら、その背後にある理由は何ですか?推論はある意味で難しいからでしょうか。 機械学習(または予測)に関するオンラインの資料はたくさんあります。しかし、推論を行うことに関心がある場合、オンラインで参考にできるリソースにはどのようなものがありますか? 更新:「推論」という言葉は、多くのことを意味する可能性があることに気づきました。「推論」とは、次のような質問を指します。 XXXYYYYYYXXXX1,X2,⋯,XnX1,X2,⋯,XnX_1,X_2,\cdots,X_n 「すべてのモデルが間違っている」ので、私たちのモデルは真のモデルとどれほど「間違っている」のでしょうか。 サンプルの情報が与えられた場合、母集団について何が言えるか、そしてどれほど自信があると言えるか? 私の統計の知識は非常に限られているため、これらの質問が統計の領域に当てはまるかどうかさえわかりません。しかし、それらは機械学習の実践者が気にしないように思えるタイプの質問です。おそらく統計学者はどちらも気にしないのですか?知りません。

3
が連続変数の場合、
連続変数ことは知っています。P[ X= x ] = 0P[X=x]=0P[X=x]=0 しかし、場合、可能なxの数が無限にあることを視覚化することはできません。また、なぜそれらの確率が無限に小さくなるのですか?P[ X= x ] = 0P[X=x]=0P[X=x]=0バツxx

5
と独立して
XXXおよびYYY独立確率変数分布しているX∼χ2(n−1)X∼χ(n−1)2X\sim\chi^2_{(n-1)}とY∼Beta(n2−1,n2−1)Y∼Beta(n2−1,n2−1)Y\sim\text{Beta}\left(\frac{n}{2}-1,\frac{n}{2}-1\right)。Z=(2Y−1)√の分布は何ですかZ=(2Y−1)X−−√Z=(2Y−1)XZ=(2Y-1)\sqrt X? 関節密度(X,Y)(X,Y)(X,Y)によって与えられます。 fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}fX,Y(x,y)=fX(x)fY(y)=e−x2xn−12−12n−12Γ(n−12)⋅yn2−2(1−y)n2−2B(n2−1,n2−1)1{x&gt;0,0&lt;y&lt;1}f_{X,Y}(x,y)=f_X(x)f_Y(y)=\frac{e^{-\frac{x}{2}}x^{\frac{n-1}{2}-1}}{2^{\frac{n-1}{2}}\Gamma\left(\frac{n-1}{2}\right)}\cdot\frac{y^{\frac{n}{2}-2}(1-y)^{\frac{n}{2}-2}}{B\left(\frac{n}{2}-1,\frac{n}{2}-1\right)}\mathbf1_{\{x>0\,,\,00\,,\,|z|<w\}} 限界PDF その後で 、F Z(Z )= ∫ ∞ | z | f Z 、W(z 、w )ZZZ、私をどこにも導かない。fZ(z)=∫∞|z|fZ,W(z,w)dwfZ(z)=∫|z|∞fZ,W(z,w)dwf_Z(z)=\displaystyle\int_{|z|}^\infty f_{Z,W}(z,w)\,\mathrm{d}w 繰り返しますが、の分布関数を見つけると、不完全なベータ/ガンマ関数が現れます:ZZZ FZ(z)=Pr(Z≤z)FZ(z)=Pr(Z≤z)F_Z(z)=\Pr(Z\le z) = Pr ((2 Y− 1 )X−−√≤ Z)=∬(2y−1)x√≤zfX,Y(x,y)dxdy=Pr((2Y−1)X≤z)=∬(2y−1)x≤zfX,Y(x,y)dxdy\quad\qquad=\Pr((2Y-1)\sqrt X\le z)=\displaystyle\iint_{(2y-1)\sqrt{x}\le z}f_{X,Y}(x,y)\,\mathrm{d}x\,\mathrm{d}y ここでの変数の適切な変更とは何ですか?の分布を見つける別の方法はありますか?ZZZ カイ二乗、ベータ、「F」、「t」の分布の間で異なる関係を使用してみましたが、何も機能しないようです。おそらく私は明らかな何かを見逃しています。 @Francisが述べたように、この変換はBox-Müller変換の一般化です。

1
識別されたばかりの2SLSは中央値不偏ですか?
でアン経験主義者の仲間:ほとんど無害計量経済学(AngristとPischke、2009:209ページ)私は、次をお読みください。 (...)実際、特定されたばかりの2SLS(たとえば、単純なWald推定量)はほぼ不偏です。識別されたばかりの2SLSにはモーメントがないため、これを正式に表示するのは困難です(つまり、サンプリング分布には太い尾があります)。それにもかかわらず、弱い機器であっても、特定されたばかりの2SLSは、本来あるべき場所のほぼ中央にあります。したがって、特定されたばかりの2SLSは中央値不偏であると言います。(...) 著者は、特定されたばかりの2SLSは中央値で偏りがないと言っていますが、彼らはそれを証明せず、証拠への言及も提供しません。213ページで、彼らは再び命題について言及しているが、証拠への言及はない。また、MITの 22ページの機器変数に関する講義ノートでは、提案の動機を見つけることができません。 彼らのブログのメモでそれを拒否するので、理由は命題が間違っているかもしれません。ただし、特定されたばかりの2SLSはほぼ中央値で偏りがないと彼らは書いています。彼らは小さなモンテカルロ実験を使用してこれを動機付けていますが、近似に関連する誤差項の分析的証明または閉形式表現は提供していません。とにかく、これは、ミシガン州立大学のゲイリー・ソロン教授に対する著者の回答であり、2SLSが特定されたのは中央値で不偏ではないとコメントしました。 質問1:Gary Solonが主張するように、特定されたばかりの2SLSが中央値不偏でないことをどのように証明しますか? 質問2:ちょうど特定された2SLSがAngristとPischkeが主張するようにほぼ中央値で偏っていないことをどのように証明しますか? 質問1では、反例を探しています。質問2では、(主に)証拠または証拠への参照を探しています。 また、この文脈での中央値-偏りのない形式的な定義も探しています。次のように私は、概念を理解する:アン推定のいくつかのセットに基づいてののランダム変数は、中央値、公平のためのものである場合のみとの分布に中央値ある場合θX1:N、Nθ θ(X1:N)θθ^(X1 :n)θ^(バツ1:n)\hat{\theta}(X_{1:n})θθ\thetaバツ1 :nバツ1:nX_{1:n}nnnθθ\thetaθ^(X1 :n)θ^(バツ1:n)\hat{\theta}(X_{1:n})θθ\theta ノート 特定されたばかりのモデルでは、内因性のリグレッサーの数は機器の数に等しくなります。 特定されたばかりのインストルメンタル変数モデルを記述するフレームワークは、次のように表現できます。対象の因果モデルと第1段階の方程式は、 ここで、は内因性リグレッサーを記述する行列であり、インストルメント変数は行列によって記述されます。ここで、は、いくつかの制御変数を説明しています(たとえば、精度を向上させるために追加されます)。そして、とエラー項です。 XK×N+1のkK×N+1ZWU、V{ Yバツ=Xβ+ Wγ+ あなた=Zδ+ Wζ+ v(1)(1){Y=バツβ+Wγ+あなたはバツ=Zδ+Wζ+v\begin{cases} Y&=X\beta+W\gamma+u \\ X&=Z\delta+W\zeta+v \end{cases}\tag{1}バツバツXk × n + 1k×n+1k\times n+1kkkk × n + 1k×n+1k\times n+1ZZZWWWあなたはあなたはuvvv 2SLSを使用してを推定します。まず、を制御するを回帰し、予測値を取得します。これは最初の段階と呼ばれます。次に、制御するを回帰し。これは第2段階と呼ばれます。第2段階のの推定係数は、 2SLS推定です。(1 )X Z W X Y X W X βββ\beta(1 )(1)(1)バツバツXZZZWWWバツ^バツ^\hat{X}YYYバツ^バツ^\hat{X}WWWバツ^バツ^\hat{X}ββ\beta …

2
規則性と正則化とは何ですか?
機械学習を勉強するにつれて、これらの言葉をどんどん聞いています。実際、方程式の規則性に取り組んでフィールズメダルを獲得した人もいます。だから、これは統計物理学/数学から機械学習に至る用語です。当然、私が尋ねた多くの人々は、それを直感的に説明できませんでした。 ドロップアウトなどのメソッドが正則化に役立つことを知っています(=&gt;彼らはオーバーフィットを減らすと言いますが、実際にはそれがわかりません:それがオーバーフィットを減らすだけなら、なぜそれをアンチオーバーフィットメソッドと呼ばないのですか?もっと私が思うので、この質問)。 あなたが説明できるなら、私は本当に感謝しています(私は素朴なMLコミュニティもそうでしょう!) 規則性をどのように定義しますか?規則性とは何ですか? 正規化は、規則性を保証する方法ですか?すなわち、規則性をキャプチャしますか? ドロップアウトなどのメソッドの組み立て、正規化メソッドがすべて正規化を行っていると主張するのはなぜですか? なぜ機械学習でこれら(規則性/正規化)が出てくるのですか? ご協力ありがとうございます。

1
共同完全な十分な統計:Uniform(a、b)
ましょう上の一様分布からのランダムサンプルである、。ましょうと最大と最小の順序統計こと。統計量がパラメーターに対して十分な統計量であることを示します。 X=(x1,x2,…xn)X=(x1,x2,…xn)\mathbf{X}= (x_1, x_2, \dots x_n)(a,b)(a,b)(a,b)a&lt;ba&lt;ba < bY1Y1Y_1YnYnY_n(Y1,Yn)(Y1,Yn)(Y_1, Y_n)θ=(a,b)θ=(a,b)\theta = (a, b) 因数分解を使用して十分であることを示すのは問題ありません。 質問:完全性を表示するにはどうすればよいですか?できればヒントをお願いします。 試み:私は見ることができます暗示一つのパラメータの均一な分布のために、私は2つのパラメータ均一な分布に立ち往生しています。E[g(T(x))]=0E[g(T(x))]=0\mathbb E[g(T(x))] = 0g(T(x))=0g(T(x))=0g(T(x)) = 0 をいじってみて、と共同分布を使用しましたが、計算がつまずくので、正しい方向に進んでいるかどうかはわかりません。E[g(Y1,Yn)]E[g(Y1,Yn)]\mathbb E[g(Y_1, Y_n)]Y1Y1Y_1YnYnY_n


1
標準正規確率変数の二乗のPDF [閉じた]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新することがありますので、話題のクロス検証済みのため。 4年前に閉鎖されました。 pdfを見つけなければならないところに、この問題がありますY=X2Y=X2Y = X^2。すべてのI knowがあることであるXXX分布があるN(0,1)N(0,1)N(0,1)。はどのような分布Y=X2Y=X2Y = X^2ですか?同じXXX?PDFを見つけるにはどうすればよいですか?

2
フィッシャー基準の重みを計算する方法は?
パターン認識と機械学習を研究していますが、次の質問にぶつかりました。 等しい事前クラス確率P (D 1)= P (D 2)= 1の 2クラス分類問題を考えますP(D1)=P(D2)=12P(D1)=P(D2)=12P(D_1)=P(D_2)= \frac{1}{2} によって与えられた各クラスのインスタンスの分布 p(x|D1)=N([00],[2001]),p(x|D1)=N([00],[2001]), p(x|D_1)= {\cal N} \left( \begin{bmatrix} 0 \\0 \end{bmatrix}, \begin{bmatrix} 2 & 0 \\ 0 & 1 \end{bmatrix} \right), p(x|D2)=N([44],[1001]).p(x|D2)=N([44],[1001]). p(x|D_2)= {\cal N} \left( \begin{bmatrix} 4 \\ 4 \end{bmatrix}, \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \right). …

2
を見つける方法
どうすれば解決できますか?中間方程式が必要です。たぶん答えは−tf(x)−tf(x)-tf(x)です。 ddt[∫∞txf(x)dx]ddt[∫t∞xf(x)dx] \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] f(x)f(x)f(x)は確率密度関数です。 すなわち、あるlimx→∞f(x)=0limx→∞f(x)=0\lim\limits_{x \to \infty} f(x) = 0とlimx→∞F(x)=1limx→∞F(x)=1\lim\limits_{x \to \infty} F(x) = 1 ソース: http: //www.actuaries.jp/lib/collection/books/H22/H22A.pdf p.40 以下の中間方程式を試してください: ddt[∫∞txf(x)dx]=ddt[[xF(x)]∞t−∫∞tF(x)dx]??ddt[∫t∞xf(x)dx]=ddt[[xF(x)]t∞−∫t∞F(x)dx]?? \frac{d}{dt} \left [\int_t^\infty xf(x)\,dx \right ] = \frac{d}{dt} \left [\left [xF(x) \right ]_t^\infty - \int_t^\infty F(x)\,dx \right ]?? ddt∫atf(x)dx=−ddt∫taf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t)ddt∫taf(x)dx=−ddt∫atf(x)dx=−ddt(F(t)−F(a))=F′(t)=f(t) \frac{d}{dt} \int_t^a f(x)\,dx = -\frac{d}{dt} …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.