統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

9
データが与えられたモデルの確率を計算するのではなく、なぜp値を使用するのですか?
大まかに言えば、p値は、仮説(モデル)が与えられた実験の観測結果の確率を与えます。この確率(p値)を持っているため、仮説(どれだけ可能性があるか)を判断します。しかし、観察された結果を前提として仮説の確率を計算する方が自然ではないでしょうか? より詳細に。コインがあります。20回反転し、14個のヘッドを取得します(20個中14個を「実験の結果」と呼びます)。今、私たちの仮説は、コインが公正であるということです(頭と尾の確率は互いに等しい)。ここで、p値を計算します。これは、コイン20枚で14以上のヘッドを獲得する確率に相当します。OK、今、この確率(0.058)があり、この確率を使用してモデルを判断します(公正なコインがある可能性はどのくらいでしょうか)。 しかし、モデルの確率を推定したい場合、実験を与えられたモデルの確率を計算しないのはなぜですか?モデル(p値)を指定して実験の確率を計算するのはなぜですか?

3
強化学習における割引要因の役割を理解する
私は強化学習について学び、割引報酬の概念を理解しようとしています。そのため、システムに状態とアクションのペアのどちらが良いか、どれが悪いかを伝えるために報酬が必要です。しかし、私が理解していないのは、割引報酬が必要な理由です。後で良い状態に到達するのではなく、すぐに到達するかどうかが重要なのはなぜですか? これはいくつかの特定の場合に関連することを理解しています。たとえば、株式市場で取引するために強化学習を使用している場合、利益を遅らせるよりも早くする方がより有益です。これは、そのお金を持っていることで、そのお金で今やることができるようになるためです。 しかし、ほとんどの場合、割引が役立つ理由はわかりません。たとえば、障害物と衝突した場合にペナルティがある反対側に到達するために、部屋の周りをナビゲートする方法をロボットに学習させたいとしましょう。割引要因がなければ、障害物と衝突することなく、完全に反対側に到達することを学習します。そこに着くまでに長い時間がかかるかもしれませんが、最終的にはそこに着くでしょう。 しかし、報酬に割引を与えると、途中で物体と衝突しなければならない場合でも、ロボットは部屋の反対側にすばやく到達することが奨励されます。これは明らかに望ましい結果ではありません。確かに、ロボットを反対側にすばやく到達させたいのですが、途中でオブジェクトと衝突する必要がある場合はそうではありません。 ですから、私の直感では、どのような形の割引率も、実際には次善の解決策につながるということです。そして、割引率の選択はしばしばarbitrary意的に思えます-私が見た多くの方法は単にそれを0.9に設定しました。これは私には非常に素朴なように見え、最適なソリューションと最速のソリューションの間の任意のトレードオフを与えるように見えますが、実際にはこのトレードオフは非常に重要です。 誰かが私にこのすべてを理解するのを手伝ってくれますか?ありがとうございました :)

3
反復期待法則の一般化
私は最近このアイデンティティに出会いました: E[E(Y|X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] もちろん、そのルールのより単純なバージョン、つまりE[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) には精通していますが、その一般化の正当性を見つけることができませんでした。 誰かがその事実についてそれほど技術的ではない参考文献を教えてくれたり、さらに良いことに、誰かがこの重要な結果の簡単な証拠を提示してくれたら、ありがたいです。

3
ベイジアンの観点からブートストラップを解釈することは可能ですか?
わかりました、これは夜に私を維持する質問です。 ブートストラップ手順は、ベイジアン手順を近似していると解釈できますか(ベイジアンブートストラップを除く)。 私は、統計のベイジアンの「解釈」が本当に好きです。ただし、ブートストラップ手順の弱点もあります。これは非常に単純ですが、多くの状況で妥当な推論を提供します。ただし、ブートストラップが何らかの意味で事後分布に近似していることを知っていれば、ブートストラップにもっと満足するでしょう。 「Bayesian bootstrap」(Rubin、1981)は知っていますが、私の観点からすると、このバージョンのブートストラップは標準のブートストラップと同じくらい問題があります。問題は、古典的なブートストラップとベイジアンブートストラップの両方を行うときに行う、本当に独特なモデルの仮定です。つまり、分布の可能な値は、すでに見た値のみです。これらの奇妙なモデルの仮定は、ブートストラップ手順がもたらす非常に合理的な推論をどのようにしてもたらすことができますか?私はブートストラップの特性を調査した記事を探していました(例えば、Weng、1989)が、満足できる明確な説明が見つかりませんでした。 参照資料 ドナルド・B・ルービン(1981)。ベイジアンブートストラップ。 アン。統計学者。ボリューム9、ナンバー1、130-134。 Chung-Sing Weng(1989)。ベイジアンブートストラップ平均の二次漸近特性について 統計学年報、Vol。17、No.2、pp.705〜710。

2
MA(q)時系列モデルが「移動平均」と呼ばれるのはなぜですか?
時系列に関連して「移動平均」を読むと、、またはおそらく重み付きような平均。(これらは実際にはAR(3)モデルですが、これらは私の脳のジャンプ先です。)なぜMA(q)モデルはエラー用語、つまり「革新」の式なのですか?何ん移動平均としなければなりませんか?明らかな直観が欠けているように感じます。 0.5xt−1+0.3xt−2+0.2xt−3{ϵ}(xt − 1+ xt − 2+ xt − 3)3(バツt−1+バツt−2+バツt−3)3\frac{(x_{t-1} + x_{t-2} + x_{t-3})}30.5 xt − 1+ 0.3 xt − 2+ 0.2 xt − 30.5バツt−1+0.3バツt−2+0.2バツt−30.5x_{t-1} + 0.3x_{t-2} + 0.2x_{t-3}{ ϵ }{ϵ}\{\epsilon\}

4
不均衡なデータに対する決定ツリーのトレーニング
私はデータマイニングが初めてであり、非常に不均衡なデータセットに対してデシジョンツリーをトレーニングしようとしています。ただし、予測精度が低いという問題があります。 データはコースを学習している学生で構成され、クラス変数はコースのステータスであり、2つの値(撤回済みまたは現在)があります。 年齢 人種 性別 コース ... コース状況 データセットには、撤回されたよりも多くの現在のインスタンスがあります。撤回されたインスタンスは、合計インスタンスの2%のみを占めます。 人が将来撤退する確率を予測できるモデルを構築したいと考えています。ただし、トレーニングデータに対してモデルをテストする場合、モデルの精度はひどいです。 データが1つまたは2つのクラスに支配されているディシジョンツリーでも同様の問題が発生しました。 この問題を解決し、より正確な分類器を構築するには、どのアプローチを使用できますか?

3
ロジスティック回帰の正則化方法
Ridge、Lasso、ElasticNetなどの方法を使用した正則化は、線形回帰では非常に一般的です。私は次のことを知りたかったです:これらの方法はロジスティック回帰に適用できますか?その場合、ロジスティック回帰に使用する方法に違いはありますか?これらの方法が適用できない場合、ロジスティック回帰はどのように正規化されますか?


2
ニューラルネットワークのmaxoutとは何ですか?
ニューラルネットワークのmaxoutユニットが何をするのか説明できますか?彼らはどのように機能し、従来のユニットとどのように違いますか? Goodfellow らによる 2013年の「Maxout Network」ペーパーを読みました。(ヨシュアベンジオ教授のグループから)、しかし、私はそれをよく理解していません。

9
統計を教えるとき、「通常」または「ガウス」を使用しますか?
私の本では主に「ガウス分布」を使用していますが、誰かが「正規分布」に切り替えることを提案しました。どの用語を初心者に使用するかについてのコンセンサスはありますか? もちろん、2つの用語は同義語であるため、これは実質に関する問題ではなく、純粋にどちらの用語がより一般的に使用されるかという問題です。そしてもちろん、両方の用語を使用します。しかし、主に使用すべきものはどれですか?


3
適合した重回帰モデルを視覚化する方法は?
現在、いくつかの重回帰分析を含む論文を書いています。散布図を使用して単変量線形回帰を視覚化するのは簡単ですが、複数の線形回帰を視覚化する良い方法があるかどうか疑問に思っていましたか? 私は現在、従属変数と第1独立変数、次に第2独立変数などの散布図をプロットしています。

5
平均して、各ブートストラップサンプルに約3分の2の観測が含まれているのはなぜですか?
私は、各ブートストラップサンプル(またはバギングされたツリー)に平均約の観測値が含まれるという主張に出くわしました。2/32/32/3 置換されたサンプルからの描画のいずれでも選択されない可能性はであり、選択されない可能性は約になると理解しています。nnnnnn(1−1/n)n(1−1/n)n(1- 1/n)^n1/31/31/3 この式が常にを与える理由の数学的な説明は何ですか?≈1/3≈1/3\approx 1/3
42 bootstrap 

4
テイラー級数(特に残り)の期待値を取得する
私の質問は、広く使用されている方法、つまり、Taylor Seriesの期待値を正当化することに関するものです。正の平均および分散を持つランダム変数があると仮定します。さらに、などの関数があります。XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) 平均を中心にテイラー展開を行うと、 ここで、通常どおり、はst。logXlog⁡X\log XlogX=logμ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξ3X,log⁡X=log⁡μ+X−μμ−12(X−μ)2μ2+13(X−μ)3ξX3, \log X = \log\mu + \frac{X - \mu}{\mu} - \frac12 \frac{(X-\mu)^2}{\mu^2} + \frac13 \frac{(X - \mu)^3}{\xi_X^3}, ξXξX\xi_X|ξX−μ|&lt;|X−μ||ξX−μ|&lt;|X−μ||\xi_X - \mu| < |X - \mu| 予想を立てると、通常は自明の何かと呼ばれる近似式が得られます(最初の式の記号を参照してください)≈≈\approx: ElogX≈logμ−12σ2μ2Elog⁡X≈log⁡μ−12σ2μ2 \mathbb{E}\log X \approx \log \mu - \frac12 \frac{\sigma^2}{\mu^2} 質問:剰余項の期待値が実際に無視できることを証明する方法に興味があります。つまり、 (または、言い換えれば、)。E[(X−μ)3ξ3X]=o(σ2)E[(X−μ)3ξX3]=o(σ2) \mathbb{E}\left[\frac{(X - \mu)^3}{\xi_X^3}\right] = o(\sigma^2) E[o(X−μ)2]=o(E[(X−μ)2])E[o(X−μ)2]=o(E[(X−μ)2])\mathbb{E}\bigl[o(X-\mu)^2\bigr] = o\bigl(\mathbb{E}\bigl[(X-\mu)^2\bigr]\bigr) 私が実行しようと何:と仮定し(これは、順に、手段で)、I は周囲、二つに積分を分割しようと一部とを …

4
GARCHとARMAの違いは何ですか?
私は混乱しています。ARMAとGARCHのプロセスの違いを理解していません。 これが(G)ARCH(p、q)プロセスです σ2t= α0+ ∑i = 1qα私r2t − iA R CH+ ∑i = 1pβ私σ2t − iG A R CHσt2=α0+∑i=1qαirt−i2⏟ARCH+∑i=1pβiσt−i2⏟GARCH\sigma_t^2 = \underbrace{ \underbrace{ \alpha_0 + \sum_{i=1}^q \alpha_ir_{t-i}^2} _{ARCH} + \sum_{i=1}^p\beta_i\sigma_{t-i}^2} _{GARCH} そして、ここにARMA(p 、qp,qp, q)があります: バツt= c + εt+ ∑i = 1pφ私バツt − i+ ∑i = 1qθ私εt − i。Xt=c+εt+∑i=1pφiXt−i+∑i=1qθiεt−i. X_t = c …
42 arima  garch  finance 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.