統計とビッグデータ

3

私はCourseraを通じてAndrew Ngの機械学習に関するコースを受講しています。方程式では、下付き文字の代わりに上付き文字が使用されます。例えば、以下の式でx(i)x(i)x^{(i)}の代わりに使用されるxixix_i： J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2J(\theta_0, \theta_1) = \frac{1}{2m} \sum\limits_{i=1}^{m}{(h_\theta(x^{(i)}) - y^{(i)})^2} どうやら、これは一般的な慣行です。私の質問は、なぜ下付き文字ではなく上付き文字を使用するのですか？上付き文字はすでに累乗に使用されています。かっこが存在するかどうかに注意を払うことで、上付き文字とべき乗のユースケースを明確にすることができるように思えますが、それでも混乱しているようです。

20 machine-learning notation

2

ランダムフォレストでの「ノードサイズ」とは何ですか？

ノードサイズの意味を正確に理解していません。決定ノードとは何かを知っていますが、ノードサイズはわかりません。

20 machine-learning random-forest bagging

1

サンプル標準偏差の標準誤差とは何ですか？

そこから、サンプル分散の標準誤差は SEs2= 2 σ4N− 1−−−−−−√SEs2=2σ4N−1SE_{s^2} = \sqrt{\frac{2 \sigma^4}{N-1}} サンプル標準偏差の標準誤差とは何ですか？と推測して言いたいと思うんが、ません。SEs= SEs2−−−−√SEs=SEs2SE_{s} = \sqrt{SE_{s^2}}

20 sampling standard-deviation standard-error

3

2つの正規分布の差の分布

正規分布の2つの確率密度関数があります。 f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } そして f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } 私はx1x1x_1と間の分離の確率密度関数を探していx2x2x_2ます。私はそれが確率密度関数を探していることを意味すると思います x 1 − x 2 | |x1−x2||x1−x2||x_1 - x_2|。あれは正しいですか？どうやって見つけるの？

20 distributions normal-distribution distance

5

なぜ正規分布の

初めて正規分布モンテカルロシミュレーションを行ったときにショックを受けたのは、サンプルサイズがのみであるサンプルからの標準偏差の平均がはるかに小さいことが判明したことです。つまり、回の平均よりも、母集団の生成に使用される\ sigmaです。ただし、これはあまり覚えていない場合はよく知られていますが、私はそれを知っていました。これがシミュレーションです。100100100100100100n=2n=2n=22π−−√2π \sqrt{\frac{2}{\pi }}σσ\sigma 100、n = 2、\ text {SD}の推定値、および\ text {E}（s_ {n = 2}）= \ sqrt \を使用してN（0,1）の 95％信頼区間を予測する例を次に示します。 frac {\ pi} {2} \ text {SD}。N(0,1)N(0,1)N(0,1)n=2n=2n=2SDSD\text{SD}E(sn=2)=π2−−√SDE(sn=2)=π2SD\text{E}(s_{n=2})=\sqrt\frac{\pi}{2}\text{SD} RAND() RAND() Calc Calc N(0,1) N(0,1) SD E(s) -1.1171 -0.0627 0.7455 0.9344 1.7278 -0.8016 1.7886 2.2417 1.3705 -1.3710 1.9385 2.4295 1.5648 -0.7156 1.6125 2.0209 1.2379 …

20 normal-distribution standard-deviation expected-value unbiased-estimator umvue

4

行列計算の教科書？

Math SEでこの質問を参照してください。ショートストーリー：私が読んで統計的学習の要素を与えられた、と私は結果のいくつかを検証しようとしていた時にイライラしてしまった、例えばその後、 RSS(β)=(y−Xβ)T(y−Xβ),RSS(β)=(y−Xβ)T(y−Xβ),\text{RSS}(\beta) = \left(\mathbf{y}-\mathbf{X}\beta\right)^{T}\left(\mathbf{y}-\mathbf{X}\beta\right)\text{,} 私はあなたの伝統的な微積分の本のように書かれた行列微積分の本を探しています（すなわち、定理の証明、例、計算の演習など）。私はすでにこの質問を見て、マグナスとノイデッカーのテキストは理論に焦点を合わせすぎていると感じています。そして、ジェントルのテキストは理論にあまりにも焦点を当てておらず、計算側に過度に焦点を当てています。∂RSS∂β=−2XT(y−Xβ)∂2RSS∂β ∂βT=2XTX.∂RSS∂β=−2XT(y−Xβ)∂2RSS∂β ∂βT=2XTX.\begin{align}&\dfrac{\partial\text{RSS}}{\partial \beta} = -2\mathbf{X}^{T}\left(\mathbf{y}-\mathbf{X}\beta\right) \\ &\dfrac{\partial^2\text{RSS}}{\partial \beta\text{ }\partial \beta^{T}} = 2\mathbf{X}^{T}\mathbf{X}\text{.} \end{align} 学部分析のバックグラウンドを持つ人がアクセスできる幸せな媒体はありますか？

20 references matrix matrix-calculus

1

マルコフ決定プロセスの実例

私はたくさんのチュートリアルビデオを見てきましたが、それらは同じように見えます。たとえば、これはhttps://www.youtube.com/watch?v=ip4iSMRW5X4 彼らは素晴らしい状態、行動、確率を説明します。人はそれを大丈夫と説明しますが、私はそれが実際の生活で何に使われるのかを把握できないようです。まだリストに出会っていません。私が見る最も一般的なものはチェスです。物事を予測するために使用できますか？もしそうなら、どのようなものですか？無限のデータ量のパターンを見つけることができますか？このアルゴリズムは私にとって何ができますか。ボーナス：また、MDPはある状態から別の状態への移行に関するものだと感じていますが、これは本当ですか？

20 markov-process

5

正則化アルゴリズムを使用している間に、特徴選択を行う必要がありますか？

統計学習アルゴリズムを実行する前に、特徴選択方法（ランダムフォレストの特徴の重要度値または単変量の特徴選択方法など）を使用する必要性に関して1つの質問があります。重みベクトルに正則化ペナルティを導入することができる過剰適合を避けることがわかっています。したがって、線形回帰を行いたい場合は、L2またはL1またはElastic net正則化パラメーターを導入できます。スパースソリューションを取得するには、L1ペナルティが機能選択に役立ちます。その後、LassoなどのL1正則化回帰を実行する前に、機能の選択を行う必要がありますか？技術的には、LassoはL1ペナルティによって機能を削減するのに役立ちます。それでは、なぜアルゴリズムを実行する前に機能を選択する必要があるのですか？ Anovaを実行してからSVMを実行すると、SVMを単独で使用するよりもパフォーマンスが向上するという研究記事を読みました。ここで質問です。SVMは本質的にL2ノルムを使用して正則化を行います。マージンを最大化するために、重みベクトルのノルムを最小化しています。そのため、その目的関数で正則化を行っています。それでは、SVMなどの技術的なアルゴリズムは、機能の選択方法に煩わされるべきではありませんか？しかし、レポートでは、通常のSVMがより強力になる前に、単変量の特徴選択を行うといわれています。考えている人はいますか？

20 regression machine-learning feature-selection lasso regularization

1

スタインのパラドックスは、ノルムの代わりにノルムを使用する場合でもですか？

スタインのパラドックスは、3つ以上のパラメーターを同時に推定すると、パラメーターを個別に処理する方法よりも平均的に正確な（つまり、予想平均二乗誤差が低い）結合推定器が存在することを示しています。これは非常に直感に反する結果です。ノルム（予想平均二乗誤差）を使用する、ノルム（予想平均絶対誤差）を使用すると、同じ結果が得られますか？l2l2l_2l1l1l_1

20 paradox steins-phenomenon

1

PCA /コレスポンデンス分析の「馬蹄形効果」および/または「アーチ効果」とは何ですか？

多次元データの探索的データ分析のための生態学的統計には多くの手法があります。これらは「調整」技術と呼ばれます。多くは、統計の他の場所にある一般的な手法と同じか、密接に関連しています。おそらく、プロトタイプの例は主成分分析（PCA）です。エコロジストは、PCAおよび関連する手法を使用して「勾配」を探索する場合があります（勾配とは完全には明確ではありませんが、それについて少し読んでいます）。で、このページの下の最後の項目主成分分析（PCA）は、読み取ります。 PCAには、植生データにとって重大な問題があります。それは、馬蹄形効果です。これは、勾配に沿った種の分布の曲線性によって引き起こされます。種の応答曲線は通常、単峰性（つまり、非常に強い曲線）であるため、馬蹄形効果が一般的です。ページのさらに下の、コレスポンデンス分析または相互平均（RA）の下で、「アーチ効果」を参照します。 RAには問題があります：アーチ効果。また、勾配に沿った分布の非線形性によっても発生します。勾配の両端は入り組んでいないため、アーチはPCAの馬蹄形効果ほど深刻ではありません。誰かがこれを説明できますか？最近、この現象を低次元空間のデータを表すプロットで見ました（つまり、コレスポンデンス分析と因子分析）。「勾配」は、より一般的に（つまり、非生態学的な文脈で）何に対応しますか？これがデータで発生した場合、それは「問題」（「深刻な問題」）ですか？何のために？馬蹄/アーチが現れる出力をどのように解釈する必要がありますか？救済策を適用する必要がありますか？何？元のデータの変換は役立ちますか？データが序数評価の場合はどうなりますか？回答は、そのサイトの他のページに存在する場合があります（PCA、CA、およびDCAなど）。私はそれらを介して作業しようとしています。しかし、議論は十分になじみのない生態学的用語と例にまとめられており、問題を理解することはより困難です。

20 pca eda ecology correspondence-analysis

1

順序データを出力するようにニューラルネットワークを設定する方法は？

出力変数が序数である場所を予測するために、ニューラルネットワークを設定しています。3つの可能な出力A <B <Cを使用して以下に説明します。ニューラルネットワークを使用してカテゴリデータを出力する方法は非常に明白です。出力は最後の（通常は完全に接続された）レイヤーのソフトマックスであり、カテゴリごとに1つであり、予測カテゴリは最大の出力値を持つものです（これは多くの一般的なモデルのデフォルト）。序数値には同じ設定を使用しています。ただし、この場合、出力は意味をなさないことがよくあります。たとえば、AとCのネットワーク出力は高くてもBは低くなります。これは順序値には当てはまりません。これには、出力をAの1 0 0、Bの1 1 0、Cの1 1 1と比較して損失を計算するというアイデアがあります。正確なしきい値は、別の分類器（たとえば、ベイジアンを使用して後で調整できます。）しかし、これは、特定の間隔スケールを規定することなく、入力の順序付けの本質的なアイデアを捉えているようです。この問題を解決する標準的な方法は何ですか？さまざまなアプローチの長所と短所を説明する研究や参考文献はありますか？

20 neural-networks ordinal-data softmax

2

モーメント法の背後にあるロジックは何ですか？

「モーメント法」では、ポイント推定量を見つけるためにサンプルモーメントを母集団モーメントと同一視するのはなぜですか。この背後にあるロジックはどこにありますか？

20 intuition method-of-moments

1

センチメント分析に段落ベクトルを使用した最新のパフォーマンスが報告されていますか？

LeとMikolovによるICML 2014の論文「Sentences and Documentsの分散表現」の結果に感銘を受けました。「パラグラフベクトル」と呼ばれる彼らが説明する技術は、word2vecモデルの拡張に基づいて、任意の長さのパラグラフ/ドキュメントの教師なし表現を学習します。この技術は、この手法を使用したセンチメント分析に関する最新のパフォーマンスを報告しています。従来のバッグオブワード表現に代わるものとして、他のテキスト分類問題でこの手法を評価したいと考えていました。しかし、私はword2vec Googleグループのスレッドで2番目の著者の投稿を見つけて、一時停止しました。夏の間にQuocの結果を再現しようとしました。IMDBデータセットのエラー率は、約9.4％〜10％に達する可能性があります（テキストの正規化の程度によって異なります）。しかし、Quocの論文での報告に近いものは得られませんでした（7.4％のエラー、これは大きな違いです）...もちろん、Quocにコードについて尋ねました。彼はそれを公開すると約束したが、今のところ何も起こっていない。... Quocの結果は実際には再現性がないと考え始めています。これらの結果を再現することに成功した人はいますか？

20 text-mining natural-language word-embeddings sentiment-analysis reproducible-research

2

これらのacfおよびpacfプロットの解釈方法

以下は、毎月のデータシリーズのacfおよびpacfプロットです。2番目のプロットは、ci.type = 'ma'を使用したacfです。 acfプロットでの高い値の持続性は、おそらく長期的な正の傾向を表しています。問題は、これが季節変動を表すかどうかです。このトピックでさまざまなサイトを見ようとしましたが、これらのプロットが季節性を示しているかどうかわかりません。 ACFおよびPACFプロット分析 ACFおよびPACFプロットの解釈を支援次のACFの図を理解するのに役立ちます自己相関および部分自己相関解釈編集：以下は60までのラグのグラフです：以下は、diff（my_series）のプロットです。ラグ60まで：編集：このデータの出所：これは、自殺カウントデータの季節的影響をテストする適切な方法ですか？ここで、寄稿者は、言及する価値のあるオリジナルまたは差分シリーズのacfおよびpacfプロットを考慮しませんでした（したがって、重要ではないはずです）。残差のacf / pacfプロットのみがいくつかの場所で参照されました。

20 time-series

4

相互検証以外でのハイパーパラメーターの調整はどれほど悪いですか？

パフォーマンスを測定するために使用するデータセットは、機能を調整するために使用したものと同じであるため、相互検証の外でハイパーパラメーターチューニングを実行すると、外部の有効性のバイアスが高い推定値につながることがあります。私が不思議に思っているのはこれがどれほど悪い問題かということです。これにより、調整するパラメーターが非常に多くなるため、機能の選択が本当に悪いことを理解できます。しかし、LASSO（正則化強度が1つだけのパラメーター）のようなもの、または機能選択なしのランダムフォレスト（いくつかのパラメーターはあるが、ノイズ機能の追加/ドロップほど劇的ではない）を使用している場合はどうでしょうか？これらのシナリオでは、トレーニングエラーの推定値がどれほどひどく楽観的であると予想できますか？ケーススタディ、論文、逸話など、これに関する情報をいただければ幸いです。ありがとう！編集：明確にするために、トレーニングデータのモデルパフォーマンスの推定については話していません（つまり、相互検証をまったく使用していません）。「クロス検証の外側のハイパーパラメーター調整」とは、個々のモデルのパフォーマンスを推定するためだけにクロス検証を使用することを意味しますが、ハイパーパラメーター調整手順内でオーバーフィットを修正するための外側の2番目のクロス検証ループは含みませんトレーニング手順中のオーバーフィッティング）。たとえば、こちらの回答をご覧ください。

20 cross-validation validation hyperparameter