統計とビッグデータ

2

マークル＆スタイバーズ（2013）執筆：適切なスコアリングルールを正式に定義するには、真の成功確率pを持つベルヌーイ試行dの確率的予測をとします。適切なスコアリングルールは、f = pの場合に期待値が最小化されるメトリックです。fffdddpppf= pf=pf = p これは良いことだと思います。なぜなら、私たちは、予測者が彼らの本当の信念を正直に反映する予測を生成することを奨励したいからです。不適切なスコアリングルールを使用することが適切である実際の例はありますか？ Reference Merkle、EC、およびSteyvers、M。（2013）。厳密に適切なスコアリングルールの選択。意思決定分析、10（4）、292-304

27 classification forecasting scoring-rules

1

リバースモード自動微分のステップバイステップの例

この質問がここに属するかどうかはわかりませんが、最適化における勾配法と密接に関連しています。これはここではトピックのようです。とにかく、他のコミュニティがこのトピックについてより良い専門知識を持っていると思うなら、気軽に移行してください。要するに、私は逆モード自動微分の段階的な例を探しています。トピックに関する文献はそれほど多くなく、既存の実装（TensorFlowのようなもの）は、その背後にある理論を知らずに理解するのは困難です。したがって、私たちが何を渡し、どのように処理し、計算グラフから何を取り出すかを誰かが詳細に示すことができれば、非常に感謝しています。私が最も苦労しているいくつかの質問：種 -なぜそれらが必要なのですか？逆微分ルール -前方微分を行う方法を知っていますが、どのように後方に進みますか？たとえば、このセクションの例では、をどのように知ることがますか？w2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 我々はして作業を行うだけで、シンボルの実際を介して、またはパス値は？たとえば、同じ例では、と記号または値はありますか？wiwiw_iwi¯wi¯\bar{w_i}

27 optimization derivative tensorflow automatic-differentiation

5

ディープニューラルネットワークは正規化なしで乗算関数を近似できますか？

f = x * y標準的なディープニューラルネットワークを使用して単純な回帰を実行するとします。 1つの非表示層を持つNNがすべての関数を近似できることを示す再調査があることを覚えていますが、正規化なしではNNはこの単純な乗算でさえ近似できませんでした。データのログ正規化のみが役立ちましたがm = x*y => ln(m) = ln(x) + ln(y). 、それはチートのように見えます。NNはログ正規化なしでこれを行うことができますか？揺れは明らかに（私にとって）-はい、それで質問はそのようなNNのタイプ/構成/レイアウトはどうあるべきかということですか？

27 regression machine-learning neural-networks deep-learning

4

分類器の最適なしきい値を決定し、ROC曲線を生成する方法

SVM分類器があるとします。ROC曲線を生成する方法を教えてください。（理論的には）（それぞれのしきい値でTPRとFPRを生成しているため）。そして、このSVM分類器の最適なしきい値をどのように決定しますか？

27 machine-learning svm

1

PCAが外れ値に敏感なのはなぜですか？

このSEには、主成分分析（PCA）への堅牢なアプローチを説明する多くの投稿がありますが、そもそもPCAが外れ値に敏感である理由についての良い説明を見つけることができません。

26 machine-learning pca outliers

5

なぜ分散の平方根をとって標準偏差を作成するのですか？

これが他の場所で回答されている場合は申し訳ありませんが、私はそれを見つけることができませんでした。標準偏差を作成するために、特に分散の平方根を使用する理由を疑問に思っていますか？有用な値を生成する平方根を取ることについてはどうですか？

26 variance standard-deviation

1

ゼロ中心でないアクティベーション関数が逆伝播で問題になるのはなぜですか？

私はここで次を読みました：シグモイド出力はゼロ中心ではありません。これは、ニューラルネットワークの処理の後の層のニューロン（これについては後ほど説明します）がゼロ中心でないデータを受信するため、望ましくありません。これは、勾配降下中のダイナミクスに影響を与えます。ニューロンに入るデータが常に正の場合（たとえば、f = w T x + bでx>0x>0x > 0要素単位）、逆伝播中の重みwの勾配は次のいずれかになります。すべて正またはすべて負（式全体の勾配fに依存） f=wTx+bf=wTx+bf = w^Tx + bwwwfff）。これにより、重みの勾配更新に望ましくないジグザグダイナミクスが導入される可能性があります。ただし、これらの勾配がデータのバッチ全体で加算されると、重みの最終更新に可変符号が付き、この問題が多少緩和されることに注意してください。したがって、これは不便ですが、上記の飽和した活性化の問題と比較して、それほど深刻な結果はありません。すべてのx>0x>0x>0（要素ごと）がwwwすべて正またはすべて負の勾配になるのはなぜですか？

26 neural-networks deep-learning backpropagation

7

2つのサイコロロール-順番に同じ数

私は現在、コースラで統計的推論のクラスを勉強しています。課題の1つで、次の質問が出てきます。 | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I can feel it! Try it again. | Since we don't care what the outcome …

26 probability self-study conditional-probability

1

統計、線形代数、機械学習の古典的な表記法は何ですか？そして、これらの表記法の間の関係は何ですか？

本を読むとき、表記を理解することは、内容を理解する上で非常に重要な役割を果たします。残念ながら、異なるコミュニティでは、モデルと最適化問題の定式化に関して異なる表記規則があります。ここに定式化表記をまとめて考えられる理由を教えてください。ここで例を示します：線形代数の文学では、古典的な本はStrangの線形代数入門です。本で最も使用されている表記は Ax=bAx=b A x=b ここで、は係数行列、は解く変数、は方程式の右側のベクトルです。その理由本はこの表記法を選択するには、線形代数の主な目的は、ベクターが何であるかを線形システムと数字解決されている。そのような定式化を考えると、OLS最適化問題はAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 統計または機械学習リテラシー（書籍統計学習の要素）で、人々は同じ表記を表すために異なる表記法を使用します。 Xβ=yXβ=yX \beta= y どこにXXXあるデータマトリックス、ββ\betaある係数または重みが学習を学習する、yyy応答です。理由統計や機械学習コミュニティの人々がされているため、人々はこれを使用するには、あるデータを駆動して、データおよび応答は彼らが使用する場合には、それらの最も興味深いものですXXXとyyy表現するために。ここで、考えられるすべての混乱が存在することがわかります。最初の方程式のAは2番目の方程式のXAAAと同じです。そして、2番目の式Xでは、解決する必要はありません。また、用語について：Aは線形代数の係数行列ですが、統計のデータです。\ betaは「係数」とも呼ばれます。XXXXXXAAAββ\beta さらに、Xβ=yXβ=yX \beta=yは機械学習で広く使用されているものではなく、すべてのデータポイントを要約するハーフベクトル化バージョンを使用していることを述べました。といった min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) この理由は、確率的勾配降下法や他のさまざまな損失関数について話すときに良いからだと思います。また、線形回帰以外の問題については、簡潔なマトリックス表記が消えます。ロジスティック回帰の行列表記誰もが異なる文学にまたがる表記法についてより多くの要約を与えることができますか？この質問に対する賢明な回答が、異なる文学を横断する本を読んでいる人々のための良いリファレンスとして使用できることを望みます。私の例および制限されないでください。他にもたくさんあります。といったAx=bAx=bA x=bXβ=yXβ=yX \beta=y なぜ2つの異なるロジスティック損失定式化/表記法があるのですか？

26 machine-learning probability self-study optimization

3

他の分析よりも早く行われた特権分析のベイジアン正当化とは何ですか？

背景と実証例 2つの研究があります。実験を実行し（研究1）、それを複製しました（研究2）。研究1では、2つの変数間の相互作用が見つかりました。研究2では、この相互作用は同じ方向であったが、有意ではなかった。研究1のモデルの概要は次のとおりです。 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.75882 0.26368 21.840 < 2e-16 *** condSuppression -1.69598 0.34549 -4.909 1.94e-06 *** prej -0.01981 0.08474 -0.234 0.81542 condSuppression:prej 0.36342 0.11513 3.157 0.00185 ** そして、研究2のモデル： Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.24493 0.24459 21.444 <2e-16 *** prej 0.13817 0.07984 …

26 bayesian

3

ベータ/ディリクレ回帰が一般化線形モデルと見なされないのはなぜですか？

前提は、Rパッケージbetareg1のビネットからのこの引用です。さらに、モデルはいくつかのプロパティ（線形予測子、リンク関数、分散パラメーターなど）を一般化線形モデル（GLM、McCullaghおよびNelder 1989）と共有しますが、このフレームワークの特殊なケースではありません（固定分散ではありません））この答えは、事実を暗示しています。 [...]これは、応答変数がベータとして配布される場合に適したタイプの回帰モデルです。一般化線形モデルに類似していると考えることができます。それはまさにあなたが探しているものです[...]（私の強調）質問のタイトルはそれをすべて言っています：なぜベータ/ディリクレ回帰は一般化線形モデルと見なされないのですか？私の知る限り、一般化線形モデルは、独立変数を条件とする従属変数の期待に基づいて構築されたモデルを定義します。 fffは期待値をマップするリンク関数、は確率分布、は結果、は予測子、\ betaは線形パラメーター、\ sigma ^ 2は分散です。YgggYYYXXXββ\betaσ2σ2\sigma^2 f(E(Y∣X))∼g(βX,Iσ2)f(E(Y∣X))∼g(βX,Iσ2)f\left(\mathbb E\left(Y\mid X\right)\right) \sim g(\beta X, I\sigma^2) 異なるGLMは平均と分散の関係を課します（または緩和します）が、gggは指数ファミリーの確率分布でなければなりません。これは、正しく思い出せば推定の堅牢性を向上させる望ましい特性です。ただし、ベータおよびディリクレ分布は指数関数ファミリーの一部であるため、私はアイデアを失っています。 [1] Cribari-Neto、F.＆Zeileis、A.（2009）。Rのベータ回帰

26 generalized-linear-model beta-regression dirichlet-regression

2

ディリクレ分布のアルファとは正確には何ですか？

私はベイジアン統計にかなり慣れていないので、アルゴリズムのバックエンドでディリクレプロセスを使用する修正された相関測定SparCCに出会いました。何が起こっているのかを実際に理解するために段階的にアルゴリズムを試してみましたがalpha、ディリクレ分布でベクトルパラメーターが何をするのか、ベクトルパラメーターをどのように正規化するのか正確にはわかりませんかalpha？実装は以下をPython使用していNumPyます：https : //docs.scipy.org/doc/numpy/reference/generated/numpy.random.dirichlet.html ドキュメントは言う： alpha：分布の配列パラメーター（次元kのサンプルのk次元）。私の質問： alphas分布にどのような影響がありますか？; どのようalphasに正規化されていますか？; そして alphasが整数でない場合はどうなりますか？ import numpy as np import pandas as pd import matplotlib.pyplot as plt # Reproducibility np.random.seed(0) # Integer values for alphas alphas = np.arange(10) # array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) # Dirichlet Distribution dd = …

26 distributions bayesian dirichlet-distribution

3

RキャレットとNA

パラメーターの調整機能と統一されたインターフェイスは非常に気に入っていますが、適用された "裸の"モデルでNAが許可されていても、常に完全なデータセット（つまりNAなし）が必要です。そもそも必要ではない面倒な代入法を適用する必要があるという点で、これは非常に面倒です。代入を回避し、キャレットの利点をどのように使用できますか？

26 r missing-data data-imputation caret

5

確率論は、1つに統合/合計する非負の関数の研究ですか？

これはおそらくばかげた質問ですが、確率論は1つに統合/合計する関数の研究ですか？編集。非負性を忘れました。確率論は、1つに統合/合計する非負の関数の研究ですか？

26 probability mathematical-statistics measure-theory

6

ROC AUCとF1スコアの選択方法は？

私は最近、Roc aucスコアが競合要件に従って使用されるKaggleコンテストを完了しました。このプロジェクトの前は、通常、モデルのパフォーマンスを測定するためのメトリックとしてf1スコアを使用していました。今後、これらの2つのメトリックをどのように選択したらよいでしょうか？いつ、それぞれの長所と短所を使用するのですか？ところで、私はここで記事を読みましたAUCとF1-scoreの違いは何ですか？、しかし、どちらを使用するかはわかりません。助けてくれてありがとう！

26 machine-learning modeling roc scoring-rules