統計とビッグデータ

2

論文に変位値回帰モデルを含めたので、査読者は、調整済みのを論文に含めたいと思っています。私の研究で興味のある3つの分位数について、疑似を計算しました（KoenkerとMachadoの1999 JASA論文から）。R2R2R^2R2R2R^2 ただし、分位点回帰用に調整されたについて聞いたことがなく、その計算方法がわかりません。次のいずれかをお願いします。R2R2R^2 好ましくは、分位点回帰の調整済みを有意義に計算する方法に関する式またはアプローチ。R2R2R^2 あるいは、分位点回帰で調整されたようなものがない理由について、レビューアーに提供する説得力のある議論。R2R2R^2

22 goodness-of-fit r-squared quantile-regression

3

隠れ層ニューロンとしてのRelu vs Sigmoid vs Softmax

Tensorflowを使用して、1つの隠れ層のみを持つ単純なニューラルネットワークで遊んでいた後、隠れ層に対して異なるアクティベーションを試みました。レルーシグモイドソフトマックス（まあ、通常ソフトマックスは最後のレイヤーで使用されます。.） Reluは、最高の列車精度と検証精度を提供します。これを説明する方法がわかりません。 Reluには、勾配のない消失などのスパース性などの優れた特性があることがわかっていますが、 Q：Reluニューロンはシグモイド/ソフトマックスニューロンよりも一般的に優れていますか？ほとんど常にNN（またはCNNでも）Reluニューロンを使用する必要がありますか？複雑すぎるニューロンはより良い結果をもたらすだろうと考えました。少なくともオーバーフィットを心配する場合は、精度を訓練します。 PS：コードは基本的に「Udacity-Machine learning -assignment2」からのものです。これは、単純な1-hidden-layer-NNを使用したnotMNISTの認識です。 batch_size = 128 graph = tf.Graph() with graph.as_default(): # Input data. tf_train_dataset = tf.placeholder(tf.float32, shape=(batch_size, image_size * image_size)) tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels)) tf_valid_dataset = tf.constant(valid_dataset) tf_test_dataset = tf.constant(test_dataset) # hidden layer hidden_nodes = 1024 hidden_weights = tf.Variable( tf.truncated_normal([image_size …

22 machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

4

偏りのない最尤推定量は常に最良の偏りのない推定量ですか？

規則的な問題については、最良の正規の不偏推定量があれば、それは最尤推定量（MLE）でなければなりません。しかし、一般に、偏りのないMLEがある場合、それは最良の偏りのない推定量にもなります（または、分散が最小である限り、UMVUEと呼ぶべきでしょうか）。

22 mathematical-statistics maximum-likelihood unbiased-estimator

6

平均値のパラドックス-これは何と呼ばれていますか？

データセットがあります。言うの観測と変数を：101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 それは各カテゴリで顧客が購入（）した（していない）と言う。そこにはあるので、これら顧客は平均で製品カテゴリに購入します。10101010A, B, C1616161010101.61.61.6 顧客は、A、B、Cのいずれかを購入できます。私は購入者のみを見ればA、そこにあるに購入している顧客それはですので、製品カテゴリは、平均で。5559991.81.81.8 …

22 proportion descriptive-statistics paradox

5

AはBと正の関係があります。 CはAとBの結果ですが、Cに対するAの効果は負であり、Cに対するBの効果は正です。これは起こりますか？

22 regression correlation

4

なぜベイジアン手法は複数のテスト修正を必要としないのですか？

アンドリュー・ゲルマンは、ベイジアンAB検定が複数の仮説修正を必要としない理由に関する広範な記事を書いた：2012年、複数の比較を心配する必要がない理由（通常）。よくわかりません。なぜベイジアンメソッドは複数のテスト修正を必要としないのですか？ A ~ Distribution1 + Common Distribution B ~ Distribution2 + Common Distribution C ~ Distribution3 + Common Distribution Common Distribution ~ Normal 私の理解では、上記のベイジアンのアプローチは、すべての仮説による共有された基礎となる分布を説明するものです（頻繁なボンフェローニ補正とは異なります）。私の推論は正しいですか？

22 hypothesis-testing bayesian multiple-comparisons

2

パラメータ推定のために二項分布の尤度関数を導出する方法は？

Miller and Freund's Probability and Statistics for Engineers、8ed（pp.217-218）によれば、二項分布（ベルヌーイ試行）で最大化される尤度関数は次のように与えられます。 L （p ）= ∏ni = 1pバツ私（1 − p ）1 - x私L（p）=∏私=1npバツ私（1−p）1−バツ私L(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} この方程式に到達する方法は？他の分布であるポアソンとガウス分布に関しては、私にはかなり明らかなようです。 L （θ ）= ∏ni = 1distのPDFまたはPMF。L（θ）=∏私=1ndistのPDFまたはPMF。L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.} しかし、二項式のものは少し異なります。率直に言うと、どのように n Cバツ pバツ（1 − p ）n − xnCバツ pバツ（1−p）n−バツnC_x~p^x(1-p)^{n-x} なる pバツ私（1 − p ）1 …

22 estimation maximum-likelihood bernoulli-distribution point-estimation

4

偽陽性率と真陽性率を示すこのチャートの名前とその生成方法は？

以下の画像は、偽陽性率と真陽性率の連続曲線を示しています。ただし、すぐに得られないのは、これらのレートの計算方法です。メソッドがデータセットに適用される場合、特定のFPレートと特定のFNレートがあります。それは、各方法が曲線ではなく単一の点を持つべきだという意味ではないでしょうか？もちろん、メソッドを構成して複数の異なるポイントを生成する方法は複数ありますが、この連続したレートがどのように発生するか、またはどのように生成されるかは明確ではありません。

22 machine-learning data-visualization roc auc

3

ニューラルネットワークで勾配降下を使用する理由

逆伝播アルゴリズムを使用してニューラルネットワークをトレーニングする場合、勾配降下法を使用して重みの更新を決定します。私の質問をされています。むしろ、ゆっくりと一定の重量に対して、最小点を見つけるために勾配降下法を使用するよりも、なぜ私たちは派生しないでください、そして、誤差を最小にする重みの値を見つけますか？d(Error)dw=0d(Error)dw=0\frac{d(\text{Error})}{dw}=0www また、逆伝播におけるエラー関数が最小になると確信しているのはなぜですか？代わりに、エラー関数が最大値であることがわかりませんか？任意の重みと入力ベクトルを持つ任意の数の隠れノードを持つネットワークが常に最小値を持つエラー関数を与えることを保証する、スカッシュ関数の特定のプロパティはありますか？

22 neural-networks gradient-descent backpropagation

3

負の二項分布と二項分布

負の二項分布と二項分布の違いは何ですか？オンラインで読んでみたところ、データポイントが離散の場合は負の二項分布が使用されることがわかりましたが、二項分布でも離散データポイントに使用できると思います。

22 categorical-data data-mining binomial negative-binomial

2

イギリス英語の「正規分布」の「N」を大文字にする必要がありますか？

この質問は少し左のフィールドですが、ここのコミュニティはおそらくこのテーマについて強い見解を持っていると思いました！私は博士論文を書いています。一貫して、正式にガウス分布に関連する数量について話すとき、それらを参照するために「正規」の「N」を大文字にしました。たとえば、「[...このような状況では]結果の分布は正規ではなく、むしろ[...]によって記述されます」。私のスーパーバイザーは関連する章を読み、これらのすべてを小文字の「n」に置き換えました。私は、件名に任意の決定的な資料を見つけることができません-スプリンガーは明らかに望んでいた名前が正しく大文字で、とによると、インターネット上の別のランダムな男、配布名を大文字にすることは良いアイデアです。私の論文の決定的なスタイルガイドがなかったため、私は専門家のコミュニティに頼ると思いました-一般に何が行われ、なぜですか？

22 normal-distribution terminology

1

ブリッジペナルティとElastic Netの正則化

LASSO（L1L1L_1）やRidge（L2L2L_2）など、いくつかのペナルティ関数と近似がよく研究されており、これらが回帰でどのように比較されるかがわかります。 ∑∥βj∥γ∑‖βj‖γ\sum \|\beta_{j}\|^{\gamma}γ=1γ=1\gamma = 1γ=2γ=2\gamma = 2 Wenjiang [ 1 ]は場合のBridgeペナルティをLASSOと比較しましたが、\ sum \ lambda_ {2として与えられるLASSOとRidgeペナルティの組み合わせであるElastic Net正則化との比較を見つけることができませんでした} \ | \ベータ\ | ^ {2} + \ lambda_ {1} \ | \ベータ\ | _ {1}。γ≥1γ≥1\gamma \geq 1∑λ2∥β∥2+λ1∥β∥1∑λ2‖β‖2+λ1‖β‖1\sum \lambda_{2} \|\beta\|^{2}+\lambda_{1}\|\beta\|_{1} Elastic Netとこの特定のBridgeには同様の制約形式があるため、これは興味深い質問です。さまざまなメトリックを使用してこれらの単位円を比較します（pppはミンコフスキー距離の累乗です）。 p=1p=1p = 1はLASSOに対応し、p=2p=2p = 2はリッジに対応し、p=1.4p=1.4p = 1.4は1つの可能なブリッジに対応します。Elastic Netは、L1L1L_1およびL2L2L_2ペナルティーに均等に重み付けして生成されました。これらの数値は、たとえば、スパース性を特定するのに役立ちます（Elastic NetがLASSOから保存している間、Bridgeは明らかに欠けています）。では、のBridgeは、正則化（スパース性以外）に関してElastic Netとどのように比較されますか？私は教師あり学習に特別な関心を持っているので、おそらく機能の選択/重み付けに関する議論が適切です。幾何学的な議論も歓迎します。1<γ<21<γ<21<\gamma <2 …

22 regression lasso regularization ridge-regression elastic-net

1

距離メトリックとしての相関の使用（階層クラスタリングの場合）

データを階層的にクラスター化したいのですが、ユークリッド距離を使用するのではなく、相関を使用したいと思います。また、相関係数の範囲は-1から1であり、研究では-1と1の両方が「共規制」を表すため、-1と1の両方をd = 0として扱います。したがって、私の計算は d= 1 − | r | d=1−|r|\ d = 1-|r| コサイン定理を使用してrを真のユークリッドdに変換する必要があることを別の質問（k-meansクラスタリングに関して）で読みました：d= 2 （1 − r ）−−−−−−−√d=2(1−r)d = \sqrt{2(1-r)} 階層的クラスタリングの相関を距離に変換する最も正確な方法は何ですか？

22 correlation clustering distance hierarchical-clustering

2

ラプラスがスパースソリューションを事前に作成するのはなぜですか？

正則化に関する文献を調べていましたが、L2のレギュレーションとガウス事前分布、およびL1とゼロを中心としたラプラスとをリンクする段落がよく見られました。これらの事前分布がどのように見えるかは知っていますが、たとえば線形モデルの重みに変換する方法はわかりません。L1では、正しく理解できれば、スパースソリューション、つまり、いくつかの重みが正確にゼロにプッシュされることを期待しています。また、L2では小さな重みが得られますが、重みはゼロではありません。しかし、なぜそれが起こるのでしょうか？さらに情報を提供したり、思考の道筋を明確にする必要がある場合はコメントしてください。

22 regression bayesian prior regularization laplace-distribution

2

予測推論には、どのような非ベイジアン手法がありますか？

ベイジアン推論では、未知のパラメーターを統合することにより、将来のデータの予測分布が導出されます。これらのパラメーターの事後分布を統合すると、事後予測分布が得られます。これは、既に観測されたデータを条件とする将来のデータの分布です。パラメーター推定値の不確実性を考慮する予測推論の非ベイジアン手法は何ですか（つまり、最尤推定値や密度関数に戻るものを単にプラグインしない）。線形回帰後の予測間隔の計算方法は誰もが知っていますが、計算の背後にある原理は何ですか？他の状況でそれらをどのように適用できますか（たとえば、データからレートパラメーターを推定した後に新しい指数変量の正確な予測間隔を計算する）？

22 prediction inference prediction-interval