統計とビッグデータ

2

統計とモデルのことについて勉強し始めたところです。現在、私の理解では、MLEを使用してモデルの最適なパラメーターを推定することです。ただし、ニューラルネットワークがどのように機能するかを理解しようとすると、通常、代わりに別のアプローチを使用してパラメーターを推定するようです。なぜMLEを使用しないのか、またはMLEをまったく使用できないのですか？

23 maximum-likelihood neural-networks

6

探索的データ分析におけるテキサスの狙撃兵の誤acy

私はNatureでこの記事を読んでおり、データ分析の文脈でいくつかの誤ciesが説明されています。テキサスの狙撃兵の誤acyを避けるのが特に難しいことに気付きました。データ分析中に待機するコグニティブトラップは、テキサスのシャープシューターのf話で説明されています。納屋の横でランダムなパターンの弾丸を発射し、最大の銃弾の穴の周りにターゲットを描き、誇らしげに指さす彼の成功。彼のブルズアイは明らかに笑えますが、勝ちの連続があるときに「ホットハンド」を信じるギャンブラーや、宝くじがすべて奇数になると超自然的な意味を見る人々にとって、誤acyはそれほど明白ではありません。また、研究者にとって常に明らかではありません。「データからある程度の励ましを得てから、これが下降する道だと考えてください」とパシュラーは言います。「27種類の選択肢があることに気付いていないので、最も納得のいく、または面白い結果が得られるものを選んだので、今ではデータの偏りのない表現に取り組んでいます。」ある種の探査作業は一般的であり、多くの場合、仮説は分析のその部分に基づいて構築されると思います。このプロセス専用のアプローチ（EDA）があります。統計学者がデータを調査し、新しいデータの収集と実験につながる可能性のある仮説を立てることを奨励するために、John Tukeyが探索的データ分析を推進しました。仮説を事前に持たずに実行された探索プロセスは、偽の仮説を生成する傾向があるようです。上記のEDAの説明が実際に話していることに注意してくださいnew data collection and experiments。新しいデータが収集された後、確認データ分析（CDA）が適切であることを理解しています。ただし、この区別は非常に明確ではないと思います。EDAとCDAの分離は理想的ですが、確かにこれが実行不可能な状況もあります。この分離に従うことは厳密には一般的ではなく、ほとんどの開業医はEDAパラダイムにまったく加入していないと言えます。だから私の質問は次のとおりです。EDA（またはデータを調査する非公式なプロセス）は、テキサスの狙撃兵の誤fallに陥る可能性を高めますか？

23 eda fallacy

3

スタック型畳み込みオートエンコーダのアーキテクチャは何ですか？

だから私は畳み込みネットを使って人間の画像の事前訓練をしようとしています。論文（Paper1とPaper2）とこのstackoverflowリンクを読みましたが、ネットの構造を理解しているかどうかはわかりません（論文で明確に定義されていません）。質問：入力に続いてノイズレイヤー、コンバーレイヤー、プーリングレイヤーの順に入力することができます-その後-出力を与える前にプールを解除します（これは入力イメージと同じです）？複数（135,240）の画像があるとします。32（12,21）カーネルを使用し、続いて（2,2）プーリングを使用すると、32（62、110）の機能マップになります。ここで、プールを解除して32（124、220）の機能マップを取得し、それらをフラット化しますか？（135,240）出力レイヤーを与える前に？複数のこのようなコンボプールレイヤーがある場合、スタックされたノイズ除去オートエンコーダーのように、それらを1つずつトレーニングする必要がありますか？または-input-conv-pool-conv-pool-conv-pool-output（出力は入力と同じです）のようなものを持つことができますか？その場合、プーリング、デプールはどのように管理されるべきですか？出力前に最後のプール層でのみプール解除する必要がありますか？そして再び-そのプール解除のサイズ変更要因は何でしょうか？機能マップを入力の形状に戻すつもりですか？ conv-pool-depoolレイヤーごとにノイズレイヤーを導入する必要がありますか？そして、微調整するとき-デプール層を削除し、残りは同じままにする必要がありますか？または、ノイズ層とプール解除層の両方を削除する必要があります画像の事前トレーニングを行うために、このようなスタック型畳み込み自動エンコーダーのアーキテクチャを詳しく説明したURL /ペーパーを教えてください。

23 neural-networks deep-learning autoencoders deep-belief-networks

4

能力不足の研究では、誤検知の可能性が増加していますか？

この質問はこことここで以前に尋ねられましたが、答えが質問に直接対処するとは思いません。能力不足の研究では、誤検知の可能性が増加していますか？いくつかのニュース記事がこの主張をしています。以下の場合の例：低い統計的検出力は悪いニュースです。能力不足の研究は、本物の効果を見逃す可能性が高く、グループとしては、偽陽性の割合が高い可能性が高くなります。つまり、現実ではなくても統計的有意性に達する効果です。私が理解しているように、テストの力は次のように高めることができます。サンプルサイズを増やすエフェクトサイズが大きい有意水準を上げる有意水準を変更したくないと仮定すると、上記の引用はサンプルサイズの変更に言及していると思います。ただし、サンプルを減らすことで誤検出の数がどのように増えるかはわかりません。簡単に言えば、研究の力を弱めると、質問に答える偽陰性の可能性が高まります。 P（Hを拒否できない 0| H0 偽です）P（拒否しない H0|H0 間違っている）P(\text{failure to reject }H_{0}|H_{0}\text{ is false}) それどころか、誤検知は質問に応答します。 P（ Hを拒否 0|H0 本当です）P（拒絶する H0|H0 本当です）P(\text{reject }H_{0}|H_{0}\text{ is true}) 条件が異なるため、両方とも異なる質問です。パワーは、（逆に）偽陰性に関連していますが、偽陽性には関連していません。何か不足していますか？

23 hypothesis-testing power false-discovery-rate

4

数学者のための機械学習の紹介

ある意味では、これはmath.stackexchangeからの私のクロスポストであり、このサイトは幅広い読者を提供するかもしれないと感じています。機械学習の数学的な紹介を探しています。特に、見つけることができる多くの文献は比較的不正確であり、多くのページがコンテンツなしで費やされています。しかし、そのような文献から始めて、パターン認識に関する司教の本であり、最後にスモラの本であるアンドリュー・ンのコースラ・コースを発見しました。残念ながら、Smolaの本はドラフト状態のみです。Smolaの本には証拠もあり、それは私にとって魅力的です。ビショップの本はすでにかなり良いが、ある程度の厳密さが欠けている。要するに、私はスモーラのような本を探しています。つまり、可能な限り正確で厳密であり、数学的な背景を使用しています（もちろん短い紹介でも大丈夫です）。推奨事項はありますか？

23 machine-learning references pac-learning

2

2つのiid対数正規確率変数の差

レッツと 2 iidrvのこと。分布を知りたい。X 2ログ（X 1）、ログ（X 2）〜N （μ 、σ ）X 1 - X 2X1X1X_1X2X2X_2log(X1),log(X2)∼N(μ,σ)log⁡(X1),log⁡(X2)∼N(μ,σ)\log(X_1),\log(X_2) \sim N(\mu,\sigma)X1−X2X1−X2X_1 - X_2 私ができる最善の方法は、両方のテイラー級数を取り、差が残りの項間の差の残りに加えて、2つの通常のrvと2つのカイ二乗rvの差の合計であることを取得することです。2つのiid対数正規rvの差の分布を取得するより簡単な方法はありますか？

23 probability distributions random-variable lognormal approximation

4

Rの正確な2つのサンプル比率の二項検定（およびいくつかの奇妙なp値）

私は次の質問を解決しようとしています：プレーヤーAは25ゲーム中17勝、プレーヤーBは20ゲーム中8勝-両方の比率に大きな違いはありますか？ Rで頭に浮かぶことは次のとおりです。 > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent confidence interval: -0.002016956 0.562016956 sample estimates: prop 1 prop 2 0.68 0.40 したがって、このテストでは、95％の信頼レベルでは差は有意ではないと述べています。 prop.test()近似のみを使用していることがわかっているので、正確な二項検定を使用してより正確にしたい-と私は両方の方法でそれを行う： > …

23 r hypothesis-testing statistical-significance binomial proportion

6

モデルをフィッティングするときに、通常、二乗和誤差（SSE）を最小化することを選択するのはなぜですか？

問題は非常に単純です。なぜ、線形または非線形のデータにモデルを適合させようとすると、通常、誤差の二乗和を最小化してモデルパラメーターの推定量を取得しようとするのでしょうか。最小化する他の目的関数を選択してみませんか？技術的な理由から、2次関数は他の関数、たとえば絶対偏差の合計よりも優れていることを理解しています。しかし、これはまだ非常に説得力のある答えではありません。この技術的な理由以外に、なぜこの「ユークリッド型」の距離関数を好むのでしょうか？そのための具体的な意味や解釈はありますか？私の考えの背後にある論理は次のとおりです。データセットがある場合、最初に一連の機能的または分布的な仮定（たとえば、分布全体ではなく瞬間条件）を作成してモデルを設定します。モデルにはいくつかのパラメーターがあり（パラメトリックモデルであると仮定）、これらのパラメーターを一貫して推定する方法を見つける必要があります。うまくいけば、推定器の分散が低く、その他の優れた特性を持つことになります。SSE、LAD、またはその他の目的関数を最小化するかどうかにかかわらず、これらは一貫した推定量を取得するための異なる方法だと思います。この論理に従って、最小二乗法を使用する人は1）モデルの一貫した推定量を生成する必要があると思った2）私が知らない他の何か。計量経済学では、線形回帰モデルでは、誤差項の予測子の平均条件が0であり、等分散性と誤差が互いに相関していないと仮定すると、二乗和の最小化によりモデルの一貫した推定量が得られることがわかりますパラメーターとガウスマルコフの定理により、この推定量は青です。したがって、これは、SSEではない他の目的関数を最小化することを選択した場合、モデルパラメーターの一貫した推定値を取得する保証がないことを示唆します。私の理解は正しいですか？それが正しい場合、他の目的関数ではなくSSEを最小化することは一貫性によって正当化できます。実際には、2次関数の方が良いと言うよりも許容できます。実際には、実際に完全なモデル、たとえば誤差項の分布仮定（モーメント仮定）を最初に明確に指定せずに、二乗誤差の合計を直接最小化する多くのケースを見ました。これは、この方法のユーザーは、データが「モデル」にどれだけ近いかを見たいと思うようです（モデルの仮定はおそらく不完全なので、引用符を使用します）。関連する質問（このWebサイトにも関連）は、なぜ、相互検証を使用して異なるモデルを比較しようとするとき、判断基準としてSSEを再び使用するのですか？つまり、SSEが最小のモデルを選択しますか？なぜ別の基準がないのですか？

23 econometrics least-squares

1

非線形モデルと一般化線形モデル：ロジスティック、ポアソンなどの回帰をどのように参照しますか？

統計学者の意見を聞きたいセマンティクスについて質問があります。ロジスティック、ポアソンなどのモデルは、一般化線形モデルの傘下にあることがわかっています。モデルにはパラメーターの非線形関数が含まれており、適切なリンク関数を使用して線形モデルフレームワークを使用してモデル化することができます。ロジスティック回帰などの状況を次のように考えて（教えますか？）パラメーターの形式が与えられた非線形モデルリンクが私たちを線形モデルフレームワークに変換するため、線形モデル同時に（1）と（2）：非線形モデルとして「開始」されますが、線形モデルと考えることができるような方法で動作する可能性があります私は実際の世論調査を設定することができます...

23 logistic generalized-linear-model poisson-regression nonlinear link-function

2

損失関数と決定関数の違いは何ですか？

どちらの機能も、勾配ブースティング回帰子などのデータマイニングメソッドの一部であることがわかります。それらも別々のオブジェクトであることがわかります。一般的に両者の関係はどうですか？

23 regression classification data-mining decision-theory

3

分散とバイアスの2乗へのMSE分解

MSEを分散とバイアスの平方に分解できることを示すために、Wikipediaの証明には図で強調されているステップがあります。これはどのように作動しますか？第3段階から第4段階まで製品に期待はどのように押し込まれますか？2つの用語が独立している場合、両方の用語に期待を適用すべきではありませんか？そうでない場合、この手順は有効ですか？

23 random-variable expected-value mse

10

大学院レベルで応用統計を自習するための本の推奨事項はありますか？

私は大学でいくつかの統計学コースを受講しましたが、私の教育は非常に理論に基づいていることがわかりました。私は、あなたが推薦したり、良い経験をしたりした応用統計のテキスト（大学院レベル）を持っている人がいるかどうか疑問に思っていました。

23 regression references modeling experiment-design application

1

共分散行列を使用して、重回帰の係数を見つける方法はありますか？

単純な線形回帰の場合、回帰係数は分散共分散行列CCCからC d 、eによって直接計算できます。Cd,eCe,eCd,eCe,e C_{d, e}\over C_{e,e} ここで、dddは従属変数のインデックス、eeeは説明変数のインデックスです。共分散行列しかない場合、複数の説明変数を持つモデルの係数を計算できますか？ ETAは、2つの説明変数については、それが現れると同様のためのβ2。これを3つ以上の変数に拡張する方法がすぐにわかりません。β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2β1=Cov(y,x1)var(x2)−Cov(y,x2)Cov(x1,x2)var(x1)var(x2)−Cov(x1,x2)2\beta_1 = \frac{Cov(y,x_1)var(x_2) - Cov(y,x_2)Cov(x_1,x_2)}{var(x_1)var(x_2) - Cov(x_1,x_2)^2} β2β2\beta_2

23 regression regression-coefficients covariance-matrix

7

Bonferroniの調整の何が問題になっていますか？

私は次の論文を読みました：Perneger（1998）ボンフェローニ調整の何が問題なのか。著者は、Bonferroniの調整は、せいぜい生物医学研究での用途が限られているため、特定の仮説に関する証拠を評価する際には使用すべきではないと述べて要約しました。要約ポイント：研究データで実行されたテストの数の統計的有意性の調整—ボンフェローニ法—は、解決するよりも多くの問題を作成しますボンフェローニ法は、一般的な帰無仮説（すべての帰無仮説が同時に真であるという）に関係しています。主な弱点は、発見の解釈が実行される他のテストの数に依存することですタイプIIエラーの可能性も増加するため、真に重要な違いは重要ではないとみなされます。実行された有意性のテストとその理由を単に説明することが、一般的に多重比較を処理する最良の方法です。次のデータセットがあり、複数のテスト修正を行いたいのですが、この場合の最良の方法を決定することはできません。平均のリストを含むすべてのデータセットに対してこの種の修正を行うことが不可欠かどうか、この場合の修正の最良の方法は何か知りたいですか？

23 hypothesis-testing multiple-comparisons bonferroni

2

ARMAを使用した非定常プロセスのモデリングの結果は？

非定常時系列のモデリングにはARIMAを使用する必要があることを理解しています。また、ARMAは定常時系列にのみ使用されるべきだと私が読んだことすべてがあります。私が理解しようとしているのは、モデルを誤分類し、d = 0非定常の時系列を仮定したときに実際に何が起こるかです。例えば： controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) 制御データは次のようになります。 [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] -22.6155812 -21.9189036 -20.2064343 -18.2516852 -15.5822178 [26] …

23 r time-series arima stationarity