統計とビッグデータ

1

混合効果モデリングの分野のリーダーからの以下のブロック引用は、ランダム効果（「ZCP」モデル）間の相関がゼロのモデルの座標シフトがモデル予測を変更すると主張しています。しかし、誰かが自分の主張を詳しく説明したり、さらに正当化することはできますか？問題のステートメントは、ベイツらの 2015年の論文lme4、lme4を使用した線形混合効果モデルのフィッティング、7ページ、2番目の段落（ダウンロードリンク）からのものです。 \newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}} ここに彼らが書いたものの言い換えがあります：ランダム相関モデルの複雑さを軽減するためにゼロ相関パラメーターモデルが使用されますが、1つの欠点があります。勾配と切片がゼロ以外の相関を持つことが許可されているモデルは、連続予測子の加法シフトに対して不変です。相関関係がゼロに制約されると、この不変性は崩れます。予測変数の変化は、必然的に、推定された相関、モデルの尤度と予測の変化につながります。1たとえば、推定された被験者間標準偏差に推定された相関、つまり2を掛けた比率に等しい量だけDays [ \ slopeに伴う予測子]をシフトするだけで、fm1の相関を除去できます。slopeslope\slope ρslope:intercept×σslopeσinterceptρslope:intercept×σslopeσintercept\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}} このようなモデルの使用は、理想的には、予測子が比率スケールで測定される場合に限定する必要があります（つまり、スケール上のゼロ点は、便宜上または慣例によって定義された場所だけでなく、意味があります）。質問：上記の上付き文字に合わせて番号が付けられています... 予測変数の測定に使用される座標系のシフトは、推定相関の変化につながり、それにより非ゼロ相関につながることがわかります。これは、予測子座標系のシフト下でゼロ相関パラメーターモデルが不変ではないというステートメントをサポートするため、非ゼロのランダム効果相関を持つモデルは、適切な座標シフトによってゼロ相関を持つモデルに変換できるということです。上記の言い換えの3番目の段落もサポートしていると思います。ZCPモデル（およびゼロインターセプトモデル—以下を参照してください。ただし、これを確認してください）は、特定の特別な座標系を使用するモデルでのみ有効です。しかし、なぜそのようなモデルの座標シフトが予測を変更する必要があるのでしょうか？たとえば、座標のシフトは、グループ平均の固定効果切片項も変更します（以下を参照）が、予測子の座標系の原点の変更に適切な量だけです。新しい座標系がシフトされた予測子に使用されている限り、このような変更はモデル予測に影響しません。詳述すると、シフトされた予測子に関連付けられた固定効果の傾きが正で、予測子の座標系の原点が負の方向にシフトされた場合、固定効果の切片は減少し、関連するランダム効果の切片も変更されますそれに応じて、シフトされた座標系での「原点」の新しい定義（したがって、インターセプト）を反映します。ところで、この推論は、ゼロ切片モデルもそのようなシフトの下で不変ではないことを暗示していると思います。私はこれを解決する合理的な方法を持っていると思いますが、ベイツらとは少し異なる答えを導き出しました。どこか間違っていますか？以下は私の答えです。それに続いて、どのように結果にたどり着いたかを説明します。Iがずれた場合に要約すると、私はそれを見つけるによって負原点をので、新しい座標系において予測は値を取ることが、、次いで相関新しい座標系で次の場合はゼロです。δ > 0 のx " = X + δ ρ "xxxδ>0δ>0\delta > 0x′=x+δx′=x+δx' = x + \deltaρ′ρ′\rho' δ=ρslope:intercept×σinterceptσslopeδ=ρslope:intercept×σinterceptσslope\delta=\rho_{\slope:\intercept}\times\frac{\sigma_{\intercept}}{\sigma_{\slope}} これは、ベイツらの結果とは異なります。私の方法の説明（オプションの読み取り）：2つのランダム効果、と（略して）の相関関係があるとします。両方ともレベル（からまでの番号）の同じグループ化因子に対応します。）。また、ランダムがペアになっている連続予測子はと呼ばれ、製品がレベル値への条件付き寄与を生成するように定義されているとします切片のint K I 1つのk個の傾きX X × 勾配I …

25 r mixed-model lme4-nlme

4

可変重要度ランキングは何に役立ちますか？

さまざまな重要度のランキング（すべての種類の多変量モデルのコンテキスト）に関しては、私はややニヒリストになりました。多くの場合、作業の過程で、他のチームが可変重要度ランキングを作成するのを支援するか、自分の作業から可変重要度ランキングを作成するように依頼されます。これらのリクエストに応えて、私は次の質問をしますこの変数の重要度ランキングは何にしたいですか？それから何を学びたいですか？それを使用してどのような決定をしたいですか？私が受け取る答えはほとんどの場合、2つのカテゴリーのいずれかに分類されます。応答を予測する上で、モデル内のさまざまな変数の重要性を知りたいと思います。重要度の低い変数を削除して、機能の選択に使用したいと思います。最初の応答はトートロジーです（変数の重要度ランキングが必要なため、変数の重要度ランキングが必要です）。多変量モデルの出力を使用する場合、これらのランキングは心理的なニーズを満たすと仮定する必要があります。変数「重要度」を個別にランク付けすると、問題のモデルの多次元の性質が暗黙的に拒否されるように見えるため、これを理解するのは困難です。 2番目の応答は、基本的に後方選択の非公式バージョンに還元され、その統計的な罪はCrossValidatedの他の部分で十分に文書化されています。また、重要度ランキングの不明確な性質と格闘しています。ランキングがどのような基礎概念を測定すべきかについてはほとんど合意がないようで、非常にアドホックな風味を与えています。重要度スコアまたはランキングを割り当てるには多くの方法があり、一般に欠点と注意事項があります。ランダムフォレストおよびgbmsの重要度ランキングのように、アルゴリズムに大きく依存する場合があります。それらは非常に大きな分散を持ち、基礎となるデータへの摂動で劇的に変化します。それらは、入力予測子の相関の影響を大きく受ける可能性があります。だから、私の質問は、変数重要度ランキングの統計的に有効な使用法は何ですか、またはそのような欲望の無益さに対する説得力のある議論（統計学者または素人に対する）は何ですか？私は、一般的な理論的議論とケーススタディの両方に興味があります。

25 multiple-regression multivariate-analysis importance

8

機械学習の原理理論と数学的理論が重要なのはなぜですか？

私は、原理的/理論的な機械学習を持つことがなぜそんなに重要なのだろうと考えてきました。人間としての個人的な観点から、原理的な機械学習が重要である理由を理解できます。人間は自分がしていることを理解するのが好きで、私たちは理解の美しさと満足感を見つけます。理論的な観点から、数学は楽しいです物事の設計を導く原則がある場合、ランダムな推測、奇妙な試行錯誤に費やす時間が少なくなります。たとえば、ニューラルネットが実際にどのように機能するかを理解すれば、たった今試行錯誤を繰り返すよりもはるかに時間をかけて設計することができます。より最近では、原則が明確であり、理論も明確であれば、システムへの（できれば）より透明性があるはずです。システムの機能を理解すれば、AIは多くの人々の誇大宣伝がすぐに消えてしまうリスクがあるため、これは良いことです。原則は、世界が持つ可能性のある重要な構造と、別のツールではなくツールを使用するタイミングを要約する簡潔な方法のようです。しかし、これらの理由は、機械学習の集中的な理論的研究を正当化するほど十分に強力なのでしょうか？理論に対する最大の批判の1つは、実行が非常に難しいため、通常、非常に制限されたケースや、本質的に結果を役に立たなくする必要がある仮定を研究することになります。Torの作者によるMITでの講演でこれを聞いたことがあると思います。彼が聞いたTorの批判の一部は理論的な議論であるが、本質的に、人々は現実の現実のシナリオについて物事を証明することができない。計算能力とデータが非常に多いこの新しい時代では、実際のデータセットとテストセットを使用してモデルをテストできます。経験主義を使用して、物事が機能するかどうかを確認できます。代わりに、エンジニアリングと経験主義で機能するAGIまたはシステムを実現できる場合、特に定量化の限界を達成するのが非常に困難ですが、直感と定性的な答えがはるかに簡単な場合、機械学習の原理的および理論的な正当化を追求する価値がありますデータ駆動型アプローチで達成しますか？このアプローチは古典的な統計では利用できませんでした。そのため、当時は理論が非常に重要であったと思います。私は個人的に常に理論を愛し、考えており、原則的なアプローチが重要でした。しかし、実際のデータとコンピューティング能力で物事を試すことができるという力で、理論的な追求の大きな努力（そして潜在的に低い報酬）がまだ価値があるのだろうかと思いました。機械学習の理論的および原則的な追求は本当に重要ですか？

25 machine-learning neural-networks conv-neural-network theory

8

確率のエラーバーには意味がありますか？

人々はしばしば、ある出来事が起こる可能性が50-60％あると言います。確率の割り当てについて明示的なエラーバーを表示する人もいます。これらのステートメントには意味がありますか、それとも本質的に知らない何かに対して特定の番号を選択する不快感の言語的な癖ですか？

25 probability error

0

Jaynesの分布

ジェーンズの著書「確率論：科学の論理」では、ジェーンズは「分布と継承のルール」というタイトルの章（Ch 18）を持ち、この章で分布の概念を紹介しています。ApApA_pApApA_p [...]これを見るには、新しい情報を取得する効果を想像してください。コインを5回投げると、毎回テールが現れます。次の投球での頭の確率は何ですか？私はまだ1/2と言います。ただし、火星に関するもう1つの事実を教えていただければ、[ 火星にかつて生命が存在したという ] 確率の割り当てを完全に変更する準備ができています。私の信念の状態をペニーの場合非常に安定させるが、火星の場合非常に不安定にする何かがありますこれは、論理としての確率論に対する致命的な反対のように思えるかもしれません。おそらく、命題に、妥当性を表す1つの数字だけでなく、2つの数値を関連付ける必要があります。そして、ある種の二価理論が必要になるでしょう。[...] 彼は、ような新しい命題を導入しApApA_pP(A|ApE)≡pP(A|ApE)≡pP(A|A_pE) ≡ p 「ここで、Eは、追加の証拠である、我々はレンダリングしなければならなかった場合。口頭声明として、それはこのようなものを出してくるでしょう：関係なく、あなたが言われたかもしれない何か他のものの、Aの確率はPです。」ApApA_pApApA_p ≡≡≡ 私は、これらの基準を満たすベータ分布を使用するだけで、2つの数字のアイデア（「信頼性、および新しい証拠に直面した場合の安定性」）の違いを見ようとしています。図18.2は（say）を使用するのと非常に似ていますが、火星ではBeta（1 / 2,1 / 2）であり、信念の状態は「非常に不安定」ですα=β=100α=β=100\alpha=\beta=100 オリジナル命題は、上記の、ベータ（かもしれない非常に大きいため）よう /（。そうすれば、との分布を変える証拠はありませんApApA_pα,βα,β\alpha,\betaα,βα,β\alpha,\betaαα\alphaα+β)=pα+β)=p\alpha+\beta)=ppppP(A|ApE)≡pP(A|ApE)≡pP(A|A_pE) ≡ p 本全体でベータ分布について説明しているので、ここでの区別が微妙であり、新しい理論（分布）を保証していることをますか？彼は次の段落で「「確率の確率」について話しているかのように見える」と述べています。ApApA_p

25 probability bayesian beta-distribution

1

最先端のストリーミング学習

私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると： Follow-the-Regularized-Leader and Mirror Descent：等価定理とL1正則化（http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf）ストリーミング学習：ワンパスSVM（http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf） Pegasos：SVMのプライム推定サブGrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf またはここ：SVMは一度に1つの例をストリーム学習できますか？ストリーミングランダムフォレスト（http://research.cs.queensu.ca/home/cords2/ideas07.pdf）しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです！あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか？できるだけ多くの方法をレビューしようとしている論文はありますか？

25 machine-learning references large-data online

2

一般化線形（混合）モデル（特に残差）の診断

現在、困難なカウントデータ（従属変数）に適したモデルを見つけるのに苦労しています。lmerand などのさまざまな異なるモデル（混合効果モデルが私の種類のデータに必要です）lme4や、Gaussianや負の二項分布などのさまざまなファミリを持つ一般化線形混合効果モデルを試しました。しかし、結果の適合をどのように正しく診断するかについてはかなり確信が持てません。Webでそのトピックについて多くの異なる意見を見つけました。線形（混合）回帰の診断は非常に簡単だと思います。先に進んで残差（正規性）を分析し、残差と比較した近似値をプロットすることで不均一分散性を調べることができます。ただし、一般化バージョンではどのように適切に行うのですか？今のところ、負の二項（混合）回帰に注目しましょう。私はここで残差に関するまったく反対の声明を見ました：では一般化線形モデルにおける正規の残差チェック、それはプレーンな残差が正常にGLMために配布されていないことを最初の回答で指摘されているが、これは明らかだと思います。ただし、ピアソンおよび逸脱残差も正常であるとは想定されていないことが指摘されています。それでも、2番目の答えは、逸脱の残差を正規に分布する必要があることを示しています（参照と組み合わせて）。ただし、逸脱残差を正規分布で分布させる必要があることは、？glm.diag.plots（Rのbootパッケージから）のドキュメントで示唆されています。で、このブログの記事、著者は最初のNB混合効果回帰モデルのためのピアソン残差は、私が想定し何の正常性を研究しています。予想通り（私の意見では）、残差は正常であるとは示されず、著者はこのモデルが不適切であると仮定しました。ただし、コメントで述べたように、残差は負の二項分布に従って分布する必要があります。私の意見では、GLM残差は通常の分布とは異なる分布を持つ可能性があるため、これは真実に最も近くなります。これは正しいです？ここで異分散のようなものをチェックする方法は？最後の点（推定分布の変位値に対する残差のプロット）は、Ben＆Yohai（2004）で強調されています。現在、これは私のために行く方法のようです。簡単に言うと、特に残差に焦点を当てて、一般化線形（混合）回帰モデルのモデル適合をどのように適切に研究しますか？

25 generalized-linear-model residuals negative-binomial count-data glmm

1

t検定の死亡の報告は非常に誇張されていますか？

CVの昔からの古典を読んで、はっきりさせたいと思う声明に出くわしました。これが投稿であり、私の質問は最後の発言に言及しています。「私が伝えた知識はすべて時代遅れであることに注意する必要があります。おそらく、t検定を実行するように教えられた場所であればどこでもWilcoxonテストを使用したいでしょう。」サンプル平均の分布がt検定を実行するのに十分に正常であると仮定するのが妥当かどうかについての心配がないことは、明らかに大きな利点です。そして、コンピューターは、2つのデータベクトル間の差の長いリストを簡単にランク付けできることを確認します。それで、t検定は本当に過去のものですか？順列テストはどうですか？通常、数行のコードを書くという意味で、あまりにもアドホックですか？

25 hypothesis-testing t-test permutation-test wilcoxon-mann-whitney

5

最尤推定—多くの場合、バイアスがかかっているにもかかわらず使用される理由

最尤推定では、バイアスのかかった推定量が得られることがよくあります（たとえば、サンプル分散の推定値はガウス分布に対してバイアスがかけられます）。それで何がそんなに人気があるのでしょうか？なぜそんなに正確に使用されるのですか？また、特に代替アプローチであるモーメント法よりも優れている点は何ですか？また、ガウスでは、MLE推定量を単純にスケーリングすることでバイアスが偏らないことに気付きました。なぜこのスケーリングは標準的な手順ではないのですか？つまり、なぜMLE計算の後、推定量を不偏にするために必要なスケーリングを見つけるのが日常的ではないのですか？標準的な方法は、スケーリング係数がよく知られているよく知られたガウスの場合を除いて、MLE推定値の単純な計算のようです。

25 normal-distribution maximum-likelihood method-of-moments

4

ArXivは統計コミュニティで人気がありますか？

物理学と数学のコミュニティはArXivに非常に興味があることを知っていますが、統計コミュニティはどうですか？投稿する前にそこに投稿するのが習慣ですか？

25 references academia

3

直交、相関、独立の関係は何ですか？

計画されたコントラストを使用して一元配置分散分析で異なる手段を見つけるとき、それらが無相関であり、タイプIエラーが膨らまないようにするために、制約は直交する必要があるという記事を読みました。どのような状況でも、直交が無相関を意味する理由はわかりません。その視覚的/直感的な説明が見つからないため、これらの記事/回答を理解しようとしました https://www.psych.umn.edu/faculty/waller/classes/FA2010/Readings/rodgers.pdf 統計の文脈で直交とはどういう意味ですか？しかし、私には、彼らは互いに矛盾しています。最初は、2つの変数が無相関および/または直交の場合、それらは線形独立であるが、それらが線形独立であるという事実は、それらが無相関および/または直交であることを意味しないと言います。 2番目のリンクには、「直交は無相関を意味する」、「XとYが独立している場合は直交であるが、逆は成り立たない」などの回答があります。 2番目のリンクの別の興味深いコメントは、2つの変数間の相関係数がこれらの変数に対応する2つのベクトル間の角度のコサインに等しいことを示しています。これは、2つの直交ベクトルが完全に無相関であることを意味します（最初の記事とは異なります）クレーム）。それでは、独立性、直交性、相関関係の本当の関係は何ですか？たぶん私は何かを見逃したが、それが何であるかを見つけることができません。

25 correlation independence

4

1つのプロットで多くの変数を視覚化する

特定の変数（〜15）の値が時間とともにどのように変化するかを示したいのですが、変数が各年でどのように異なるかを示したいと思います。だから私はこのプロットを作成しました：しかし、配色を変更したり、さまざまな線/形状タイプを追加したりしても、これは面倒に見えます。この種のデータを視覚化するより良い方法はありますか？ Rコードを使用したテストデータ： structure(list(Var = structure(c(1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 3L, 3L, 3L, 3L, 3L, 3L, 3L, 5L, 5L, 5L, 5L, 5L, 5L, 5L, 6L, 6L, 6L, 6L, 6L, 6L, 7L, 7L, 7L, 7L, 7L, 7L, 7L, 8L, 8L, 8L, 8L, 8L, 8L, 8L, 9L, 9L, 9L, …

25 r data-visualization

2

混合モデルの自由度に関するサタースウェイト対ケンワード・ロジャー近似

このlmerTestパッケージは、anova()オプションで自由度のサタースウェイト（デフォルト）またはケンワードロジャーの近似（df）を持つ線形混合モデルの関数を提供します。これら2つのアプローチの違いは何ですか？いつ選択するのですか？

25 r anova mixed-model lme4-nlme degrees-of-freedom

4

相互検証後の「テスト」データセットの使用方法

私が見たいくつかの講義やチュートリアルでは、データを3つの部分（トレーニング、検証、テスト）に分割することを提案しています。しかし、テストデータセットの使用方法や、このアプローチがデータセット全体の相互検証よりも優れている方法は明確ではありません。データの20％をテストセットとして保存したとします。次に、残りを取得してk分割し、交差検証を使用して、このデータセットの未知のデータに対して最適な予測を行うモデルを見つけます。私たちが見つけた最良のモデルは、75％の精度を提供するとしましょう。さまざまなQ＆A Webサイトのさまざまなチュートリアルと多くの質問から、保存された（テスト）データセットでモデルを検証できるようになりました。しかし、それがどの程度正確に行われているのか、それが何の要点なのかはまだわかりません。テストデータセットの精度が70％であるとします。それでは、次に何をしますか？テストデータセットで高いスコアを取得するまで、別のモデルを試し、次に別のモデルを試しますか？しかし、この場合、限られた（20％のみ）テストセットに適合するモデルを見つけるだけのように見えます。一般的に最適なモデルを見つけるという意味ではありません。さらに、限られたデータセットでのみ計算される場合、このスコアをモデルの一般的な評価としてどのように考えることができますか？このスコアが低い場合は、不運で「不良」なテストデータを選択した可能性があります。一方、所有しているすべてのデータを使用してからk分割交差検証を使用してモデルを選択すると、所有しているデータセット全体の未知のデータに対して最適な予測を行うモデルが見つかります。

25 machine-learning cross-validation validation

5

上位主成分は、従属変数の予測力をどのように保持できますか（または、より良い予測につながりますか）？

私は回帰実行していると仮定Y〜XY〜バツY \sim X。上位kkk主成分を選択することにより、モデルは予測力を保持するのはなぜですか？YバツバツXYYY 次元削減/機能選択の観点から、が上位固有値を持つの共分散行列の固有ベクトルであり、が上位主成分である場合、最大の分散で。それにより、特徴の数をkに減らして、予測力の大部分を保持することができます。 X K X 、V 1、XのV 2。。。X v k k kv1、v2、。。。vkv1、v2、。。。vkv_1, v_2, ... v_kXバツXkkkXv1,Xv2...Xvkバツv1、バツv2。。。バツvkXv_1, Xv_2 ... Xv_kkkkkkk しかし、なぜ上位コンポーネントが予測力を保持するのでしょうか？YkkkYYY 一般的なOLSについて話す場合、フィーチャ分散が最大である場合、が最も予測力があることを示唆する理由はありません。Z I Z I YY∼ZY〜ZY \sim ZZiZ私Z_iZiZ私Z_iYYY コメントを見た後の更新：次元削減のためにPCAを使用する例がたくさんあると思います。私は、残された次元が最も予測力があることを意味していると思っていました。それ以外の場合、次元削減のポイントは何ですか？

25 regression classification pca dimensionality-reduction regularization