統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
カウント回帰の診断プロット
結果がカウント変数である回帰の場合、どの診断プロット(およびおそらく正式なテスト)が最も有益だと思いますか? 特に、ポアソンモデルと負の二項モデル、およびそれぞれのゼロ膨張モデルとハードルモデルに興味があります。私が見つけた情報源のほとんどは、これらのプロットがどのように「見える」べきかについての議論なしに、単純に残差対適合値をプロットします。 知恵と参考文献は大歓迎です。関連する場合、なぜこれを尋ねているのかについてのバックストーリーは、私の別の質問です。 関連する議論: glmモデルの残差診断プロットを解釈しますか? 一般化線形モデルの仮定 GLM-診断とどのファミリー

4
ガンマGLMを使用する場合
ガンマ分布はかなり広い範囲の形状をとることができ、その2つのパラメーターを介した平均と分散の間のリンクを考えると、非負データの不均一分散に対処するのに適しているようです。 WLSまたは何らかの不均一分散一貫性のあるVCV推定器を使用しないでください。 日常的な非負のデータモデリングにもっと使用しますが、それを使用する人は誰も知りません。正式な教室で学んだことはなく、読んだ文献では決して使用していません。「ガンマGLMの実際的な使用」のようなものをGoogleで検索するたびに、ポアソンイベント間の待機時間に使用するようにアドバイスします。OK。しかし、それは制限的なようであり、その唯一の使用法ではありません。 単純に言えば、ガンマGLMは、ガンマの柔軟性を考慮すると、非負データをモデル化するための比較的仮定の軽い手段のようです。もちろん、他のモデルと同様にQQプロットと残差プロットを確認する必要があります。しかし、私が見逃している深刻な欠点はありますか?「単にOLSを実行する」人々へのコミュニケーションを超えて?

14
一般的な時系列のオンライン異常値検出のためのシンプルなアルゴリズム
私は大量の時系列で作業しています。これらの時系列は基本的に10分ごとに発生するネットワーク測定値であり、一部は定期的(帯域幅)であり、一部はそうでない(つまりルーティングトラフィックの量)です。 オンラインの「異常値検出」を行うための簡単なアルゴリズムが欲しいです。基本的に、各時系列の履歴データ全体をメモリ(またはディスク)に保持し、ライブシナリオ(新しいサンプルがキャプチャされるたびに)で異常値を検出します。これらの結果を達成する最良の方法は何ですか? 現在、ノイズを除去するために移動平均を使用していますが、次に何をしますか?データセット全体に対する標準偏差、狂気などの単純なものはうまく機能しません(時系列が定常的であるとは思いません)。 double outlier_detection(double * vector、double value); ここで、vectorは履歴データを含むdoubleの配列であり、戻り値は新しいサンプル "value"の異常スコアです。

3
ランク不足とは何ですか?
lme4を使用したロジスティック回帰の近似は Error in mer_finalize(ans) : Downdated X'X is not positive definite. このエラーの考えられる原因は、明らかにランクの不足です。ランクの不備とは何ですか、どのように対処すればよいですか?
87 r  logistic  lme4-nlme 


2
最近のコンピューターの能力を考えると、フィッシャーの正確なテストではなくカイ2乗テストを行う理由はありますか?
ソフトウェアがフィッシャーの正確なテスト計算を非常に簡単に行えるようになったことを考えると、理論的または実用的に、カイ2乗テストがフィッシャーの正確なテストよりも実際に望ましい状況はありますか? フィッシャーの正確なテストの利点は次のとおりです。 2x2より大きい分割表(つまり、任意のr x c表)へのスケーリング 正確なp値を与える 有効な最小予想セル数を持つ必要はありません

3
「単純なブートストラップ」が失敗する例は何ですか?
未知の分布または複雑な分布からのサンプルデータのセットがあり、データの統計に対して何らかの推論を実行するとします。私のデフォルトの傾きはちょうど交換とブートストラップサンプルの束を生成し、そして私の統計を計算することであるための推定分布を作成するために、各ブートストラップ標本に。TTTTTTTTT これが悪い考えである例は何ですか? たとえば、このブートストラップの単純な実行が失敗する場合の1つは、時系列データでブートストラップを使用しようとしている場合です(たとえば、重要な自己相関があるかどうかをテストするため)。上記のナイーブブートストラップ(元のシリーズからの置換でサンプリングすることにより、n番目のブートストラップサンプルシリーズの番目のデータポイントを生成)は、元の時系列の構造を無視するため、お勧めできません。ブロックブートストラップのような、より手の込んだブートストラップテクニックを取得します。iii 別の言い方をすれば、「置換によるサンプリング」以外にブートストラップには何がありますか?

9
正確には、信頼区間とは何ですか?
信頼区間とは何かを大まかに非公式に知っています。しかし、かなり重要な詳細に頭を包み込むようには思えません。ウィキペディアによると: 信頼区間は、実際に取得されたデータが与えられた場合、パラメーターの真の値が信頼区間にある特定の確率を持っているとは予測しません。 また、このサイトのいくつかの場所で同様の指摘がありました。ウィキペディアからのより正確な定義は次のとおりです。 繰り返された(および場合によっては異なる)実験の多くの別個のデータ分析にわたって信頼区間が構築される場合、パラメーターの真の値を含むそのような区間の割合は、信頼レベルとほぼ一致します。 繰り返しになりますが、私はこのサイトのいくつかの場所で同様の指摘をしました。わかりません。繰り返し実験の下で、真のパラメーターを含む計算された信頼区間の割合がである場合、実際の実験で計算されたが信頼区間にある確率は?私は答えで次を探しています:(1 - α )θ (1 - α )θθ\theta(1−α)(1−α)(1 - \alpha)θθ\theta(1−α)(1−α)(1 - \alpha) 上記の誤った定義と正しい定義の区別の明確化。 最初の定義が間違っている理由を明確に示す、信頼区間の正式で正確な定義。 基礎となるモデルが正しい場合でも、最初の定義が劇的に間違っている場合の具体例。

9
多重共線性が線形回帰の問題である理由を直感的に説明できますか?
wikiでは、多重共線性が線形回帰の問題である場合に発生する問題について説明しています。基本的な問題は、多重共線性により不安定なパラメーター推定が発生し、従属変数に対する独立変数の影響を評価することが非常に困難になることです。 私は問題の背後にある技術的な理由を理解しています(を逆変換できない、条件が悪いなど)。X ′ Xバツ′バツX′XX' Xバツ′バツX′XX' X 線形回帰のコンテキストで多重共線性が問題となる理由について、幾何学的またはおそらく他の簡単に理解できる形式の説明はありますか?

16
相関はどのような条件下で因果関係を意味しますか?
私たちは皆、「相関関係は因果関係を意味するものではない」というマントラを知っています。アイデアを説明するための良い例がここにあります。 しかし、相関は因果関係を意味する場合があります。次の例は、このウィキペディアのページから取っています たとえば、テストで一貫して同じグレードを取得することがわかっている一卵性双生児で実験を実行できます。1人の双子は6時間勉強するために送られ、もう1人は遊園地に送られます。彼らのテストスコアが突然大幅に分岐した場合、これは学習(または遊園地に行く)がテストスコアに因果関係を持っているという強力な証拠になります。この場合、学習スコアとテストスコアの相関関係は、ほぼ確実に因果関係を意味します。 相関が因果関係を意味する他の状況はありますか?

24
「最新の」統計の経験則
フィリップ・アイ・グッドとジェームズ・W・ハーディンのG van BelleのThumbs of Statistics Rulesに関する本と、それほどではないが統計の一般的なエラー(およびそれらを回避する方法)が好きです。彼らは、実験的および観察的研究からの結果を解釈する際の一般的な落とし穴に対処し、統計的推論または探索的データ分析のための実用的な推奨事項を提供します。しかし、特にさまざまな分野での計算とロバストな統計の使用の増加や、臨床生物統計学や遺伝疫学などの機械学習コミュニティからの技術の導入により、「現代の」ガイドラインはやや欠けていると感じています。 他の場所で対処できるデータの視覚化における計算上のトリックや一般的な落とし穴は別として、私は尋ねたいと思います:効率的なデータ分析のために推奨する経験則は何ですか?(回答ごとに1つのルールをお願いします)。 私は、あなたが同僚、統計モデリングの強力なバックグラウンドを持たない研究者、または中級から上級コースの学生にあなたが提供するかもしれないガイドラインを考えています。これは、サンプリング戦略、特徴選択またはモデル構築、モデル比較、事後推定などのデータ分析のさまざまな段階に関係する場合があります。


4
混合エフェクトモデルのnlmeまたはlme4 Rライブラリを選択する方法は?
lme4in を使用して、いくつかの混合効果モデル(特に縦モデル)を適合させましRたが、実際にモデルとそれに伴うコードをマスターしたいと思います。 しかし、両足で飛び込む(そして本を買う)前に、正しい図書館を学んでいることを確認したい。今まで使っlme4てきたのはnlme、それがのより簡単だと思ったからですが、もしnlme自分の目的に合っていれば、それを使うべきだと思います。 どちらも単純な方法で「優れている」とは思いませんが、私はいくつかの意見や考えを大切にしています。私の主な基準は次のとおりです。 使いやすい(私はトレーニングによって心理学者であり、統計やコーディングに特に精通していませんが、学んでいます) 縦断的データを近似するための優れた機能(ここに違いがある場合-しかし、これは私が主にそれらを使用するものです) 良い(解釈しやすい)グラフィカルな要約、ここでも違いがあるかどうかはわかりませんが、私は私よりも技術的ではない人々のためにグラフを作成することが多いので、きれいできれいなプロットは常に良いです() このために)。 いつものように、この質問があまりにも曖昧ではないことを願っています。どんな知恵にも事前に感謝します!

8
もし平均がとても敏感なら、そもそもなぜそれを使うのか?
中央値が外れ値に対して耐性があることは既知の事実です。その場合、最初に平均を使用するのはいつ、なぜですか? おそらく考えられることの1つは、外れ値の存在を理解することです。つまり、中央値が平均から離れている場合、分布は歪んでおり、おそらく外れ値で何をするかを決定するためにデータを調べる必要があります。他の用途はありますか?

1
ニューラルネットワークを時系列予測に適用する方法
私は機械学習が初めてであり、ニューラルネットワークを時系列予測に適用する方法を模索しています。クエリに関連するリソースを見つけましたが、まだ少し失われているようです。あまり詳細を述べない基本的な説明が役立つと思います。 数年にわたって毎月の価格の値があり、新しい価格の値を予測したいとします。過去数か月間の価格のリストを取得し、K-Nearest-Neighborを使用して過去の同様の傾向を見つけようとしました。変化率や過去のトレンドのその他の特性を使用して、新しい価格を試して予測することができました。この同じ問題にニューラルネットワークを適用する方法は、私が見つけようとしていることです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.