統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
平均絶対誤差または二乗平均平方根誤差?
なぜ平均絶対誤差(MAE)ではなく、ルート平均二乗誤差(RMSE)を使用するのですか? こんにちは 計算で生成されたエラーを調査してきました。最初は、エラーをルート平均正規化二乗誤差として計算しました。 少し詳しく見てみると、誤差を2乗すると、小さい誤差よりも大きい誤差の方が重みが大きくなり、誤差の推定値が奇数の外れ値に向かって歪んでいます。振り返ってみると、これは非常に明白です。 だから私の質問-どのような場合に二乗平均平方根誤差は平均絶対誤差よりも適切な誤差の尺度になるでしょうか?後者は私にとってより適切であると思われますか、何か不足していますか? これを説明するために、以下の例を添付しました。 散布図は、良好な相関関係を持つ2つの変数を示しています。 右のグラフの2つのヒストグラムは、正規化されたRMSE(上)とMAE(下)を使用したY(観測値)とY(予測値)の間の誤差です。 このデータには重要な異常値はなく、MAEはRMSEよりも低いエラーを示します。MAE以外が望ましい、一方のエラー測定値をもう一方よりも使用するための合理的なものはありますか?
59 least-squares  mean  rms  mae 

12
両側検定...私は納得していません。ポイントは何ですか?
次の抜粋はエントリからのものです。片側検定と両側検定の違いは何ですか?、UCLAの統計ヘルプサイトで。 ...他の方向の効果を見逃した場合の結果を考慮してください。既存の薬物よりも改善されたと思われる新しい薬物を開発したと想像してください。改善を検出する能力を最大限に高めたいため、片側検定を選択します。そうすることで、新薬が既存の薬よりも効果が低い可能性をテストすることに失敗します。 仮説検定の絶対的な基礎を学び、1対2検定の一部を理解した後... 1検定の基本的な数学と検出能力の向上などを理解しました。一つのことについて...ポイントは何ですか?サンプルの結果がどちらか一方のみであるか、どちらでもない場合に、アルファを2つの極端に分割する必要がある理由を本当に理解できていません。 上記の引用テキストからシナリオ例をご覧ください。どうして逆方向の結果を「テストに失敗する」のでしょうか?サンプルの平均値があります。人口の平均値があります。単純な算術により、どちらが高いかがわかります。反対方向にテストする、またはテストに失敗するものは何ですか?サンプルの平均が他の方向に外れていることがはっきりとわかる場合、反対の仮説でゼロから始めただけで何が止まっているのでしょうか? 同じページからの別の引用: 帰無仮説の棄却に失敗した両側検定を実行した後に片側検定を選択することは、両側検定の有意性に「近い」場合でも適切ではありません。 これは、片側検定の極性の切り替えにも当てはまると思います。しかし、最初に正しい片側検定を単に選択した場合よりも、この「ドクターされた」結果の有効性は低いのでしょうか。 明らかに私はここで写真の大部分を見逃しています。それはただarbitrary意的すぎるように思えます。これは、「統計的に有意な」ことを示すもの-95%、99%、99.9%...という意味で、最初は任意です。

6
カテゴリ変数を多くのレベルで折りたたむ原理的な方法は?
統計モデルの入力(予測子)として使用するために、多くのカテゴリを少数に折りたたむ(またはプールする)ために使用できるテクニックは何ですか? 大学生(学部生が選択した専門分野)などの変数を考えてみましょう。順不同でカテゴリに分類されますが、潜在的に数十の異なるレベルを持つことができます。回帰モデルの予測子としてmajorを使用するとします。 これらのレベルをそのままモデリングに使用すると、非常に多くのレベルがあるため、あらゆる種類の問題が発生します。それらを使用するために多くの統計的精度が捨てられ、結果を解釈するのは困難です。特定の専攻に興味を持つことはめったにありません。専攻の幅広いカテゴリ(サブグループ)に興味を持つ可能性がはるかに高くなります。しかし、レベルをそのような上位レベルのカテゴリに分割する方法や、使用する上位レベルのカテゴリの数さえも必ずしも明確ではありません。 典型的なデータについては、因子分析、行列因子分解、または離散潜在モデリング手法を使用して満足です。しかし、メジャーは相互に排他的なカテゴリであるため、私はそれらの共分散をあらゆるものに活用することにheしています。 さらに、私は主要なカテゴリー自体を気にしません。回帰結果に関して一貫性のある高レベルのカテゴリを作成することに関心があります。バイナリ結果の場合、線形判別分析(LDA)のようなものが示唆され、識別パフォーマンスを最大化するより高いレベルのカテゴリを生成します。しかし、LDAは限られた手法であり、ダーティデータがdrするように感じます。さらに、継続的なソリューションを解釈するのは困難です。 一方、多重分散分析(MCA)のような共分散に基づくものは、相互排他的なダミー変数間の固有の依存性のため、この場合は疑わしいようです-それらは、複数のカテゴリ変数よりも複数のカテゴリ変数の研究に適しています同じ変数。 編集:明確にするために、これはカテゴリを折りたたむ(それらを選択しない)ことであり、カテゴリは予測変数または独立変数です。後から考えると、この問題は「すべてを正規化し、神にそれらを整理させる」適切な時期のようです。この質問を見てうれしいことは、多くの人にとって興味深いことです!


11
Brain Teaser:pr(head)= pのバイアスされたコインを使用して、等しい確率で7つの整数を生成する方法
これは、Glassdoorで見つけた質問です。コインを使用して、等しい確率で7つの整数をどのように生成しますか?Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) 基本的に、あなたは公平かもしれないし、そうでないかもしれないコインを持っています、そしてこれはあなたが持っている唯一の乱数生成プロセスであるので、これらの各整数を得る確率が1から7までの整数を出力する乱数ジェネレータを考え出します1/7です。 データ生成プロセスの効率が重要です。

2
ggplot2で凡例のタイトルを変更するにはどうすればよいですか?[閉まっている]
2 x 4 x 3セルデータセットからのデータを要約するために、ggplot2で作成しているプロットがあります。を使用して2レベル変数のパネルを作成しfacet_grid(. ~ Age)、を使用してx軸とy軸を設定できましたaes(x=4leveledVariable, y=DV)。私aes(group=3leveledvariable, lty=3leveledvariable)はこれまでプロットを作成していました。これにより、2レベル変数でパネル化された視覚化が提供されます。X軸は4レベル変数を表し、3レベル変数のパネル内に異なる線がプロットされます。しかし、3レベル変数のキーには3レベル変数の名前が付けられており、文字スペースを含むタイトルにしたいです。凡例のタイトルの名前を変更するにはどうすればよいですか? 私が試したものはうまくいかないようです(abp私のgpgplot2オブジェクトはどこですか): abp <- abp + opts(legend.title="Town Name") abp <- abp + scale_fill_continuous("Town Name") abp <- abp + opts(group="Town Name") abp <- abp + opts(legend.title="Town Name") サンプルデータ: ex.data <- data.frame(DV=rnorm(2*4*3), V2=rep(1:2,each=4*3), V4=rep(1:4,each=3), V3=1:3)

1
ROC曲線を理解する
ROC曲線を理解できません。 トレーニングセットの一意の各サブセットから異なるモデルを構築し、それを使用して確率を生成すると、ROC曲線の下の領域に利点/改善がありますか?たとえば、値有する、及びIは、モデル構築使用しての第1〜4の値からのと8-9値残りの列車データを使用してモデルを構築します。最後に、確率を生成します。どんな考え/コメントも大歓迎です。yyy{a,a,a,a,b,b,b,b}{a,a,a,a,b,b,b,b}\{a, a, a, a, b, b, b, b\}AAAaaayyyyyyBBB ここに私の質問のより良い説明のためのrコードがあります: Y = factor(0,0,0,0,1,1,1,1) X = matirx(rnorm(16,8,2)) ind = c(1,4,8,9) ind2 = -ind mod_A = rpart(Y[ind]~X[ind,]) mod_B = rpart(Y[-ind]~X[-ind,]) mod_full = rpart(Y~X) pred = numeric(8) pred_combine[ind] = predict(mod_A,type='prob') pred_combine[-ind] = predict(mod_B,type='prob') pred_full = predict(mod_full, type='prob') 私の質問は、pred_combine対ROC曲線下の面積pred_fullです。
57 r  roc 


1
平方根変換がカウントデータに推奨されるのはなぜですか?
カウントデータがある場合は、平方根を取ることをお勧めします。(CVのいくつかの例については、ここで@HarveyMotulskyの答え、またはここで@whuberの答えを参照してください。)一方、ポアソンとして分布した応答変数を使用して一般化線形モデルを近似する場合、ログは正規リンクです。これは、応答データのログ変換を行うようなものです(より正確には、応答分布を制御するパラメーターログ変換を行うことです)。したがって、これら2つの間には緊張があります。 λλ\lambda この(明らかな)矛盾をどのように調整しますか? 平方根が対数よりも優れているのはなぜですか?


13
連続して10頭あると、次のトスが尻尾になる可能性が高くなりますか?
私は、次が真であると仮定します。公正なコインを想定し、コインを投げながら、行の10頭を得ることが次のコイントスが尾であることの可能性を高めるません関係なく、周りに翻弄される確率および/または統計的な専門用語のどのような量、 (しゃれを許しなさい)。 そうであると仮定して、私の質問はこれです:私は一体どうやって誰かを説得するのですか? 彼らは賢くて教育を受けていますが、私はこれに関して正しいと思うかもしれないとは考えないように決心しているようです(議論)。

7
モーメント法が小さなサンプルで最尤法に勝てる例?
最尤推定量(MLE)は漸近的に効率的です。サンプルサイズが小さい場合でも、モーメント法(MoM)推定(それらが異なる場合)よりも優れていることが多いという点で、実際的な結果が見られます。 ここで「より良い」とは、両方がバイアスされていない場合の分散が通常小さいという意味で、より一般的には平均二乗誤差(MSE)が小さいことを意味します。 ただし、問題は発生します。 MoMがMSEで、たとえば小さなサンプルでMLEに勝てる場合はありますか? (これは奇妙な/退化した状況ではありません-つまり、MLが存在する条件が与えられた場合/漸近的に効率的なホールドになる場合) その場合、フォローアップの質問は「どれだけ小さいことができますか?」-つまり、例があれば、比較的大きなサンプルサイズ、おそらくはすべて有限のサンプルサイズでも保持されるものがありますか? [有限サンプルでMLに勝てるバイアス付き推定器の例を見つけることができますが、MoMではありません。] レトロスペクティブに追加された注:ここでの私の焦点は、主に単変量の場合(実際には、私の根底にある好奇心がどこから来ているか)です。多変量のケースを除外したくはありませんが、ジェームズ・スタイン推定の詳細な議論に迷いたくはありません。

4
モデルに線形項ではなく二次項を追加するのは理にかなっていますか?
私は(混合)モデルを持っています。このモデルでは、予測子の1つが(実験的な操作のために)予測子に2次関数的にのみ関連付けられる必要があります。したがって、二次項のみをモデルに追加したいと思います。次の2つの理由により、そうすることができません。 高次の多項式をあてはめるときは、常に低次の多項式を含めるべきだと読んだと思います。見つけた場所を忘れてしまい、調べた文献(たとえば、Faraway、2002; Fox、2002)では、良い説明が見つかりません。 線形項と二次項の両方を追加すると、両方が重要になります。それらの1つだけを追加する場合、それらは重要ではありません。ただし、予測変数とデータの線形関係は解釈できません。 私の質問のコンテキストは、具体的にはを使用した混合モデルlme4ですが、なぜ高次の多項式ではなく高次の多項式を含めるのが良いのか、なぜいけないのかを説明できる答えを得たいと思います。 必要に応じて、データを提供できます。

5
ゼロのログを取ることを回避するために、xにどのくらいの量を追加する必要がありますか?
データをそのまま分析しました。次に、すべての変数のログを取得した後、分析を確認します。多くの変数には多くのゼロが含まれています。したがって、ゼロの対数をとらないように少量を追加します。 これまでのところ、論理的に根拠なく10 ^ -10を追加しました。これは、任意に選択した数量の影響を最小限に抑えるために、ごく少量を追加することが望ましいと考えたからです。ただし、一部の変数にはほとんどゼロが含まれているため、ほとんどの場合、-23.02に記録されます。私の変数の範囲の範囲は1.33-8819.21で、ゼロの頻度も劇的に変化します。したがって、「少量」という私の個人的な選択は、変数に非常に異なる影響を与えます。すべての変数の分散の大部分はこの任意の「少量」に由来するため、10 ^ -10が完全に受け入れられない選択であることは明らかです。 これを行うためのより正しい方法は何でしょうか。 たぶん、各変数の個々の分布から量を導き出す方が良いでしょうか?この「少量」の大きさに関するガイドラインはありますか? 私の分析は主に、各変数と年齢/性別をIVとする単純なcoxモデルです。変数はさまざまな血中脂質の濃度であり、多くの場合、かなりの変動係数があります。 編集:変数のゼロ以外の最小値を追加すると、私のデータにとって実用的と思われます。しかし、おそらく一般的な解決策はありますか? 編集2:ゼロは単に検出限界以下の濃度を示すので、多分それらを(検出限界)/ 2に設定するのが適切でしょうか?

11
マルコフ連鎖と隠れマルコフモデルを学習するためのリソース
マルコフ連鎖とHMMについて学ぶためのリソース(チュートリアル、教科書、ウェブキャストなど)を探しています。私の経歴は生物学者であり、現在バイオインフォマティクス関連のプロジェクトに携わっています。 また、マルコフモデルとHMMを十分に理解するために必要な数学的背景は何ですか? 私はグーグルを使って見回してきましたが、今のところ良い入門チュートリアルをまだ見つけていません。ここの誰かがよく知っていると思う。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.