統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

11
「次元の呪い」を子供に説明する
私は次元の呪いについて何度も聞いたが、どういうわけか私はまだアイデアを理解することができません、それはすべて霧です。 あなたが子供に説明するように、誰もがこれを最も直感的な方法で説明できますか? 編集: さて、子供が何らかの形でクラスタリングについて聞いたとしましょう(たとえば、おもちゃをクラスタ化する方法を知っています:))。次元の増加により、おもちゃをクラスタ化する仕事はどのように難しくなりますか? たとえば、かつてはおもちゃの形とおもちゃの色(1色のおもちゃ)だけを考慮していましたが、今ではおもちゃのサイズと重量も考慮する必要があります。子供が似たようなおもちゃを見つけるのが難しいのはなぜですか? 編集2 議論のために、「子供が似たようなおもちゃを見つけるのが難しいのはなぜか」によって明確にする必要があります。また、高次元の空間で距離の概念が失われるのはなぜですか。


3
モデル選択のためのネストされたクロス検証
モデル選択にネストされたクロス検証を使用するにはどうすればよいですか? 私がオンラインで読んだものから、ネストされたCVは次のように機能します。 グリッド検索を実行できる内部CVループがあります(たとえば、利用可能なすべてのモデルに対してK折りを実行します。たとえば、ハイパーパラメーター/機能の組み合わせ) 外側のCVループがあります。ここでは、内側のフォールドで勝ったモデルのパフォーマンスを、別の外側のフォールドで測定します。 このプロセスの終わりに、モデルになります(は外側のループの折り畳みの数です)。これらのモデルは、内部CV内のグリッド検索で勝ったモデルであり、異なる可能性があります(たとえば、グリッド検索に応じて、異なるカーネルを備えた、おそらく異なる機能でトレーニングされたSVM)。KKKKKK この出力からモデルを選択するにはどうすればよいですか?各モデルはデータセットのさまざまな部分でトレーニングおよびテストされているため、これらの勝利モデルから最良のモデルを選択することは公平な比較ではないように思えます。KKK モデルの選択にネストされたCVを使用するにはどうすればよいですか? また、ネストされたモデルの選択が学習手順の分析にどのように役立つかを議論するスレッドを読みました。外側のKフォールドから取得したスコアを使用して、どのような種類の分析/チェックを実行できますか?

3
結合分布がガウスではないガウス確率変数のペアを持つことは可能ですか?
就職の面接で誰かが私にこの質問をしましたが、彼らの共同分布は常にガウス分布であると答えました。私はいつでも平均と分散と共分散を持つ二変量ガウスを書くことができると思いました。2つのガウス分布の結合確率がガウス分布ではない場合がありますか?

5
なぜANOVAは線形回帰と比較して異なる研究方法論であるかのように教えられ/使用されますか?
ANOVAは、適切なダミー変数を使用した線形回帰と同等です。ANOVAを使用するか線形回帰を使用するかに関係なく、結論は同じままです。 それらの同等性に照らして、ANOVAが線形回帰の代わりに使用される理由はありますか? 注:線形回帰の代わりにANOVAを使用する技術的な理由について特に興味があります。 編集 一元配置分散分析を使用した1つの例を次に示します。男性と女性の平均身長が同じかどうかを知りたいとします。仮説をテストするために、男性と女性のランダムサンプル(それぞれ30個)からデータを収集し、ANOVA分析(性別とエラーの平方和)を実行して、効果が存在するかどうかを判断します。 次のように、線形回帰を使用してこれをテストすることもできます。 定義: 回答者が男性の場合は、それ以外の場合は。 ここで:Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} + \text{error} error∼N(0,σ2)error∼N(0,σ2)\text{error}\sim\mathcal N(0,\sigma^2) 次に、かどうかのテストは、仮説と同等のテストです。β=0β=0\beta = 0
91 regression  anova 

11
線形回帰はいつ「機械学習」と呼ばれるべきですか?
最近のコロキウムでは、講演者の要約は、彼らが機械学習を使用していると主張しました。講演中、機械学習に関連する唯一のことは、データに対して線形回帰を実行することでした。5Dパラメーター空間で最適な係数を計算した後、あるシステムのこれらの係数を他のシステムの最適な係数と比較しました。 線形回帰の機械学習は、単に最適な線を見つけるのではなく、いつ行われますか?(研究者の抽象的な誤解を招くものでしたか?) 最近、機械学習が注目を集めているため、このような区別をすることが重要だと思われます。 私の質問はこれに似ていますが、その質問は「線形回帰」の定義を求めますが、私の質問は線形回帰(多数のアプリケーションを持っています)が適切に「機械学習」と呼ばれる場合を尋ねます。 明確化 線形回帰が機械学習と同じであるかどうかは問いません。一部の人が指摘したように、単一のアルゴリズムは研究分野を構成しません。使用しているアルゴリズムが単なる線形回帰であるときに、機械学習を行っていると言ってもいいのかどうかを尋ねています。 1つは、彼らがされていない場合、あなたの名前にいくつかの金の星を追加するために機械学習を行っていると言うことは非倫理的であるため、わきすべてのジョーク(コメントを参照してください)、私はこれを頼む理由の一つは、実際に機械学習を行います。(多くの科学者は自分の仕事に最適なラインを計算しますが、これは機械学習を行っているという意味ではありません。)一方、機械学習の一部として線形回帰が使用されている状況は明らかにあります。これらの状況を分類するのに役立つ専門家を探しています。;-)

6
ポイントを獲得する可能性が58%の場合、ピンポンゲームで21を獲得し、2で勝つ可能性はどのくらいですか?
同僚と賭けをして、50のピンポンゲーム(最初に21ポイントを獲得し、2で勝った)のうち、50をすべて勝ち取るという賭けをしました。ポイントに加えて、私はこれまでにすべてのゲームに勝ちました。私はポイントを獲得する可能性が58%であり、ポイントを獲得する可能性が42%あるかどうか疑問に思っています。ゲームに勝つ可能性は何パーセントですか?確率の差を埋めることができる公式はありますか? 私たちはあちこちでグーグル検索を行い、会社のデータサイエンティストに尋ねさえしましたが、正解は見つかりませんでした。 編集:うわー、私は応答の徹底に感銘を受けています。本当にありがとうございました!!! 人々が好奇心を抱いている場合には、賭け方の最新情報があります。50試合中18試合に勝ったので、さらに32試合に勝つ必要があります。私はすべてのポイントの58.7%を獲得したため、対戦相手は41.3%のポイントを獲得しました。私の対戦相手の標準偏差は3.52、彼の平均スコアは14.83、彼の中央値は15.50です。以下は、これまでの各ゲームのスコアのスクリーンショットです。人々が興味を持っている場合、賭けが進むにつれて更新を続けることができます。 編集#2:残念ながら、まだいくつかのゲームしかプレイできませんでした。結果は以下のとおりです。スコアのスクリーンショットの束がないように、写真を交換し続けるだけです。 最終更新:ゲーム#28で同僚についに負けました。彼は私を21-13でbeatった。ご協力ありがとうございます!

4
PCAと分散の割合の説明
一般に、PCAのような分析における分散の割合は、最初の主成分によって説明されると言うことは何を意味しますか?誰かがこれを直感的に説明できますが、主成分分析(PCA)の観点から「分散の説明」の意味を正確に数学的に定義することもできますか?バツxx 単純な線形回帰の場合、最適な直線のr乗は常に説明された分散の割合として記述されますが、それをどうするかはわかりません。ここでの分散の割合は、最適なラインからのポイントの偏差の延長ですか?

7
統計分析プロジェクトを効率的に管理する方法は?
コンピューターサイエンスではプロジェクト管理やデザインパターンについてよく耳にしますが、統計分析ではそうではありません。しかし、効果的で耐久性のある統計プロジェクトを設計するための決定的なステップは、物事を整理することです。 私はしばしば、Rの使用と、別々のフォルダー内のファイルの一貫した編成(生データファイル、変換されたデータファイル、Rスクリプト、図、メモなど)を提唱します。このアプローチの主な理由は、後で分析を実行する方が簡単な場合があることです(たとえば、特定のプロットの作成方法を忘れた場合)。 統計プロジェクト管理のベストプラクティスは何ですか?または、あなた自身の経験から与えたい推奨事項は何ですか?もちろん、これはすべての統計ソフトウェアに適用されます。(投稿ごとに1つの回答をお願いします)


1
plot.lm()の解釈
Rのplot(lm)によって生成されたグラフの解釈について質問がありました。スケール位置プロットとレバレッジ残差プロットの解釈方法を教えていただけませんか。コメントをいただければ幸いです。統計、回帰、計量経済学の基本的な知識があると仮定します。

30
タイプIおよびタイプIIエラーの定義を覚える方法はありますか?
私は教育の統計学者ではなく、ソフトウェアエンジニアです。しかし、統計はたくさん出てきます。実際、タイプIおよびタイプIIのエラーに関する質問は、Certified Software Development Associate試験の勉強中にたくさん出てきます(数学と統計は試験の10%です)。タイプIとタイプIIのエラーの正しい定義を常に考え出すのに苦労しています-今それらを覚えていますが(ほとんどの場合それらを覚えています)、私は本当にこの試験で凍結したくありません違いが何であるかを思い出そうとしています。 タイプIエラーは偽陽性であること、または帰無仮説を拒否して実際に真であり、タイプIIエラーが偽陰性であること、または帰無仮説を受け入れて実際に偽であることがわかっています。 ニーモニックなど、違いが何であるかを覚える簡単な方法はありますか?専門の統計学者はどのようにそれをしますか-それは彼らがそれを頻繁に使用したり議論したりすることで知っていることですか (サイドノート:この質問はおそらくより良いタグを使用できます。私が作成したかったのは「用語」でしたが、それを行うには十分な評判がありません。誰かがそれを追加できれば素晴らしいです。

2
lme4の収束警告についてどれほど怖いのか
glmerを再フィッティングすると、モデルが収束するのに苦労していることを示す警告が表示される場合があります。たとえば、 >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) @Ben Bolkerがこのスレッドで説明した収束をチェックする別の方法は次のとおりです。 relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 場合max(abs(relgrad))である<0.001。この場合には、我々は矛盾する結果を持っているようなものは...大丈夫でしょうか?方法をどのように選択し、モデルのあてはめを安心させる必要がありますか? 一方、次のような極端な値を取得した場合: >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 35.5352 …

4
ディープラーニングで現在の画像平均ではなく、データセットの画像平均を減算して画像を正規化するのはなぜですか?
画像を正規化する方法にはいくつかのバリエーションがありますが、ほとんどは次の2つの方法を使用しているようです。 すべての画像について計算されたチャネルごとの平均値を引きます(例: VGG_ILSVRC_16_layers) すべての画像について計算されたピクセル/チャネルで減算します(例:CNN_S、Caffeの参照ネットワークも参照) 私の考えでは、自然なアプローチで各画像を正規化します。昼光下で撮影された画像は、夜間の画像よりも多くのニューロンを発火させますが、通常、エッジなどに存在するより興味深い特徴に関心がある時間を通知する場合があります。 Pierre Sermanetは3.3.3で、画像ごとのローカルコントラスト正規化を参照していますが、これまでに見た例/チュートリアルではこれに遭遇していません。また、興味深いQuoraの質問とXiu-Shen Weiの投稿を見ましたが、上記の2つのアプローチをサポートしていないようです。 正確に何が欠けていますか?これは色の正規化の問題ですか、それとも多くの人がこのアプローチを使用する理由を実際に説明する論文がありますか?

1
クロスランダム効果とネストランダム効果:lme4でどのように違い、どのように正しく指定されていますか?
ネストされたランダム効果とクロスされたランダム効果を理解した方法は次のとおりです。 ネストされたランダム効果は、下位レベルの要因が上位レベルの要因の特定のレベル内にのみ現れる場合に発生します。 たとえば、ある時点でのクラス内の生徒。 ではlme4、私たちは2つの等価のいずれかの方法で、ネストされたデータのランダム効果を表すことを考えました: (1|class/pupil) # or (1|class) + (1|class:pupil) 交差ランダム効果とは、特定の因子が上位レベル因子の複数のレベルに現れることを意味します。 たとえば、数年にわたって測定されたクラス内に生徒がいます。 ではlme4、次のように記述します。 (1|class) + (1|pupil) ただし、特定のネストされたデータセットを見ると、両方のモデル式で同じ結果が得られていることに気付きました(以下のコードと出力)。ただし、2つの式が異なる結果を生成する他のデータセットを見てきました。ここで何が起こっているのでしょうか? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ (1 | schoolid) …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.