統計とビッグデータ

4

マルチクラス分類でROC曲線をプロットする方法は？

つまり、2クラスの問題を抱える代わりに、4クラスを扱っていますが、AUCを使用してパフォーマンスを評価したいと考えています。

66 classification roc

7

平均と分散を使用してベータ分布のパラメーターを計算する

分布に必要な平均と分散がわかっている場合、ベータ分布のおよびβパラメーターを計算するにはどうすればよいですか？これを実行するRコマンドの例が最も役立ちます。αα\alphaββ\beta

66 r distributions estimation beta-distribution

2

ランダムフォレストのチューニングに関する実用的な質問

私の質問はランダムフォレストについてです。この美しい分類器の概念は私には明らかですが、実際の使用上の疑問はまだたくさんあります。残念ながら、RFの実用的なガイドを見つけることができませんでした（Geoffrey Hintonによる「制限付きボルツマンマシンのトレーニングのための実践ガイド」のようなものを探していましたが、ランダムフォレストについてです！実際にRFを調整するにはどうすればよいですか？ツリーの数が多いほど良いというのは本当ですか？ツリーの数の増加と、特定のデータセットの推定方法に合理的な制限（もちろん、比較能力を除く）はありますか？木の深さはどうですか？合理的なものを選択するには？1つのフォレスト内で異なる長さの木を実験することに意味はありますか？それに対するガイダンスは何ですか？ RFのトレーニング時に検討する価値のある他のパラメーターはありますか？個々のツリーを構築するためのアルゴリズムはどうでしょうか？ RFがオーバーフィッティングに耐性があると彼らが言うとき、それはどのように真実ですか？検索中に見逃したかもしれない答えやガイドや記事へのリンクに感謝します。

65 random-forest cart

4

GLMの「リンク機能」と「正規リンク機能」の違いは何ですか

「リンク関数」と「標準リンク関数」という用語の違いは何ですか？また、一方を他方より使用する（理論的な）利点はありますか？たとえば、バイナリ応答変数は、logitやprobitなどの多くのリンク関数を使用してモデル化できます。ただし、ここでのロジットは「標準的な」リンク関数と見なされます。

65 logistic generalized-linear-model link-function

18

統計インタビューの質問

私は、最も基本的なものからより高度なものまで、いくつかの統計（および確率）インタビューの質問を探しています。回答は必要ありません（ただし、このサイトの特定の質問へのリンクは問題ありません）。

65 intuition careers

4

確率分布の「モーメント」についての「モーメント」とは何ですか？

モーメントとは何か、それらを計算する方法、およびモーメント生成関数を使用して高次のモーメントを取得する方法を知っています。はい、私は数学を知っています。統計知識を仕事のために潤滑する必要があるので、私はこの質問をするのもいいと思った-大学に戻って、教授は答えを知らなかった、または単に質問を無視するだろう（正直に）。この場合、「モーメント」という言葉はどういう意味ですか？なぜこの単語の選択ですか？それは私には直観的に聞こえません（または大学でそのように聞いたことはありません:)それについて考えると、私は「慣性のモーメント」での使用にも等しく興味があります;）今のところそれに焦点を合わせません。それで、分布の「瞬間」とは何を意味し、何をしようとしているのか、なぜその言葉なのか！:)なぜ誰かが瞬間を気にするのですか？この瞬間、私はその瞬間についてそうでないと感じています;） PS：はい、おそらく分散について同様の質問をしたことがありますが、「本を見て調べて」という直観的な理解を大切にします:)

65 distributions terminology moments intuition

4

ニューラルネットワークのドロップアウトレイヤーはどこに配置すればよいですか？

ニューラルネットワークのドロップアウトレイヤーを配置する場所に関する一般的なガイドラインはありますか？

65 neural-networks dropout

5

ニューラルネットワークのマルチクラス、マルチラベル分類タスクの損失関数は何ですか？

ニューラルネットワークをトレーニングして、オブジェクトのセットをnクラスに分類しています。各オブジェクトは、同時に複数のクラスに属することができます（マルチクラス、マルチラベル）。マルチクラス問題の場合、一般に、mseの代わりにソフトマックスとカテゴリクロスエントロピーを損失関数として使用することをお勧めしますが、その理由はだいたいわかります。マルチラベルの私の問題については、各クラスの確率が互いに独立している必要があるため、もちろんソフトマックスを使用することは意味がありません。したがって、最後のレイヤーは、入力をすべてのクラスの確率範囲0..1に押しつぶすシグモイドユニットです。今、私はこれにどの損失関数を使用すべきかわからない。カテゴリクロスエントロピーの定義を見ると、1になるはずのニューロンの出力のみが考慮され、他のニューロンは無視されるため、この問題にはあまり当てはまらないと思います。バイナリクロスエントロピーは、より適切に聞こえますが、出力ニューロンが1つの場合のバイナリ分類の問題については、これまでに言及しただけです。重要な場合に備えて、トレーニングにpythonとkerasを使用しています。

64 neural-networks python loss-functions keras cross-entropy

12

ニューラルネットワークを実行するために非常に多くのトレーニングサンプルが必要なのはなぜですか？

2歳の人間の子供は、色、メーカーなどに関係なく妥当な精度で識別できるように、車のインスタンスを約5つ必要とします。息子が2歳のとき、彼は、少しだけ。彼は通常、お互いを混同していたため、明らかに彼のニューラルネットワークは十分に訓練されていませんでしたが、それでもまだです。人工ニューラルネットワークが不足しているため、より速く学習することができません。転移学習は答えですか？

64 neural-networks neuroscience

5

収縮に関する統一された見解：スタインのパラドックス、リッジ回帰、および混合モデルのランダム効果の関係（ある場合）とは何ですか？

次の3つの現象を考慮してください。スタインのパラドックス：R nの多変量正規分布からのデータがある場合、Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3、標本平均は真の平均の非常に良い推定量ではありません。サンプル平均のすべての座標をゼロに向かって（または、それらの平均に向かって、または正しく理解すれば実際には任意の値に向かって）縮小すると、平均二乗誤差の低い推定値を得ることができます。注意：通常、スタインのパラドックスは、からの単一のデータポイントのみを考慮して定式化されRnRn\mathbb R^nます。これが重要であり、上記の私の定式化が正しくない場合は私を修正してください。リッジ回帰：いくつかの従属変数所与のyy\mathbf yといくつかの独立変数XX\mathbf X、標準回帰β=(X⊤X)−1X⊤yβ=(X⊤X)−1X⊤y\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf yデータをオーバーフィットし、貧しい外のサンプル性能につながる傾向があります。一つは、多くの場合、収縮によってオーバーフィットを低減することができるββ\betaゼロに向かって：β=(X⊤X+λI)−1X⊤yβ=(X⊤X+λI)−1X⊤y\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y。マルチレベル/混合モデルのランダム効果：いくつかのカテゴリ予測子（学校IDや学生の性別など）に依存する従属変数yyy（学生の身長など）が与えられると、いくつかの予測子を「ランダム」として扱うことが推奨されます。各学校での平均的な生徒の身長は、基礎となる正規分布に基づいています。これにより、学校あたりの平均身長の推定値が世界平均に向かって縮小されます。私は、これらすべてが同じ「収縮」現象のさまざまな側面であると感じていますが、私はそれについての良い直感を確信しておらず、確かに欠けています。私の主な質問は次のとおりです。これら3つの事柄の間には確かに深い類似性がありますか、それとも表面的な見た目だけですか。ここで共通のテーマは何ですか？それについての正しい直観は何ですか？さらに、私にとってはあまり合わないこのパズルの一部を以下に示します。リッジ回帰では、は均一に縮小されません。リッジの収縮は、実際にはXの特異値分解に関連しており、低分散の方向はより小さくなります（例えば、統計学習の要素 3.4.1を参照）。しかし、James-Stein推定器は、単にサンプル平均を取得し、それを1つのスケーリング係数で乗算します。それはどのように組み合わされますか？ββ\betaXX\mathbf X 更新：参照不等分散とジェームズ・スタイン見積もりをして、ここで例えばの分散についての係数。ββ\beta サンプル平均は3以下の次元で最適です。回帰モデルに1つまたは2つの予測変数しかない場合、リッジ回帰は通常の最小二乗よりも常に悪いことを意味しますか？実際に考えてみると、隆線の収縮が有益な1D（つまり、単純な非多重回帰）の状況を想像することはできません... 更新：いいえ。リッジ回帰が通常の最小二乗回帰よりも改善できる条件を正確に参照してください。一方、サンプル平均は3を超える次元では常に準最適です。3つ以上の予測変数を使用すると、すべての予測変数が無相関（直交）であっても、リッジ回帰が常にOLSよりも優れていることを意味しますか？通常、リッジ回帰は、多重共と「安定化」する必要性によって動機付けされる用語を。(X⊤X)−1(X⊤X)−1(\mathbf X^\top \mathbf X)^{-1} 更新：はい！上記と同じスレッドを参照してください。多くの場合、ANOVAのさまざまな要因を固定効果またはランダム効果として含めるかどうかについて、激しい議論があります。同じロジックで、3つ以上のレベルがある場合（または2つ以上の因子がある場合、混乱している場合）、常に因子をランダムとして扱うべきではありませんか？更新：？ …

64 regression mixed-model ridge-regression shrinkage steins-phenomenon

8

R言語は経済学の分野で信頼できますか？

私は経済学の大学院生で、最近、他の非常に有名な統計パッケージからRに変換しました（主にSPSSを使用していました）。現時点での私の小さな問題は、クラスで唯一のRユーザーであるということです。私のクラスメートはStataとGaussを使用しており、教授の一人は、Rはエンジニアリングには最適であるが、経済には最適ではないと言っていました。彼は、多くのパッケージはプログラミングについてはよく知っているが、経済性についてはあまり知られていないため、信頼性が低いと述べています。彼はまた、Rパッケージの構築に実際にお金がかからないため、それを正しく行うインセンティブがなく（たとえば、Stataの場合とは異なり）、Rをしばらく使用し、いくつかのものを推定する彼の試み。さらに、彼はRの乱数発生器について不満を述べました。私は1か月以上Rを使用していますが、Rに夢中になったと言わざるを得ません。私が教授から聞いていることはすべて、私を落胆させているだけです。私の質問は、「Rは経済学の分野で信頼できるのか？」です。

64 r software econometrics

8

p値が有用な良い説得力のある例は何ですか？

タイトルの私の質問は自明ですが、コンテキストを与えたいと思います。 ASAは今週、「p値に関するコンテキスト、プロセス、目的」に関する声明を発表し、p値に関するさまざまな一般的な誤解の概要を示し、コンテキストと思考なしに使用しないように注意を促しています統計的な方法、本当に）。 ASAに応えて、Matloff教授は150年後、ASAはp-valuesにノーと言うブログ投稿を書きました。その後、ベンジャミニ教授（および私）は、「p値の誤りではない -最近のASAステートメントに関する考察」というタイトルの応答投稿を書きました。それに応えて、マトロフ教授はフォローアップの投稿で尋ねました：私が見たいのは[...は] -p値が有用である、説得力のある良い例です。それは本当に一番下の行でなければなりません。値の有用性に対する彼の 2つの主要な議論を引用するには：ppp サンプル数が多い場合、有意性検定は、帰無仮説からの重要ではないわずかな逸脱に飛びつきます。現実世界では帰無仮説がほとんどないので、それらに対して有意性検定を実行するのはばかげて奇妙です。私は、他の相互検証されたコミュニティのメンバーがこの質問/議論についてどう考えているか、そしてそれに対する良い反応を構成するものに非常に興味があります。

64 hypothesis-testing bayesian p-value inference frequentist

4

2番目のIVを追加すると、1番目のIVが重要になります。

おそらく簡単な質問がありますが、今私を困惑させているので、あなたが私を助けてくれることを望んでいます。 1つの独立変数と1つの従属変数を持つ最小二乗回帰モデルがあります。関係は重要ではありません。次に、2番目の独立変数を追加します。これで、最初の独立変数と従属変数の関係が重要になります。これはどのように作動しますか？これはおそらく私の理解に何らかの問題を示していますが、私にとっては、この2番目の独立変数を追加することで最初の重要性がどのようになるかわかりません。

64 regression multiple-regression power suppressor

1

ポアソン回帰で係数を解釈する方法は？

ポアソン回帰の主な効果（ダミーコード化された因子の係数）をどのように解釈できますか？次の例を想定します。 treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- rpois(84, 5) …

64 r generalized-linear-model interpretation poisson-distribution regression-coefficients

5

逆共分散または精度行列の解釈方法は？

濃度行列または精度行列としても知られる逆共分散行列の要素の解釈を議論する参考文献を誰かが私に指摘できるかどうか疑問に思っていました。 CoxとWermuthの多変量依存関係にアクセスできますが、探しているのは逆行列の各要素の解釈です。ウィキペディアは次のように述べています。「精度行列の要素は、部分相関と部分分散の観点から解釈されています」と私はこのページに導かれます。線形回帰を使用しない解釈はありますか？IE、共分散または幾何学の面で？

64 interpretation covariance-matrix