統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

9
オーバーフィットとアンダーフィット
私は過剰適合と不足適合についていくつかの研究を行い、それらが何であるかを正確に理解しましたが、その理由はわかりません。 オーバーフィットとアンダーフィットの主な理由は何ですか? モデルのトレーニングでこれら2つの問題に直面するのはなぜですか?

2
FPR(偽陽性率)vs FDR(偽発見率)
次の引用は、Story&Tibshirani(2003)による有名な研究論文「ゲノム全体の研究の統計的有意性」から引用されています。 たとえば、偽陽性率が5%の場合、研究の真にヌルの特徴の平均5%が有意と呼ばれます。5%のFDR(False Discovery rate)は、重要と呼ばれるすべての機能の中で、これらの5%が平均して本当にヌルであることを意味します。 簡単な数値または視覚的な例を使用して、それが意味することを誰かが説明できますか?私はそれが何を意味するのか理解するのに苦労しています。FDRまたはFPRのみに関するさまざまな投稿を見つけましたが、特定の比較が行われた場所は見つかりませんでした。 この分野の専門家が、一方が他方より優れている、または両方が良いか悪いかの状況を説明できれば、特に良いでしょう。

3
この分布の乱数をシミュレートする方法を見つける
累積分布関数を使用して、分布からの擬似乱数をシミュレートするプログラムをRで作成しようとしています。 F(x)=1−exp(−ax−bp+1xp+1),x≥0F(x)=1−exp⁡(−ax−bp+1xp+1),x≥0F(x)= 1-\exp \left(-ax-\frac{b}{p+1}x^{p+1}\right), \quad x \geq 0 ここa,b>0,p∈(0,1)a,b>0,p∈(0,1)a,b>0, p \in (0,1) 私は逆変換サンプリングを試みましたが、逆は分析的に解決できないようです。この問題の解決策をご提案いただければ幸いです

4
平均(または別のモーメント)が存在しない非負の離散分布の例?
私はscipyでいくつかの仕事をしていて、非負の離散確率変数が未定義の瞬間を持つことができるかどうか、コアscipyグループのメンバーと会話ができました。彼は正しいと思いますが、便利な証拠はありません。誰でもこの主張を表示/証明できますか?(または、この主張が真実ではない場合) 離散確率変数がをサポートしている場合、便利な例はありませんが、Cauchy分布の離散化バージョンは、未定義の瞬間を得るための例として役立つはずです。非負性(おそらくを含む)の状態は、問題を(少なくとも私にとって)困難にしているようです。ZZ\mathbb{Z}000

4
毎日の確率は未知の問題に対処するための単なる方法ですか(ここでは量子物理学について語っていません)?
量子物理学ではなく、日常の確率では、確率は実際には未知のものの代わりにすぎないようです。たとえばコインフリップを考えてみましょう。これは「ランダム」であり、頭が50%変化し、尾が50%変化する可能性があります。ただし、コインの密度、サイズ、および形状を正確に知っていれば、空気密度; コインがどれだけ反転したか まさにその力がかかった場所。コインから床までの距離; など、基本的な物理学を使用して、頭に着くか尾に着くかを100%の精度で予測することはできませんか?もしそうなら、このシナリオでの確率は、不完全な情報を処理するための単なる方法ではありませんか? カードのデッキをシャッフルする場合、それは同じことではありませんか(これが私に考えさせられた理由です)。順序がわからないため、カードの順序をランダムとして扱いますが、最初に引くカードがスペードのエースである可能性が実際に1/52あるわけではありません。スペードのエースや100%はそうではありません。 サイコロを振ってデッキをシャッフルするのが実際にランダムでない場合、アルゴリズム(およびおそらく他のいくつかの変数)を知っていれば、コンピューター化された乱数ジェネレーターもランダムではないことになりませんか?数はどうなりますか? 答えてくれて時間を割いてくれた人、特に私のような数学以外の人からの質問に感謝します。これらの人々の多くは知識があるふりをするが、そうではないので、私はredditに行きたくありませんでした。いくつかの追加のメタコメント: 最初に、ランダムvs不明の回答が既にある類似の質問があることを知っています。だから、それを参照しないでください。私がこれから質問しようとしていることは、はるかに狭く、はるかに単純な数学に基づいていると思います。 第二に、私は数学者ではないので、単純な例と非技術的な言葉に固執してください(絶対に必要な場合を除き、この場合、美術史を専攻している大学の適度に知的な先輩に自分を説明しているふりをします)。 第三に、エレメンタリー確率について十分に理解しています。これは主に私が多くのポーカーをプレイしているためですが、ルーレット、サイコロ、宝くじなどの他のギャンブルゲームのオッズがどのように機能するかを理解しています。これも非常に基本的なものです。 第四に、冷静に聞こえないように、しかし、人々に私の質問に対する答えを話し合い、彼らが私を知っているかどうかを見せてはいけない。私は、実際の質問を議論するのではなく、意図的に不必要にハイパー技術的な言語を使用し、他の人を自分の語彙と混同することにより、議論で誰かを「打つ」ことを試みるのを見たので、これを言います。たとえば、「アセチルサリチル酸を摂取するのはあなただろう」と言う代わりに、「アスピリンを摂取するべきだ」と言う。

3
Kerasを使用したLSTMのinput_shapeパラメーターについて
「シーケンス分類用のStacked LSTM」という名前のKerasのドキュメントに記載されている例を使用しようとしていますが(以下のコードを参照)input_shape、データのコンテキストでパラメーターを把握できません。 入力として、最大長31のパディングされたシーケンスに整数でエンコードされた25の可能な文字のシーケンスのマトリックスがあります。その結果、my x_trainはshapeの(1085420, 31)意味を持ち(n_observations, sequence_length)ます。 from keras.models import Sequential from keras.layers import LSTM, Dense import numpy as np data_dim = 16 timesteps = 8 num_classes = 10 # expected input data shape: (batch_size, timesteps, data_dim) model = Sequential() model.add(LSTM(32, return_sequences=True, input_shape=(timesteps, data_dim))) # returns a sequence of vectors of …
20 lstm  keras  shape  dimensions 


5
尤度の原則が*本当に*重要な例?
比例尤度を持つ2つの異なる防御可能なテストが著しく異なる(および同様に防御可能な)推論につながる例があります。たとえば、p値は桁違いに離れていますが、代替に対する力は似ていますか? 私が見るすべての例は非常にばかげており、二項と負の二項を比較しています。最初のp値は7%で、2番目のp値は3%です。 5%(ちなみに、推論の基準としてはかなり低い)などの重要性を持ち、権力を見ることすらしません。たとえば、しきい値を1%に変更すると、どちらも同じ結論になります。 著しく異なる防御可能な推論につながる例を見たことはありません。そのような例はありますか? 可能性の原理が統計的推論の基礎の基本的なものであるかのように、このトピックに多くのインクが費やされているのを見てきたので、私は尋ねています。しかし、上記のような馬鹿げた例が最良の例である場合、原則はまったく取るに足らないように見えます。 したがって、私は非常に説得力のある例を探しています.LPに従わない場合、証拠の重みは1つのテストで一方向を圧倒的に指し示しますが、比例尤度を持つ別のテストでは証拠の重みが反対方向を圧倒的に指摘し、両方の結論が理にかなっているように見えます。 理想的には、対検定など、同じ選択肢を検出するための比例尤度と同等の検出力など、任意の遠く離れた、しかし賢明な答えが得られることを実証できます。p=0.1p=0.1p =0.1p=10−10p=10−10p= 10^{-10} PS:ブルースの答えは、この質問をまったく扱っていません。

1
LASSOが高次元で完全な予測子ペアを見つけられないのはなぜですか?
RでLASSO回帰を使用した小規模な実験を実行して、完全な予測子ペアを見つけることができるかどうかをテストしています。ペアは次のように定義されます:f1 + f2 =結果 ここでの結果は、「年齢」と呼ばれる所定のベクトルです。F1とf2は、年齢ベクトルの半分を取得し、残りの値を0に設定することによって作成されます。たとえば、次のとおりです。age = [1,2,3,4,5,6]、f1 = [1,2,3、 0,0,0]およびf2 = [0,0,0,4,5,6]。正規分布N(1,1)からサンプリングすることにより、この予測子のペアとランダムに作成される変数の量を増やします。 私が見るのは、2 ^ 16個の変数をヒットしたとき、LASSOがもうペアを見つけられないことです。以下の結果を参照してください。 なぜこうなった?以下のスクリプトで結果を再現できます。たとえば、[1:193]という異なる年齢のベクトルを選択すると、LASSOは高次元(> 2 ^ 16)でペアを見つけます。 スクリプト: ## Setup ## library(glmnet) library(doParallel) library(caret) mae <- function(errors){MAE <- mean(abs(errors));return(MAE)} seed = 1 n_start <- 2 #start at 2^n features n_end <- 16 #finish with 2^n features cl <- …

4
多重比較が「計画」されている場合でも、多重比較を修正する必要がありますか?
15を超える個別の2x2カイ2乗検定を実行した論文をレビューしています。複数の比較を修正する必要があることを提案しましたが、すべての比較が計画されていると答えたため、これは必要ありません。 これは正しくないはずですが、そうであるかどうかを明示的に示すリソースは見つかりません。 誰でもこれを助けることができますか? 更新: 非常に有益な回答をありがとう。@gungの研究と分析に関する詳細情報のリクエストに応えて、3つの期間にわたって、2つの条件で2種類の参加者(学生、非学生)のカウントデータを比較しています。複数の2x2カイ2乗検定は、各条件で、各タイプの参加者ごとに各期間を比較するため(たとえば、学生、条件1、期間1対期間2)、すべての分析が同じ仮説をテストします。 。

1
ベイジアンネットワークからニューラルネットワークへ:多変量回帰を多出力ネットワークに変換する方法
私はベイジアン階層線形モデルを扱っています。ここではそれを説明するネットワークです。 は、スーパーマーケットでの製品の毎日の販売を表します(観測)。YYY は、価格、プロモーション、曜日、天気、休日を含む、回帰変数の既知のマトリックスです。XXX 私は、各製品のバイナリ変数のベクトル一検討最も問題とさせる、各製品、未知の潜在在庫レベルである 1つのを示す欠品や製品の利用できないようにします。 理論的には不明であったとしても、各製品のHMMを使用して推定したため、Xとして知られていると見なされます。適切な形式のためにシェーディングを解除することにしました。SSS111 は、単一の製品の混合効果パラメーターであり、考慮される混合効果は製品価格、プロモーション、在庫切れです。ηη\eta は固定回帰係数のベクトルで、 b 1と b 2は混合効果係数のベクトルです。1つのグループはブランドを示し、もう1つのグループはフレーバーを示します(これは例であり、実際には多くのグループがありますが、ここではわかりやすくするために2つだけ報告しています)。ββ\betab1b1b_1b2b2b_2 、 Σ B 1及び ΣのB 2は、混合効果を超えるハイパーです。ΣηΣη\Sigma_{\eta}Σb1Σb1\Sigma_{b_1}Σb2Σb2\Sigma_{b_2} カウントデータがあるので、各製品の売り上げをリグレッサーに条件付きポアソン分布として扱うとしましょう(一部の製品では線形近似が成り立ち、他の製品ではゼロ膨張モデルが優れている場合でも)。そのような場合、私は製品を持っています(これはベイジアンモデル自体に興味がある人のためのものです、それが面白くないまたは些細ではない場合は質問にスキップしてください:)):YYY Ση∼IW(α0,γ0)Ση∼IW(α0,γ0)\Sigma_{\eta} \sim IW(\alpha_0,\gamma_0) Σb1∼IW(α1,γ1)Σb1∼IW(α1,γ1)\Sigma_{b_1} \sim IW(\alpha_1,\gamma_1) 、 α 0、γ 0、α 1、γ 1、α 2、γ 2知ら。Σb2∼IW(α2,γ2)Σb2∼IW(α2,γ2)\Sigma_{b_2} \sim IW(\alpha_2,\gamma_2)α0,γ0,α1,γ1,α2,γ2α0,γ0,α1,γ1,α2,γ2\alpha_0,\gamma_0,\alpha_1,\gamma_1,\alpha_2,\gamma_2 η∼N(0,Ση)η∼N(0,Ση)\eta \sim N(\mathbf{0},\Sigma_{\eta}) b1∼N(0,Σb1)b1∼N(0,Σb1)b_1 \sim N(\mathbf{0},\Sigma_{b_1}) b2∼N(0,Σb2)b2∼N(0,Σb2)b_2 \sim N(\mathbf{0},\Sigma_{b_2}) 、 Σはβ知られています。β∼N(0,Σβ)β∼N(0,Σβ)\beta \sim N(\mathbf{0},\Sigma_{\beta})ΣβΣβ\Sigma_{\beta} 、λtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtkλtijk=β∗Xti+ηi∗Xppsti+b1j∗Ztj+b2kZtk\lambda _{tijk} …

1
ロジスティック回帰が完全な分離の場合に機能しない理由について直感的な説明はありますか?そして、なぜ正規化を追加すると修正されるのでしょうか?
ロジスティック回帰における完全な分離について多くの良い議論があります。以下のような、R内のロジスティック回帰は、完全な分離(ハウク-ドナー現象)をもたらしました。それで?そして、ロジスティック回帰モデルは収束しません。 個人的には、なぜそれが問題になるのか、なぜ正則化を追加するとそれが修正されるのか、直観的ではないと感じています。私はいくつかのアニメーションを作成し、それが役立つと思います。そこで、彼の質問を投稿し、自分で答えてコミュニティと共有してください。

5
重回帰の仮定:正規性の仮定は定数分散の仮定とどのように異なりますか?
私はこれらが重回帰モデルを使用するための条件であることを読みました: モデルの残差はほぼ正常です。 残差の変動性はほぼ一定です 残差は独立しており、 各変数は結果に直線的に関連しています。 1と2はどう違うのですか? ここにあります。 したがって、上記のグラフは、2標準偏差離れた残差がYハットから10離れていることを示しています。これは、残差が正規分布に従うことを意味します。これから2を推測できませんか?残差の変動性はほぼ一定であること?

6
3x3相関行列の完成:3つの与えられた2つの係数
私はインタビューでこの質問をされました。 我々は、フォームの相関行列を持っていると言うことができます ⎡⎣⎢10.60.80.61γ0.8γ1⎤⎦⎥[10.60.80.61γ0.8γ1]\begin{bmatrix}1&0.6&0.8\\0.6&1&\gamma\\0.8&\gamma&1\end{bmatrix} この相関行列から、ガンマの値を見つけるように求められました。 固有値はすべて0以上である必要があるため、固有値を使用して何かを実行できると考えました(行列は半正定でなければなりません)-しかし、このアプローチでは答えが得られないと思います。トリックがありません。 同じ問題を解決するためのヒントを教えてください。

1
ステップワイズ回帰を使用したことによるハウラー
私は回帰モデルにおける段階的/前方/後方選択の問題をよく知っています。研究者が方法を非難し、より良い代替案を指摘している多くの事例があります。統計分析が存在するストーリーが存在する場合、私は興味がありました: 段階的回帰を使用しました。 最終モデルに基づいていくつかの重要な結論を出しました 結論が間違っていて、個人、研究、または組織にマイナスの結果をもたらした 段階的な方法が悪い場合、これについての私の考えは、それらを使用するための「現実の世界」に結果があるはずです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.