タグ付けされた質問 「probability」

確率は、特定のイベントの起こりそうな発生の定量的な説明を提供します。

7
フリップの数が増えるにつれて、テールと同じ数のヘッドをフリップする可能性が低くなる理由を説明する統計概念?
数冊の本を読んでコードを書くことで確率と統計の学習に取り組んでいます。コインフリップをシミュレートしているときに、私は自分の素朴な直感にわずかに反するものに気づきました。フェアコインを回裏返すと、が増加するにつれて、予想どおり、ヘッドとテールの比率が1に収束します。しかし、一方で、が増加すると、尾とまったく同じ数の頭をひっくり返す可能性が低くなり、それによって正確に 1の比率が得られるように見えます。nnnnnnnnn 例(私のプログラムからの出力) For 100 flips, it took 27 experiments until we got an exact match (50 HEADS, 50 TAILS) For 500 flips, it took 27 experiments until we got an exact match (250 HEADS, 250 TAILS) For 1000 flips, it took 11 experiments until we got an exact match …

7
過去のコインフリップの結果が後続のコインフリップに関する信念に影響を与える統計的誤acyの名前は何ですか?
私たちが知っているように、尾を振るのと同じ確率で頭を着陸させるコインをフリップした場合、コインを何度も裏返すと、半分の時間が頭を獲得し、半分の時間が尾を獲得します。 友人とこれを議論するとき、彼らはあなたがコインを1000回ひっくり返して、最初に100回頭に着いたと言ったら、尾を着陸させる機会が増えたと言いました(論理が偏っていない場合、その後、1000回フリップした時点で、約500のヘッドと500のテールが得られるため、テールが発生する可能性が高くなります。 過去の結果は将来の結果に影響を与えないため、誤解であることを知っています。その特定の誤acyの名前はありますか?また、なぜこれが間違っているのかについてのより良い説明はありますか?

3
「独立した観測」とはどういう意味ですか?
私は、独立した観測の仮定が意味するものを理解しようとしています。いくつかの定義は次のとおりです。 「2つのイベントは、場合にのみ独立しています。」(統計用語辞書)P(a∩b)=P(a)∗P(b)P(a∩b)=P(a)∗P(b)P(a \cap b) = P(a) * P(b) 「あるイベントが発生しても、別のイベントの確率は変わりません」(ウィキペディア)。 「1つの観測値のサンプリングは、2番目の観測値の選択に影響しません」(David M. Lane)。 しばしば与えられる従属的な観察の例は、以下のように教師内にネストされた学生です。教師は生徒に影響を与えますが、生徒はお互いに影響を与えないと仮定しましょう。 では、これらのデータの定義はどのように違反されますか?[student = 1]のサンプリング[grade = 7]は、次にサンプリングされるグレードの確率分布に影響しません。(または、もしそうなら、観測1は次の観測に関して何を予測しますか?) gender 代わりに 測定した場合、観測はなぜ独立しているのteacher_idでしょうか?同じように観測に影響しませんか? teacher_id student_id grade 1 1 7 1 2 7 1 3 6 2 4 8 2 5 8 2 6 9

1
lmerモデルからの効果の再現性の計算
混合効果モデリングによる測定の再現性(別名信頼性、別名クラス内相関)の計算方法を説明するこの論文に出会ったばかりです。Rコードは次のようになります。 #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

8
仮説がない場合のP値の豊富さ
私は疫学に興味があります。私は統計学者ではありませんが、分析を自分で実行しようと試みますが、しばしば困難に直面します。約2年前に最初の分析を行いました。P値は、記述表から回帰分析まで、私の分析のどこにでも含まれていました(他の研究者が行っていたことを単純に行いました)。少しずつ、私のアパートで働いている統計学者は、私が本当に仮説を持っている場合を除いて、すべての(!)p値をスキップするように説得しました。 問題は、医学研究の出版物にp値が豊富にあることです。p値を非常に多くの行に含めるのが一般的です。平均、中央値、または通常p値に沿ったもの(t検定、カイ2乗など)の記述データ。 私は最近、ジャーナルに論文を提出しましたが、「ベースライン」の説明表にp値を追加することを(丁寧に)拒否しました。論文は最終的に拒否されました。 例を示すには、次の図を参照してください。これは、尊敬される内科のジャーナルに掲載された最新の記事の説明表です。 統計学者は、ほとんどの場合(常にではないにしても)これらの原稿のレビューに関与しています。したがって、私のような素人は、仮説が存在しない場合、p値が見つからないことを期待しています。しかし、それらは豊富ですが、この理由は私にはとらえどころのないままです。無知だとは信じがたい。 これは統計的な問題の境界線であることを理解しています。しかし、私はこの現象の背後にある理論的根拠を探しています。

8
良い完全な確率と統計の本を探しています
私は数学の教員から統計コースを訪問する機会がありませんでした。私は、完全で自給自足の確率論と統計の本を探しています。完全とは、結果だけでなくすべての証明が含まれていることを意味します。自給自足とは、本を理解するために別の本を読む必要がないことを意味します。もちろん、大学レベル(数学の学生)の微積分と線形代数が必要になる場合があります。 私は複数の本を見ましたが、どれも好きではありませんでした。 DeGroot&Schervish(2011)確率と統計(第4版)ピアソン これは十分に完了していません。それは、派生せずに多くのものを述べているだけです。それに加えて、私はそれが好きです。 Wasserman(2004)すべての統計:統計的推論スプリンガーの簡潔なコース。 まったく気に入らなかった。ほとんど説明はありません。 David Williamsの「Weighing the Odds」は、DeGrootよりも正式であり、完全かつ自給自足のようです。しかし、そのスタイルは奇妙だと思います。彼はまた、自分だけが使用していると思われる新しい用語を発明しています。DeGrootで説明されているものもすべて、より適切に説明されています。 あなたがドイツ語で素晴らしい本を知っているなら、それは私がドイツ人であるので大丈夫です。

1
自由度は非整数の数値にできますか?
GAMを使用すると、残留DFは(コードの最終行)になります。どういう意味ですか?GAMの例を超えて、一般に、自由度の数を整数以外の数にすることはできますか?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees of freedom Residual Deviance: 177.4662 on 26.6 degrees of …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

2
回帰におけるp値の意味
一部のソフトウェアパッケージ(Mathematicaなど)で線形回帰を実行すると、モデル内の個々のパラメーターに関連付けられたp値が得られます。、例えば、結果生成する線形回帰の結果関連付けられたp値有するであろうと一つ。a ba x + bax+bax+baaabbb これらのパラメーターについて、これらのp値は個々に何を意味しますか? 回帰モデルのパラメーターを計算する一般的な方法はありますか? 各パラメーターに関連付けられたp値をモデル全体のp値に結合できますか? この質問を本質的に数学的に保つために、確率の観点からp値の解釈のみを求めています。

3
負の確率/確率の振幅には、量子力学以外の用途がありますか?
量子力学は、主に干渉パターン、波/粒子の双対性、および一般的にそのような奇妙なことを説明するために、負/虚数に確率理論を一般化しました。しかし、ベイズ確率の非可換一般化としてより抽象的に見ることができます(Terrence Taoからの引用)。私はこれらのことに興味がありますが、決して専門家ではありません。これには、量子力学以外の用途がありますか?ちょっと興味があるんだけど。

4
スクラブルの文字の袋から単語を描画しない確率
タイルがあり、それぞれに文字が書かれたバッグがあるとします。あり文字'A'、とタイル 'B'で、というように、と 'ワイルドカード'タイルは、(私たちが持っている)。単語数が有限の辞書があるとします。交換せずにバッグからタイルを選びます。選択されたタイルが与えられた場合、辞書からゼロ語を形成できる確率をどのように計算(または推定)しますか?nnnnAnAn_AnBnBn_Bn∗n∗n_*n = nA+ nB+ … + nZ+ n∗n=nA+nB+…+nZ+n∗n = n_A + n_B + \ldots + n_Z + n_*kkkkkk Scrabble(TM)に慣れていない人には、ワイルドカード文字を使用して任意の文字と一致させることができます。したがって、単語[ BOOT ]は、タイル 'B'、 '*'、 'O'、 'T'で 'スペル'できます。 問題の規模を理解するために、は7のように小さく、は約100で、辞書にはサイズ以下の約100,000語が含まれています。kkknnnkkk 編集:「単語を形成する」とは、長さが以下の単語を意味します。したがって、単語[ A ]が辞書にある場合、バッグから単一の 'A'を描画するだけで、 '単語を形成しました'。辞書に長さ1の単語があると仮定できる場合、ワイルドカードの問題は根本的に単純化されます。存在する場合、ワイルドカードの描画は自動的に長さ1の単語に一致するため、ワイルドカードがない場合に集中できます。したがって、より滑りやすい形式の問題には、辞書に1文字の単語がありません。kkk また、バッグから文字が描画される順序は重要ではないことを明示的に述べる必要があります。単語の「正しい」順序で文字を描く必要はありません。

4
確率表記の意味および
多くの本や論文で一般的に使用されている表記と意味の違いは何ですか?P (z | d 、w )P(z; d、w )P(z;d,w)P(z;d,w)P(z| d、w )P(z|d,w)P(z|d,w)

7
2つのサイコロロール-順番に同じ数
私は現在、コースラで統計的推論のクラスを勉強しています。課題の1つで、次の質問が出てきます。 | Suppose you rolled the fair die twice. What is the probability of rolling the same number two times in a row? 1: 2/6 2: 1/36 3: 0 4: 1/6 Selection: 2 | You're close...I can feel it! Try it again. | Since we don't care what the outcome …

1
統計、線形代数、機械学習の古典的な表記法は何ですか?そして、これらの表記法の間の関係は何ですか?
本を読むとき、表記を理解することは、内容を理解する上で非常に重要な役割を果たします。残念ながら、異なるコミュニティでは、モデルと最適化問題の定式化に関して異なる表記規則があります。ここに定式化表記をまとめて考えられる理由を教えてください。 ここで例を示します:線形代数の文学では、古典的な本はStrangの線形代数入門です。本で最も使用されている表記は Ax=bAx=b A x=b ここで、は係数行列、は解く変数、は方程式の右側のベクトルです。その理由本はこの表記法を選択するには、線形代数の主な目的は、ベクターが何であるかを線形システムと数字解決されている。そのような定式化を考えると、OLS最適化問題はAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 統計または機械学習リテラシー(書籍統計学習の要素)で、人々は同じ表記を表すために異なる表記法を使用します。 Xβ=yXβ=yX \beta= y どこにXXXあるデータマトリックス、ββ\betaある係数または重みが学習を学習する、yyy応答です。理由統計や機械学習コミュニティの人々がされているため、人々はこれを使用するには、あるデータを駆動して、データおよび応答は彼らが使用する場合には、それらの最も興味深いものですXXXとyyy表現するために。 ここで、考えられるすべての混乱が存在することがわかります。最初の方程式のAは2番目の方程式のXAAAと同じです。そして、2番目の式Xでは、解決する必要はありません。また、用語について:Aは線形代数の係数行列ですが、統計のデータです。\ betaは「係数」とも呼ばれます。XXXXXXAAAββ\beta さらに、Xβ=yXβ=yX \beta=yは機械学習で広く使用されているものではなく、すべてのデータポイントを要約するハーフベクトル化バージョンを使用していることを述べました。といった min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) この理由は、確率的勾配降下法や他のさまざまな損失関数について話すときに良いからだと思います。また、線形回帰以外の問題については、簡潔なマトリックス表記が消えます。 ロジスティック回帰の行列表記 誰もが異なる文学にまたがる表記法についてより多くの要約を与えることができますか?この質問に対する賢明な回答が、異なる文学を横断する本を読んでいる人々のための良いリファレンスとして使用できることを望みます。 私の例 および制限されないでください。他にもたくさんあります。といったAx=bAx=bA x=bXβ=yXβ=yX \beta=y なぜ2つの異なるロジスティック損失定式化/表記法があるのですか?


2
分布には名前がありますか?
先日、この密度に出くわしました。誰かがこれに名前を付けましたか? f(x )= ログ(1 + x− 2)/ 2 πf(バツ)=ログ⁡(1+バツ−2)/2πf(x) = \log(1 + x^{-2}) / 2\pi 密度は原点で無限で、太い尾もあります。多くの観測値が小さいと予想される状況で、事前に分布として使用されるのを見ましたが、大きな値も予想されていました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.