統計とビッグデータ distributions

11

免責事項：私は統計学者ではなく、ソフトウェアエンジニアです。統計に関する私の知識のほとんどは独学から得たものなので、ここでは他の人にとってはささいな概念の理解にまだ多くのギャップがあります。したがって、回答に具体性の低い用語とより多くの説明が含まれていれば、非常に感謝します。おばあちゃんと話していると想像してください:) 私が把握しようとしている自然のベータ分布をどのようにそれぞれの場合に、それを解釈することはのために使用すべきかと- 。たとえば、正規分布について話している場合、電車の到着時間として説明することができます。最も頻繁にちょうど間に合うように到着し、少し少ない頻度で1分早くまたは1分遅れて、非常にまれに差で到着することはありません平均から20分。均一配布は、特に、宝くじの各チケットのチャンスを説明します。二項分布は、コインフリップなどで説明できます。しかし、ベータ分布のそのような直感的な説明はありますか？たとえば、およびとしましょう。この場合のベータ分布は、次のようになります（Rで生成）：α=.99α=.99\alpha=.99β=.5β=.5\beta=.5B(α,β)B(α,β)B(\alpha, \beta) しかし、実際にはどういう意味ですか？Y軸は明らかに確率密度ですが、X軸には何がありますか？この例または他の例を使用して、説明をいただければ幸いです。

438 distributions beta-distribution intuition beta-binomial

2

いつ（そしてなぜ）分布の（数の）ログを取るべきですか？

たとえば、過去の株価、航空券の価格変動、会社の過去の財務データなど、いくつかの履歴データがあるとします... 今、誰か（または何らかの数式）がやって来て、「配布のログを取得/使用しましょう」と言って、ここに行くのはなぜですか？質問：そもそも分布のログを取るべきなのはなぜですか？ディストリビューションのログは、元のディストリビューションではできなかった/できなかった「与える/単純化する」ものは何ですか？ログ変換は「ロスレス」ですか？すなわち、対数空間に変換してデータを分析するとき、元の分布についても同じ結論が成立しますか？どうして？そして最後に、分布のログを取得するのはいつですか？どのような条件下でこれを行うことにしますか？私は本当にログベースの分布（たとえばlognormal）を理解したかったのですが、いつ/なぜアスペクトを理解したことがありません-すなわち、分布のログは正規分布です。それは私に何を伝え、何故わざわざしますかしたがって、質問！更新：@whuberのコメントに従って、私は投稿を見ましたが、独立変数と従属変数のログの間に関係を描くことができるので、何らかの理由で線形回帰でのログ変換の使用とその適用を理解しています。ただし、私の質問は、分布そのものを分析するという意味では一般的です。ログを取り、分布を分析する理由を理解するのに役立つと結論付けることができる関係自体はありません。私は理にかなっていると思います：-/ 回帰分析では、データのタイプ/フィット/分布に制約があり、それを変換して、独立変数と（変換されていない）従属変数間の関係を定義できます。しかし、型/適合/分布の制約がフレームワークで必ずしも適用できない場合（回帰のような）分離の分布に対していつ/なぜそうするのか。明確にすることで混乱するよりも明らかになることを願っています:) この質問は、「なぜ、いつ」に関する明確な答えに値します

174 distributions data-transformation logarithm

8

線形回帰では、実際の値の代わりに独立変数のログを使用するのが適切なのはいつですか？

問題の独立変数のより良い振る舞いの分布を探していますか、または外れ値の影響を減らすか、何か他のものを探していますか？

164 regression distributions data-transformation logarithm regression-strategies

6

1を超える確率分布値でも問題ありませんか？

上の単純ベイズ分類器についてのWikipediaのページ、この行があります： p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789（1を超える確率分布は問題あり。釣鐘曲線の下の面積は1です。）値でも問題ありませんか？すべての確率値は範囲で表現されると思いました。さらに、そのような値を持つことが可能であるとすると、ページに示されている例ではその値はどのように取得されますか？>1>1>10≤p≤10≤p≤10 \leq p \leq 1

149 distributions probability normal-distribution pdf

2

どの分布がデータに最も適しているかを判断する方法は？

データセットがあり、どの分布がデータに最も適しているかを把握したいと思います。 fitdistr()関数を使用して、必要なパラメーターを推定し、想定される分布（つまり、ワイブル、コーシー、正規）を記述しました。これらのパラメーターを使用して、コルモゴロフ・スミルノフ検定を実施して、サンプルデータが想定分布と同じ分布からのものかどうかを推定できます。 p値が0.05より大きい場合、サンプルデータは同じ分布から引き出されたと仮定できます。しかし、p値は適合度に関する情報を提供しませんよね？したがって、サンプルデータのp値がワイブル分布と同様に正規分布で0.05を超える場合、どの分布がデータに適合するかをどのように知ることができますか？これは基本的に私がやったことです： > mydata [1] 37.50 46.79 48.30 46.04 43.40 39.25 38.49 49.51 40.38 36.98 40.00 [12] 38.49 37.74 47.92 44.53 44.91 44.91 40.00 41.51 47.92 36.98 43.40 [23] 42.26 41.89 38.87 43.02 39.25 40.38 42.64 36.98 44.15 44.91 43.40 [34] 49.81 38.87 40.00 52.45 53.13 47.92 …

133 r distributions goodness-of-fit kolmogorov-smirnov distribution-identification

3

ベイズの事前分布と事後分布の理解を助けてください

学生のグループでは、18人のうち2人が左利きです。情報価値のない事前分布を仮定して、人口の左利きの学生の事後分布を見つけます。結果を要約します。文献によると、5-20％の人が左利きです。事前にこの情報を考慮し、新しい事後を計算します。私が知っているベータ分布は、ここで使用する必要があります。まず、αα\alphaとββ\beta値を1にして？事後の資料で見つけた方程式は π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)π(r|Y)∝r(Y+−1)×(1−r)(N−Y+−1)\pi(r \vert Y ) \propto r^{(Y +−1)} \times (1 − r)^{(N−Y +−1)} \\ Y=2Y=2Y=2、N=18N=18N=18 なぜそのrrrは方程式にあるのですか？（rrrは左利きの人々の割合を示します）。不明ですが、この方程式にはどのように当てはまりますか？私には計算にばかげrrr与えられたYYY、その使用rrr与える式でrrr。さて、サンプルとr=2/18r=2/18r=2/18の結果であった0,00190,00190,0019。fff私がそれから推測する必要がありますか？期待値を与える式RRR知られて与えられたYYYとNNN、より良い仕事をしてくれました0,150,150,15権利について鳴ります。方程式は、値はおよび割り当てられます。事前情報を考慮するために、とにどの値を指定する必要がありますか？E(r|X,N,α,β)=(α+X)/(α+β+N)E(r|X,N,α,β)=(α+X)/(α+β+N)E(r | X, N, α, β) = (α + X)/(α + β + N)111αααβββαααβββ いくつかのヒントをいただければ幸いです。事前分布と事後分布に関する一般的な講義も害になりません（私はそれらが何であるかを曖昧に理解していますが、曖昧です）高度な数学はおそらく私の頭の上を飛ぶでしょう。

125 distributions bayesian prior posterior

4

ヒストグラムに基づくデータのおおよその分布の評価

ヒストグラムに基づいてデータが指数関数である（つまり、右に歪んでいる）かどうかを確認するとします。データをグループ化またはビン化する方法に応じて、大幅に異なるヒストグラムを取得できます。ヒストグラムのセットの1つは、データが指数関数的であるように思われます。別のセットでは、データは指数関数ではないように見えます。適切に定義されたヒストグラムから分布を決定するにはどうすればよいですか？

111 distributions data-visualization histogram binning

10

Cauchy分布に平均がないのはなぜですか？

分布密度関数から、下のグラフが示すように、コーシー分布の平均（= 0）を特定できました。しかし、なぜコーシー分布には意味がないと言うのでしょうか？

109 distributions mathematical-statistics mean pdf cauchy

10

「分散」を直感的に理解する

分散の概念を誰かに説明する最もクリーンで簡単な方法は何ですか？それは直感的に何を意味しますか？子供にこれを説明する場合、どうすればいいでしょうか？特に、分散をリスクに関連付ける場合、明確に表現するのが難しいという概念です。私はそれを数学的に理解し、そのように説明することもできます。しかし、現実世界の現象を説明するとき、分散を理解するにはどうすればよいのでしょうか。いわば「現実世界」での分散性の適用可能性です。乱数を使用して株への投資をシミュレートしているとしましょう（サイコロを転がすか、Excelシートを使用するかは重要ではありません）。ランダム変数の各インスタンスをリターンの「何らかの変化」に関連付けることにより、「投資収益率」が得られます。例えば。： 1を振るということは、投資の1 ドルあたり0.8の変化、5は1 ドルあたり1.1の変化などを意味します。このシミュレーションを約50回（または20または100）実行すると、いくつかの値と投資の最終値が得られます。それでは、上記のデータセットから「分散」を計算する場合、実際には何がわかりますか？「見る」もの-分散が1.7654または0.88765または5.2342であることが判明した場合、これはどういう意味ですか？この投資について何を観察しましたか？私はどんな結論を引き出すことができますか-素人の言葉で。標準偏差の質問も自由に追加してください！私は理解するのが「簡単」だと感じていますが、それを「直感的に」明確にするのに役立つ何かが大歓迎です！

81 distributions variance standard-deviation inference intuition

4

ポアソンと指数分布の関係

ポアソン分布の待機時間は、パラメーターlambdaの指数分布です。しかし、私はそれを理解していません。ポアソンは、たとえば単位時間あたりの到着数をモデル化します。これは指数分布とどのように関係していますか？時間単位でのk個の到着の確率はP（k）（ポアソンでモデル化）、k + 1の確率はP（k + 1）であるとしましょう。指数分布はそれらの間の待ち時間をどのようにモデル化しますか？

72 distributions poisson-distribution exponential

8

既存の変数と定義された相関関係を持つランダム変数を生成します

シミュレーション研究のために、既存の変数に対する事前定義された（母集団）相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。アイデアや既存の機能へのリンクを歓迎します！結論：さまざまなソリューションで、2つの有効な答えが出ました。カラカルによるR スクリプト。事前定義された変数との正確な（サンプル）相関を持つランダム変数を計算します事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加：質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

7

平均と分散を使用してベータ分布のパラメーターを計算する

分布に必要な平均と分散がわかっている場合、ベータ分布のおよびβパラメーターを計算するにはどうすればよいですか？これを実行するRコマンドの例が最も役立ちます。αα\alphaββ\beta

66 r distributions estimation beta-distribution

4

確率分布の「モーメント」についての「モーメント」とは何ですか？

モーメントとは何か、それらを計算する方法、およびモーメント生成関数を使用して高次のモーメントを取得する方法を知っています。はい、私は数学を知っています。統計知識を仕事のために潤滑する必要があるので、私はこの質問をするのもいいと思った-大学に戻って、教授は答えを知らなかった、または単に質問を無視するだろう（正直に）。この場合、「モーメント」という言葉はどういう意味ですか？なぜこの単語の選択ですか？それは私には直観的に聞こえません（または大学でそのように聞いたことはありません:)それについて考えると、私は「慣性のモーメント」での使用にも等しく興味があります;）今のところそれに焦点を合わせません。それで、分布の「瞬間」とは何を意味し、何をしようとしているのか、なぜその言葉なのか！:)なぜ誰かが瞬間を気にするのですか？この瞬間、私はその瞬間についてそうでないと感じています;） PS：はい、おそらく分散について同様の質問をしたことがありますが、「本を見て調べて」という直観的な理解を大切にします:)

65 distributions terminology moments intuition

4

ランダム変数のセットの最小値はどのように分布しますか？

場合は独立した同一に分布する確率変数は、何がの分布について語ったことができている一般的には？X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

4

バイモーダル分布を識別する方法は？

値をグラフとしてプロットしたら、双峰を観察することで二峰性分布を特定できることを理解していますが、プログラムでどのように見つけるのですか？（アルゴリズムを探しています。）

48 distributions

タグ付けされた質問 「distributions」

タグ付けされた質問「distributions」