統計とビッグデータ ratio

15

クリティカル・シンキングのための就職面接適性テストで質問に出会いました。これは次のようなものです： Zorganian Republicには非常に奇妙な習慣があります。女性だけが家族の財産を相続できるため、カップルは女性の子供が欲しいだけです。したがって、男性の子供がいる場合は、女の子が生まれるまで子供を増やし続けます。女の子がいたら、子供を持つのをやめます。Zorganiaの女の子と男の子の比率はどのくらいですか？私は質問作成者が与えたモデルの答えに同意しません。それは約1：1です。正当化は、出生が常に男性または女性である確率が50％であることでした。が国内の少女の数であり、Bが少年の数である場合、より数学的な精力的な答えで納得してもらえますか？GE [ G ] ：E [ B ]E[G]:E[B]\text{E}[G]:\text{E}[B]GGG

45 probability ratio

2

ランダム変数の比率や逆数は、期待がないという点で問題になることが多いと聞きました。何故ですか？

タイトルは質問です。確率変数の比率と逆数はしばしば問題があると言われています。つまり、期待はしばしば存在しないということです。その単純で一般的な説明はありますか？

24 probability distributions random-variable expected-value ratio

1

2つの回帰係数の比の不偏推定量？

もしA線形/ロジスティック回帰フィット仮定の不偏推定の目的で、1g(y)=a0+a1⋅x1+a2⋅x2g(y)=a0+a1⋅x1+a2⋅x2g(y) = a_0 + a_1\cdot x_1 + a_2\cdot x_2。あなたは、a1とa2の両方が、それらの推定のノイズに対して非常に正であると確信しています。a1a2a1a2\frac{a_1}{a_2}a1a1a_1a2a2a_2 共分散がある場合、答えを計算するか、少なくともシミュレートできます。より良い方法がありますか？また、実際の問題で大量のデータがある場合、推定値の比率を取得するために、またはハーフステップを実行して係数が独立していると仮定するために、どの程度のトラブルが発生しますか？a1,a2a1,a2a_1, a_2

15 regression regression-coefficients unbiased-estimator ratio

1

キャレットglmnetとcv.glmnet

glmnetwithin caretを使用して最適なラムダを検索cv.glmnetし、同じタスクを実行するために使用することの比較には、多くの混乱があるようです。次のような多くの質問が提起されました。分類モデルtrain.glmnet対cv.glmnet？キャレットでglmnetを使用する適切な方法は何ですか？「キャレット」を使用して「glmnet」を相互検証するしかし、答えはありません。これは、質問の再現性による可能性があります。最初の質問に続いて、非常に似た例を挙げますが、同じ質問があります：推定されるラムダはなぜそんなに違うのですか？ library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to directly perform CV set.seed(849) cvob1=cv.glmnet(x=as.matrix(trainX),y=trainY,family="binomial",alpha=1, type.measure="auc", nfolds = 3,lambda = seq(0.001,0.1,by = …

14 r caret glmnet machine-learning neural-networks maximum softmax probability distributions mathematical-statistics random-variable cdf statistical-significance variance expected-value ratio sample-size reliability tolerance-interval wilcoxon-signed-rank self-study variance sampling mean machine-learning svm libsvm self-study sampling ranks data-visualization histogram machine-learning classification normal-distribution mathematical-statistics maximum-likelihood mixture predictive-models prediction seasonality

1

回帰の比率、別名Kronmalに関する質問

最近、質問をランダムに閲覧すると、回帰モデルでの比率の使用に関する数年前の警告から私の教授の一人からのオフコメントの記憶がトリガーされました。だから私はこれについて読み始め、最終的には1993年のKronmalに至った。これらをモデル化する方法に関する彼の提案を正しく解釈していることを確認したいと思います。従属側と独立側の両方で同じ分母を持つ比率のモデルの場合： Z− 1Y= Z− 11nβ0+ Z− 1バツβバツ+ βZ+ Z− 1ϵZ−1Y=Z−11nβ0+Z−1バツβバツ+βZ+Z−1ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 他の比率に加えて、（逆）分母変数の回帰依存比率（逆）分母変数による重み比率として従属変数を持つモデルの場合： Y= β0+ βバツバツ+ Z1nα0+ Zバツαバツ+ Z− 1ϵY=β0+βバツバツ+Z1nα0+Zバツαバツ+Z−1ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 元の変数、分母、および分母の元の変数による分子の回帰[カテゴリ変数はどうですか？] （逆）分母による重み独立変数比のみのモデルの場合： Y= β0+ Xβバツ+ Z− 11nβZ− …

14 regression modeling interaction weighted-regression ratio

1

ポイントの2つの値の間に統計的に意味のある大きな外れ値の比率を持つサンプルポイントを見つける方法は？

アプリケーションの例として、スタックオーバーフローユーザーの2つのプロパティ、レピュテーションとプロファイルビュー数を検討してください。ほとんどのユーザーにとって、これらの2つの値は比例することが予想されます。担当者が多いユーザーはより多くの注意を引き、したがってより多くのプロファイルビューを取得します。したがって、全体的な評判と比較してプロファイルビューが多いユーザーを検索することは興味深いことです。これは、そのユーザーに外部の名声があることを示している可能性があります。または、おそらく彼らが面白い風変わりなプロフィールの写真と名前を持っているだけかもしれません。より数学的には、各2次元サンプルポイントはユーザーであり、各ユーザーは0から+無限大までの2つの整数値を持っています。評判プロフィールビューの数これらの2つのパラメーターは線形従属であると予想され、その仮定に対する最大の外れ値であるサンプルポイントを見つけたいと考えています。もちろん、素朴な解決策は、単にプロファイルビューを取得し、評判で分割し、並べ替えることです。ただし、これは統計的に意味のない結果をもたらします。たとえば、ユーザーが質問に回答し、1つの賛成票を得て、何らかの理由で10のプロフィールビューがあり、それが簡単に偽造された場合、そのユーザーは、1000の賛成票と5000のプロフィールビューを持つはるかに興味深い候補の前に表示されます。。より「現実的な」使用例では、たとえば「どのスタートアップが最も意味のあるユニコーンか？」と答えることができます。例：小さなエクイティで1ドルを投資する場合、ユニコーンを作成します。https：//www.linkedin.com/feed/update/urn：li：activity：6362648516858310656 具体的なクリーンで使いやすい実世界のデータこの問題の解決策をテストするには、2019-03のスタックオーバーフローデータダンプから抽出された次の小さな（75M圧縮、最大1,000万ユーザー）前処理ファイルを使用できます。 wget https://github.com/cirosantilli/media/raw/master/stack-overflow-data-dump/2019-03/users_rep_view.dat.7z 7z x users_rep_view.dat.7z これは、UTF-8でエンコードされusers_rep_view.datた非常にシンプルなプレーンテキストスペース区切り形式のファイルを生成します。 Id Reputation Views DisplayName -1 1 649 Community 1 45742 454747 Jeff_Atwood 2 3582 24787 Geoff_Dalgas 3 13591 24985 Jarrod_Dixon 4 29230 75102 Joel_Spolsky 5 39973 12147 Jon_Galloway 8 942 …

12 ratio

3

線形回帰でパーセンテージ結果を使用する場合の問題は何ですか？

多くの結果がパーセンテージのように表される研究があり、複数の線形回帰を使用して、これらの結果に対するいくつかのカテゴリ変数の影響を評価しています。線形回帰は結果が連続分布であると仮定しているので、このようなモデルをパーセンテージに適用する方法論的な問題はありますか？

11 regression ratio percentage

1

従属カイ2乗確率変数の比率の分布

仮定X I〜N （0 、σ 2）独立しています。X=X1+X2+⋯+XnX=X1+X2+⋯+Xn X = X_1 + X_2+\cdots+ X_n Xi∼N(0,σ2)Xi∼N(0,σ2)X_i \sim N(0,\sigma^2) 私の質問は、ディストリビューションが何をするかです Z=X2X21+X22+⋯+X2nZ=X2X12+X22+⋯+Xn2 Z = \frac{X^2}{X_1^2 + X_2^2 + \cdots + X_n^2} フォローする？ここから、Wとして表される2つのカイ2乗確率変数の比率がはベータ分布に従います。これはWとYの間の独立性を前提としていると思います。私の場合でも、Zの分母にはXの2乗の成分が含まれています。WW+YWW+Y\frac{W}{W + Y}WWWYYYZZZXXX もベータ分布のバリエーションに従う必要があると思いますが、よくわかりません。この仮定が正しい場合、それを証明する方法がわかりません。ZZZ

11 normal-distribution chi-squared beta-distribution ratio

3

均一分布と正規分布の比率はどのくらいですか？

ましょ一様分布に従うとYが正規分布に従ってください。Xについて言えることバツXXYYY？そのためのディストリビューションはありますか？バツYXY\frac X Y 平均ゼロの2つの法線の比率はコーシーであることがわかりました。

11 probability normal-distribution uniform ratio

1

n iid正規変数の最大比率の期待値

がからのiidであり、がから番目に小さい要素を示すと仮定します。 2つの連続する要素間の比率の予想される最大値をどのように上限にできるでしょうか？つまり、次の上限をどのように計算できますか。 N （μ 、σ 2）X （I ） I X 1、。。。、X n X （i ）X1,...,XnX1,...,XnX_1,...,X_nN(μ,σ2)N(μ,σ2)N(\mu,\sigma^2)X(i)X(i)X_{(i)}iiiX1,...,XnX1,...,XnX_1,...,X_nX(i)X(i)X_{(i)} E[maxi=1,...,n−1(X(i+1)X(i))]E[maxi=1,...,n−1(X(i+1)X(i))]E\left[\max\limits_{i=1,...,n-1}\left(\frac{X_{(i+1)}}{X_{(i)}}\right)\right] 私が見つけることができた文献は、主に2つの確率変数間の比率に焦点を当てています。その結果、2つの無相関正規分布のpdfがここに示されています。https：//en.wikipedia.org/wiki/ Ratio_distribution＃Gaussian_ratio_distribution。これにより、nnn変数の期待される平均比率を上限にできるようになりますが、この概念を一般化してnnn変数の期待される最大比率を見つける方法はわかりません。

10 expected-value order-statistics ratio maximum

2

データのタイプ（名義/順序/間隔/比率）は、変数のタイプと本当に見なされるべきですか？

だから例えばここに私が標準的な教科書から得た定義があります変数-母集団またはサンプルの特性。例：テストの銘柄または銘柄の価格データ-実際の観測値したがって、2列のレポートの場合[名前| 収入]列名は変数であり、実際の観測値{dave | 100K}、{jim | 200K}がデータになりますそれで、[名前]列が名目データであり、[収入]が比率データであると言えば、ほとんどの教科書のように、データのタイプではなく変数のタイプとしてそれをより正確に説明しませんか？これはセマンティクスかもしれないと私は理解しています。しかし、私はここで何かが足りないのではないかと恐れています。

10 dataset ordinal-data categorical-data ratio

1

シャープレシオの有意性のテスト

シャープ比または情報比の重要性をテストする適切な方法は何ですか？シャープレシオはさまざまな株式指数に基づいており、ルックバック期間が変動する場合があります。私が説明した1つの解決策は、dfをルックバック期間の長さに設定して、スチューデントのt検定を適用するだけです。以下の懸念のため、私は上記の方法を適用するのをためらっています。 t検定は歪度の影響を受けやすいと思いますが、株式のリターンは一般的にマイナスに歪んでいます。ログリターンを使用して計算された平均リターンは、単純なリターンを使用して計算された平均リターンよりも小さくなります。これにより、単純なリターンベースのシャープレシオが、ログリターンベースのシャープレシオと比較して有意であると登録される可能性が高くなると思いますが、基本的なアセットリターンは技術的に同じです。ルックバック期間が短い（つまり、サンプルサイズが小さい）場合は、t検定が適切である可能性がありますが、別の検定を使用するのに適切なしきい値はどれですか。私の最初の傾きは、学生のt分布の使用を避け、代わりに私がしている非対称パワーディストリビューションに基づいてテストを作成することです読み尖度と歪度のコントロールを可能にし、株式市場のリターンの非常に近い近似値であることが示されているが。私の2番目の傾向は、ノンパラメトリックテストを調べることですが、それらの使用法の経験が限られているため、どこから始めればよく、どのような落とし穴を避けるべきかわかりません。私はこの問題を考えすぎていますか、私の懸念は無関係ですか？

10 time-series statistical-significance mean finance ratio

1

X / YがZと同じ分布を持つ場合、XがYZと同じ分布を持つことは本当ですか？

X、Y、Zを3つの独立確率変数とする。X / YがZと同じ分布を持つ場合、XがYZと同じ分布を持つことは本当ですか？

9 probability ratio

1

相関する確率変数の比率の期待値？

独立確率変数および場合、閉じた形の式がありますかβαα\alphaββ\beta E[αα2+β2√]E[αα2+β2]\mathbb E \left[ \frac{\alpha}{\sqrt{\alpha^2 + \beta^2}} \right] との期待値と分散の観点から？そうでない場合、その期待には十分な下限がありますか？βαα\alphaββ\beta 更新：とについても触れて。私は上の分散制御することができますと、そして両方の分散ところ、私は心の中で設定を持っているととかなり小さな相対的なもので。多分それらの標準偏差はどちらも0.3未満です。E [ β ] = 0 α β α β E [ α ]E[α]=1E[α]=1\mathbb E[\alpha] = 1E[β]=0E[β]=0\mathbb E[\beta] = 0αα\alphaββ\betaαα\alphaββ\betaE[α]E[α]\mathbb E[\alpha]

9 probability random-variable expected-value ratio

1

確率変数は通常の数と同じ代数的規則に従いますか？

確率変数の合計に関する最近の質問への私の回答のコメントで、比率分布に関するウィキペディアの記事へのリンクに出くわしました、そしてそこに次の奇妙な主張に気づきました：通常の数で知られている代数ルールは、確率変数の代数には適用されません。たとえば、積がで比率が場合、と分布が同じであるとは限りません。D = C / A D BC= A BC=ABC = ABD = C/ AD=C/AD=C/ADDDBBB この主張は2007年以降の記事にあります。元々記事を作成し、その元のコンテンツと現在のコンテンツの多くを寄稿した一見評判の高い同じ編集者によって追加され、1979年に出版されたMelvin D.Springerの著書「ランダム変数の代数」に引用されているようです（ただし、同じ段落の後半に表示される引用マーカーが実際にこの主張をカバーすることを意図しているかどうかは、100％明確ではありません）。明らかに、その主張は私にはナンセンスのように思えます。ウィキペディアの記事からそれを編集することもできますが、10年以上もそこに挑戦し続けてきたことを考えると、ここで間違っているのは自分ではないことを確認する必要があります。（可能性のある）引用を確認するためのスプリンガーの本を手元に置いていなかったので、私はここの専門家に助けを求めたいと思いました。特に、述べられている主張は実際には2つの部分で構成されているため、私の質問もそうです。パート1：確率変数は通常の数と同じ代数的規則に従いますか、それとも（ある意味では）従わないのですか？そうでない場合、ルールはどのように異なりますか？それは人が採用する（一般に受け入れられている）形式に依存しますか？パート2：通常の数値であっても、ときが定義されていないため、が常にに等しいとは限らないことは明らかです。この些細な違いは、とがランダム変数である場合でも、とが等しくならない唯一の方法ですか？特に、次のステートメントは常に（実数値または複素数値）確率変数に当てはまりますか？ BDA=0DBA≠0D = A BあD=ABAD = \frac{AB}{A}BBBDDDA = 0A=0A = 0DDDBBBA ≠ 0⟹A Bあ= B 。A≠0⟹ABA=B.A \ne 0 \implies \frac{AB}{A} = B. パート3（おまけ）：スプリンガーの本は実際にこれについて何を言っていますか、そしてそこに、上で引用された主張をサポートするために何らかの意味でとらえることができる何かがありますか？私が推測するように、それは実際に主流の数学と統計に関する主張の信頼できる情報源と見なされているのでしょうか？

8 mathematical-statistics random-variable definition ratio

タグ付けされた質問 「ratio」

タグ付けされた質問「ratio」