タグ付けされた質問 「application」

統計と統計モデリングのアプリケーション

5
統計的思考を学ぶのに適したゲームですか?
プレイヤーに「統計学者のように考えて」もらうゲームはありますか? たとえば、lightbotを使用すると、「非常に基本的な方法で」「プログラマのように考える」ことができます。エンターテインメントまたは教育用に設計されたゲームはありますか?相関、p値、最小二乗、分散、さまざまな種類の確率分布、平均への回帰などの基本概念に慣れるのに役立つゲームがありますか? 1つの例は、この相関推測ゲームです。 (私はそのようなアプリケーションを開発することを考えているので、私は尋ねています、そして、以前の仕事が存在するものの広い視野を得ようとしています)

2
人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります:彼らはどうやってこれをしましたか?
25.02.2019からのロイターの記事にあるこのメッセージは、現在すべてのニュースに掲載されています。 人工の地球温暖化の証拠は「ゴールドスタンダード」に当たります [科学者]は、人間の活動が地球の表面の熱を高めているという自信が「5シグマ」レベルに達したと言いました。温暖化なし。 これは、この記事「気候変動科学における3つの重要なイベントの記念日を祝う」を参照していると思います。これには、下図に示すプロットが含まれています無料の画像はこちらにあります)。同じ研究グループの別の記事は、より独創的な情報源と思われますが、ここにあります(ただし、ではなく1%の有意性を使用しています)。5つのσ5σ5\sigma このプロットは、リモートセンシングシステム、衛星応用研究センター、アラバマ大学ハンツビルの3つの異なる研究グループの測定値を示しています。 プロットは、トレンドの長さの関数として、信号対ノイズ比の3つの上昇曲線を表示します。 だから、何とか科学者は地球温暖化の人為的な信号を測定している(または気候変動を?)でレベル、明らかにいくつかある証拠の科学的な標準。5つのσ5σ5\sigma 私にとって、このようなグラフは抽象度が高く、多くの疑問を提起します、そして一般的に「どうやってこれをしたのですか?」という疑問について疑問に思います。。この実験を単純な単語に(しかし、それほど抽象的ではない)説明し、レベルの意味をどのように説明しますか?††^{\dagger} 5σ5つのσ5σ5\sigma 私は気候について議論したくないので、ここでこの質問をします。代わりに、統計コンテンツに関する回答、特にを使用/主張しているこのようなステートメントの意味を明確にするために答えを求めています。5つのσ5σ5 \sigma ††^\dagger帰無仮説とは何ですか?人為的な信号を得るために、彼らはどのように実験を設定しましたか?信号のエフェクトサイズは?それは単なる小さな信号であり、ノイズが減少しているため、または信号が増加しているため、今これを測定するだけです 5シグマのしきい値(独立、ランダム効果など)の交差を決定する統計モデルを作成するために、どのような仮定が行われますか?異なる研究グループの3つの曲線が異なるのはなぜですか、異なるノイズがあるのか​​、異なる信号があるのですか?後者の場合、確率と外部妥当性の解釈に関してそれはどういう意味ですか?

5
一般的な分布の実際の例
私は統計に興味を持っている大学院生です。私は素材全体が好きですが、実際の生活への応用について考えるのに苦労することがあります。具体的には、私の質問は一般的に使用される統計分布(通常-ベータガンマなど)についてです。場合によっては、分布を非常に良くする特定のプロパティ、たとえば指数関数のメモリレスプロパティを取得すると思います。しかし、他の多くの場合、私は教科書に見られる一般的な分布の重要性と応用分野の両方について直観を持っていません。 おそらく、私の懸念に対処する多くの優れた情報源があります。それらを共有していただければ幸いです。現実の例と関連付けることができれば、私はこの資料にもっとや​​る気が出ます。

6
興味深い、よく書かれた応用統計論文は何ですか?
読むのが楽しくて有益である統計の応用について説明する良い論文は何ですか?明確にするために、新しい統計手法を説明する論文(最小角度回帰に関する論文など)ではなく、実際の問題を解決する方法を説明する論文を探しています。 たとえば、私が探しているものに合う論文の1つは、2番目のCross-Validated Journal Clubの気候論文です。私は機械学習の論文ではなく、より統計的な論文を探していますが、それは一種の曖昧な区別だと思います(Netflix Prizeの論文は少し境界線として、センチメント分析に関する論文は何かとして分類します)私は探していません)。 私が見た統計の用途のほとんどは、教科書で見た小さな断片か、私自身の仕事に関連したもののどちらかだからですので、少し分岐したいと思います。

10
大学院レベルで応用統計を自習するための本の推奨事項はありますか?
私は大学でいくつかの統計学コースを受講しましたが、私の教育は非常に理論に基づいていることがわかりました。 私は、あなたが推薦したり、良い経験をしたりした応用統計のテキスト(大学院レベル)を持っている人がいるかどうか疑問に思っていました。

4
エッジケースの精度と再現率の正しい値は何ですか?
精度は次のように定義されます: p = true positives / (true positives + false positives) それは、それを修正しているtrue positivesとfalse positives、精度が1に近づくアプローチ0? リコールに関する同じ質問: r = true positives / (true positives + false negatives) 現在、これらの値を計算する必要がある統計テストを実装していますが、分母が0である場合があり、この場合にどの値を返すのか迷っています。 PS:不適切なタグをすみません、、およびを使用したいのですがrecall、新しいタグをまだ作成できません。precisionlimit
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
「野生の」ジェームズ・シュタインの収縮?
James-Stein収縮の概念にとらわれます(つまり、独立した法線のベクトルの単一の観測の非線形関数は、「より良い」が二乗誤差で測定されるランダム変数の平均のより良い推定量になります) )。しかし、私はそれを応用研究で見たことがない。明らかに私は十分に読まれていません。James-Steinが適用された設定で推定を改善した典型的な例はありますか?そうでない場合、この種の収縮は単なる知的好奇心ですか?

10
ご使用のアプリケーションに最適な、すぐに使用可能な2クラス分類子とは何ですか?[閉まっている]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 閉じた3年前。 ルール: 回答ごとに1つの分類子 同意したら投票する 重複の削除/削除。 コメントにアプリケーションを入れてください

3
マルコフ連鎖モンテカルロ(MCMC)のさまざまなアプリケーションに関する良い要約(レビュー、書籍)?
マルコフ連鎖モンテカルロ(MCMC)のさまざまなアプリケーションに関する良い要約(レビュー、書籍)はありますか? 実践ではマルコフ連鎖モンテカルロを見ましたが、この本は少し古いようです。 マシンラーニング、コンピュータービジョン、計算生物学などの分野におけるMCMCのさまざまなアプリケーションに関する最新の本はありますか?


4
応用機械学習(ML自体だけでなく)について学ぶための良い例/本/リソース
私は以前にMLコースを受講しましたが、自分の仕事でML関連のプロジェクトに取り組んでいるため、実際にそれを適用するのにかなり苦労しています。私がやっていることは以前に調査/処理されたと確信していますが、特定のトピックを見つけることができません。 私がオンラインで見つけた機械学習の例はすべて非常に単純です(たとえば、PythonでKMeansモデルを使用して予測を確認する方法)。これらを実際に適用する方法に関する優れたリソース、そしておそらく大規模な機械学習の実装とモデルトレーニングのコード例を探しています。MLアルゴリズムをより効果的にすることができる新しいデータを効果的に処理および作成する方法について学びたいです。

1
相互に排他的でないカテゴリを分類できる深層学習モデル
例:仕事の説明に「英国のJavaシニアエンジニア」という文があります。 私は2つのカテゴリとして、それを予測することは、深い学習モデルを使用したい:English とIT jobs。従来の分類モデルを使用する場合softmax、最後のレイヤーで機能を持つ1つのラベルのみを予測できます。したがって、2つのモデルのニューラルネットワークを使用して、両方のカテゴリで「はい」/「いいえ」を予測できますが、さらに多くのカテゴリがあると、コストがかかりすぎます。では、2つ以上のカテゴリを同時に予測するためのディープラーニングまたは機械学習モデルはありますか? 「編集」:従来のアプローチによる3つのラベルでは、[1,0,0]によってエンコードされますが、私の場合、[1,1,0]または[1,1,1]によってエンコードされます 例:3つのラベルがあり、文がこれらすべてのラベルに収まる場合。したがって、softmax関数からの出力が[0.45、0.35、0.2]である場合、3つのラベルまたは2つのラベルに分類する必要がありますか、それとも1つにすることができますか?それを行うときの主な問題は、1、2、または3つのラベルに分類するための適切なしきい値は何ですか?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
カナダの硬貨の相対量の概算
毎日の使用で十分な量のコインのサンプルを単純に取得することから、循環におけるルーニー、ツーニー、クォーター、ダイム、ニックル(およびおそらく廃止されたペニー)の相対量を正確に概算することは可能でしょうか?日常の使用では、たとえば食料品店で購入したときに釣銭として返されるコインを指します。 これは2つの部分からなる質問だと思います。 サンプリング方法は十分ですか、または決定論的なプロセス(変更の収集?)を通じてサンプルを収集しているため、何らかのバイアスが導入されていますか?どのサイズのサンプルが必要ですか? サンプリングが正確な近似に十分である場合、それを使用して、流通している各コインタイプの相対量を決定できますか?または、たとえば、相対量を正確に概算するために必要なサンプルサイズ自体が、流通している各コインタイプの相対量を変化させるのでしょうか。

1
カイ2乗GOFテストに使用するビンの数をどのように選択しますか?
私は放射性崩壊に関する物理学研究室の開発に取り組んでおり、私が取ったサンプルデータを分析する際に、驚いた統計の問題に遭遇しました。 放射線源による単位時間あたりの崩壊数がポアソン分布であることはよく知られています。ラボが機能する方法は、学生が時間枠ごとの崩壊の数を数え、それを何度も繰り返すことです。次に、カウント数でデータをビニングし、χ2χ2\chi^2推定された1つのパラメーター(平均)を使用した適合度検定。帰無仮説(データは、推定された平均値を持つポアソン分布から得られたもの)が成り立つかどうかを確認します。うまくいけば、彼らは大きなp値を取得し、物理学が実際に機能すると結論付けます(そうです)。 データをビニングした方法がp値に大きな影響を与えることに気付きました。たとえば、非常に小さなビンを多数選択した場合(たとえば、整数ごとに個別のビン:78カウント/分、79カウント/分など)、小さなp値が得られ、帰無仮説を拒否する必要があったでしょう。 。ただし、データをより少ないビンにビニングした場合(たとえば、スタージのルールで指定されたビンの数を使用:)、はるかに大きなp値が得られ、帰無仮説は拒否されませんでした。1 + l og2(N)1+log2(N)1+log_{2}(N) 私のデータを見ると、非常にポアソン分布されているように見えます(予想されるカウント/分とほぼ完全に一致しています)。とはいえ、平均値から非常に離れたビンには数カウントがあります。つまり、非常に小さなビンを使用して統計を計算する場合、次のようないくつかの項があります: これにより、統計が高くなり、p値が低くなります。予想通り、予想される値がそれほど低くならないため、ビンの幅が大きくなると問題はなくなります。χ2χ2\chi^2(O b s e r v e d− Ex p e c t e d)2Ex p e c t e d=(1 − 0.05)20.05= 18.05(Observed−Expected)2Expected=(1−0.05)20.05=18.05\frac{(Observed-Expected)^2}{Expected} = \frac{(1-0.05)^2}{0.05}=18.05χ2χ2\chi^2 質問: GOFテストを実行するときにビンサイズを選択するための良い目安はありますか?χ2χ2\chi^2 この異なるビンサイズの結果の不一致は、私が知っておくべきことでしたか*または、提案されたデータ分析でいくつかのより大きな問題を示していますか? - ありがとうございました *(私は学部で統計学のクラスを受講しましたが、それは私の専門分野ではありません。)
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.