タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

2
クリケットボウラーをモデル化して打者を出す
多数のクリケットゲーム(数千)の詳細を示すデータセットがあります。クリケットでは、「ボウラー」が「打者」の連続で繰り返しボールを投げます。ボウラーは打者を「出」しようとしています。この点で、野球の投手や打者とよく似ています。 データセット全体を取り、打者を獲得したボールの総数をボーリングされたボールの総数で割ると、ボウラーが打者を獲得する平均確率が得られることがわかります-約0.03(うまくいけば、私はすでに間違っていませんか?) 私が興味を持っているのは、特定の打者が次のボールで特定のボウラーによってボウリングされる確率を計算してみることです。 データセットは、特定のボウラーが数千のボールをさまざまなバットマンにボーリングするのに十分な大きさです。したがって、ボウラーが達成したアウトの数をボーリングしたボールの数で単純に除算して、その特定のボウラーが次のボールからアウトを獲得する新しい確率を計算できると思います。 私の問題は、特定のボウラーが特定の打者で統計的に有意な数のボールをボウリングしたことを保証するのに十分な大きさのデータセットではないことです。したがって、特定の打者に直面している特定のボウラーのアウトの確率を計算することに興味がある場合、これは同じ単純な方法で行うことはできないと思います。 私の質問は、次のアプローチが有効かどうかです: データセット全体で、ボールがアウトになる確率は0.03です。 私が平均してボウラーAが0.06(つまり、平均ボウラーの2倍の確率)から出る確率を計算すると、 そして、平均して、打者Bは0.01(平均的な打者と同じくらいの確率で3分の1)から外れる確率を持っていました、 その特定の打者がその特定のボウラーの次のボールに出る確率が0.06 *(0.01 / 0.03)= 0.02になると言うのは有効ですか?

5
非常に多くのペアのデータポイントをグラフィカルに表す良い方法は何ですか?
私の分野では、ペアのデータをプロットする通常の方法は、2つのグループの中央値と中央値のCIでオーバーレイする一連の細い傾斜線セグメントとしてです。 ただし、この種のプロットは、データポイントの数が非常に大きくなるため(私の場合、1万ペア程度)、読みにくくなります。 アルファを減らすことは少し助けになりますが、それでもまだ素晴らしいとは言えません。解決策を探しているときに、このホワイトペーパーに出くわし、「平行線プロット」を実装することにしました。繰り返しますが、これは少数のデータポイントに対して非常にうまく機能します。 NNN たとえば、ボックスプロットやバイオリンを使用して2つのグループの分布を個別に表示し、2つの中央値/ CIを示す上部にエラーバーを付けて線をプロットすることはできると思いますが、それは伝えられないので、私は本当にその考えが好きではありません。データのペアの性質。 また、2D散布図のアイデアにあまり熱心ではありません。よりコンパクトな表現が理想的です。理想的には、2つのグループの値が同じ軸に沿ってプロットされている表現が望ましいです。完全を期すために、データは2D散布図のようになります。 非常に大きなサンプルサイズでペアのデータを表すより良い方法を誰かが知っていますか?いくつかの例にリンクしていただけませんか? 編集する すみません、私が探しているものを説明するのに十分な仕事をしていないのは明らかです。はい、2D散布図は機能します。ポイントの密度をよりよく伝えるために、2D散布図を改善する方法はたくさんあります-カーネル密度推定に従ってドットを色分けして、2Dヒストグラムを作成できます、等高線をドットの上などにプロットできます... しかし、これは私が伝えようとしているメッセージに対してはやり過ぎだと思います。ポイント自体の 2D密度を表示することについては特に気にしません-必要なのは、「棒」の値が「点」の値よりも一般的に大きいことを、できるだけ単純かつ明確な方法で示すことだけです。 、そしてデータの本質的なペアの性質を失うことなく。理想的には、2つのグループのペアの値を直交軸ではなく同じ軸に沿ってプロットしたいのです。これにより、視覚的に比較することが容易になります。 多分散布図より良い選択肢はありませんが、うまくいく可能性のある代替案があるかどうか知りたいのですが。

2
モデル構築プロセスがインタラクティブだった場合のバックテストまたは相互検証
パフォーマンスをバックテストしたい予測モデルがいくつかあります(つまり、データセットを取得し、それを前の時点に「巻き戻し」、モデルがどのように予測的に実行されたかを確認します)。 問題は、私のモデルの一部がインタラクティブなプロセスを介して構築されたことです。たとえば、フランクハレルの回帰モデリング戦略のアドバイスに従って、1つのモデルで制限された3次スプラインを使用して、機能と応答の間の可能な非線形の関連付けを処理しました。ドメインの知識と関連の強さの一変量の測定値の組み合わせに基づいて、各スプラインの自由度を割り当てました。しかし、モデルに許可したい自由度は、データセットのサイズに明らかに依存します。これは、バックテスト時に大幅に変化します。モデルがバックテストされるたびに自由度を個別に選択したくない場合、他のオプションは何ですか? 別の例として、私は現在、高いレバレッジでポイントを見つけることによる外れ値の検出に取り組んでいます。手作業でこれを実行できた場合は、レバレッジの高い各データポイントを確認し、データがクリーンであることをサニティチェックして、フィルターで取り除くか、手動でクリーンアップします。しかし、これは一連のドメイン知識に依存しているため、プロセスを自動化する方法がわかりません。 (a)モデル作成プロセスのインタラクティブな部分を自動化する一般的な問題に対するアドバイスと解決策、または(b)これら2つのケースに対する特定のアドバイスの両方をいただければ幸いです。ありがとう!

5
ビッグデータのロジスティック回帰
約5000の機能のデータセットがあります。そのデータについて、私は最初に特徴の選択にカイ二乗検定を使用しました。その後、応答変数と有意な関係を示す変数を約1500個取得しました。 ここでロジスティック回帰を当てはめる必要があります。私はRにglmultiパッケージを使用しています(glmultiパッケージはvlmの効率的なサブセット選択を提供します)が、一度に30の機能しか使用できません。それ以外の場合、データセットの行数が約20000であるため、パフォーマンスが低下します。 上記の問題を解決する他のアプローチや手法はありますか?上記の方法で行くと、モデルを合わせるのに時間がかかりすぎます。

4
サッカーのスコアのモデリング
Dixon、Coles(1997)では、彼らは(4.3)の2つの修正された独立したポアソンモデルの最尤推定を使用して、サッカーのスコアをモデル化しました。 パッケージを使用せずにアルファとベータ、およびホームエフェクトパラメーター(pg。274、表4)を "再現"するためにRを使用しようとしています(通常の独立したポアソンモデルを使用しても問題ありません)。bivpoisパッケージを使用してみましたが、パラメーターを変更する方法がわかりません。 誰かがRコードを使ってデータをモデル化できるように手助けしていただければ幸いです。英語プレミアリーグのシーズン2012/13のホームチームとアウェーチームのスコア。


2
従属データのベルヌーイ確率変数の合計をモデル化する方法は?
私はこのようなほぼ同じ質問があります: ベルヌーイ確率変数の合計を効率的にモデル化するにはどうすればよいですか? ただし、設定はかなり異なります。 S=∑i=1,NXiS=∑i=1,NXiS=\sum_{i=1,N}{X_i}、、〜20、〜0.1P(Xi=1)=piP(Xi=1)=piP(X_{i}=1)=p_iNNNpipip_i ベルヌーイ確率変数の結果のデータがあります:、Xi,jXi,jX_{i,j}Sj=∑i=1,NXi,jSj=∑i=1,NXi,jS_j=\sum_{i=1,N}{X_{i,j}} 最尤推定でを推定した場合(およびを取得した場合)、がはるかに大きいことが他の基準で期待される:pipip_ip^MLEip^iMLE\hat p^{MLE}_iP^{S=3}(p^MLEi)P^{S=3}(p^iMLE)\hat P\{S=3\} (\hat p^{MLE}_i)P^{S=3}(p^MLEi)−P^expected{S=3}≈0.05P^{S=3}(p^iMLE)−P^expected{S=3}≈0.05\hat P\{S=3\} (\hat p^{MLE}_i) - \hat P^{expected} \{S=3\}\approx 0.05 したがって、とは独立したものとして扱うことができません(依存関係が小さいため)。XiXiX_{i}XjXjX_{j} (j&gt;k)(j&gt;k)(j>k) これらのようないくつかの制約があります:および(既知)、これは推定に役立つはずです。pi+1≥pipi+1≥pip_{i+1} \ge p_i∑s≤2P^{S=s}=A∑s≤2P^{S=s}=A\sum_{s \le 2}\hat P\{S=s\}=AP{S}P{S}P\{S\} この場合、ベルヌーイ確率変数の合計をモデル化するにはどうすればよいでしょうか? この課題を解決するのに役立つと思われる文献はどれですか。 更新しました さらにいくつかのアイデアがあります: (1)間の未知の依存関係は、連続して1回以上成功した後に始まると想定できます。したがって、場合、およびます。XiXi{X_i}∑i=1,KXi&gt;0∑i=1,KXi&gt;0\sum_{i=1,K}{X_i} > 0pK+1→p′K+1pK+1→pK+1′p_{K+1} \to p'_{K+1}p′K+1&lt;pK+1pK+1′&lt;pK+1p'_{K+1} < p_{K+1} (2)MLEを使用するには、問題が最も少ないモデルが必要です。ここにバリアントがあります: P{X1,...,Xk}=(1−p1)...(1−pk)P{X1,...,Xk}=(1−p1)...(1−pk)P\{X_1,...,X_k\}= (1-p_1) ... (1-p_k)場合任意のkのための ifおよび、および任意のkに対して。∑i=1,kXi=0∑i=1,kXi=0\sum_{i=1,k}{X_i} = 0P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P{X1,...,Xk,Xk+1,...,XN}=(1−p1)...pkP′{Xk+1,...,XN}P\{X_1,...,X_k,X_{k+1},...,X_N\}= (1-p_1) ... p_k P'\{X_{k+1},...,X_N\}∑i=1,k−1Xi=0∑i=1,k−1Xi=0\sum_{i=1,k-1}{X_i} = …

1
データを再シャッフルする必要がありますか?
入手するのにかなり高額だった生物学的サンプルのセットがあります。これらのサンプルを一連のテストに通して、予測モデルの構築に使用されるデータを生成します。この目的のために、サンプルをトレーニングセット(70%)とテストセット(30%)に分けました。モデルを正常に作成し、テストセットに適用して、パフォーマンスが「最適ではない」ことを発見しました。実験家は、より良いモデルを作成するために生物学的試験を改善したいと考えています。新しいサンプルを入手できない場合は、サンプルを再シャッフルして新しいトレーニングと検証セットを作成するか、元の分割を使用することを提案してください。(この分割が問題のある分割だったことを示すものはありません)。

2
データのROC曲線を計算する
そのため、ハミング距離を使用して生体認証特性から個人を認証しようとしている16のトライアルがあります。しきい値は3.5に設定されています。私のデータは以下であり、トライアル1のみが真陽性です。 Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 私の混乱のポイントは、このデータからROC曲線(FPR対TPR OR FAR対FRR)を作成する方法が本当にわからないということです。どちらでもかまいませんが、どうやって計算するのか混乱しています。任意の助けいただければ幸いです。
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 

10
構造方程式/ MPLUSモデルをどのように描画しますか?
構造方程式/混合モデルを効率的かつきれいに描くためのソフトウェアツール(できればオープンソース)を探しています。 xfigとgraphvizを調べた後、汎用のベクターグラフィックパッケージであるinkscapeを使用します。 stat.stackexchangeコミュニティを調査したい:構造方程式/混合モデルをどのように描画しますか?どのソフトウェアを使用していますか?

2
2つの分布を組み合わせるモデルでの適合度の測定
モデル化しようとしている二重ピークのあるデータがあり、それらを個別に処理することができないほどピーク間に十分なオーバーラップがあります。データのヒストグラムは次のようになります。 このために2つのモデルを作成しました。1つは2つのポアソン分布を使用し、もう1つは2つの負の二項分布を使用します(過剰分散を説明するため)。どのモデルがデータに正確に適合するかを判断する適切な方法は何ですか? 私の最初の考えは、コルモゴロフ・スミルノフ検定を使用して各モデルをデータと比較し、次に尤度比検定を行って、1つが非常に優れているかどうかを確認することです。これは理にかなっていますか?もしそうなら、私は尤度比検定を実行する方法を正確に知りません。カイ二乗は適切ですか、そして私にはいくつの自由度がありますか? それが役立つ場合、モデルの一部の(非常に簡略化された)Rコードは次のようになります。 ## inital data points a &lt;- read.table("data") #create model data model.pois = c(rpois(1000000,200),rpois(500000,250)) model.nb = c(rnbinom(1000000,200,0.5),rnbinom(500000,275,0.5) #Kolmogorov-Smirnov test #use ks.boot, since it's count data that may contain duplicate values kpois = ks.boot(model.pois,a) knb = ks.boot(model.nb,a) #here's where I'd do some sort of likelihood ratio test # …

3
線形回帰のための予測子の最良のサブセットの計算
適切な予測子を使用する多変量線形回帰で予測子を選択するために、サブセットをすべて明示的にテストせずに予測子の「最適な」サブセットを見つける方法はありますか?「Applied Survival Analysis」では、Hosmer&LemeshowがKukの方法を参照していますが、元の論文が見つかりません。誰もがこの方法、またはもっと良いことに、より現代的な技術を説明できますか?正規分布エラーが想定されます。2 pppp2p2p2^p

4
モデルのフィッティング/トレーニングおよび検証に使用されるサンプルデータの比率の計算
データの予測に使用する予定のサンプルサイズ「N」を提供しました。データの一部を使用してモデルを確立し、残りのデータを使用してモデルを検証するために、データを分割する方法にはどのようなものがありますか? 私はこれに対する白黒の答えがないことを知っていますが、いくつかの「経験則」または通常使用される比率を知ることは興味深いでしょう。大学に戻って、私たちの教授の1人が60%でモデルを言い、40%で検証することを知っていました。

4
ツリーベースの回帰は、単純な線形回帰よりもパフォーマンスが悪いのでしょうか?
こんにちは私は回帰技法を勉強しています。 私のデータには15の機能と6000万の例(回帰タスク)があります。 多くの既知の回帰手法(勾配ブーストツリー、ディシジョンツリー回帰、AdaBoostRegressorなど)を試したところ、線形回帰は優れたパフォーマンスを示しました。 これらのアルゴリズムの中でほぼ最高のスコアを獲得しました。 これの理由は何ですか?私のデータには非常に多くの例があるので、DTベースの方法はうまく適合できます。 正則化された線形回帰の尾根、なげなわのパフォーマンスが悪い 誰かが他のパフォーマンスの良い回帰アルゴリズムについて教えてもらえますか? 因数分解マシンとサポートベクター回帰は、試すのに適した回帰手法ですか?

4
ベイジアンフレームワークではどのようにデータが生成され、データを生成するパラメーターの性質は何ですか?
私はベイジアン統計を再学習しようとしていました(私が最終的にそれを得たと思うたびに、以前に考慮しなかった何かがポップアウトします...)。しかし、データ生成プロセスが(私にとって)明確ではありませんでした。ベイジアンフレームワークでは実際にそうです。 頻出主義の枠組みは私には明らかです。いくつかの「真の」パラメータあり、そのパラメータは、パラメータ化する分布に従ってデータを生成します。θθ\theta ただし、ベイジアン設定では、パラメーターを確率変数としてモデル化します。その部分は私を混乱させません。ベイジアンはこの確率をそれ自体の信念の不確実性として解釈するので、それは理にかなっています。彼らは確率を繰り返し不可能なイベントに割り当てても大丈夫です。だから私が「ベイズ主義」を解釈した方法は、データを生成するいくつかのパラメータがあると信じているということでした、それは決定的には不明ですが、それでも「自然」によって決定されたら修正されましたすることが)。それにもかかわらず、それは修正され、それゆえ、それは「再現不可能な出来事」でした。再現性はありませんでしたが、信念を更新することのみを試みていますθθ\theta与えられたデータ。したがって、データは、確率分布によって考慮されている(以前の)パラメーターのいずれかによって生成された可能性がありますが、それでもパラメーターは固定されており、不明です。確率値を付けているだけです。 この見解では、データ生成プロセスが常連客のプロセスとほぼ同じであると想定することは私にとって理にかなっています。「自然」は、「真の」「前の」分布を使用してパラメーターを選択し、確率変数がその「真の」(しかし固定された)実現を実現すると、観測したデータの生成を開始します。θθ\thetaP∗(θ )P∗(θ)P^*(\theta) これは、ベイジアンフレームワークでのデータ生成プロセスを解釈する標準的な方法ですか? 私の見解の主なものは、パラメーターが決定的に固定され(rvの実現として見られる)、に従ってデータを生成することです。したがって、私の見解のもう1つの非常に重要な点は、私にとって、以前のものは、パラメータを作成する固定された(反復不可能な)イベントに対する不確実性を表現する定量化可能な方法にすぎないということです。それは人々が以前のをどのように解釈するのですか?θθ\thetaθθ\thetaθθ\thetaP(θ )P(θ)P(\theta) ユーモラスなメモ: 彼女がどうやってそれをやっているのかを「自然」に尋ねて、これを一度に解決することができればいいのに...

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.