タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

2
合成データセットを作成するための標準的なプラクティスは何ですか?
コンテキストとして:非常に大きなデータセットを使用する場合、予測変数と応答変数の関係、または予測変数間の関係を「知っている」合成データセットを作成できるかどうかを尋ねられることがあります。 何年もの間、私は一時的な合成データセット(それらはアドホックな方法で作成されたように見える)、または研究者の提案したモデリング手法に特に有利と思われるより構造化されたデータセットのいずれかに遭遇するようです。 私は合成データセットを作成するための標準的な方法を見ていると思います。ブートストラップのリサンプリングは、合成データセットを作成するための1つの一般的な方法ですが、アプリオリの構造を知って いるという条件を満たしていません。さらに、ブートストラップサンプルを他のサンプルと交換するには、データを生成する方法ではなく、データを交換する必要があります。 パラメトリック分布をデータに適合させるか、十分に近いパラメーター化モデルを見つけることができる場合、これは合成データセットを生成できる1つの例です。 他にどのような方法がありますか?特に高次元データ、スパースデータ、および時系列データに興味があります。高次元データの場合、関心のある構造(共分散構造、線形モデル、木など)を生成できるメソッドを探します。時系列データの場合、FFT、ARモデル、またはその他のさまざまなフィルタリングモデルまたは予測モデルを介した分布から開始するようです。スパースデータの場合、スパースパターンを再現すると便利なようです。 これらは表面をひっかくだけだと思います-これらはヒューリスティックであり、正式な慣行ではありません。実践者に知られるべき合成データを生成するための参照またはリソースはありますか? 注1:この質問は、特定の時系列モデルのようなデータを生成する方法に関する文献を扱っていることを理解しています。ここでの違いは、特に既知の構造(私の質問)を示すためのプラクティスと、既存のデータセットとの類似性/忠実度です。私の場合、既知の構造と同じくらい類似性を持つ必要はありませんが、類似性は非類似性よりもはるかに優先されます。モデルが有望であるエキゾチックな合成データセットは、現実的なシミュレーションよりも好ましくありません。 注2:合成データに関するWikipediaのエントリは、RubinやFienbergなどの著名人がこの問題に対処していることを指摘していますが、ベストプラクティスに関する参照は見つかりませんでした。たとえば、応用統計学(AOS)やこれらの雑誌や他の雑誌のレビュー作品で何が通用するかを知ることは興味深いでしょう。簡単で気まぐれな言葉で言えば、「(容認可能)調理済み」と「調理しすぎ」の間のしきい値はどこにあるのかと尋ねることができますか? 注3:質問には影響しませんが、使用シナリオは、さまざまな大規模で高次元のデータセットのモデリングであり、そこでは、研究の課題はデータの構造を(人間と機械の両方で;-)学ぶことです。単変量、二変量、およびその他の低次元のシナリオとは異なり、構造は容易に推測されません。構造の理解を深めるために、モデリングメソッドとデータの相互作用を確認するために(たとえば、パラメーターの安定性を調べるために)、同様のプロパティを持つデータセットを生成できることが重要です。それにもかかわらず、低次元の合成データに関する古いガイドは、より高次元のデータセットに拡張または適合させることができる出発点になる可能性があります。

5
線形回帰は正規分布をどのように使用しますか?
線形回帰では、各予測値は可能な値の正規分布から選択されたと想定されます。下記参照。 しかし、なぜ各予測値は正規分布に由来すると想定されているのでしょうか?線形回帰はこの仮定をどのように使用しますか?可能な値が正規分布していない場合はどうなりますか?

2
一般線形モデルと一般線形モデル(恒等リンク関数を使用?)
これは私の最初の投稿ですので、いくつかの標準に従っていない場合は私に気をつけてください!私は自分の質問を検索しましたが、何も起こりませんでした。 私の質問は、一般的な線形モデリング(GLM)と一般化線形モデリング(GZLM)の実際の違いに関するものです。私の場合、GZLMに対して、共変量としてのいくつかの連続変数とANCOVAのいくつかの要因になります。各変数の主な効果と、モデルで概説する3方向の相互作用を調べたいと思います。この仮説はANCOVAでテストされているか、GZLMを使用してテストされています。ANCOVAのような一般的な線形モデルの実行の背後にある数学プロセスと推論をある程度理解し、GZLMが線形モデルと従属変数を接続するリンク関数を許可していることをある程度理解しています本当に数学を理解している)。私が本当にしないこと GZLMで使用される確率分布が正常な場合(つまり、アイデンティティリンク関数?)に、一方の分析を実行し、もう一方の分析を実行しない実際的な違いまたは理由を理解してください。実行すると、結果が大きく異なります。どちらでも実行できますか?私のデータは多少正常ではありませんが、ANCOVAとGZLMの両方である程度機能します。どちらの場合でも私の仮説は支持されますが、GZLMではp値は「より良い」です。 私の考えでは、ANCOVAは恒等リンク関数を使用した正規分布従属変数を持つ線形モデルであり、GZLMに入力できるものとまったく同じでしたが、これらはまだ異なります。 可能であれば、これらの質問に光を当ててください。 最初の回答に基づいて、追加の質問があります: それらが利用した有意性検定(すなわち、F検定対Wald Chi Square)を除いてそれらが同一である場合、どちらを使用するのが最も適切でしょうか?ANCOVAは「go-toメソッド」ですが、なぜF検定が好ましいのかわかりません。誰かが私のためにこの質問にいくらか光を当てることができますか?ありがとう!

4
これらの分析手法に関するグローバルなビジョンはありますか?
私は現在、出力が入力xにどのように関係しているかを理解するために、基本的に必要なプロジェクトに取り組んでいます。ここでの特殊性は、データ(y 、x )が一度に1つずつ与えられるため、新しい(y 、x )を受け取るたびに分析を更新することです。これは、必要なすべてのデータがあり、すべてのデータを同時に使用して計算を行う「バッチ」処理とは対照的に、「オンライン」処理と呼ばれます。yyyバツバツx(y、x )(y、バツ)(y,x)(y、x )(y、バツ)(y,x) だから、私はアイデアを探して、ついに世界は3つに分かれているという結論に達しました。 最初の部分は、統計と計量経済学の土地です。そこにいる人々は、OLS、GLS、機器変数、ARIMA、テスト、相違点の違い、PCA、その他のことをしています。この土地の大部分は線形性に支配されており、「バッチ」処理のみを行います。 2番目の部分は、機械学習の島であり、人工知能、教師あり学習と教師なし学習、ニューラルネットワーク、SVMなどの言葉です。ここでは、「バッチ」処理と「オンライン」処理の両方が行われます。 3番目の部分は、私が発見したばかりの大陸全体で、ほとんどが電気技師によって占められているようです。そこで、人々はしばしば「フィルター」という言葉をツールに追加し、Widrow-Hoffアルゴリズム、再帰最小二乗法、Wienerフィルター、Kalmanフィルターなど、まだ発見していないものを発明しました。どうやら彼らはニーズに合っているため、ほとんどが「オンライン」処理を行っているようです。 私の質問は、あなたはこれらすべてについてグローバルなビジョンを持っていますか?私は、世界のこれら3つの部分が互いにあまり話し合っていないという印象を受けています。私が間違っている?とXの関係を理解する大統一理論はありますか?その理論の基礎が定められているリソースを知っていますか?YYYバツバツX この質問が本当に理にかなっているかどうかはわかりませんが、これらすべての理論の間で少し迷っています。「これまたはそれを使用すべきか?」という質問に対する答えを想像します。「何をしたいか(およびデータ)に依存します」。しかし、これら3つの世界は同じ質問(?)に答えようとしているように感じます。したがって、これらすべてについてより高い見方を持ち、それぞれの手法を特定する理由を深く理解できるはずです。y= f(x )y=f(バツ)y=f(x)

6
構造方程式モデリングの概要
同僚から、この主題についてのいくつかの助けを求められますが、私は本当に知りません。彼らは1つの研究でいくつかの潜在変数の役割について仮説を立て、審判は彼らにこれをSEMで形式化するように依頼した。彼らが必要とすることはそれほど難しくないように思えるので、私はそれを試してみると思う...今のところ、私はちょうど主題への良い紹介を探しています! これについては、Googleは本当に私の友人ではありませんでした。事前に感謝します... PS:John FoxによるRのsemパッケージによる構造方程式モデリングと、同じ著者によるこのテキストを読みました。私の目的にはこれで十分だと思いますが、とにかく他の参考文献は大歓迎です。

10
大学院レベルで応用統計を自習するための本の推奨事項はありますか?
私は大学でいくつかの統計学コースを受講しましたが、私の教育は非常に理論に基づいていることがわかりました。 私は、あなたが推薦したり、良い経験をしたりした応用統計のテキスト(大学院レベル)を持っている人がいるかどうか疑問に思っていました。

2
空間統計モデル:CAR対SAR
自己相関ジオリファレンスされた航空データをモデル化する際に、同時自己回帰モデルよりも条件付き自己回帰モデルを使用したい場合はいつですか?
23 modeling  spatial 

4
スケールパラメーターの弱く有益な事前分布
私は、スケールがどうあるべきかについて大まかな考えを持っているが、わからないという言い方をしたいときに、スケール正規分布の事前分布として対数正規分布を使用しました(正規分布、t分布など)。それについて多く。その使用は直感的に理にかなっているので使用しますが、他の人が使用するのを見たことはありません。これに隠れた危険はありますか?

4
新しいベクターをPCA空間に投影する方法は?
主成分分析(PCA)を実行した後、新しいベクトルをPCA空間に投影します(つまり、PCA座標系で座標を見つけます)。 を使用してR言語でPCAを計算しましたprcomp。これで、ベクトルにPCA回転行列を掛けることができるはずです。このマトリックスの主成分を行または列に配置する必要がありますか?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
複数の代入を使用する場合、混合効果モデルの分散コンポーネントの信頼区間を組み合わせる方法
多重代入(MI)のロジックは、欠損値を1回ではなく数回(通常はM = 5)回代入し、M個のデータセットを完成させることです。次に、M個の完成したデータセットをcomplete-dataメソッドで分析し、Rubinの式を使用してMの推定値とその標準誤差を組み合わせて、「全体的な」推定値とその標準誤差を取得します。 これまでのところ素晴らしいが、混合効果モデルの分散コンポーネントが関係する場合、このレシピをどのように適用するかわからない。分散成分のサンプリング分布は非対称です。したがって、対応する信頼区間は、典型的な「推定値±1.96 * se(推定値)」形式で与えることはできません。このため、Rパッケージlme4およびnlmeは、分散成分の標準誤差さえも提供せず、信頼区間のみを提供します。 したがって、データセットに対してMIを実行し、M個の完成したデータセットに同じ混合効果モデルを適合させた後、分散コンポーネントごとにM個の信頼区間を取得できます。問題は、これらのM区間を1つの「全体的な」信頼区間に結合する方法です。 これは可能だと思います-記事の著者(yucel&demirtas(2010)MIによる推論に対する非正規ランダム効果の影響)はそれをやったようですが、彼らはどのように正確に説明していないのでしょうか。 どんなヒントも大いに義務付けられます! 乾杯、ロック

2
複数の期間を含む差異モデルの差異の指定
2つの期間の差モデルの差を推定すると、同等の回帰モデルは次のようになります。 a。 Y私のトン=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} ここで、TreatmentTreatmentTreatmentはダミーであり、観測が治療グループからのものである場合は1に等しい および ddd、治療後の期間内に1に等しいダミーで発生しました したがって、方程式は次の値を取ります。 対照群、治療前:αα\alpha 対照群、治療後:α+λα+λ\alpha +\lambda 治療群、治療前:α+γα+γ\alpha +\gamma 治療後の治療群: α+γ+λ+δα+γ+λ+δ\alpha+ \gamma+ \lambda+ \delta したがって、2期間モデルでは、差の推定値の差はδδ\deltaです。 しかし、治療前と治療後の期間が複数ある場合、に関してどうなりますか?治療の前後が1年かどうかを示すダミーを引き続き使用しますか?dtdtd_t または、各年が前処理期間に属するか後処理期間に属するかを指定せずに、代わりに年ダミーを追加しますか?このような: b。Yist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \delta*(Treatment*d_t)+ \epsilon_{ist} または私は(すなわち、両方含むことができ、)?yeardummy+λdtyeardummy+λdtyeardummy +\lambda d_t c。Yist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+yeardummy+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + yeardummy + \lambda d_t …

2
VAR予測方法
資産の価格を予測するためにVARモデルを構築していますが、私の方法が統計的に適切かどうか、含めたテストが関連するかどうか、入力変数に基づいて信頼できる予測を確保するためにさらに必要な場合は知りたいと思います。 以下は、グレンジャーの因果関係を確認し、選択したVARモデルを予測する現在のプロセスです。 require("forecast") require("vars") #Read Data da=read.table("VARdata.txt", header=T) dac <- c(2,3) # Select variables x=da[,dac] plot.ts(x) summary(x) #Run Augmented Dickey-Fuller tests to determine stationarity and differences to achieve stationarity. ndiffs(x[, "VAR1"], alpha = 0.05, test = c("adf")) ndiffs(x[, "VAR2"], alpha = 0.05, test = c("adf")) #Difference to achieve stationarity d.x1 …
19 r  forecasting  modeling  var 

2
前のイベントの時間に基づいて、次のイベントがいつ発生するかを予測する方法は?
私は高校生で、コンピュータープログラミングプロジェクトに取り組んでいますが、高校の統計コース以外の統計やモデリングデータの経験はあまりないので、ちょっと混乱しています。 基本的に、私は誰かがドキュメントを印刷することを決めた時間のかなり大きなリストを持っています(統計的なテストや測定の仮定を満たすのに十分大きいと仮定します)。このリストに基づいて、以前のすべてのイベント時間を考慮して、次の印刷ジョブの最も可能性の高い時間を予測するある種の統計モデルを構築したいと思います。 私はすでにこれを読んでいますが、回答は私のプロジェクトで私が念頭に置いていることを正確に助けません。いくつかの追加調査を行った結果、隠れマルコフモデルを使用すると正確に行うことができる可能性が高いことがわかりましたが、時間のリストだけを使用して隠れマルコフモデルを生成する方法に関するリンクは見つかりません。また、リストでカルマンフィルターを使用すると便利な場合があることもわかりましたが、基本的には、実際にそれらを使用し、制限や要件を知っている人から、何かを試して動作することを期待する前に、それに関する詳細情報を取得したいと思います。 本当にありがとう!

1
コミュニティの第4象限に対する見解はどうですか?
ブラックスワンの名声(または悪名高い)のNassim Talebは、この概念について詳しく説明し、「統計の限界の地図」と呼ぶものを開発しました。彼の基本的な議論は、統計モデルの使用が有害である決定問題の一種があるということです。これらは、間違った決定をした結果が非常に高くなる可能性のある決定問題であり、基礎となるPDFを知るのは困難です。 1つの例は、ストックオプションのショートです。この種の操作は、無制限の(少なくとも理論上)損失につながる可能性があります。そして、そのような損失の確率は不明です。実際、多くの人々は確率をモデル化していますが、タレブは、金融市場はいずれのモデルにも自信を持たせるほど古くないと主張します。あなたが今まで見たすべての白鳥が白だからといって、それは黒い白鳥が不可能またはありそうもないことを意味しません。 それでは、ここに質問があります。タレブ氏の議論について、統計コミュニティにコンセンサスのようなものはありますか? たぶん、これはコミュニティwikiであるべきです。知りません。

4
線形相関の高い2つの予測変数のうちの1つを単純に削除できますか?
ピアソンの相関係数を使用すると、高度に相関するいくつかの変数があります(モデルにある2組の変数に対しておよび)。ρ=0.978ρ=0.978\rho = 0.978ρ=0.989ρ=0.989\rho = 0.989 理由一つの変数がで使用されているので、変数のいくつかは高度に相関しているがある計算別の変数。 例: B=V/3000B=V/3000B = V / 3000および E=V∗DE=V∗DE = V * D BBBと持っているEEEρ=0.989ρ=0.989\rho = 0.989 変数の1つを「捨てる」ことは可能ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.