タグ付けされた質問 「model」

確率論的に(ランダムに)関連する変数間の関係を数式の形式で形式化したもの。このタグ自体は使用しないでください。常により具体的なタグを含めてください。

7
いくら支払う?実用的な問題
これは在宅での質問ではなく、当社が直面している本当の問題です。 ごく最近(2日前)、10000個の製品ラベルの製造をディーラーに注文しました。ディーラーは独立した人です。彼はラベルを外部から製造し、会社はディーラーに支払いをします。各ラベルの費用は会社にとって1ドルです。 昨日、ディーラーにはラベルが付属していましたが、ラベルはそれぞれ100ラベルのパケットにバンドルされていました。このように、合計100個のパケットがあり、各パケットには10​​0個のラベルが含まれていたため、合計10000個のラベルがありました。ディーラーに10000ドルの支払いを行う前に、数個のパケットをカウントして、各パケットに100個のラベルが正確に含まれるようにしました。ラベルを数えると、100ラベルに満たないパケットが見つかりました(97ラベルが見つかりました)。これが偶然ではなく意図的に行われたことを確認するために、さらに5つのパケットをカウントし、各パケット(最初のパケットを含む)で次の数のラベルを見つけました。 Packet Number Number of labels 1 97 2 98 3 96 4 100 5 95 6 97 すべてのパケットを数えることは不可能だったため、平均ベースで支払いを行うことにしました。したがって、6つのパケットのラベルの平均数は97.166であるため、合計支払い額は9716ドルでした。 統計学者がそのようなタイプの問題にどのように対処しなければならないかを知りたいだけです。 さらに、ラベル全体の実際の数を超えて支払われていないことを95%保証するために、いくら支払うべきかを知りたいと思います。 追加情報: P(100個を超えるラベルを含むパケット)= 0 P(90個未満のラベルを含むパケット)= 0 = {パケットの重みが小さいため、パケットのカウント中に90未満のラベルが簡単に検出されます} 編集: ディーラーはそのような不正行為を単に否定した。これらのディーラーは、会社が支払っている金額についてメーカーから受け取る特定のコミッションに基づいて機能していることがわかりました。メーカーに直接連絡したところ、メーカーでもディーラーの欠陥でもないことがわかりました。製造業者は、「シートのサイズが標準化されていないためラベルが短くなり、1枚のシートから何枚でも切り取ってパケットにまとめます」と述べています。 さらに、追加の情報で与えられた最初のアサーションが検証されます。これは、製造業者がシートのサイズのわずかな増加から、追加のラベルをカットできないこと、また、シートのサイズのわずかな縮小からはカットできないことを認めたためですまったく同じサイズの100個のラベル。

4
モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか?
モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか? この質問は現象について説明していますが、私の質問には答えていません 。ANCOVAの共変量の有意でない影響をどのように解釈するか しかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値(共変量には当てはまらないと思われる有意性しきい値)を超える量を必ずしも説明することなく、分散の一部を説明できます(したがって、モデルを支援します)。 CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。(私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。) それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか?(とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。) 複雑さを追加するために、データの一部のサブセット(個別に処理する必要のあるサブセット)の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。

2
入れ子のある混合効果モデル
次のように編成された実験から収集されたデータがあります。 それぞれが30本のツリーを持つ2つのサイト。15が処理され、15が各サイトのコントロールです。各ツリーから、ステムの3つの部分とルートの3つの部分をサンプリングします。したがって、2つの因子レベル(ルート、ステム)のいずれかで表されるツリーごとに6つのレベル1のサンプルです。次に、それらのステム/ルートサンプルから、サンプル内の異なる組織を解剖することで2つのサンプルを取得します。これは、組織タイプ(組織タイプA、組織タイプB)の2つの因子レベルの1つで表されます。これらのサンプルは、連続変数として測定されます。観測の総数は720です。2つのサイト* 30本の木*(3つの幹サンプル+ 3つのルートサンプル)*(1つの組織Aサンプル+ 1つの組織Bサンプル)。データは次のようになります... ï..Site Tree Treatment Organ Sample Tissue Total_Length 1 L LT1 T R 1 Phloem 30 2 L LT1 T R 1 Xylem 28 3 L LT1 T R 2 Phloem 46 4 L LT1 T R 2 Xylem 38 5 L LT1 T R 3 …

6
節約は本当にゴールドスタンダードである必要がありますか?
ちょっとした考え: 控えめなモデルは常にモデル選択のデフォルトの対象でしたが、このアプローチはどの程度古くなっていますか?私たちのpar約傾向が、アバチとスライドのルール(または、もっと真剣に、非近代的なコンピューター)の時代の遺物であることに興味があります。今日の計算能力により、予測能力がさらに向上し、ますます複雑化するモデルを構築できます。この計算能力の上限の増加の結果として、私たちは本当に単純さに引き寄せられる必要があるのでしょうか? 確かに、より単純なモデルは理解と解釈が容易ですが、変数の数が増え、予測機能に重点が置かれるようになりつつあるデータセットが増え続ける時代には、これはもはや達成できず、必要もありません。 考え?

2
通常のエラーの代わりにtエラーを使用する必要があるのはなぜですか?
で、このアンドリュー・ゲルマンによって、ブログの記事、次の一節があります: 50年前のベイジアンモデルは絶望的に単純に見えます(もちろん、単純な問題を除いて)。そして、今日のベイジアンモデルは50年後には絶望的に単純に見えると思います。(簡単な例として:ほぼどこでも通常のエラーの代わりに日常的にtを使用する必要がありますが、馴染み、習慣、数学的利便性のため、まだ使用していません。政治では、保守主義には賛成で多くの良い議論がありますが、最終的には、より複雑なモデルに慣れると、その方向に進むと思います。) なぜ「ほぼどこでも通常のエラーの代わりに通常tを使用する」必要があるのでしょうか?

6
素人の言葉では、モデルと分布の違いは何ですか?
ウィキペディアで定義されている回答(定義)は、高等数学/統計になじみのない人にとっては間違いなく少し不可解です。 数学用語では、統計モデルは通常ペア()と考えられますは可能な観測値のセット、つまりサンプル空間、は確率分布のセットです上の。S、PS、PS, \mathcal{P}SSSPP\mathcal{P}SSS 確率と統計では、確率分布は、ランダムな実験、調査、または統計的推論の手順の可能な結果の各測定可能なサブセットに確率を割り当てます。サンプル空間が非数値である例が見つかります。この例では、分布はカテゴリー分布になります。 私は非常に趣味としてこの分野に関心のある高校生だと現在あるものとの違いに苦しんでいますstatistical modelし、Aprobability distribution 私の現在の非常に初歩的な理解はこれです: 統計モデルは、測定された分布を近似する数学的な試みです 確率分布は、ランダムイベントの各可能な結果に確率を割り当てる実験から測定された説明です 混乱は、文学で「分布」と「モデル」という言葉が同じ意味で使用されているか、または少なくとも非常によく似た状況(たとえば、二項分布と二項モデル)で見られる傾向によってさらに悪化します。 誰かが私の定義を検証/修正し、おそらくこれらの概念に対してより形式化されたアプローチを提供できますか?

5
過剰適合モデルは必ずしも役に立たないでしょうか?
モデルのトレーニングデータの精度は100%、テストデータの精度は70%と仮定します。このモデルについて次の議論は真実ですか? これが過剰適合モデルであることは明らかです。オーバーフィッティングを減らすことで、テストの精度を高めることができます。しかし、このモデルはテストデータに対して許容可能な精度を持っているため、依然として有用なモデルである可能性があります。

3
「統計実験」と「統計モデル」の違いは何ですか?
AW van der Vaartの漸近統計(1998年)をフォローしています。彼は統計実験とは異なり、統計モデルとは異なると主張しているが、どちらも定義していない。私の質問: (1)統計実験、(2)統計モデル、(3)統計実験と統計モデルを常に区別する重要な要素は何ですか?

3
回帰におけるnullモデルとは何ですか?またnull仮説とどのように関係しますか?
回帰におけるnullモデルとは何ですか?nullモデルとnull仮説の関係は何ですか? 私の理解のために、それは意味します 「応答変数の平均」を使用して連続応答変数を予測しますか? 離散応答変数の予測に「ラベル分布」を使用していますか? その場合、帰無仮説間の関係が欠落しているようです。

2
難易度の高い本当に単純なモデルの例は何でしょうか?
近似ベイズ計算は、基本的に任意の確率モデルをフィッティングするための本当にクールな手法です。尤度が手に負えないモデルを対象としています(たとえば、パラメーターを修正してもモデルからサンプリングできますが、数値的、アルゴリズム的、または分析的に尤度を計算することはできません)。聴衆におおよそのベイズ計算(ABC)を導入すると、本当に簡単ではあるがまだ多少面白いですいくつかの例のモデルを使用していいですし、それが難治可能性があります。 まだ手に負えない可能性がある本当に単純なモデルの良い例は何でしょうか?

4
勾配ブースティングマシンの精度は、反復回数が増えると低下します
caretR のパッケージを介して勾配ブースティングマシンアルゴリズムを試しています。 小さな大学入学データセットを使用して、次のコードを実行しました。 library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

3
シェーンフェルト残差が良くない場合の比例ハザード回帰モデルのオプションは何ですか?
を使用してRでCox比例ハザード回帰を実行していcoxphます。これには多くの変数が含まれています。マーチンゲール残差は見栄えが良く、シェーンフェルト残差はすべての変数のALMOSTに最適です。シェーンフェルトの残差が平坦でない3つの変数があり、変数の性質は、時間とともに変化することが理にかなっています。 これらは私があまり興味を持たない変数なので、階層にすると良いでしょう。ただし、それらはすべて連続変数であり、カテゴリ変数ではありません。そのため、私は地層が実行可能なルートではないと認識しています*。ここで説明したように、変数と時間の相互作用を構築しようとしましたが、エラーが発生します。 In fitter(X, Y, strats, offset, init, control, weights = weights, : Ran out of iterations and did not converge 私はほぼ1000個のデータポイントで作業しており、それぞれ多くの要因を持つ6個の変数で作業しているので、このデータをスライスしてさいの目に切る方法の限界を押し上げているように感じます。残念ながら、含まれる変数を減らして試したより単純なモデルはすべて明らかに悪化しています(例:シェーンフェルトの残差は、変数が増えるとより汚れやすくなります)。 私のオプションは何ですか?私はこれらの特定の不適切な動作の変数を気にしないので、それらの出力を単に無視したいのですが、それは有効な解釈ではないと思います! * 1つは連続、1つは100を超える範囲の整数、1つは6の範囲の整数です。おそらくビニングですか?

2
2つの線形回帰モデルがある場合、どちらのモデルのほうがパフォーマンスが向上しますか?
私は大学で機械学習コースを始めました。クイズの1つで、この質問が尋ねられました。 モデル1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon モデル2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 上記のモデルのどれがデータによりよく適合しますか?(線形回帰を使用してデータをモデル化できると仮定) (教授によると)正しい答えは、両方のモデルが同等にうまく機能するということです。ただし、最初のモデルの方が適していると思います。 これが私の答えの背後にある理由です。以下のように書き換えることができる第2のモデル、αx+ϵαx+ϵ \alpha x + \epsilon 、α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2第一のモデルと同じではないであろう。αα\alpha実際に放物線であるため、最小値を有する(−0.25−0.25 -0.25 この場合は)。このため、最初のモデルのθθ \theta の範囲は、2番目のモデルのの範囲よりも大きくなっていますαα \alpha 。したがって、データがそのようなもので、最適な近似の勾配が-−0.25−0.25-0.25、第2のモデルは、最初の1に比べて非常にうまく機能しないでしょう。ただし、ベストフィットの勾配が−0.25−0.25-0.25、両方のモデルのパフォーマンスは同等です。 最初の方が良いのですか、それともまったく同じですか?

2
誤った仕様のもとでの統計的推論
統計的推論の古典的な扱いは、正しく指定された統計が使用されるという仮定に依存しています。つまり、観測データを生成した分布は統計モデル一部です: ただし、ほとんどの場合、これが本当に正しいとは限りません。正しく指定された仮定を破棄すると、統計的推論手順はどうなるのだろうか。P∗(Y)P∗(Y)\mathbb{P}^*(Y)yyyMM\mathcal{M}P∗(Y)∈M={Pθ(Y):θ∈Θ}P∗(Y)∈M={Pθ(Y):θ∈Θ}\mathbb{P}^*(Y) \in \mathcal{M}=\{\mathbb{P}_\theta(Y) :\theta \in \Theta\} 私は1982年にWhiteがML推定値に関する誤った仕様の下でいくつかの仕事を見つけました。その中で、最尤推定量は、分布 は、統計モデル内のすべての分布と真の分布\ mathbb {P} ^ *からKL発散を最小化します。Pθ1=argminPθ∈MKL(P∗,Pθ)Pθ1=arg⁡minPθ∈MKL(P∗,Pθ)\mathbb{P}_{\theta_1}=\arg \min_{\mathbb{P}_\theta \in \mathcal{M}} KL(\mathbb{P}^*,\mathbb{P}_\theta)P∗P∗\mathbb{P}^* 信頼セット推定量はどうなりますか?信頼度セット推定量を再現できます。してみましょう δ:ΩY→2Θδ:ΩY→2Θ\delta:\Omega_Y \rightarrow 2^\Thetaセットの推定、可能ΩYΩY\Omega_Yサンプルスペースとである2Θ2Θ2^\Thetaパラメータ空間での電力セットΘΘ\Theta。私たちが知りたいのは、\ deltaによって生成されたセットδδ\deltaが真の分布\ mathbb {P} ^ *を含むイベントの確率P∗P∗\mathbb{P}^*、つまりP∗(P∗∈{Pθ:θ∈δ(Y)}):=A.P∗(P∗∈{Pθ:θ∈δ(Y)}):=A.\mathbb{P}^*(\mathbb{P}^* \in \{P_\theta : \theta \in \delta(Y)\}):=A. ただし、実際の分布\ mathbb {P} ^ *はわかりませんP∗P∗\mathbb{P}^*。正しく指定された仮定は、P∗∈MP∗∈M\mathbb{P}^* \in \mathcal{M}ます。ただし、モデルのどの分布であるかはまだわかりません。ただし、infθ∈ΘPθ(θ∈δ(Y)):=Binfθ∈ΘPθ(θ∈δ(Y)):=B\inf_{\theta \in \Theta} \mathbb{P}_\theta(\theta \in \delta(Y)):=Bは確率Aの下限ですAAA。方程式BBBは、信頼セット推定量の信頼レベルの古典的な定義です。 正しく指定された仮定を破棄する場合、BBBは必ずしもAの下限ではなく、AAA実際に関心のある用語は、もはやです。確かに、モデルの指定が間違っていると仮定すると、ほとんどの現実的な状況では間違いなくAAAは0です。これは、真の分布P∗P∗P^*が統計モデル\ mathcal {M}に含まれていないためMM\mathcal{M}です。 別の観点から、モデルが誤って指定されている場合にBが何にBBB関連するかを考えることができます。これはより具体的な質問です。モデルの指定が間違っている場合、Bにはまだ意味がありますか。BBBそうでない場合、なぜパラメトリック統計に悩まされるのでしょうか? White 1982には、これらの問題に関するいくつかの結果が含まれていると思います。残念なことに、数学的な背景がないため、そこに書かれていることをあまり理解できません。

1
カテゴリー変数間の相互作用が含まれる場合の混合モデルからの回帰出力の解釈
混合モデル/ lmerの使用について質問があります。基本モデルは次のとおりです。 lmer(DV ~ group * condition + (1|pptid), data= df) グループと条件は両方の要因です。グループには2つのレベル(groupA、groupB)があり、条件には3つのレベル(condition1、condition2、condition3)があります。それは人間の被験者からのデータであるため、pptidは各人のランダムな効果です。 モデルは、p値の出力で以下を見つけました。 Estimate MCMCmean HPD95lower HPD95upper pMCMC Pr(>|t|) (Intercept) 6.1372 6.1367 6.0418 6.2299 0.0005 0.0000 groupB -0.0614 -0.0602 -0.1941 0.0706 0.3820 0.3880 condition2 0.1150 0.1151 0.0800 0.1497 0.0005 0.0000 condition3 0.1000 0.1004 0.0633 0.1337 0.0005 0.0000 groupB:condition2 -0.1055 -0.1058 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.