タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

2
負の二項分布変数の違いを説明する分布?
スケルラム分布はポアソン分布を持つ2つの変数の違いを説明しています。負の二項分布に従う変数間の違いを説明する同様の分布はありますか? 私のデータはポアソンプロセスによって生成されますが、かなりの量のノイズが含まれており、分布に過剰分散が生じています。したがって、負の二項(NB)分布を使用したデータのモデリングはうまく機能します。これらのNBデータセットの2つの違いをモデル化する場合、私のオプションは何ですか?役立つ場合は、2つのセットで同様の平均と分散を仮定します。

3
回帰におけるR二乗とp値の関係は何ですか?
tl; dr-OLS回帰の場合、Rの2乗が大きいほどP値も高いことを意味しますか?特に単一の説明変数(Y = a + bX + e)についてですが、n個の複数の説明変数(Y = a + b1X + ... bnX + e)についても知りたいと思います。 コンテキスト-変数の範囲でOLS回帰を実行し、線形、対数など、各説明(独立)変数の変換の間のR 2乗値を含むテーブルを作成することにより、最適な説明関数形式を開発しようとしています。および応答(従属)変数。これは少し似ています: 変数名--linear form-- --ln(variable)--exp(variable)-... etc 変数1 ------- R-squared ---- R-squared ---- R-squared-... など... Rの2乗が適切か、またはP値の方が良いかどうか疑問に思っています。より重要な関係はより高い説明力を意味するが、それが厳密な方法で真実であるかどうかはわからないため、おそらく何らかの関係があります。

1
ロジスティック回帰の特性
いくつかのロジスティック回帰を使用しており、平均推定確率は常にサンプル内の確率の割合に等しいことがわかりました。つまり、近似値の平均はサンプルの平均に等しくなります。 誰かが私に理由を説明したり、このデモを見つけることができる参照を教えてもらえますか?

5
大きなデータでのポアソン回帰:測定単位を変更するのは間違っていますか?
ポアソン分布の階乗のため、観測値が大きい場合、ポアソンモデルを推定することは(たとえば、最尤法を使用して)非実用的になります。たとえば、特定の年の自殺者数を説明するモデルを推定しようとしている場合(年間データのみが利用可能です)、たとえば、毎年何千人も自殺しているとすると、自殺者を数百人で表現するのは間違っていますか? 、したがって2998は29.98〜= 30になりますか?つまり、データを管理しやすくするために測定単位を変更するのは間違っていますか?

7
歪んだデータがモデリングに好ましくないのはなぜですか?
多くの場合、人々が変数変換(予測変数と応答変数の両方)について話すとき、データの歪度を処理する方法(ログ変換、ボックスおよびcox変換など)について議論します。私が理解できないのは、歪度を除去することがこのような一般的なベストプラクティスと考えられる理由です。歪度は、ツリーベースのモデル、線形モデル、非線形モデルなどのさまざまな種類のモデルのパフォーマンスにどのように影響しますか?どのようなモデルが歪度の影響をより強く受けますか?その理由は?

1
係数が線形制限の対象となるRでのモデルの適合
係数をバインドする1つ(または複数)の厳密な線形制限が利用可能な場合、Rでモデル式をどのように定義する必要がありますか。例として、単純な線形回帰モデルでb1 = 2 * b0であることを知っているとしましょう。 ありがとうございました!
16 r  regression  modeling 

2
列車が到着する前に時間をモデル化するために使用する分布は何ですか?
電車の到着時間に関するデータをモデル化しようとしています。「長く待つほど、電車が現れる可能性が高くなります」をキャプチャするディストリビューションを使用したいと思います。そのような分布はCDFのように見えるはずなので、P(train show up | waited 60 minutes)は1に近くなります。ここでどの分布を使用するのが適切ですか?

7
パーセンテージデータにはどのような曲線(またはモデル)を適合させる必要がありますか?
ウイルスコピーとゲノムカバレッジ(GCC)の関係を示す図を作成しようとしています。これは私のデータのようです: 最初、私は線形回帰をプロットしましたが、スーパーバイザーはそれが間違っていると私に言って、シグモイド曲線を試してみました。そこで、geom_smoothを使用してこれを行いました。 library(scales) ggplot(scatter_plot_new, aes(x = Copies_per_uL, y = Genome_cov, colour = Virus)) + geom_point() + scale_x_continuous(trans = log10_trans(), breaks = trans_breaks("log10", function(x) 10^x), labels = trans_format("log10", math_format(10^.x))) + geom_smooth(method = "gam", formula = y ~ s(x), se = FALSE, size = 1) + theme_bw() + theme(legend.position = 'top', legend.text …

2
モデルの洗練を停止するタイミング
私は過去3年間、多くの本から統計を研究してきましたが、このサイトのおかげで多くのことを学びました。それにもかかわらず、1つの基本的な質問が未解決のままです。非常に単純な答えまたは非常に難しい答えを持っているかもしれませんが、統計の深い理解が必要であることは確かです。 モデルをデータに適合させるとき、それが頻繁なアプローチであろうとベイジアンアプローチであろうと、我々はモデルを提案します。ある程度の良さを持つサンプルに適合します。現在手元にあるものと比較して、より良いまたは悪いモデルをいつでも見つけることができます。ある時点で、結論を出したり、母集団パラメーターに一般化したり、信頼区間を報告したり、リスクを計算したりします。AIC、MDLなど、予想されるKL距離を推定するツールを使用している場合でも、絶対ベースでの位置については何も言わず、相対的ベースで推定を改善するだけです。 ここで、モデルを構築するときに任意のデータセットに適用する手順をステップごとに定義したいとします。停止ルールとして何を指定する必要がありますか?少なくとも、客観的な停止点を与えるモデルエラーをバインドできますか(これは、検証サンプルを使用してトレーニングを停止することとは異なります。これは、真のDGPではなく、評価されたモデルクラス内に停止点を与えるためです)。

5
統計モデルの構築とは正確には何ですか?
統計モデルの構築とは正確には何ですか? 最近、研究やコンサルティングの仕事に応募しているときに、「モデルの構築」や「モデリング」という用語がよく出てきます。用語はクールに聞こえますが、彼らは正確に何を指しているのですか?どうやってモデルをに構築しますか? k-nnとロジスティック回帰を含む予測モデリングを調べました。
15 modeling 

3
二次項または相互作用項のいずれかが単独では重要ですが、どちらも一緒ではありません
割り当ての一環として、2つの予測変数を使用してモデルを適合させる必要がありました。次に、含まれている予測子の1つに対してモデルの残差のプロットを描画し、それに基づいて変更を行う必要がありました。プロットは曲線の傾向を示したため、その予測子の2次項を含めました。新しいモデルは、二次項が重要であることを示しました。これまでのところすべて良い。 しかし、データは相互作用も理にかなっていることを示唆しています。元のモデルに相互作用項を追加すると、曲線トレンドが「固定」され、モデルに追加されたときにも重要になりました(2次項なし)。問題は、二次項と相互作用項の両方がモデルに追加されるとき、それらの一方は重要ではないということです。 モデルに含める用語(2次または相互作用)とその理由

4
メタ分析の入門的な治療法を探しています
(統計学者ではない)同僚は、医学雑誌でレビューする論文でメタ分析に遭遇し、自分自身を教育できるように、入門レベルの優れた治療法を探しています。推奨事項はありますか?お気に入り?書籍、モノグラフ、非技術的な調査記事はすべて問題ありません。 (はい、彼はWikipediaのエントリと、Jerry Dallalの素敵な小さな記事など、Google検索で簡単にアクセスできる他のものに精通しています。)

2
過分散を伴うポアソン分布のモデリング
ポアソン分布に従うと思われるデータセットがありますが、それは約3倍過剰に分散しています。現時点では、Rの次のコードのようなものを使用して、この過分散をモデリングしています。 ## assuming a median value of 1500 med = 1500 rawdist = rpois(1000000,med) oDdist = rawDist + ((rawDist-med)*3) 視覚的には、これは私の経験データに非常によく当てはまるようです。フィットに満足している場合、ここで説明するように、負の二項分布を使用するなど、もっと複雑なことをする必要がある理由はありますか?(もしそうなら、そうすることへのポインターかリンクは大いに感謝されるでしょう)。 ああ、私はこれがわずかにギザギザの分布を作成することを知っています(3の乗算のため)が、それは私のアプリケーションにとっては問題ではありません。 更新: この質問を検索して見つける他の人のために、負の二項分布を使用して過分散ポアソンをモデル化する単純なR関数を次に示します。dを目的の平均/分散比に設定します。 rpois.od<-function (n, lambda,d=1) { if (d==1) rpois(n, lambda) else rnbinom(n, size=(lambda/(d-1)), mu=lambda) } (Rメーリングリスト経由:https : //stat.ethz.ch/pipermail/r-help/2002-June/022425.html)

2
2つの線形回帰モデルがある場合、どちらのモデルのほうがパフォーマンスが向上しますか?
私は大学で機械学習コースを始めました。クイズの1つで、この質問が尋ねられました。 モデル1:y=θx+ϵy=θx+ϵ y = \theta x + \epsilon モデル2:y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon 上記のモデルのどれがデータによりよく適合しますか?(線形回帰を使用してデータをモデル化できると仮定) (教授によると)正しい答えは、両方のモデルが同等にうまく機能するということです。ただし、最初のモデルの方が適していると思います。 これが私の答えの背後にある理由です。以下のように書き換えることができる第2のモデル、αx+ϵαx+ϵ \alpha x + \epsilon 、α=θ+θ2α=θ+θ2\alpha = \theta + \theta^2第一のモデルと同じではないであろう。αα\alpha実際に放物線であるため、最小値を有する(−0.25−0.25 -0.25 この場合は)。このため、最初のモデルのθθ \theta の範囲は、2番目のモデルのの範囲よりも大きくなっていますαα \alpha 。したがって、データがそのようなもので、最適な近似の勾配が-−0.25−0.25-0.25、第2のモデルは、最初の1に比べて非常にうまく機能しないでしょう。ただし、ベストフィットの勾配が−0.25−0.25-0.25、両方のモデルのパフォーマンスは同等です。 最初の方が良いのですか、それともまったく同じですか?

3
固定/ランダム効果モデルの背後にある概念
誰かが固定/ランダム効果モデルを理解するのを手伝ってくれますか?これらの概念を消化した場合は、独自の方法で説明するか、特定のアドレス(ページ番号、章など)でリソース(書籍、メモ、Webサイト)に移動して、混乱なく学習できるようにします。 これは本当ですか:「一般に固定効果があり、ランダム効果は特定のケースです」?説明が一般的なモデルから固定およびランダムな効果のある特定のモデルに移行する場合に特に助けていただければ幸いです

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.