タグ付けされた質問 「modeling」

このタグは、統計モデルまたは機械学習モデルを作成するプロセスを説明します。常により具体的なタグを追加します。

5
どの統計分類アルゴリズムが入力シーケンスの真/偽を予測できますか?
入力シーケンスが与えられたら、このシーケンスに特定の望ましい特性があるかどうかを判断する必要があります。プロパティはtrueまたはfalseのみです。つまり、シーケンスが属することができるクラスは2つだけです。 シーケンスとプロパティの正確な関係は不明ですが、非常に一貫性があり、統計的な分類に役立つはずです。分類器をトレーニングするケースは多数ありますが、このトレーニングセットではシーケンスに間違ったクラスが割り当てられる可能性がわずかにあるという意味で、少しうるさいかもしれません。 トレーニングデータの例: Sequence 1: (7 5 21 3 3) -> true Sequence 2: (21 7 5 1) -> true Sequence 3: (12 21 7 5 11 1) -> false Sequence 4: (21 5 7 1) -> false ... 大まかに言うと、プロパティはシーケンス内の値のセット(たとえば、「11」の存在はプロパティがほぼ確実にfalseであることを意味します)、および値の順序(「21 7 5 「プロパティがtrueである可能性が大幅に増加します)。 トレーニング後、分類器にのように以前は見えなかったシーケンスを与えることができ(1 21 7 5 3)、プロパティがtrueであるという確信を出力する必要があります。この種の入力/出力で分類器をトレーニングするための有名なアルゴリズムはありますか? 私は、単純なベイズ分類器(少なくとも入力が独立しているという仮定をひどく壊すことなく、順序が重要であるという事実に実際には適応できない)を検討しました。また、隠れマルコフモデルのアプローチについても調査しました。これは、入力ごとに1つの出力ではなく、1つの出力しか利用できないため、適用できないようです。私は何を取りこぼしたか?

1
回帰の比率、別名Kronmalに関する質問
最近、質問をランダムに閲覧すると、回帰モデルでの比率の使用に関する数年前の警告から私の教授の一人からのオフコメントの記憶がトリガーされました。だから私はこれについて読み始め、最終的には1993年のKronmalに至った。 これらをモデル化する方法に関する彼の提案を正しく解釈していることを確認したいと思います。 従属側と独立側の両方で同じ分母を持つ比率のモデルの場合: Z− 1Y= Z− 11nβ0+ Z− 1バツβバツ+ βZ+ Z− 1ϵZ−1Y=Z−11nβ0+Z−1バツβバツ+βZ+Z−1ϵ Z^{-1}Y = Z^{-1}1_n\beta_0 + Z^{-1}X\beta_X + \beta_Z + Z^{-1}\epsilon 他の比率に加えて、(逆)分母変数の回帰依存比率 (逆)分母変数による重み 比率として従属変数を持つモデルの場合: Y= β0+ βバツバツ+ Z1nα0+ Zバツαバツ+ Z− 1ϵY=β0+βバツバツ+Z1nα0+Zバツαバツ+Z−1ϵ Y = \beta_0 + \beta_XX + Z1_n\alpha_0 + ZX\alpha_X + Z^{-1}\epsilon 元の変数、分母、および分母の元の変数による分子の回帰[カテゴリ変数はどうですか?] (逆)分母による重み 独立変数比のみのモデルの場合: Y= β0+ Xβバツ+ Z− 11nβZ− …

2
人口密度推定のモデル
(人口、面積、形状)のデータベースを使用して、人口/面積の一定値を各形状(国勢調査区、区域、郡、州などの多角形)に割り当てることにより、人口密度をマッピングできます。ただし、通常、人口はポリゴン内で均一に分布していません。 ダシメトリックマッピングは、補助データを使用してこれらの密度推定値を調整するプロセスです。この最近のレビューが示すように、それは社会科学の重要な問題です。 それでは、土地被覆の補助地図(またはその他の離散的な要因)を利用できると仮定します。最も単純なケースでは、水域のような明らかに居住できないエリアを使用して、人口がいない場所を特定し、それに応じて、すべての人口を残りのエリアに割り当てることができます。より一般的には、各センサスユニットに刻まれている表面領域を有する部分、。これにより、データセットはタプルのリストに追加されますjjjkkkxjixjix_{ji}i=1,2,…,ki=1,2,…,ki = 1, 2, \ldots, k (yj,xj1,xj2,…,xjk)(yj,xj1,xj2,…,xjk)(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk}) ここで、はユニットの母集団(エラーなしで測定されたと仮定)であり、厳密にはそうではありませんが、すべてのも正確に測定されたと仮定できます。これらの用語では、目的は各を合計に分割することですyjyjy_{j}jjjxjixjix_{ji}yjyjy_{j} yj=zj1+zj2+⋯+zjkyj=zj1+zj2+⋯+zjk y_j = z_{j1} + z_{j2} + \cdots + z_{jk} ここで、各およびは、土地被覆クラス存在するユニット内の人口を推定します。推定値に偏りがないことが必要です。このパーティションは、密度を国勢調査ポリゴンと土地被覆クラスの交点に割り当てることにより、人口密度マップを改良し。 、Z 、J 、I、J 、I 、Z 、J 、I / X jのI J 番目の I 番目zji≥0zji≥0z_{ji} \ge 0zjizjiz_{ji}jjjiiizji/xjizji/xjiz_{ji}/x_{ji}jthjthj^{\text{th}}ithithi^{\text{th}} この問題は、顕著な点で標準の回帰設定とは異なります。 各の分割は正確でなければなりません。 yjyjy_{j} すべてのパーティションのコンポーネントは非負でなければなりません。 (仮定により)どのデータにもエラーはありません。すべての人口カウントおよびすべての領域は正しいです。 x j iyjyjy_{j}xjixjix_{ji} 「インテリジェントダシメトリックマッピング」メソッドなど、ソリューションには多くのアプローチがありますが、私が読んだものはすべて、アドホックな要素と明らかなバイアスの可能性を持っています。私は、創造的で計算が扱いやすい統計的手法を示唆する答えを探しています。直接の適用は、cの …

2
モデル調整をわかりやすい英語で説明する
特に疫学における統計分析の方法と結果について読むと、モデルの調整や制御についてよく耳にします。 非統計学者に、その目的をどのように説明しますか?特定の変数を制御した後、結果をどのように解釈しますか? StataまたはRでの小さなウォークスルー、またはオンラインへのポインターは、本当の宝石です。

2
予測は統計学者の能力を判断するための「黄金の基準」ですか?
先週末、R(初版)でFarawayの教科書の線形モデルを読んでいました。Farawayには「統計戦略とモデルの不確実性」という章がありました。彼は非常に複雑なモデルを使用して人為的にいくつかのデータを生成したと述べ(158ページ)、学生にデータをモデル化し、学生の予測結果と読み取り結果を比較するように依頼しました。残念ながら、ほとんどの学生はテストデータを過剰に適合させ、予測値を完全に外れました。この現象を説明するために、彼は私に非常に印象的な何かを書きました: 「モデルが非常に異なっていた理由は、生徒がさまざまな方法を異なる順序で適用したためです。一部は変換前に変数選択を行い、他は逆になりました。ことを使用し、学生のいくつかと、明らかに間違って何も見つけることができなかった、彼らが行っていたものとします。一人の学生は、計算にミスを犯した彼または彼女は、予測値が、残りの部分では、明らかに間違って何もありませんでした。この割り当てのパフォーマンスが表示されませんでした試験におけるそれとの関係。 」 モデルの予測精度は、最高のモデル性能を選択するための「黄金の基準」であると教育を受けました。誤解しない限り、これはKaggleコンテストで使用される一般的な方法でもあります。しかし、ここでFarawayは、モデルの予測パフォーマンスには何の関係もないという、異なる性質のものを観察しました。関係する統計学者の能力を使って。つまり、予測力の観点から最適なモデルを構築できるかどうかは、実際の経験によって決定されるわけではありません。代わりに、それは巨大な「モデルの不確実性」(盲目的な運?)によって決定されます。私の質問は、これは実生活のデータ分析でも同様ですか?または、非常に基本的なものと混同されましたか?これが真実なら、実際のデータ分析への影響は計り知れないからです。データの背後にある「実際のモデル」を知らなくても、経験豊富な/経験のない統計学者によって行われた作業に本質的な違いはありません:利用可能なトレーニングデータ。

1
パラメーターと潜在変数
私はこれについて以前に尋ねましたが、何がモデルパラメータを作り、何が潜在変数を作るのかを特定することに本当に苦労してきました。このサイトのこのトピックに関するさまざまなスレッドを見ると、主な違いは次のように思われます。 潜在変数は観察されませんが、変数であり、パラメータも観察されず、それらに関連する分布がないため、関連する確率分布があります。これらは定数であり、固定しようとしている未知の値を持っていると理解しています見つける。また、パラメーターに関連付けられた真の値が1つだけであるか、少なくともそれが想定されている場合でも、これらのパラメーターに関する不確実性を表すためにパラメーターに事前分布を置くことができます。私はこれまでのところ正しいと思いますか? 今、私はジャーナル論文からベイジアン加重線形回帰のこの例を見ており、パラメーターと変数とは何かを理解するのに本当に苦労しています: y私= βTバツ私+ ϵy私y私=βTバツ私+ϵy私 y_i = \beta^T x_i + \epsilon_{y_i} ここでは、とyが観察されますが、yのみが変数として扱われます。つまり、それに関連付けられた分布があります。バツバツxyyyyyy 現在、モデリングの前提は次のとおりです。 y〜N(βTバツ私、σ2/ w私)y〜N(βTバツ私、σ2/w私) y \sim N(\beta^Tx_i, \sigma^2/w_i) したがって、の分散は重み付けされます。yyy また、およびwには事前分布があり、それぞれ正規分布とガンマ分布です。 ββ\betawww したがって、完全な対数尤度は次のように与えられます。 ログp (y、w 、β| X)=ΣログP(y私| w、β、x私)+ ログP(β)+ Σ ログP(w私)ログ⁡p(y、w、β|バツ)=Σログ⁡P(y私|w、β、バツ私)+ログ⁡P(β)+Σログ⁡P(w私) \log p(y, w, \beta |x) = \Sigma \log P(y_i|w, \beta, x_i) + \log P(\beta) + \Sigma \log P(w_i) …

1
加法エラーまたは乗法エラー?
私は統計に比較的不慣れであり、これをよりよく理解するのに役立つことを感謝します。 私の分野では、一般的に使用される形式のモデルがあります。 Pt= Po(Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha 人々がモデルをデータに適合させるとき、彼らは通常それを線形化し、以下に適合します ログ(Pt)= ログ(Po)+ αのログ(Vt)+ ϵログ⁡(Pt)=ログ⁡(Po)+αログ⁡(Vt)+ϵ\log(P_t) = \log(P_o) + \alpha \log(V_t) + \epsilon これでいい?信号のノイズのために実際のモデルは Pt= Po(Vt)α+ ϵPt=Po(Vt)α+ϵP_t = P_o(V_t)^\alpha + \epsilon 上記のように線形化することはできません。これは本当ですか?もしそうなら、誰かが私がそれを読んで学ぶことができ、おそらくレポートで引用することができるリファレンスを知っていますか?

1
AIC / BIC:順列は何個のパラメーターをカウントしますか?
モデル選択の問題があり、AICまたはBICを使用してモデルを評価しようとしているとします。これは、の実数値パラメーターを持つモデルの場合、簡単です。kkk しかし、モデルの1つ(たとえばMallowsモデル)に順列があり、実際の値のパラメーターではなく、実際の値のパラメーターがいくつかある場合はどうでしょうか。モデルパラメーターの尤度を最大化することもできます。たとえば、置換とパラメーター取得します。ただし、はAIC / BICの計算にカウントされますか?ππ\pipppππ\pi

1
比率を分析するための手法
比率とレートの分析に関するアドバイスとコメントを探しています。私が仕事をしている分野では、特に比率の分析が広まっていますが、これが問題になる可能性があることを示唆するいくつかの論文を読みました。 Kronmal、Richard A.1993。スプリアス相関と比率標準の誤りを再検討。Journal of the Royal Statistical SocietyシリーズA 156(3):379-392 および関連論文。私がこれまでに読んだことから、比率は偽の相関を生成し、原点を通る回帰直線を強制し(これは常に適切ではない)、それらをモデリングすると正しく行われないと限界の原則に違反する可能性があります(リチャード・ゴールドスタインによる比率の使用))。ただし、比率の使用が正当化される機会がなければならず、このトピックに関して統計学者からの意見が必要でした。

2
構造方程式モデルに非常に小さなサンプルがあることの複雑さ
Amos 18で構造方程式モデル(SEM)を実行しています。実験に100人の参加者(緩やかに使用)を探していましたが、SEMを成功させるにはおそらく十分ではないと思われました。SEM(EFA、CFAとともに)は「大規模なサンプル」統計手順であると繰り返し言われました。簡単に言えば、私は100人の参加者には到達しませんでした(なんて驚きです!)。問題のある2つのデータポイントを除外した後は42人しかいません。興味深いことに、とにかくこのモデルを試してみましたが、驚いたことに、非常にうまく適合しているようでした!CFI> .95、RMSEA <.09、SRMR <.08。 このモデルは単純ではありません。実際、比較的複雑だと思います。2つの潜在変数があり、1つは観測値が2つ、もう1つは観測値が5つあります。また、モデルには4つの追加の観測変数があります。間接変数と直接変数には多くの関係があり、例として、いくつかの変数は他の4つの変数に内因性があります。 私はSEMにやや不慣れです。ただし、SEMに精通している私が知っている2人の個人は、フィットインデックスが良好である限り、効果は解釈可能であり(有意である限り)、モデルに重大な「誤り」はないことを教えてくれます。いくつかの適合指数は、良好な適合を示唆するという点で小さなサンプルに対してバイアスがかけられていることを知っていますが、前述の3つはうまく見えるようで、同様にバイアスがかけられていないと思います。間接的な影響をテストするために、ブートストラップ(2000サンプル程度)を使用しています。90%のバイアス補正信頼度、モンテカルロ。さらに、3つの異なる条件に対して3つの異なるSEMを実行しています。 私はあなたの何人かを考慮したい2つの質問があります、そして、あなたが貢献する何かがあるならば、返信してください: 適合指数で実証されていないモデルに重大な弱点はありますか?小さなサンプルは研究の弱点として強調されますが、私が完全に忘れている大きな統計的問題があるかどうか疑問に思っています。将来、さらに10〜20人の参加者を獲得する予定ですが、このような分析のサンプルは比較的少ないままです。 私の小さなサンプル、または私がそれを使用しているコンテキストを考えると、ブートストラップの使用に問題はありますか? これらの質問がこのフォーラムにとって「基本的」すぎないことを願っています。私はSEMおよび関連事項に関する多くの章を読みましたが、この分野の意見に関しては人々が非常に分散していることがわかりました! 乾杯

1
LARSと投げ縄の座標降下
L1正規化線形回帰のあてはめにLARS [1]を使用する場合と座標降下を使用する場合の長所と短所は何ですか? 私は主にパフォーマンスの側面に興味があります(私の問題はN数十万とp20未満にある傾向があります)。しかし、他の洞察も歓迎されます。 編集:私は質問を投稿したので、chlは親切にフリードマンらによる論文[2]を指摘しました。そこでは、座標降下は他の方法よりもかなり速いことが示されています。その場合、実務家として座標降下を支持するLARSを単に忘れるべきですか? [1]エフロン、ブラッドリー。ヘイスティー、トレバー; ジョンストーン、イアンおよびティブシラーニ、ロバート(2004)。「最小角度回帰」。統計32(2):pp。407–499。 [2] Jerome H. Friedman、Trevor Hastie、Rob Tibshirani、「座標降下による一般化線形モデルの正規化パス」、Journal of Statistics Software、Vol。33、1号、2010年2月。

5
予測に複数のモデルを使用する場合
これはかなり一般的な質問です。 私は通常、複数の異なるモデルを使用すると、サンプルから時系列を予測しようとするときに1つのモデルよりも優れていることを発見しました。モデルの組み合わせが単一のモデルよりも優れていることを示す良い論文はありますか?複数のモデルを組み合わせるのにベストプラクティスはありますか? いくつかの参照: Hui Zoua、Yuhong Yang 「予測のための時系列モデルの組み合わせ」 International Journal of Forecasting 20(2004)69– 84

3
ロジスティック回帰のWoE(証拠の重み)による変数の置換
これは、同僚の何人かが従う練習や方法に関する質問です。ロジスティック回帰モデルの作成中に、カテゴリ変数(またはビニングされた連続変数)をそれぞれの証拠の重み(WoE)に置き換える人々を見てきました。これは、リグレッサーと従属変数の間に単調な関係を確立するために行われると思われます。私の知る限り、モデルが作成されると、方程式の変数はデータセットの変数ではありません。むしろ、方程式の変数は、従属変数を分離する際の変数の重要性や重みのようなものになりました! 私の質問は、どのようにモデルまたはモデル係数を解釈するのですか?たとえば、次の方程式の場合: ログ( p1 − p) =β0+ β1バツ1ログ⁡(p1−p)=β0+β1バツ1 \log\bigg(\frac{p}{1-p}\bigg) = \beta_0 + \beta_1x_1 は、変数 1単位増加に対する比の相対的増加であると言えます。exp(β1)exp⁡(β1)\exp(\beta_1) バツ1バツ1x_1 しかし、変数がそのWoEに置き換えられた場合、解釈は次のように変更されます。 私はインターネットでこの実践を見てきましたが、この質問の答えはどこにも見つかりませんでした。このコミュニティ自体からのこのリンクは、誰かが書いた似たようなクエリに関連しています: WoEは、ロジスティック回帰の従属変数であるオッズ比の自然対数との線形関係を表示します。したがって、変数の実際の値の代わりにWoEを使用する場合、ロジスティック回帰ではモデルの誤指定の問題は発生しません。 しかし、まだ説明がわかりません。不足しているものを理解してください。

1
係数パス–リッジ、なげなわおよびエラスティックネット回帰の比較
リッジ、なげなわ、エラスティックネットで選択したモデルを比較したいと思います。以下の図は、3つの方法すべてを使用した係数パスを示しています。リッジ(図A、アルファ= 0)、投げ縄(図B、アルファ= 1)、弾性ネット(図C、アルファ= 0.5)。最適なソリューションは、クロス検証に基づいて選択されたラムダの選択値に依存します。 これらのプロットを見ると、エラスティックネット(図C)がグループ化効果を示すことが予想されます。ただし、提示されたケースでは明確ではありません。投げ縄とエラスティックネットの係数パスは非常に似ています。この理由は何でしょうか?それは単なるコーディングミスですか?Rで次のコードを使用しました。 library(glmnet) X<- as.matrix(mydata[,2:22]) Y<- mydata[,23] par(mfrow=c(1,3)) ans1<-cv.glmnet(X, Y, alpha=0) # ridge plot(ans1$glmnet.fit, "lambda", label=FALSE) text (6, 0.4, "A", cex=1.8, font=1) ans2<-cv.glmnet(X, Y, alpha=1) # lasso plot(ans2$glmnet.fit, "lambda", label=FALSE) text (-0.8, 0.48, "B", cex=1.8, font=1) ans3<-cv.glmnet(X, Y, alpha=0.5) # elastic net plot(ans3$glmnet.fit, "lambda", label=FALSE) text (0, …

1
一般化された加法モデル(GAM)、相互作用、共変量
私は予測のための多くのツールを調査してきましたが、一般化された加算モデル(GAM)がこの目的に最も可能性があることがわかりました。GAMは素晴らしいです!複雑なモデルを非常に簡潔に指定できます。ただし、その簡潔さが、特にGAMが相互作用項と共変量をどのように考えているかという点で、混乱を招いています。 yいくつかのガウス分布に加えてノイズが加わった単調関数であるサンプルデータセット(投稿の最後に再現可能なコード)を考えてみましょう。 データセットには、いくつかの予測変数があります。 x:データのインデックス(1〜100)。 w:yガウス分布が存在するセクションをマークする2番目の機能。w値は1〜20で、11〜30 x、および51〜70です。それ以外の場合wは0です。 w2:w + 1ので、0値はありません。 Rのmgcvパッケージにより、これらのデータの多くの可能なモデルを簡単に指定できます。 モデル1および2はかなり直感的です。デフォルトの平滑度でyインデックス値のみから予測xすると、あいまいに正しいものが生成されますが、滑らかすぎます。に存在する「平均ガウス」モデルの結果yからのみ予測し、他のデータポイントは「認識」しません。すべてのデータポイントの値は0です。wyw モデル3は両方xを使用しw、1Dスムースとして使用して、ぴったりとフィットします。モデル4は、2Dスムーズを使用してxおりw、優れた適合性も提供します。これら2つのモデルは非常に似ていますが、同一ではありません。 モデル5モデルx"by" w。モデル6はその逆です。mgcvのドキュメントには、「by引数により、スムーズ関数に['by'引数で指定された共変量]が乗算されることが保証されている」と記載されています。モデル5とモデル6は同等ではありませんか? モデル7および8は、予測子の1つを線形項として使用します。GLMがこれらの予測子で行うことを単純に実行し、モデルの残りの部分に効果を追加するため、これらは直感的に理にかなっています。 最後に、モデル9はモデル5と同じですが、x「by」w2(つまり)で平滑化されw + 1ます。ここで私にとって奇妙なのは、ゼロの欠如がw2「by」相互作用に著しく異なる効果をもたらすことです。 したがって、私の質問は次のとおりです。 モデル3とモデル4の仕様の違いは何ですか?違いをより明確に引き出す他の例はありますか? ここで「by」とは正確には何ですか?私がウッドの本とこのウェブサイトで読んだことの多くは、「by」が相乗効果を生み出すことを示唆していますが、その直観をつかむのに苦労しています。 モデル5とモデル9の間に大きな違いがあるのはなぜですか? Rで書かれたReprexが続きます。 library(magrittr) library(tidyverse) library(mgcv) set.seed(1222) data.ex <- tibble( x = 1:100, w = c(rep(0, 10), 1:20, rep(0, 20), 1:20, rep(0, 30)), w2 = w + 1, y = …
12 r  modeling  gam  mgcv 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.