統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A



2
重み付き最小二乗回帰の重みをどのように見つけますか?
WLS回帰のプロセスで少し迷っています。データセットが与えられましたが、私のタスクは異分散があるかどうかをテストすることです。そうであれば、WLS回帰を実行する必要があります。 私はテストを実施し、異分散の証拠を見つけたので、WLSを実行する必要があります。WLSは基本的に変換されたモデルのOLS回帰であると言われましたが、変換関数を見つけることについて少し混乱しています。私は、変換がOLS回帰からの二乗残差の関数になり得ることを示唆するいくつかの記事を読みましたが、誰かが正しい軌道に乗るのを手伝ってくれれば幸いです。

2
family = GammaでGLMのパラメーターを解釈する方法
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 5年前に移行され ました。 ガンマ分布従属変数を持つGLMのパラメーターの解釈に関して質問があります。これは、ログリンクを使用してGLMに対してRが返すものです。 Call: glm(formula = income ~ height + age + educat + married + sex + language + highschool, family = Gamma(link = log), data = fakesoep) Deviance Residuals: Min 1Q Median 3Q Max -1.47399 -0.31490 -0.05961 0.18374 1.94176 Coefficients: Estimate Std. Error t value Pr(>|t|) …

1
Firthロジスティック回帰によるモデル選択
私が作業している小さなデータセット()では、いくつかの変数が完全な予測/分離を提供します。したがって、この問題に対処するには、Firthロジスティック回帰を使用します。n個〜100n〜100n\sim100 AICまたはBICで最適なモデルを選択した場合、これらの情報基準を計算するときに尤度に第5ペナルティ項を含める必要がありますか?

2
GINIスコアと対数尤度比の関係は何ですか
私は分類木と回帰木を研究していますが、分割された場所の尺度の1つはGINIスコアです。 今では、2つの分布間の同じデータの尤度比のログがゼロである場合に、最適な分割位置を決定することに慣れています。 私の直感では、何らかの接続が必要であり、GINIは情報の数学的理論(シャノン)に優れた基礎を持たなければならないが、私はGINIを自分で理解するのに十分に理解していないと言います。 質問: 分割の尺度としてのGINI不純物スコアの「第一原理」導出とは何ですか? GINIスコアは、尤度比のログまたは他の情報理論的基礎にどのように関係しますか(シャノンエントロピー、pdf、およびクロスエントロピーはそれらの一部です)? 参照: 加重Gini基準はどのように定義されていますか? 分類および回帰木の背後にある数学 http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf (追加) http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf https://www.youtube.com/watch?v=UMtBWQ2m04g http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf /programming/4936788/decision-tree-learning-and-impurity シャノンのエントロピーは次のように説明されます。 H(x)=ΣiP(xi)logbP(xi)H(x)=ΣiP(xi)logb⁡P(xi) H \left(x \right) = \Sigma_{i} P\left(x_{i} \right)\log_{b} P\left(x_{i} \right) これを多変量のケースに拡張すると、次のようになります。 H(X,Y)=ΣxΣyP(x,y)logbP(x,y)H(X,Y)=ΣxΣyP(x,y)logb⁡P(x,y) H \left(X,Y \right)= \Sigma_{x}\Sigma_{y} P\left(x,y \right)\log_{b} P\left(x,y \right) 条件付きエントロピーは次のように定義されます。 H(X|Y)H(X|Y)=Σyp(x,y)logbp(x)p(x,y)or,=H(X,Y)−H(Y)H(バツ|Y)=Σyp(バツ、y)ログb⁡p(バツ)p(バツ、y)または、H(バツ|Y)=H(バツ、Y)−H(Y)\begin{align} H \left(X|Y \right) &= \Sigma_{y} p\left(x,y \right)\log_{b} \frac {p\left(x \right)} {p\left(x,y \right)} …

2
yes-noカウントではなくパーセンテージに二項GLMM(glmer)を適用する方法は?
従属変数がパーセンテージである反復測定実験があり、独立変数として複数の要因があります。このセットアップに直接対応していると思われるためglmer、Rパッケージから使用してlme4(を指定してfamily=binomial)ロジスティック回帰問題として扱いたいと思います。 私のデータは次のようになります。 > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 6 1 chrmpeak-tpor1d nr075 1 …



2
非心カイ二乗確率変数の合計
私は、確率変数の分布を見つける必要が ここで、X 、I〜N(μ I、σ 2 I)と全X I S個の独立しています。X iの関数を生成するすべてのモーメントの積を最初に見つけ、次に変換してYの分布を取得することが可能であることを知っています。しかし、Yには一般的な形式があるのだろうかY=∑i=1n(Xi)2Y=∑i=1n(Xi)2Y=\sum_{i=1}^{n}(X_i)^2Xi∼N(μi,σ2i)Xi∼N(μi,σi2)X_i\sim{\cal{N}}(\mu_i,\sigma^2_i)XiXiX_iXiXiX_iYYYYYY ガウスの場合のように:独立したガウスの合計がまだガウスであることがわかっているため、合計の平均と分散の合計を知るだけで済みます。 どのようにすべてについて?この状態は一般的な解決策になりますか?σ2i=σ2σi2=σ2\sigma^2_i=\sigma^2

6
事後と事前および尤度とは非常に異なる
事前確率と尤度が互いに非常に異なる場合、事後がどちらにも似ていない状況が発生することがあります。たとえば、正規分布を使用するこの図を参照してください。 これは数学的には正しいですが、私の直感とは一致していないようです-データが強く保持されている信念またはデータと一致しない場合、どちらの範囲もうまくいかないと予想し、フラットな後方範囲全体または恐らく事前確率と尤度周辺の二峰性分布(どちらがより論理的な意味を持っているかはわかりません)。私は確かに、私の以前の信念やデータのいずれにも一致しない範囲の周りのきつい後方を期待しないでしょう。より多くのデータが収集されると、事後確率が尤度に向かって移動することを理解していますが、この状況では直感に反するように思われます。 私の質問は次のとおりです。この状況に対する私の理解はどのように欠陥がありますか(または欠陥がありますか)。後部は、この状況の「正しい」関数です。そうでない場合、他にどのようにモデル化できますか? 完全を期すために、事前確率はとして与えられ、尤度はとして与えられます。N(μ = 6.1 、σ = 0.4 )N(μ = 1.5 、σ= 0.4 )N(μ=1.5、σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)N(μ = 6.1 、σ= 0.4 )N(μ=6.1、σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) 編集:与えられた答えのいくつかを見て、私は非常によく状況を説明していないように感じています。私のポイントは、ベイジアン解析は非直感的な結果をもたらすように思われた特定のモデルで仮定。私の望みは、おそらく悪いモデルの決定について、事後部が何らかの形で「説明」することでした。これについては、回答で詳しく説明します。


3
t検定を実行するためにExcelを使用して正規分布を確認する方法は?
t検定を使用するための要件が​​満たされていることを確認するために、Excelでデータセットの正規性を確認する方法を知りたいです。 右尾については、平均と標準偏差を計算し、平均から1、2、3標準偏差を加算して範囲を作成し、使用後の標準正規分布の正規68/95 / 99.7と比較するのが適切ですか?各標準偏差値をテストするには、Excelのnorm.dist関数を使用します。 または、正常性をテストするより良い方法はありますか?

1
非常に小さな尤度値を確率に変換(正規化)する
モデルを指定して、データセットのリストの尤度を計算し、各尤度を(確率で)正規化する必要があるアルゴリズムを作成しています。したがって、[0.00043、0.00004、0.00321]のようなものは、[0.2、0.03、0.77]のように変換される可能性があります。 私の問題は、私が取り組んでいる対数尤度が非常に小さいことです(たとえば、ログスペースでは、値は-269647.432、-231444.981などのようになります)。私のC ++コードで、それらを2つ追加しようとすると(指数を取ることで)、「Inf」という答えが返されます。私はそれらをログスペース(ログの合計/減算)に追加しようとしましたが、再び同じ問題に出くわしました。 誰もこれについて専門家の意見を共有できますか?

3
ボンフェローニ調整の使用方法と使用時期
ボンフェローニ調整をいつ使用するかに関して、2つの質問があります。 複数のテストのすべてのケースでボンフェローニ調整を使用することは適切ですか? データセットでテストを実行する場合、そのデータセットをより細かいレベルに分割し(例:性別によるデータの分割)、同じテストを実行しますが、これは知覚される個々のテストの数にどのように影響しますか?つまり、男性と女性の両方からのデータを含むデータセットでX個の仮説をテストし、データセットを分割して男性と女性のデータを別々に与え、同じ仮説をテストした場合、個々の仮説の数はXのままか、追加のテスト? コメントしてくださってありがとうございます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.