統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
複数の研究からの情報を組み合わせて、正規分布データの平均と分散を推定する-ベイジアンとメタ分析のアプローチ
私は一連の論文をレビューしました。各論文は、既知のサイズそれぞれのサンプルにおける測定値の観測平均とSDを報告しています。私が設計している新しい研究で同じ測定値の可能性のある分布について可能な限り推測し、その推測にどの程度の不確実性があるかを考えたいと思います。)と仮定してうれしいです。N X 〜N (μ 、σ 2バツバツXnnnX∼N(μ 、σ2X∼N(μ、σ2X \sim N(\mu, \sigma^2 私の最初の考えはメタ分析でしたが、モデルは通常、ポイント推定と対応する信頼区間に焦点を当てています。ただし、の完全な分布について何か言いたいことがあります。この場合、分散について推測することも含まれます。 σ 2バツバツXσ2σ2\sigma^2 私は、事前の知識に照らして、特定の分布のパラメーターの完全なセットを推定するための可能なBayeisanアプローチについて読んでいます。これは一般的に私には理にかなっていますが、ベイジアン分析の経験はゼロです。これは、歯を切るのが簡単で比較的単純な問題のようにも思えます。 1)私の問題を考えると、どのアプローチが最も理にかなっており、なぜですか?メタ分析またはベイジアンアプローチ? 2)ベイジアンアプローチが最適だと思う場合、これを実装する方法を教えていただけますか(できればRで)。 関連する質問 編集: 私は、これを「単純な」ベイジアン様式だと思う方法で解決しようとしています。 上で述べたように、私は推定された平均でなく、事前情報、すなわちを考慮した分散にも興味があります。μμ\muσ2σ2\sigma^2P(μ 、σ2| Y)P(μ、σ2|Y)P(\mu, \sigma^2|Y) 繰り返しになりますが、実際のベイジアンについては何も知りませんが、平均と分散が未知の正規分布の事後分布は、正規逆ガンマ分布の共役を介した閉形式解を持っていることを見つけるのに時間がかかりませんでした。 問題はとして再定式化されます。P(μ 、σ2| Y)= P(μ | σ2、Y)P(σ2| Y)P(μ、σ2|Y)=P(μ|σ2、Y)P(σ2|Y)P(\mu, \sigma^2|Y) = P(\mu|\sigma^2, Y)P(\sigma^2|Y) P(μ | σ2、Y)P(μ|σ2、Y)P(\mu|\sigma^2, Y)は正規分布で推定されます。逆ガンマ分布のP(σ2| Y)P(σ2|Y)P(\sigma^2|Y)。 それはそれのまわりで私の頭を取得するために私にしばらく時間がかかったが、これらのリンクから(1、2、私はR.でこれを行う方法をソートするために、私が思うに、できました) 33個のスタディ/サンプルそれぞれの行と、平均、分散、サンプルサイズの列から構成されるデータフレームから始めました。事前情報として、1行目の最初の調査の平均、分散、サンプルサイズを使用しました。次に、次の調査の情報でこれを更新し、関連するパラメーターを計算し、正規逆ガンマからサンプリングしておよび分布を取得しました。これは、33の研究すべてが含まれるまで繰り返されます。μμ\muσ2σ2\sigma^2 # Loop start values values i <- 2 …

6
記述統計と推測統計の違いは何ですか?
私の理解では、記述統計はデータサンプルの特徴を定量的に記述し、推論統計はサンプルが抽出された母集団について推論しました。 ただし、統計的推論に関するウィキペディアのページには次のように記載されています。 ほとんどの場合、統計的推論は、ある種のランダムサンプリングを介して対象の母集団から抽出されたデータを使用して、母集団に関する命題を作成します。 「大部分」のために、おそらくこれらの概念を適切に理解していないと思うようになりました。人口について提案しない推論統計の例はありますか?

5
ランダムフォレストと回帰
5つの独立変数を持つデータセットでOLS回帰モデルを実行しました。独立変数と従属変数は両方とも連続的であり、線形に関連しています。Rスクエアは約99.3%です。しかし、Rでランダムフォレストを使用して同じことを実行すると、結果は「%Var説明:88.42」になります。なぜランダムフォレストの結果は、回帰に比べてそれほど劣るのでしょうか?私の仮定では、ランダムフォレストは少なくともOLS回帰と同じくらい良いだろうということでした。

3
事前に共役を持っている:深い特性または数学的な事故?
一部の分布には共役事前分布があり、一部の分布にはありません。この区別は単なる事故ですか?つまり、あなたは数学を行い、それは何らかの方法でうまくいきますが、事実自体を除いて分布について何も重要なことを本当に教えてくれませんか? または、共役の事前の有無は、分布のより深い特性を反映していますか?共役事前分布を持つ分布は、他の興味深い分布を共有し、他の分布ではなく、それらの分布が共役事前分布を持つようにしますか?

5
ランダムフォレストの誤分類のコストを制御する方法は?
RパッケージrandomForestで誤分類のコストを制御することは可能ですか? 私自身の研究では、偽陰性(例えば、人が病気にかかっている可能性があるというミス)は、偽陽性よりもはるかに費用がかかります。パッケージrpartを使用すると、損失マトリックスを指定して誤分類に異なる重みを付けることにより、誤分類コストを制御できます。同様の何かが存在しrandomForestますか?たとえば、classwtGini基準を制御するオプションを使用する必要がありますか?

1
人々がベイジアン推論に使用する教科書MCMCアルゴリズムに比べてよく知られている改善点は何ですか?
ある問題のためにモンテカルロシミュレーションをコーディングしていて、モデルが十分に単純な場合、非常に基本的な教科書のギブスサンプリングを使用します。Gibbsサンプリングを使用できない場合は、数年前に学んだ教科書Metropolis-Hastingsをコーディングします。私がそれに与えた唯一の考えは、ジャンプ分布またはそのパラメーターを選択することです。 これらの教科書のオプションを改善する何百もの専門的な方法があることは知っていますが、通常、それらを使用/学習することは考えません。通常、すでに非常にうまく機能しているものを少し改善するのはあまりにも多くの努力のように感じます。 しかし、最近、私がやっていることを改善できる新しい一般的な方法がないかと考えていました。それらの方法が発見されてから数十年が経ちました。たぶん私は本当に時代遅れです! メトロポリス・ヘイスティングスに代わる有名な代替品はありますか? 実装が合理的で、 MHと同様に普遍的に適用可能、 そして、何らかの意味でMHの結果を常に改善します(計算パフォーマンス、精度など)。 非常に特殊化されたモデルの非常に特殊化された改善については知っていますが、私が知らない一般的なものがありますか?

1
カウントデータでの外れ値の検出
私は、多くの異なるカウントデータセットの外れ値の検出を伴う、かなり単純な問題であると単純に考えたものがあります。具体的には、一連のカウントデータ内の1つ以上の値が、分布内の残りのカウントと比較して予想よりも高いか低いかを判断します。 交絡要因は、3,500の分布に対してこれを行う必要があることであり、それらの一部はゼロ膨張した過分散ポアソンに適合する可能性がありますが、他のものは負の二項分布またはZINBに最も適合する可能性がありますが、他の分布は正規分布する可能性があります。このため、単純なZスコアまたは分布のプロットは、多くのデータセットには適していません。外れ値を検出するカウントデータの例を次に示します。 counts1=[1 1 1 0 2 1 1 0 0 1 1 1 1 1 0 0 0 0 1 2 1 1 2 1 1 1 1 0 0 1 0 1 1 1 1 0 0 0 0 0 1 2 1 1 1 1 1 1 …

5
Rを介して(実行中だけでなく)統計/数学を学習するためのソース
Rを使用して統計的および数学的な概念を学習するためのソースの例(Rコード、Rパッケージ、書籍、書籍の章、記事、リンクなど)に興味があります(他の言語でも可能ですが、Rは私のお気に入りです)。 課題は、素材の学習がアルゴリズムを実行するコードの実行方法だけでなく、プログラミングに依存することです。 だから(たとえば)Rのある線形モデルのような本(これは素晴らしい本です)は私が探しているものではありません。これは、この本が主にRで線形モデルを実装する方法を示しているためですが、Rを使用して線形モデルを教えることを中心としていません。 (素晴らしい)TeachingDemosパッケージのヘルプファイルは、私が探しているものの良い例です。これは、さまざまなRアプレットおよびシミュレーションを通じて統計概念を学習するための関数を含むRパッケージです。付属のヘルプファイルは便利です。もちろん、どちらも十分ではなく、正確な詳細の多くを習得してそれらを学習するには、外部のテキストブックが必要です(ヘルプファイルでも同様です)。 すべてのリードが高く評価されます。

4
この場合、最小二乗解法の結果が悪いのはなぜですか?
ビショップによる「パターン認識と機械学習」の第4章の204ページに画像がありますが、ここで最小二乗解法が悪い結果を与える理由がわかりません。 前の段落では、次の画像に見られるように、最小二乗法は外れ値に対するロバスト性に欠けているという事実についてでしたが、他の画像で何が起こっているのか、LSがそこに悪い結果を与える理由はわかりません。

4
複数の代入とモデルの選択
推定するアプリオリ線形モデルがある場合、複数代入はかなり簡単です。ただし、実際にモデル選択を行いたい場合は少し難しいようです(たとえば、より大きな候補変数セットから予測変数の「最適な」セットを見つける-私は特にLASSOとRを使用する分数多項式を考えています)。 1つのアイデアは、欠損値を含む元のデータにモデルを適合させてから、このモデルをMIデータセットで再推定し、通常と同様に推定値を結合することです。しかし、バイアスを期待しているため(または、そもそもなぜMIを行うのか?)、最初から「間違った」モデルを選択することにつながる可能性があるため、これは問題のようです。 別のアイデアは、各MIデータセットで使用しているモデル選択プロセスを実行することですが、異なる変数のセットが含まれている場合、結果をどのように組み合わせますか? 私が考えていたのは、MIデータセットを積み重ねて1つの大きなデータセットとして分析し、それを使用して単一の「最適な」モデルに適合し、反復測定を使用している事実を説明するランダム効果を含めることでした各観測。 これは理にかなっていますか?または、おそらく信じられないほど素朴ですか?この問題(複数の代入を使用したモデル選択)についてのポインタは大歓迎です。

2
循環データを使用して分散の等価性をテストする方法
8つの異なるサンプル(それぞれ異なる母集団から)内の変動の量を比較することに興味があります。これは、比率データを使用したいくつかの方法で実行できることを知っています:F検定の分散の等価性、リーベン検定など。 ただし、私のデータは円形/方向(つまり、風向や一般的な角度データ、または時刻などの周期性を示すデータ)です。私はいくつかの研究を行った結果、Rの「CircStats」パッケージに「Watson's test for homogeneity」という1つのテストが見つかりました。1つの欠点は、このテストでは2つのサンプルのみを比較することです。つまり、8つのサンプルで複数の比較を行う必要があります(その後、Bonferonni補正を使用します)。 私の質問は次のとおりです。 1)使用できるより良いテストはありますか? 2)そうでない場合、ワトソンのテストの前提は何ですか?パラメトリック/ノンパラメトリックですか? 3)このテストを実行できるアルゴリズムは何ですか?私のデータはMatlabにあり、テストを実行するためにRに転送する必要はありません。むしろ自分の関数を書くだけです。

3
SVDを協調フィルタリングの問題に適用するとどうなりますか?2つの違いは何ですか?
協調フィルタリングでは、入力されていない値があります。ユーザーが映画を見なかった場合、そこに「na」を入力する必要があります。 このマトリックスのSVDを取得する場合、そこにいくつかの数値(0など)を入力する必要があります。マトリックスを因数分解すると、同様のユーザーを見つける方法があります(どのユーザーが縮小された次元空間)。しかし、予測される嗜好自体-アイテムに対するユーザーにとってはゼロになります。(なぜなら、未知の列に入力したものだからです)。 そのため、共同フィルタリングとSVDの問題に悩まされています。それらはほとんど同じように見えますが、完全ではありません。 それらの違いは何ですか?SVDを協調フィルタリング問題に適用するとどうなりますか?私はそうしましたが、結果は近くのユーザーを見つけるという点で許容できるように見えますが、これは素晴らしいですが、どのようにですか?

4
回帰分析と分散分析の違いは?
この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 7年前に移行され ました。 現在、回帰分析と分散分析について学んでいます。 回帰分析では、1つの変数が固定されており、変数が他の変数とどのように関係するかを知りたいと考えています。 たとえば、分散分析では、この特定の動物向け食品が動物の体重に影響を与える場合... 1つの固定変数と他の動物への影響について... それは正しいか間違っていますか、plsは私を助けます...
21 regression 

3
比較および対比、p値、有意水準およびタイプIエラー
p値、有意水準、タイプIエラーの定義と使用に関して、だれかが簡潔に要約できるかどうか疑問に思っていました。 p値は「少なくとも実際に観測したものと同じくらい極端な検定統計量を取得する確率」として定義され、p値が有意であるかどうかを測定するための有意水準は単なる任意のカットオフ値です。タイプIエラーは、真である帰無仮説を棄却したエラーです。ただし、有意水準とタイプIエラーの違いについては不明ですが、それらは同じ概念ではありませんか? たとえば、コインを1000回裏返し、「頭」に着弾した回数を数える非常に単純な実験を想定します。私の帰無仮説、H0は、heads = 500(不偏コイン)です。次に、有意水準をalpha = 0.05に設定します。 コインを1000回反転し、p値を計算します。p値が0.05より大きい場合、帰無仮説を棄却できず、p値が0.05未満の場合、帰無仮説を棄却します。 今、この実験を繰り返して、p値を計算し、帰無仮説を拒否または拒否し、拒否した/拒否しなかった回数を数えるたびに、帰無仮説の5%を拒否することになります実際にはどれが本当でしたか、それは正しいですか?これがタイプIエラーの定義です。したがって、フィッシャー有意性検定の有意水準は、繰り返し実験を実行した場合の本質的に、ネイマンピアソン仮説検定からのタイプIエラーです。 p値については、最後の実験から0.06のp値を得て、複数の実験を行い、0から0.06のp値を取得したすべての実験を数えた場合、真の帰無仮説を棄却する確率は6%ですか?

1
MCMCベースの回帰モデルの残留診断
最近、MCMCアルゴリズム(実際にはRの関数MCMCglmm)を使用して、ベイジアンフレームワークで回帰混合モデルの適合に着手しました。 推定プロセスの収束を診断する方法を理解したと思います(トレース、gewekeプロット、自己相関、事後分布...)。 ベイジアンフレームワークで私を襲ったことの1つは、それらの診断を行うために多くの努力が注がれているように思えるのに対し、近似モデルの残差のチェックに関してはほとんど行われていないように見えることです。たとえば、MCMCglmmでは、residual.mcmc()関数は存在しますが、実際にはまだ実装されていません(つまり、戻り値:「MCMCglmmオブジェクトにはまだ実装されていない残差」。predict.mcmc()にも同じ話があります)。他のパッケージにも欠けているようで、より一般的には、私が見つけた文献ではほとんど議論されていません(非常に頻繁に議論されているDICは別として)。 誰かが私にいくつかの便利なリファレンス、そして理想的には私が遊んだり修正したりできるRコードを教えてくれますか? どうもありがとう。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.