統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

3
時系列でピアソン相関を正しく使用する方法
2つの時系列(両方とも滑らか)があるので、相互相関を調べて、それらの相関関係を確認します。 ピアソン相関係数を使用するつもりです。これは適切ですか? 2番目の質問は、2つの時系列を好きなようにサンプリングできることです。つまり、データポイントの数を選択できます。これは、出力される相関係数に影響しますか?これを説明する必要がありますか? 説明のため option(i) [1, 4, 7, 10] & [6, 9, 6, 9, 6] option(ii) [1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]

2
GLM Rの残差とヌル逸脱の解釈
RのGLMのヌルと残差の逸脱をどのように解釈しますか?たとえば、AICは小さいほど良いと言います。デビアンスについても同様の迅速な解釈はありますか? ヌル偏差:1077自由度で1146.1残留偏差:1099自由度で4589.4 AIC:11089

3
単純ベイズについて
StatSoft社(2013)、電子統計教科書、「ナイーブベイズ分類器」: 単純ベイズ分類の概念を示すために、上の図に表示されている例を考えてください。前述のように、オブジェクトは緑または赤に分類できます。私のタスクは、新しいケースが到着したときに分類することです。つまり、現在終了しているオブジェクトに基づいて、どのクラスラベルに属するかを決定します。 GREENオブジェクトはREDの2倍であるため、新しいケース(まだ観察されていない)がREDではなくGREENのメンバーシップを持っている可能性が2倍であると考えるのが合理的です。ベイジアン分析では、この信念は事前確率として知られています。事前確率は、過去の経験、この場合は緑と赤のオブジェクトの割合に基づいており、実際に発生する前に結果を予測するためによく使用されます。 したがって、次のように記述できます。 合計60個のオブジェクトがあり、そのうち40個が緑、20個が赤であるため、クラスメンバーシップの事前確率は次のとおりです。 事前確率を定式化したので、新しいオブジェクト(白丸)を分類する準備ができました。オブジェクトは十分にクラスター化されているため、Xの近くに緑(または赤)のオブジェクトが多いほど、新しいケースがその特定の色に属する可能性が高いと想定するのが妥当です。この尤度を測定するために、クラスラベルに関係なく(事前に選択される)多数のポイントを含むXの周りに円を描きます。次に、各クラスラベルに属する円内のポイントの数を計算します。これから、尤度を計算します: 上記の図から、GREENが与えられたXの尤度は、REDが与えられたXの尤度よりも小さいことが明らかです。副<文>この[前述の事実の]結果として、それ故に、従って、だから◆【同】consequently; therefore <文>このような方法で、このようにして、こんなふうに、上に述べたように◆【同】in this manner <文>そのような程度まで<文> AひいてはB◆【用法】A and thus B <文>例えば◆【同】for example; as an example: XがGREENに属している可能性があることを事前確率が示していますが(REDと比較して2倍のGREENがあると仮定)、そうでない可能性は示されます。XのクラスメンバーシップがREDであること(Xの近くにGREENよりも多くのREDオブジェクトがあると仮定)。ベイズ分析では、いわゆるベイズの規則(トーマス・ベイズ牧師1702-1761にちなんで名付けられた)を使用して事後確率を形成するために、両方の情報源、つまり事前確率と尤度を組み合わせることによって最終分類が生成されます。 最後に、クラスメンバーシップが最大の事後確率を達成するため、XをREDとして分類します。 これが私の数学の理解の難しさの出番です。 p(Cj | x1、x2、x ...、xd)は、クラスメンバーシップの事後確率、つまり、XがCjに属する確率ですが、なぜこのように書くのですか? 尤度の計算? 事後確率? 私は数学を学んだことは一度もありませんが、単純なベイズに対する私の理解は大丈夫です。これらのメソッドの視覚化と、わかりやすい方法で数学を書き出す方法を教えてください。

5
サンプルが母集団である場合の統計的推論
毎年、特定のテストを受ける候補者の数について報告する必要があると想像してください。たとえば、対象集団の特異性により、より広い集団で観測された成功率を推測するのはかなり難しいようです。したがって、これらのデータは母集団全体を表していると考えることができます。 テストの結果は、男性と女性の比率が異なることを本当に示していますか?標本全体ではなく母集団全体を考慮するため、観察された割合と理論上の割合を比較するテストは正しいものと思われますか?

5
2つのグループのt検定とANOVAが同等である場合、それらの仮定が同等ではないのはなぜですか?
私はこれを完全に頭に包んでいると確信していますが、私はそれを理解することができません。 t検定は、Z分布を使用して2つの正規分布を比較します。これが、データに正規性の仮定がある理由です。 ANOVAは、ダミー変数を使用した線形回帰に相当し、OLSと同様に平方和を使用します。それが、残差の正常性の仮定がある理由です。 私は数年かかったが、私は最終的にそれらの基本的な事実を把握したと思います。それでは、なぜt検定は2つのグループのANOVAと同等なのでしょうか?データについて同じことを想定していない場合、どうすれば同等になりますか?

4
負の尤度が尤度の最大化に等しい場合、なぜそれを最小化するのですか?
この質問は長い間私を困惑させてきました。可能性を最大化する際に「ログ」を使用することを理解しているため、「ログ」については質問しません。 私の質問は、対数尤度の最大化は「負の対数尤度」(NLL)の最小化と同等であるため、なぜこのNLLを発明したのですか?常に「ポジティブな可能性」を使用しないのはなぜですか?NLLはどのような状況で好まれますか? ここで少し説明を見つけました。https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/、深さの明らかな同等性を説明するようですが、私の混乱を解決しません。 任意の説明をいただければ幸いです。

2
畳み込みニューラルネットワークがサポートベクターマシンを使用して分類しないのはなぜですか?
近年、畳み込みニューラルネットワーク(CNN)は、コンピュータービジョンにおけるオブジェクト認識の最先端技術になりました。通常、CNNは複数の畳み込み層で構成され、その後に2つの完全に接続された層が続きます。この背後にある直感は、畳み込み層が入力データのより良い表現を学習し、完全に接続された層がラベルのセットに基づいてこの表現を分類することを学習することです。 ただし、CNNが支配を開始する前は、サポートベクターマシン(SVM)が最先端でした。そのため、SVMは2層の完全に接続されたニューラルネットワークよりも依然として強力な分類器であると言えます。したがって、なぜ最新のCNNがSVMではなく完全に接続されたレイヤーを分類に使用する傾向があるのか​​疑問に思っていますか?このように、強力な特徴表現ではなく、強力な特徴表現と弱い分類子のみの両方の長所があります。 何か案は?

6
残差は「予測マイナス実際」または「実際マイナス予測」です
「予測値から実際の値を引いたもの」または「実際の値から予測した値を引いたもの」としてさまざまに定義された「残差」を見てきました。説明のために、両方の式が広く使用されていることを示すために、次のWeb検索を比較します。 残余「予測マイナス実際」 残余「実際のマイナス予測」 実際には、個々の残差の符号は通常重要ではないので、違いはほとんどありません(たとえば、それらが二乗されているか、絶対値が取られている場合)。ただし、私の質問は次のとおりです。これら2つのバージョンの1つ(最初に予測対実際の最初)は「標準」と見なされますか 私は自分の使用法に一貫性がありたいので、確立された従来の標準があれば、それに従うことを望みます。ただし、標準が存在しない場合、標準の慣例がないことが納得できるように示されれば、それを回答として受け入れます。

2
なぜベイジアンは残差を見ることができないのですか?
記事「ディスカッション:エコロジストはベイジアンになるべきか?」ブライアンデニスは、ベイジアン統計について驚くほどバランスの取れた前向きな見解を示しています。しかし、ある段落では、引用や正当化なしで、彼は言います: ご覧のとおり、ベイジアンは残差を見ることができません。モデルの下でどれだけ極端かによって結果を判断する可能性の原則に違反します。ベイジアンにとって、悪いモデルはなく、悪い信念だけです。 なぜベイジアンは残差を見ることを許されないのでしょうか?これに適切な引用は何でしょうか(つまり、彼は誰を引用していますか)? デニス、B。 ディスカッション:生態学者はベイジアンになるべきか? 生態アプリケーション、アメリカ生態学会、1996、6、1095年から1103年

2
なぜ頻繁な仮説検定は、十分に大きいサンプルで帰無仮説を棄却するように偏るのですか?
このパッセージにつまずいたとき、私はまったく無関係な問題についてベイズ因子に関するこの記事を読んでいた ベイズ形式はモデル選択のバイアスを回避し、帰無仮説を支持して証拠を評価し、モデルの不確実性を含み、ネストされていないモデルを比較できるため、ベイズ因子を使用した仮説検定は、頻繁な仮説検定よりも堅牢です同じ従属変数を持つ)。また、十分な大きさのサンプルサイズで帰無仮説を棄却するために、頻繁な有意性検定は偏りが生じます。[強調を追加] 私はで前にこの主張を見てきた脳画像でカールFristonの2012紙、彼はそれを呼び出す、古典推論の誤謬。 なぜこれが真実なのかという真に教育的な説明を見つけるのに少し苦労しました。具体的には、私は疑問に思っています: これが起こる理由 それを防ぐ方法 それに失敗した、それを検出する方法

2
共分散行列の逆数はデータについて何と言っていますか?(直感的に)
の性質に興味があります。「がデータについて何と言っているか」について、誰でも直観的に話せますか?Σ−1Σ−1\Sigma^{-1}Σ−1Σ−1\Sigma^{-1} 編集: 返信ありがとう いくつかの素晴らしいコースを受講した後、いくつかのポイントを追加したいと思います。 つまり、は方向沿った情報量です。xTΣ−1xxTΣ−1xx^T\Sigma^{-1}xxxx 双対性:のでそうである、正定である、我々は正則化最小二乗問題のためFenchelデュアルを導き出すことができるように、彼らはドット積規範ですので、より正確に、彼らはお互いのデュアル規範あり、二重問題の最大化を行います。条件に応じて、どちらかを選択できます。ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1} ヒルベルト空間:と列(および行)は同じ空間にます。したがって、または表現の間に利点はありません(これらの行列のいずれかが悪条件の場合)Σ−1Σ−1\Sigma^{-1}ΣΣ\SigmaΣ−1Σ−1\Sigma^{-1}ΣΣ\Sigma ベイジアン統計:ノルムは、ベイジアン統計で重要な役割を果たします。それは我々が前に持っているどのくらいの情報決定すなわち、例えば、前の密度の共分散が似ているとき 我々は(前またはおそらくジェフリーズ)非有益持っていますΣ−1Σ−1\Sigma^{-1}∥Σ−1∥→0‖Σ−1‖→0\|\Sigma^{-1}\|\rightarrow 0 頻度統計: Cramér–Raoバウンドを使用して、フィッシャー情報と密接に関連しています。実際、フィッシャー情報マトリックス(対数尤度とそれ自体の勾配の外積)は、Cramér–Raoによってバインドされています。つまり、Σ−1⪯FΣ−1⪯F\Sigma^{-1}\preceq \mathcal{F}(wrt正半正円錐、iewrt濃度)楕円体)。したがって、Σ−1=FΣ−1=F\Sigma^{-1}=\mathcal{F}の場合、最尤推定量は効率的です。つまり、データに最大の情報が存在するため、頻度主義体制が最適です。簡単な言葉で言えば、いくつかの尤度関数(尤度の関数形式は、データを生成する推定モデル、別名生成モデルに純粋に依存することに注意)の場合、最尤法は効率的で一貫した推定量であり、ボスのようなルールです。(それをやりすぎて申し訳ありません)



3
対数変換応答を伴う線形モデルと対数リンクを伴う一般化線形モデル
で、この論文著者が書いた「一般化線形モデルAPPLIED TO医療データの中から選択する」というタイトル: 一般化線形モデルでは、応答自体を変換する代わりに、リンク関数によって平均が変換されます。変換の2つの方法は、まったく異なる結果につながる可能性があります。たとえば、 対数変換された応答の平均は、平均応答の対数と同じではありません。一般に、前者は簡単に平均応答に変換できません。したがって、平均値を変換すると、特に平均パラメーターが測定された応答と同じスケールのままであるという点で、結果をより簡単に解釈できることがよくあります。 彼らは、対数変換応答を持つ線形モデル(LM)ではなく、対数リンクを持つ一般化線形モデル(GLM)のフィッティングを勧めているようです。私はこのアプローチの利点を理解していませんが、私には非常に珍しいようです。 応答変数は対数正規分布に見えます。どちらのアプローチでも、係数と標準誤差の点で同様の結果が得られます。 それでも私は不思議:変数は対数正規分布を持っている場合ではない対数変換変数の平均値よりも好ましい平均形質転換されていない変数の対数平均値は、正規分布の自然の概要、およびログですと、 -変換された変数は正規分布していますが、変数自体はそうではありませんか?

7
2つの順序変数間の関係のグラフ
2つの順序変数間の関係を示す適切なグラフは何ですか? 私が考えることができるいくつかのオプション: ランダムジッタを追加した散布図で、ポイントが互いに隠れないようにします。どうやら標準グラフィック-Minitabではこれを「個別値プロット」と呼んでいます。私の意見では、データがインターバルスケールからのものであるかのように、順序レベル間の一種の線形補間を視覚的に促進するため、誤解を招く可能性があります。 散布図は、サンプリング単位ごとに1つのポイントを描画するのではなく、ポイントのサイズ(面積)がそのレベルの組み合わせの頻度を表すように適合されています。実際にそのようなプロットを見たことがあります。読みづらい場合もありますが、ポイントは規則的に間隔を空けた格子上にあり、データを視覚的に「間引く」というジッター散布図の批判をある程度克服します。 特に、変数の1つが従属変数として扱われる場合、独立変数のレベルでグループ化されたボックスプロット。従属変数のレベルの数が十分に高くない場合はひどいように見える可能性があります(ウィスカが欠けているか、さらに中央値の視覚的な識別が不可能なさらに悪化した四分位で非常に「フラット」)が、少なくとも中央値と四分位数に注意を引きます順序変数の関連する記述統計。 頻度を示すヒートマップを含むセルの値の表または空白のグリッド。視覚的には異なりますが、散布図と概念的には類似しており、ポイントエリアに周波数が表示されます。 他のアイデア、またはどのプロットが望ましいかについての考えはありますか?特定の序数対序数プロットが標準とみなされる研究分野はありますか?(私は、周波数ヒートマップがゲノミクスで広まっていることを思い出すようですが、名目対名義の方が多いと思われます。)良い標準参照の提案も大歓迎です。Agrestiから何かを推測しています。 プロットで説明したい場合は、偽のサンプルデータのRコードが続きます。 「運動はあなたにとってどれほど重要ですか?」1 =まったく重要ではない、2 =やや重要でない、3 =重要でも重要でもない、4 =やや重要、5 =非常に重要。 「10分以上のランニングをどのくらい定期的に受けますか?」1 =しない、2 = 2週間に1回未満、3 = 1週間または2週間に1回、4 =週に2回または3回、5 =週に4回以上。 「頻繁に」を従属変数として扱い、「重要性」を独立変数として扱うことが自然な場合、プロットが2つを区別する場合。 importance <- rep(1:5, times = c(30, 42, 75, 93, 60)) often <- c(rep(1:5, times = c(15, 07, 04, 03, 01)), #n=30, importance 1 rep(1:5, times = c(10, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.