統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A



7
ベイジアンは、1つの固定パラメーター値があることを認めますか?
ベイジアンデータ分析では、パラメーターはランダム変数として扱われます。これは、ベイズの確率の主観的概念化に由来します。しかし、ベイジアンは理論上、「実世界」には1つの真の固定パラメーター値があることを認めていますか? 明らかな答えは「はい」であるように思われます。なぜなら、パラメータを推定しようとすることはほとんど無意味だからです。この答えの学術的な引用は大歓迎です。

4
モデルを作成するときに、統計的に有意ではない共変量を「保持」する必要がありますか?
モデルの計算にはいくつかの共変量がありますが、そのすべてが統計的に有意ではありません。そうでないものは削除すべきですか? この質問は現象について説明していますが、私の質問には答えていません 。ANCOVAの共変量の有意でない影響をどのように解釈するか しかし、その質問に対する答えには、有意ではない共変量を取り出すことを示唆するものは何もありません。そのため、今のところ、それらは留まるべきだと信じています。あるしきい値(共変量には当てはまらないと思われる有意性しきい値)を超える量を必ずしも説明することなく、分散の一部を説明できます(したがって、モデルを支援します)。 CVのどこかに別の質問があり、その答えは有意性に関係なく共変量を保持する必要があることを暗示しているようですが、それについては明確ではありません。(私はその質問にリンクしたいのですが、たった今再び追跡することができませんでした。) それで...統計的に有意ではない共変量は、モデルの計算で保持されるべきですか?(とにかく計算によって共変量がモデル出力に決して含まれないことを明確にするために、この質問を編集しました。) 複雑さを追加するために、データの一部のサブセット(個別に処理する必要のあるサブセット)の共変量が統計的に有意な場合はどうでしょうか。デフォルトでは、このような共変量を保持します。そうしないと、異なるモデルを使用するか、いずれかのケースで統計的に有意な共変量が失われます。ただし、このスプリットケースについても回答がある場合は、そのことをお知らせください。

5
関係及び相関係数
2つの1次元配列とます。それぞれに100個のデータポイントが含まれます。は実際のデータであり、はモデル予測です。この場合、値は次のようになります それまでの間、これは相関係数の二乗値に等しくなり 2つを入れ替えると、は実際のデータであり、はモデル予測です。方程式から、相関係数はどちらが先かを気にしないため、a1a1a_1a2a2a_2a1a1a_1a2a2a_2R2R2R^2R2=1−SSresSStot (1).R2=1−SSresSStot (1). R^2 = 1 - \frac{SS_{res}}{SS_{tot}} \quad\quad\quad\quad\quad\ \ \quad\quad(1). R2=(Correlation Coefficient)2(2).R2=(Correlation Coefficient)2(2). R^2 = (\text{Correlation Coefficient})^2 \quad (2). a2a2a_2a1a1a_1(2)(2)(2)R2R2R^2値は同じです。しかし、式から、、値が変化する、ため我々が切り替えると変更されたからと。それまでの間、は変更されません。(1)(1)(1)SStot=∑i(yi−y¯)2SStot=∑i(yi−y¯)2SS_{tot}=\sum_i(y_i - \bar y )^2R2R2R^2SStotSStotSS_{tot}yyya1a1a_1a2a2a_2SSres=∑i(fi−y¯)2SSres=∑i(fi−y¯)2SS_{res}=\sum_i(f_i-\bar y)^2 私の質問は次のとおりです。これらは互いに矛盾することができますか? 編集: 方程式の関係はどうなるのだろうと思っていました。(2)単純な線形回帰でない場合、つまり、IVとDVの関係が線形ではない場合(指数関数/対数) 予測誤差の合計がゼロに等しくない場合、この関係はまだ維持されますか?

5
変数選択のためにRのlars(またはglmnet)パッケージからLASSOを使用する
この質問が少し基本的なものに遭遇した場合は申し訳ありません。 Rの多重線形回帰モデルにLASSO変数選択を使用したいと考えています。15の予測変数があり、そのうちの1つがカテゴリカルです(問題が発生しますか?)。とyを設定した後、次のコマンドを使用します。xxxyyy model = lars(x, y) coef(model) 私の問題は私が使用するときですcoef(model)。これにより、15行の行列が返され、毎回1つの追加の予測子が追加されます。ただし、どのモデルを選択するかについての提案はありません。私は何かを見逃しましたか?larsパッケージに「最高の」モデルを1つだけ返す方法はありますか? glmnet代わりに使用することを提案する他の投稿がありますが、これはより複雑に思えます。同じとyを使用した試みは次のとおりです。ここで何かを見逃していませんか?: xxxyyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") 最後のコマンドは、変数のリストを返します。大部分は係数付きですが、一部は= 0です。これはLASSOが選択した「最良の」モデルの正しい選択ですか?次に、係数not=0を持つすべての変数で線形モデルを近似すると、係数推定値は非常に似ていますが、わずかに異なります。この違いの理由はありますか?LASSOによって選択されたこれらの変数で線形モデルを再調整し、それを最終モデルとして使用することは受け入れられますか?そうでない場合、有意性のp値を確認できません。見逃したことがありますか? する type.gaussian="covariance" それglmnetが複数の線形回帰を使用していることを確認しますか? 変数の自動正規化は係数にまったく影響しますか?LASSO手順に相互作用用語を含める方法はありますか? この手順は、重要な推論/予測に何らかの変更が加えられた場合に実際に使用されるモデルよりも、LASSOの使用方法のデモンストレーションとして使用したいと考えています。 これを読んでくれてありがとう。LASSO / lars / glmnetに関する一般的なコメントも歓迎します。


2
ロジスティック回帰検出力解析のシミュレーション-設計実験
この質問は、ロジスティック回帰とSASを使用した電力分析に関して私が尋ねた質問に関する@Greg Snowの回答に対応していますProc GLMPOWER。 実験を計画しており、要因ロジスティック回帰で結果を分析する場合、シミュレーション(およびここ)を使用して電力分析を実行するにはどうすればよいですか? 以下に2つの変数がある簡単な例を示します。最初の変数は3つの可能な値{0.03、0.06、0.09}を取り、2番目はダミーのインジケーター{0,1}です。それぞれについて、各組み合わせの応答率を推定します(レスポンダーの数/マーケティングされる人々の数)。さらに、因子の最初の組み合わせは他の因子の3倍(同等と見なすことができます)にしたいと考えています。これは、この最初の組み合わせが試行された真のバージョンだからです。これは、リンクされた質問で言及されたSASコースで与えられたようなセットアップです。 結果の分析に使用されるモデルは、主な効果と相互作用を伴うロジスティック回帰です(応答は0または1です)。 mod <- glm(response ~ Var1 + Var2 + I(Var1*Var2)) このモデルで使用するデータセットをシミュレートして電力解析を実行するにはどうすればよいですか? 私はSASを介してこれを実行するとProc GLMPOWER(使用STDDEV =0.05486016 に対応するsqrt(p(1-p))pが示す応答率の加重平均です)。 data exemplar; input Var1 $ Var2 $ response weight; datalines; 3 0 0.0025 3 3 1 0.00395 1 6 0 0.003 1 6 1 0.0042 1 9 0 0.0035 1 …

1
統計的に有意な分析と有意でない分析でイータ平方/部分イータ平方の解釈と報告方法は?
グループ平均差の効果サイズの尺度として計算されたイータ2乗値と部分イータ2乗値を持つデータがあります。 イータ平方と部分イータ平方の違いは何ですか?同じCohenのガイドラインを使用して両方を解釈できますか(1988年:0.01 =小、0.06 =中、0.13 =大) また、比較テスト(すなわち、t検定または一元配置分散分析)が有意でない場合、効果のサイズを報告するのに使用はありますか?私の頭では、これは「平均差は統計的有意性に達しなかったが、イータの2乗から示される効果の大きさは中程度であるため、依然として注目に値する」と言っているようなものです。または、効果サイズは、補完的なものではなく、有意性テストの代替値ですか?

4
Rの「。」(ドット)の意味は何ですか?
「R in a Nutshell」という本を読んでいます。そして、「。」の部分をスキップしたようです。「sample.formula」のように説明されました。 > sample.formula <- as.formula(y~x1+x2) サンプルは、他の言語のようにフィールド式を持つオブジェクトですか?もしそうなら、どのようにしてこのオブジェクトが持っている他のフィールド/機能を見つけることができますか?(型宣言) 編集:私はちょうど「。」の別の紛らわしい使い方を見つけました: > svm(formula = is_spam~., data = spambase.training) (〜。、の間のドット)
39 r 

6
最小角回帰となげなわ
最小角回帰となげなわは、非常によく似た正則化パスを生成する傾向があります(係数がゼロと交差する場合を除いて同一です)。 両方とも、実質的に同一のアルゴリズムによって効率的に適合できます。 ある方法を他の方法よりも優先する実用的な理由はありますか?
39 regression  lasso 

3
Rオブジェクトのモード、クラス、およびタイプ
Rオブジェクトのモード、クラス、タイプの違いは何ですか?Rオブジェクトのタイプは、typeof()関数、モード(mode())、およびクラス(class())によって取得できます。 私が見逃した他の同様の機能と概念もありますか? よろしくお願いします!
39 r 

3
Clojure対R:データ分析の長所と短所
近い将来、Rを学習する計画がありました。Clojureについて知った別の質問を読んで。今、私は何をすべきかわかりません。 私にとってのRの大きな利点は、私の監督者の1人を含めて、経済学の一部の人がそれを使用していることです(ただし、他の人はRに近づかないでください!)。Clojureの利点の 1つは、Lispベースであり、Emacsの学習を開始し、独自のカスタマイズを作成することに熱心であるためです(そうです、ClojureとElispはLispの異なる方言ですが、 Lispと、したがって私が想像するようなものの両方)。 私はこれが非常に個人的なものであると知っているので、どちらが良いかを尋ねることはできませんが、誰かがClojure x Rの利点(または利点)を、特に実用的な面で私に与えることができますか?たとえば、学習しやすいもの、柔軟性の高いもの、強力なもの、ライブラリ、サポート、ユーザーなどが多いものはどれでしょうか? 私の意図した使用:私の推定の大部分はMatlabを使用して行う必要があるため、統計分析の観点で深すぎるものを探しているのではなく、初期データの操作と視覚化、要約統計、グラフ作成をExcelに置き換えるソフトウェアを探しています。しかし、いくつかの基本的な統計分析または私の推定での最初の試みも。
39 r 

8
グループの違いがないという仮説をテストする方法は?
数値従属変数(例:知能テストのスコア)を調べる2つのグループ(例:男性と女性)での研究があり、グループに違いがないという仮説があるとします。 質問: グループの違いがないかどうかをテストする良い方法は何ですか? グループの違いがないことを適切にテストするために必要なサンプルサイズをどのように決定しますか? 初期の考え: 帰無仮説を棄却できないからといって、対象のパラメーターがゼロに近い、またはゼロに近いわけではないため、標準のt検定を行うだけでは十分ではありません。これは、特に小さなサンプルの場合です。 95%の信頼区間を見て、すべての値が十分に小さい範囲内にあることを確認できました。たぶんプラスまたはマイナス0.3標準偏差。

8
Rのグラフィカルデータの概要(概要)関数
Rパッケージでこのような関数に出くわしたことは確かですが、大規模なGooglingを行った後はどこにも見つからないようです。私が考えている機能は、それに与えられた変数のグラフィカルな要約を生成し、いくつかのグラフ(ヒストグラムとおそらくボックスとウィスカープロット)と平均、SDなどの詳細を示すテキストで出力を生成します この関数はベースRに含まれていなかったと確信していますが、使用したパッケージが見つからないようです。 誰もがこのような関数を知っていますか?もしそうなら、どのパッケージに含まれていますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.