統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

2
線形混合モデルで変量効果構造と固定効果構造を選択する方法は?
被験者内の双方向設計からの次のデータを考慮してください。 df <- "http://personality-project.org/r/datasets/R.appendix4.data" df <- read.table(df,header=T) head(df) Observation Subject Task Valence Recall 1 1 Jim Free Neg 8 2 2 Jim Free Neu 9 3 3 Jim Free Pos 5 4 4 Jim Cued Neg 7 5 5 Jim Cued Neu 9 6 6 Jim Cued Pos 10 混合線形モデルを使用してこれを分析したいと思います。考えられるすべての固定効果と変量効果を考慮すると、複数の可能なモデルがあります。 …

2
ログ変換後の標準エラーの計算
正規分布している数のランダムなセットを考えます: x <- rnorm(n=1000, mean=10) 平均と平均の標準誤差を知りたいので、次のことを行います。 se <- function(x) { sd(x)/sqrt(length(x)) } mean(x) # something near 10.0 units se(x) # something near 0.03 units すばらしいです! ただし、元の分布が正規分布に従うことを必ずしも知らないと仮定します。データをログ変換し、同じ標準誤差計算を実行します。 z <- log(x, base=10) mean(z) # something near 1 log units se(z) # something near 0.001 log units クールですが、ログ単位ではなく単位で答えを得るために逆変換する必要があります。 10^mean(z) # something near 10.0 …

4
平均=中央値は、単峰分布が対称であることを意味しますか?
単峰性分布の場合、平均=中央値であれば、分布は対称であると言えば十分ですか? ウィキペディアは、平均と中央値の関係で次のように述べています。 「分布が対称の場合、平均は中央値に等しく、分布の歪度はゼロになります。さらに、分布が単峰性の場合、平均=中央値=モードです。これは、コイントスまたはシリーズ1、2、3、4、...ただし、一般的に逆は成り立たないことに注意してください。つまり、歪度ゼロは、平均が中央値に等しいことを意味しません。」 ただし、必要な情報を収集することは(私にとって)それほど単純ではありません。助けてください。

2
一般化された加法モデル—サイモンウッド以外の研究者は誰ですか?
私はGAMをますます使用しています。さまざまなコンポーネント(平滑化パラメーターの選択、さまざまなスプラインベース、平滑項のp値)の参照を提供しようとすると、それらはすべて1人の研究者(イギリスのバース大学のサイモンウッド)からのものです。 彼はmgcvR のメンテナーでもあり、彼は自分の仕事を実装しています。 mgcv非常に複雑ですが、非常にうまく機能します。 確かに古いものがあります。元のアイデアはHastie&Tibshiraniの功績によるものであり、2003年にRuppertらによって非常に古い教科書が執筆されました。 申請者として、私は学術統計学者の間で時代精神を感じていない。彼の作品はどのように見られていますか?1人の研究者が1つの分野でこれほど多くのことを行ったことは少し奇妙ですか?それとも、中に入れられないためにそれほど気づかない他の仕事がありmgcvますか?GAMがそれほど使用されているとは思いませんが、この資料は統計トレーニングを受けた人々にとっては合理的にアクセス可能であり、ソフトウェアは非常によく開発されています。「裏話」の多くはありますか? 統計ジャーナルからのパースペクティブの断片や他の同様のものの推奨は高く評価されるでしょう。

2
「ロジスティック回帰」という名前の意味は何ですか?
ここからロジスティック回帰の実装を確認しています。 その記事を読んだ後、重要な部分はシグモイド関数を決定するための最良の係数を見つけることであるようです。それで、なぜこの方法が「ロジスティック回帰」と呼ばれるのか疑問に思います。対数関数に関連していますか?それをよりよく理解するために、おそらく歴史的な背景情報が必要です。


2
時系列データでPCAを解釈する方法は?
私は、「クラスタは、コンピューティングとスケールでマッピング脳活動」と題した最近の雑誌の記事でPCAの使用を理解しようとしていますフリーマンら、2014(無料のPDF ラボのウェブサイトで入手可能)。彼らは、時系列データに対してPCAを使用し、PCAの重みを使用して脳のマップを作成します。 データは(と呼ばれる行列として記憶試験平均撮像データであるYを有する紙で)n個のボクセル(または脳の撮像位置)× Tの時点(脳への単一刺激の長さ)。Y^Y^\hat {\mathbf Y}nnn×t^×t^\times \hat t 彼らは、その結果SVD使用Y = U S V ⊤(V ⊤行列の転置を表すVを)。Y^=USV⊤Y^=USV⊤\hat {\mathbf Y} = \mathbf{USV}^\topV⊤V⊤\mathbf V^\topVV\mathbf V 著者は、 主成分(の列)長さのベクトルであり、T、及びスコア(の列Uは)長さのベクトルであるN個の対応するコンポーネントによって与えられた方向に各ボクセルの投影を説明する、(ボクセル数) 、ボリューム上に投影、つまり全脳マップを形成します。VV\mathbf Vt^t^\hat tUU\mathbf Unnn だから、PCは、長さのベクトルですトン。PCAのチュートリアルで一般的に表現されているように、「最初の主成分がほとんどの分散を説明する」と解釈するにはどうすればよいですか?多くの高度に相関した時系列のマトリックスから始めました-単一のPC時系列は元のマトリックスの分散をどのように説明しますか?私は「最も多様な軸への点のガウス雲の回転」のこと全体を理解していますが、これが時系列にどのように関係するかはわかりません。著者は、「スコア(Uの列)は長さnのベクトルである」と述べるとき、方向によって何を意味しますかt^t^\hat tUU\mathbf Unnn (ボクセルの数)、対応するコンポーネントによって与えられる方向への各ボクセルの投影を記述します」?主成分の時間経過はどのように方向を持つことができますか? 主成分1と2の線形結合と関連する脳マップから得られる時系列の例を見るには、次のリンクに移動し、XYプロットのドットにマウスを合わせます。 2番目の質問は、主成分スコアを使用して作成する(状態空間)軌跡に関連しています。 これらは、(私は上に概説した「微細運動」の例の場合)を最初の2項目を取ることによって作成され、式により主要部分空間への(上記試験平均行列を作成するために使用される)は、個々の試験を投影している:J = U⊤Y。J=U⊤Y.\mathbf J = \mathbf U^\top \mathbf Y. リンクされた映画でわかるように、状態空間の各トレースは、脳全体の活動を表しています。 最初の2台のPCのスコアのXYプロットを関連付ける図と比較して、状態空間ムービーの各「フレーム」が何を意味するかについて、誰かが直感を提供できますか。実験の1回の試行がXY状態空間の1つの位置にあり、別の試行が別の位置にある特定の「フレーム」で何を意味しますか?映画のXYプロットの位置は、私の質問の最初の部分で述べたリンクされた図の主成分トレースとどのように関係しますか?

1
ggplot2でgeom_pointの位置を「回避」するにはどうすればよいですか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 Rでggplot2を使用して、次のようなプロットを作成しています。 エラーバーは互いに重なり合っており、非常に乱雑に見えます。異なるインデックスのエラーバーを分離するにはどうすればよいですか?position = "dodge"を使用しましたが、機能していないようです。これが私のコードの主要部分です。 plot = ggplot(data,aes(x=ntrunc,y=beta_best,group=ntrunc,colour=INDEX)) +geom_point(aes(shape=detectable),na.rm=TRUE,position="dodge") +geom_errorbar(aes(x=ntrunc,ymax=beta_high,ymin=beta_low),na.rm=TRUE,position="dodge")

4
プラス1標準偏差が最大値を超えることを意味できますか?
最小0と最大94.33のサンプルの平均74.10と標準偏差33.44があります。 私の教授は、平均プラス1つの標準偏差が最大値を超える方法を尋ねます。 私は彼女にこれについて多くの例を示しましたが、彼女は理解していません。私は彼女を示すためにいくつかの参照が必要です。これについては特に統計書のどの章や段落でもかまいません。

4
治療の影響を受ける共変量で必要な良いデータの例
私は多くのRデータセット、DASLでの投稿、および他の場所を見てきましたが、実験データの共分散分析を説明する興味深いデータセットの良い例をあまり見つけていません。統計の教科書には、不自然なデータを含む「おもちゃ」のデータセットが多数あります。 例があります: データは本物であり、興味深いストーリーがあります 少なくとも1つの治療因子と2つの共変量があります 少なくとも1つの共変量は1つ以上の治療因子の影響を受け、1つは治療の影響を受けません。 観察的ではなく実験的、できれば バックグラウンド 私の本当の目標は、Rパッケージのビネットに入れる良い例を見つけることです。しかし、より大きな目標は、共分散分析におけるいくつかの重要な懸念を示すために、人々が良い例を見る必要があるということです。次の構成シナリオを検討してください(そして、農業に関する私の知識はせいぜい表面的なものであると理解してください)。 肥料を区画にランダム化して、作物を植える実験を行います。適切な生育期間の後、作物を収穫し、品質特性を測定します-それが応答変数です。しかし、栽培期間中の総降雨量、収穫時の土壌酸性度、そしてもちろんどの肥料が使用されたかを記録しています。したがって、2つの共変量と1つの処理があります。 結果データを分析する通常の方法は、因子としての処理と共変量の相加効果をもつ線形モデルを適合させることです。次に、結果を要約するために、平均降水量と平均土壌酸性度3での各肥料のモデルからの予測である「調整済み平均」(別名最小二乗平均)を計算します。これにより、すべてが平等になります。これらの結果を比較すると、降雨量と酸性度が一定に保たれるためです。 しかし、これはおそらく間違ったことです。肥料はおそらく土壌の酸性度と反応に影響を与えるからです。治療効果には酸性度への影響が含まれるため、調整された手段は誤解を招く可能性があります。これを処理する1つの方法は、モデルから酸性度を取り除くことです。その後、降雨量を調整した手段で公平な比較を行います。しかし、酸性度が重要な場合、この公平性は、残留変動の増加という大きな犠牲を伴います。 モデルの元の値の代わりに調整されたバージョンの酸性度を使用することにより、この問題を回避する方法があります。私のRパッケージlsmeansの今後の更新により、これは非常に簡単になります。しかし、私はそれを説明する良い例が欲しいです。いくつかの優れた実例となるデータセットを教えてくれた人に感謝し、正当に認めます。

2
海で失われた漁師の探索にベイズの定理を適用する方法
The Odds、Continually Updatedの記事では、文字通りベイジアン統計に人生を負っているロングアイランドの漁師の話に言及しています。これが短いバージョンです: 夜中にボートに乗っている2人の漁師がいます。一方が眠っている間に、もう一方は海に落ちます。ボートは、最初の男が目を覚まして沿岸警備隊に通知するまで、オートパイロットで夜中ずっと動き回っています。沿岸警備隊は、SAROPS(Search and Rescue Optimal Planning System)と呼ばれるソフトウェアを使用して、体温が低く、浮かんでいるエネルギーがほとんどないので、適時に彼を見つけました。 ここに長いバージョンがあります:海のスペック ここで、ベイズの定理が実際にどのように適用されているかをもっと知りたいと思いました。グーグルで調べただけで、SAROPSソフトウェアについてかなりのことがわかりました。 SAROPSシミュレーター シミュレータコンポーネントは、海流、風などのタイムリーなデータを考慮に入れ、数千の可能なドリフトパスをシミュレートします。これらのドリフトパスから、確率分布マップが作成されます。 次の図は、上記の行方不明の漁師の場合を示しているのではなく、このプレゼンテーションから取ったおもちゃの例です 確率マップ1(赤は最も高い確率を示し、青は最も低い確率を示します) 開始位置である円に注意してください。 確率マップ2-さらに時間が経過しました 確率マップがマルチモーダルになっていることに注意してください。これは、この例では、複数のシナリオが考慮されているためです。 人は水に浮かんでいます-トップミドルモード 人は救命いかだに乗っています(北からの風の影響がより大きくなります)-下2つのモード(「ジャイブ効果」のために分割されます) 確率マップ3-赤の長方形のパスに沿って検索が行われました。 この画像は、プランナー(SAROPSの別のコンポーネント)によって生成された最適なパスを示しています。ご覧のとおり、これらのパスが検索され、シミュレータによって確率マップが更新されています。 検索されたエリアがゼロ確率に減らされていないのはなぜだろうと思うかもしれません。これは、失敗の可能性が考慮されているためです。つまり、検索者が水中の人を見落とす可能性が無視できないことです。当然、失敗の確率は、救命いかだにいる人よりも浮いている孤独な人の方がはるかに高く(見やすい)、そのため、上部の領域の確率はあまり下がっていません。p(fail)p(fail)p(\text{fail}) 失敗した検索の影響 これが、ベイズの定理が登場する場所です。検索が実行されると、それに応じて確率マップが更新されるため、別の検索を最適に計画できます。 ベイズ確認した後の定理をウィキペディアにして記事のアン直感的(ショート)ベイズの説明定理にBetterExplained.com ベイズの方程式を取りました。 P(A∣X)=P(X∣A)×P(A)P(X)P(A∣X)=P(X∣A)×P(A)P(X) P(\text{A}\mid\text{X}) = \frac{P(\text{X}\mid\text{A}) \times P(\text{A})}{P(\text{X})} そして、次のようにAとXを定義しました... イベントA:このエリアにいる人(グリッドセル) テストX:そのエリア(グリッドセル)での検索の失敗、つまりそのエリアを検索しても何も表示されなかった 降伏、 P(そこにいる人∣ 不成功)= P(失敗∣ そこに人)× P(人がいる)P(失敗)P(person there∣unsuccessful)=P(unsuccessful∣person there)×P(person there)P(unsuccessful) P(\text{person there}\mid\text{unsuccessful}) = \frac{P(\text{unsuccessful}\mid\text{person there}) …

1
PCAがよりよく説明された分散比を与える前にデータを正規化しない
データセットを正規化した後、3つのコンポーネントPCAを実行して、小さな説明付き分散比([0.50、0.1、0.05])を取得しました。 データセットを正規化せずにデータセットを白色化して3コンポーネントPCAを実行すると、説明された分散比が高くなりました([0.86、0.06,0.01])。 できるだけ多くのデータを3つのコンポーネントに保持したいので、データを正規化してはいけませんか?私の理解では、PCAの前に常に正規化する必要があります。 正規化により:平均を0に設定し、単位分散を持ちます。
19 pca 

2
で支持体として全ての有理数を有する離散RVを構成する
これはこの質問の構成主義者の続編です。 区間内のすべての有理数をサポートする離散均一確率変数を使用できない場合、次に最適なものは次のとおりです。 [0,1][0,1][0,1] 確率変数コンストラクトこの支持有する、それが続くこと一部分布。そして、私の職人は、このランダム変数が、取得したいものを抽象的に定義することによって作成されるのではなく、既存の分布から構築されることを要求しています。QQQQ∈Q∩[0,1]Q∈Q∩[0,1]Q\in \mathbb{Q}\cap[0,1] そこで、私は次のことを思いつきました。 LET幾何分布変パラメータとII以下の離散確率変数であり、すなわち、XXX0&lt;p&lt;10&lt;p&lt;10<p<1 X∈{0,1,2,...},P(X=k)=(1−p)kp,FX(X)=1−(1−p)k+1X∈{0,1,2,...},P(X=k)=(1−p)kp,FX(X)=1−(1−p)k+1 X \in \{0,1,2,...\},\;\;\;\; P(X=k) = (1-p)^kp,\;\;\; F_X(X) = 1-(1-p)^{k+1} またましょう幾何分布-バリアントI、同一のパラメータでは、次の離散確率変数である、すなわち、YYYppp Y∈{1,2,...},P(Y=k)=(1−p)k−1p,FY(Y)=1−(1−p)kY∈{1,2,...},P(Y=k)=(1−p)k−1p,FY(Y)=1−(1−p)k Y \in \{1,2,...\},\;\;\;\; P(Y=k) = (1-p)^{k-1}p,\;\;\; F_Y(Y) = 1-(1-p)^k XXXとは独立しています。ランダム変数を定義しますYYY Q=XYQ=XYQ = \frac {X}{Y} 条件付き分布を検討する P(Q≤q∣{X≤Y})P(Q≤q∣{X≤Y})P(Q\leq q \mid \{X\leq Y\}) ルーズすなわち「条件の比であるを超えるを条件小さいかより等しい」この条件付き分布のサポートは。X Y X Y { 0 、1 、1 / 2 、1 …


2
ロバスト線形モデルの重み付き
MASSパッケージのRを使用してrlm()、MMの重みでロバストな線形モデルを推定しました。`R``はモデルの値を提供しませんが、意味のある量であればR 2が欲しいです。また、ロバスト回帰で観測値に重みが付けられたのと同じ方法で、合計分散と残差を重み付けするR 2値を持つことに意味があるかどうかを知りたいと思っています。私の一般的な考え方は、回帰の目的で、何らかの方法で外れ値であるため、いくつかの推定値の影響が少ない重みを本質的に使用している場合、r 2を計算するためにそれらを与える必要があるかもしれないということです同じ見積もりは影響が少ない?R2R2R^2R2R2R^2r2r2r^2 と重み付きR 2の2つの簡単な関数を書きました。それらは以下にあります。また、HI9と呼ばれる私のモデルに対してこれらの関数を実行した結果も含めました。編集:私は式を与えるUNSWのアデルコスターのウェブページが見つかりそれは両方の計算の計算に重みベクトルを含んでいると、私がやったように、そしてより正式な参照のために彼女に尋ねた:のhttp://web.maths。 unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html(この重み付けされたr 2の解釈方法については、Cross Validatedからのヘルプを引き続き探しています。)R2R2R^2R2R2R^2R2SSeSStr2r2r^2 #I used this function to calculate a basic r-squared from the robust linear model r2 &lt;- function(x){ + SSe &lt;- sum((x$resid)^2); + observed &lt;- x$resid+x$fitted; + SSt &lt;- sum((observed-mean(observed))^2); + value &lt;- 1-SSe/SSt; + return(value); + } r2(HI9) [1] 0.2061147 #I …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.