統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
期待の添字表記
測定理論の枠組みにおける条件付き期待値の添字表記の正確な意味は何ですか?これらの添え字は、条件付き期待値の定義には表示されませんが、たとえばwikipediaのこのページに表示される場合があります。(数ヶ月前の同じページではないことに注意してください)。EX[f(X)]EX[f(X)]\mathbb{E}_X[f(X)] 例えばの意味は何をする必要がありますでX 〜N(0 、1 )とY = X + 1?EX[X+Y]EX[X+Y]\mathbb{E}_X[X+Y]X∼N(0,1)X∼N(0,1)X\sim\mathcal{N}(0,1)Y=X+1Y=X+1Y=X+1

3
一般化推定方程式と混合効果モデルのどちらを使用するか?
私はかなり長い間、縦断的データを使って混合効果モデルをかなり喜んで使用しています。AR関係をlmerに収めることができればいいのですが(これができないのは正しいと思いますか?)、それが絶対に重要であるとは思わないので、あまり心配しません。 一般的な推定方程式(GEE)に出会ったばかりで、MEモデルよりもはるかに柔軟性が高いようです。 過度に一般的な質問をする危険性がありますが、異なるタスクに対してどちらが良いかについてのアドバイスはありますか?それらを比較する論文を見たことがありますが、それらは次のような形式になりがちです。 「この非常に専門的な分野では、XにGEEを使用しないでください。YにMEモデルを使用しないでください」。 これ以上の一般的なアドバイスは見つかりませんでした。誰でも私を啓発できますか? ありがとうございました!
63 mixed-model  gee 

9
ベイジアンアプローチがよりシンプル、より実用的、またはより便利な状況のリスト
ベイジアンとフリークエンティストの間の統計には多くの議論がありました。私は一般的に、これらはむしろ不快なものだと思っています(しかし、私はそれが死んだと思いますが)。一方、私はこの問題について完全に実用的な見方をする複数の人々に会いました。頻繁な分析を行う方が便利な場合もあれば、ベイジアン分析を実行する方が簡単な場合もあります。この視点は実用的で新鮮だと思います。 そのような場合のリストを用意しておくと役立つと思います。統計分析が多すぎるため、そして頻繁に分析を行うのが通常より実用的であると仮定しているため(WinBUGSでt検定をコーディングすることは、R 、たとえば)、ベイジアンのアプローチが頻繁なアプローチよりも単純で、より実用的で、および/またはより便利な状況のリストがあるといいでしょう。 (私が興味のない2つの答えは、「常に」と「決して」ではありません。人々は強い意見を持っていることを理解していますが、ここで放映しないでください。ここでの私の目標は、仕事をするアナリストに役立つリソースを開発することであり、粉砕するxではありません。) 人々は複数のケースを提案することを歓迎しますが、それぞれの状況を個別に評価(投票/議論)できるように、個別の回答を使用して提案してください。回答が表示されるはずです:(1)どのような状況の性質があり、かつ(2)なぜベイジアンアプローチは、この場合には簡単です。いくつかのコード(たとえば、WinBUGSに)分析が行われるだろう、なぜベイジアンバージョンが理想的であるより実用的であるが、私はあまりにも面倒になります期待して方法を示します。簡単にできる場合は感謝しますが、その理由を含めてください。 最後に、あるアプローチが別のアプローチよりも「簡単」であるということの意味を定義していないことを認識しています。真実は、あるアプローチが他のアプローチよりも実用的であることの意味が完全にはわからないということです。私はさまざまな提案を受け入れています。あなたが議論する状況でベイジアン分析がより便利である理由を説明するときに、あなたの解釈を指定するだけです。

10
タレブと黒い白鳥
Talebの本「The Black Swan」は、数年前に発売されたNew York Timesのベストセラーでした。この本は現在第2版になっています。JSM(年次統計会議)で統計学者と会った後、タレブは統計に対する彼の批判をいくらか抑えました。しかし、本の趣旨は、統計が非常に有用ではないということです。統計は正規分布と非常にまれなイベントに依存しているためです。「Black Swans」には正規分布がありません。 これは正当な批判だと思いますか?タレブは統計的モデリングの重要な側面を逃していますか?少なくとも、発生の確率を推定できるという意味で、まれなイベントを予測できますか?

3
帰無仮説の有意性検定に対する引数を含む参照?
ここ数年、私は科学における帰無仮説の有意性検定の使用に反対する多くの論文を読みましたが、永続的なリストを維持するとは考えていませんでした。最近、同僚がそのようなリストを求めてきたので、私はここにいるすべての人にリストの作成を手伝ってもらおうと思った。物事を始めるために、ここに私がこれまで持っているものがあります: ヨハンソン(2011)「不可能を呼び起こす:p値、証拠、可能性。」 Haller&Kraus(2002)「重要性の誤解:生徒が教師と共有する問題」 Wagenmakers(2007)「p値の一般的な問題に対する実用的な解決策。」 Rodgers(2010)「数学的および統計的モデリングの認識論:静かな方法論的革命。」 ディクソン(1998)「科学者がp値を重視する理由」 Glover&Dixon(2004)「尤度比:経験心理学者向けのシンプルで柔軟な統計。」

8
PCAの後に回転(バリマックスなど)が続いているのはまだPCAですか?
私はRのSPSSから(PCAを使用して)いくつかの研究を再現しようとしました。私の経験では、パッケージからのprincipal() 関数はpsych、出力に一致する唯一の関数でした(または私の記憶が正しければ、完全に機能します)。SPSSと同じ結果を一致させるには、parameterを使用する必要がありましたprincipal(..., rotate = "varimax")。私は論文がPCAをどのようにしたかについて話しているのを見てきましたが、SPSSの出力と回転の使用に基づいて、それは因子分析のように聞こえます。 質問:PCAは、(を使用してvarimax)回転した後でもPCAですか?私はこれが実際に因子分析であるかもしれないという印象を受けていました...もしそうでない場合、どのような詳細が欠けていますか?




4
小さな
の一部のテストでRは、のp値の計算に下限があります。正当な理由がある場合、または単にarbitrary意的なものである場合、なぜこの数字なのかわかりません。他の多くの統計パッケージはに移動するだけなので、これははるかに高いレベルの精度です。しかし、または報告している論文はあまり見ていません。2.22⋅10−162.22⋅10−162.22 \cdot 10^{-16}0.0001p&lt;2.22⋅10−16p&lt;2.22⋅10−16p < 2.22\cdot 10^{-16}p=2.22⋅10−16p=2.22⋅10−16p = 2.22\cdot 10^{-16} この計算値を報告するのは一般的/ベストプラクティスp &lt; 0.000000000000001ですか、それとも他の何か(など)を報告するのがより一般的ですか?

3
ニューラルネットワークと深い信念ネットワークの違いは何ですか?
人々が「深い信念」のネットワークに言及しているとき、これは基本的にニューラルネットワークであるが非常に大きいという印象を受けています。これは正しいですか、または深い信念ネットワークは、アルゴリズム自体が異なることを暗示していますか(つまり、フィードフォワードニューラルネットはないが、おそらくフィードバックループのあるもの)。

6
k-meansクラスタリングアルゴリズムがユークリッド距離メトリックのみを使用するのはなぜですか?
効率または機能性に関して、k-meansアルゴリズムがコサイン(dis)の類似性を距離メトリックとして使用せず、ユークリッドノルムのみを使用できる理由はありますか?一般に、ユークリッド以外の距離が考慮または使用される場合、K-means法は準拠し、正しいですか? [@ttnphnsによる追加。質問は2つあります。「(非)ユークリッド距離」は、2つのデータポイント間の距離、またはデータポイントとクラスター中心間の距離に関係する場合があります。これまでのところ、両方の方法で回答を取り上げようとしました。]

3
randomForest :: getTree()からサンプルツリーを実際にプロットする方法は?[閉まっている]
いくつかのサンプルツリーを実際にプロットする方法について、ライブラリまたはコードの提案がありました。 getTree(rfobj, k, labelVar=TRUE) はいエンコードされたファクターがどれだけうまく機能しているかなど) 適切な答えのない事前の質問: ランダムフォレストをより解釈可能にする方法は? また、ランダムフォレストから知識を得ます 実際にサンプルツリーをプロットしたいです。だから、すでにそれについて私と議論しないでください。varImpPlot(Variable Importance Plot)やpartialPlotor MDSPlot、またはこれらの他のプロットについては聞いていませんが、それらは既にありますが、サンプルツリーを見ることの代わりではありません。はい、視覚的に出力を調べることができますgetTree(...,labelVar=TRUE)。 (plot.rf.tree()貢献は非常に歓迎されると思います。)

4
不確実性のブートストラップ推定に関する仮定
不確かさの推定値を取得する際のブートストラップの有用性は高く評価されますが、それについて常に悩まされることの1つは、それらの推定値に対応する分布がサンプルで定義された分布であることです。一般に、サンプル周波数が基礎となる分布とまったく同じであると信じるのは悪い考えのように思えますが、サンプル周波数が基礎となる分布を定義する分布に基づいて不確実性の推定値を導き出すのはなぜ聞こえる/受け入れられるのでしょうか? 一方で、これは私たちが通常行う他の分布の仮定よりも悪いことはないかもしれませんが、正当性をもう少しよく理解したいと思います。

8
AとBがCと相関している場合、なぜAとBは必ずしも相関しないのですか?
私は経験的にそれが事実であることを知っています。この難問にぶつかるモデルを開発しました。また、必ずしもyes / noの答えではないのではないかと思います。つまり、AとBの両方がCと相関している場合、これはAとBの間の相関に関して何らかの意味を持つかもしれません。しかし、この意味は弱いかもしれません。それは単なる標識の方向であり、他には何もないかもしれません。 これが私が意味することです... AとBの両方がCと0.5の相関関係を持っているとしましょう。それを考えると、AとBの間の相関関係は1.0になります。0.5またはそれ以下になることもあると思います。しかし、マイナスになる可能性は低いと思います。それに同意しますか? また、標準のピアソン相関係数を検討している場合、または代わりにスピアマン(ランク)相関係数を検討している場合、影響はありますか?私の最近の経験的観測は、スピアマン相関係数に関連付けられていました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.