統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
相互作用を含めることができる2因子ANOVAのノンパラメトリックな同等物は何ですか?
こんにちは、相互作用を含めることができる双方向ANOVA(3x4設計)のノンパラメトリックな同等物を見つけようとしています。Zar 1984「生物統計学的分析」の私の読書から、これはシャイラー、レイ、およびヘア(1976)で述べられた方法を使用して可能ですが、オンラインの他の投稿によると、この方法はもはや適切ではないと推測されましただった)。 誰がそれを行うのに適切な方法を知っていますか?もしそうなら、RまたはStataの対応する機能は?

3
クラスの確率を予測する機械学習
例が2つのクラスのいずれかに属する確率を出力する分類子を探しています。 ロジスティック回帰と単純ベイズを知っていますが、同様の方法で機能する他の製品について教えてください。つまり、例が属するクラスではなく、例が特定のクラスに適合する確率を予測する分類子ですか? これらのさまざまな分類器の長所と短所(ロジスティック回帰と単純ベイズを含む)について共有できる考えのボーナスポイント。たとえば、マルチクラス分類の方が良いでしょうか?

2
多変量線形モデルを重回帰としてキャストする
多変量線形回帰モデルを多重線形回帰として再キャストすることは完全に同等ですか?私は、個別の回帰を実行するだけではありません。ttt 多変量線形モデルは重回帰として簡単に再パラメーター化できることを、いくつかの場所(ベイジアンデータ分析-ゲルマンら、および多変量オールドスクール-マーデン)で読みました。ただし、どちらのソースもこれについて詳しく説明していません。彼らは本質的にそれについて言及し、その後多変量モデルの使用を続けます。数学的には、最初に多変量バージョンを作成し、 Yn×t=Xn×kBk×t+Rn×t,Yn×t=Xn×kBk×t+Rn×t, \underset{n \times t}{\mathbf{Y}} = \underset{n \times k}{\mathbf{X}} \hspace{2mm}\underset{k \times t}{\mathbf{B}} + \underset{n \times t}{\mathbf{R}}, 太字の変数は、その下のサイズの行列です。いつものように、はデータ、は設計行列、は正規分布の残差、\ mathbf {B}は推論の対象です。X R BYY\mathbf{Y}XX\mathbf{X}RR\mathbf{R}BB\mathbf{B} これを使い慣れた多重線形回帰として再パラメーター化するには、変数を次のように単純に書き換えます。 ynt×1=Dnt×nkβnk×1+rnt×1,ynt×1=Dnt×nkβnk×1+rnt×1, \underset{nt \times 1}{\mathbf{y}} = \underset{nt \times nk}{\mathbf{D}} \hspace{2mm} \underset{nk \times 1}{\boldsymbol{\beta}} + \underset{nt \times 1}{\mathbf{r}}, ここで使用される再パラメーター化は、y=row(Y)y=row(Y)\mathbf{y} = row(\mathbf{Y}) 、β=row(B)β=row(B)\boldsymbol\beta = row(\mathbf{B})、およびD=X⊗InD=X⊗In\mathbf{D} = \mathbf{X} \otimes \mathbf{I}_{n}。 row()row()row()は、行列の行が端から端まで長いベクトルに配置されることを意味し、⊗⊗\otimesはクロネッカー、つまり外積です。 …

2
強い整合性が必要な統計アプリケーションはありますか?
誰かが知っているのか、または弱い一貫性の代わりに推定量の強い一貫性が必要な統計のアプリケーションがあるのか​​疑問に思っていました。つまり、アプリケーションには強い整合性が不可欠であり、アプリケーションは弱い整合性では機能しません。

3
RMSEの信頼区間
母集団からデータポイントのサンプルを取得しました。これらの各ポイントには、真の値(グラウンドトゥルースから既知)と推定値があります。次に、各サンプリングポイントの誤差を計算し、サンプルのRMSEを計算します。nnn 次に、サンプルサイズ基づいて、このRMSEの周りのある種の信頼区間をどのように推測できますか?nnn RMSEではなく平均を使用していた場合、標準方程式を使用できるので、これを行うのに問題はありません。 m=Zσn√m=Zσn m = \frac{Z \sigma}{\sqrt{n}} しかし、これが平均ではなくRMSEに有効かどうかはわかりません。これを適応させる方法はありますか? (私はこの質問を見ましたが、私の人口が通常分布しているかどうかの問題はありません、それはそこでの答えが扱っているものです)

4
ANOVAとKruskal-Wallis検定の違い
私はRを学んでおり、分散分析を実験しています。私は両方を実行しています kruskal.test(depVar ~ indepVar, data=df) そして anova(lm(depVar ~ indepVar, data=dF)) これら2つのテストの間に実際的な違いはありますか?私の理解では、どちらも母集団が同じ平均を持っているという帰無仮説を評価するということです。

8
統計は数学ではありませんか?
統計は数学ですか? それはすべて数字であり、ほとんどが数学部門によって教えられており、数学のクレジットを取得していることを考えると、人々がそれを言うとき、それが数学のマイナーな部分であると言ったり、単に数学を適用しただけのように、冗談を言っているだけなのか疑問に思います。 基本的な公理に基づいてすべてを構築できない統計のようなものは、数学と見なすことができるのだろうか。たとえば、値は、データの意味を理解するために生まれた概念ですが、より基本的な原則の論理的な結果ではありません。ppp

12
負の歪度を持つ分布の実際の例
「一般的な分布の実際の例」に触発されて、負のゆがみを示すために人々がどのような教育例を使用するのだろうか?教育で使用される対称分布または正規分布の「標準的な」例は数多くあります-身長や体重のようなものがより密接な生物学的精査に耐えられない場合でも!血圧は正常に近い可能性があります。私は天文学的な測定誤差が好きです-歴史的に興味深いことですが、それらは直感的にはある方向に他の方向にある可能性は低く、小さな誤差は大きな方向にある可能性が高くなります。 正の歪度の一般的な教育学的例には、人々の収入が含まれます。販売のための中古車の走行距離; 心理学実験における反応時間; 住宅価格; 保険顧客による事故請求の数; 家族の子供の数。それらの物理的妥当性は、しばしば下限値(通常はゼロ)に制限されているために生じます。 ネガティブスキューについては、明確な上限がある現実の分布が少ないため、若い視聴者(高校生)が直感的に把握できる明確で鮮明な例を与えることは困難です。学校で教えられた悪い味の例は「指の数」でした。ほとんどの人は10人ですが、事故で1人以上を失う人もいます。結果は「99%の人が平均以上の指を持っている」ということでした!10は厳密な上限ではないため、多指症は問題を複雑にします。指の紛失と余分な指の両方はまれなイベントであるため、優勢に影響する学生には不明確かもしれません。 通常、高い二項分布を使用します。しかし、学生はしばしば、「バッチ内の不良コンポーネントの数が正に歪んでいる」という補完的な事実よりも「バッチ内の満足できるコンポーネントの数が負に歪んでいる」と感じる。(教科書は産業をテーマにしています。12個入りの箱に入った割れた卵と無傷の卵を好みます。)生徒は「成功」はめったにないと思うかもしれません。ppp 別のオプションは、が正に歪んでいる場合、が負に歪んでいることを指摘することですが、これを実用的なコンテキスト(「負の住宅価格が負に歪んでいる」)に置くことは、教育的失敗の運命にあるように思われることです。データ変換の効果を教えることには利点がありますが、最初に具体的な例を挙げるのが賢明なようです。ネガティブスキューが非常に明確であり、学生の生活経験が分布の形状を認識できるようにする、人工的ではないものを好むでしょう。− XバツバツX− X−バツ-X

4
順序変数の平均を計算する
多くの場所で、順序変数の平均を計算することは不適切であると読んでいます。なぜそれが不適切なのか、直観を得ようとしています。一般に、順序変数は正規分布していないため、平均を計算すると不正確な表現になるためだと思います。順序変数の平均を計算するのが不適切である理由について、より詳細な理由を誰かに教えてもらえますか?

2
半教師あり学習の多様な仮定とは何ですか?
半教師あり学習における多様な仮定の意味を理解しようとしています。誰でも簡単に説明できますか?私はその背後にある直感をつかむことができません。 データは、高次元の空間に埋め込まれた低次元の多様体上にあると言います。意味がわかりませんでした。

2
反復強化学習とは
私は最近、「繰り返し強化学習」という言葉に出会いました。「リカレントニューラルネットワーク」とは何か、「強化学習」とは何かを理解していますが、「リカレント強化学習」とは何かについてはあまり情報が見つかりませんでした。 「繰り返し強化学習」とは何か、Qラーニングアルゴリズムのような「繰り返し強化学習」と通常の「強化学習」の違いを教えてください。


2
マルチラベル分類器でscikit-learnの相互検証関数を使用する方法
5つのクラスがあり、各インスタンスがこれらのクラスの1つ以上に属することができるデータセットでさまざまな分類子をテストしているので、特にscikit-learnのマルチラベル分類子を使用していますsklearn.multiclass.OneVsRestClassifier。次に、を使用して相互検証を実行しsklearn.cross_validation.StratifiedKFoldます。これにより、次のエラーが生成されます。 Traceback (most recent call last): File "mlfromcsv.py", line 93, in <module> main() File "mlfromcsv.py", line 77, in main test_classifier_multilabel(svm.LinearSVC(), X, Y, 'Linear Support Vector Machine') File "mlfromcsv.py", line 44, in test_classifier_multilabel scores = cross_validation.cross_val_score(clf_ml, X, Y_list, cv=cv, score_func=metrics.precision_recall_fscore_support, n_jobs=jobs) File "/usr/lib/pymodules/python2.7/sklearn/cross_validation.py", line 1046, in cross_val_score X, y = check_arrays(X, …

3
帰無仮説を棄却するには0.04993のp値で十分ですか?
Wilcoxonの符号付きランクの統計的有意性検定で、値を生成するデータに。しきい値が場合、この結果は帰無仮説を棄却するのに十分ですか?または、p値を小数点以下3桁に丸めるとになるため、テストが決定的ではなかったと言っても安全ですか?0.04993 p &lt; 0.05 0.050ppp0.049930.049930.04993p&lt;0.05p&lt;0.05p < 0.050.0500.0500.050

2
バイナリデータの類似性係数:ラッセルとラオよりもジャカードを選択する理由
統計科学百科事典 Iは、与えられたことを理解し(変数)属性、我々は任意の二つのオブジェクトのための分割表を形成することができ;二値(0 =なし1 =本バイナリ)は、I及びJのサンプルを:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d | ------- a = number of variables on which both objects i and j are 1 b = number of variables where object i is 1 and j is …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.