統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
スパースコーディングとオートエンコーダーの違いは何ですか?
スパースコーディングは、入力ベクトル(<-なぜこれが必要なのか)を表すために、基底ベクトルの過剰なセットを学習することと定義されます。スパースコーディングとオートエンコーダーの違いは何ですか?スパースコーディングとオートエンコーダを使用するのはいつですか?

1
Rのtsoutliersパッケージを使用した時系列(LS / AO / TC)の外れ値の検出。方程式形式で外れ値を表す方法
コメント: まず、1993年にオープンソースソフトウェア Journal of the American Statistical Associationに発表されたChenとLiuの時系列外れ値検出を実装する新しいtsoutliersパッケージの作成者に感謝します。RRR このパッケージは、時系列データで5種類の外れ値を繰り返し検出します。 加算的外れ値(AO) イノベーションの外れ値(IO) レベルシフト(LS) 一時的な変更(TC) 季節的レベルシフト(SLS) さらに素晴らしいのは、このパッケージが予測パッケージからauto.arimaを実装しているため、異常値の検出がシームレスに行われることです。また、このパッケージは、時系列データをよりよく理解するためのすてきなプロットを生成します。 以下は私の質問です。 このパッケージを使用していくつかの例を実行してみましたが、うまくいきました。加算的な外れ値とレベルシフトは直感的です。ただし、一時的な変更の外れ値とイノベーションの外れ値の処理に関して、理解できない2つの質問がありました。 一時的な変更の外れ値の例: 次の例を考えてみましょう。 library(tsoutliers) library(expsmooth) library(fma) outlier.chicken <- tsoutliers::tso(chicken,types = c("AO","LS","TC"),maxit.iloop=10) outlier.chicken plot(outlier.chicken) プログラムは、次の場所でレベルシフトと一時的な変更を正しく検出します。 Outliers: type ind time coefhat tstat 1 LS 12 1935 37.14 3.153 2 TC 20 1943 36.38 3.350 以下はプロットと私の質問です。 方程式の形式で一時的な変更を書き込む方法は?(レベルシフトは、1935 …

11
平均絶対偏差と標準偏差
Greer(1983)による教科書「Oレベルの新しい包括的数学」では、平均偏差は次のように計算されています。 単一の値と平均値の絶対差を合計します。次に、その平均を取得します。この章では、平均偏差という用語が使用されています。 しかし最近、標準偏差という用語を使用するいくつかの参考文献を見てきました。 単一の値と平均値の差の二乗を計算します。次に、それらの平均値を取得し、最終的に回答のルートを取得します。 共通のデータセットで両方の方法を試しましたが、答えは異なります。私は統計学者ではありません。私の子供たちに逸脱を教えようとしていたとき、私は混乱しました。 要するに、標準偏差と平均偏差という用語は同じですか、それとも私の古い教科書は間違っていますか?

1
ロジスティック回帰:anovaカイ2乗検定対係数の有意性(anova()vs summary()in R)
8つの変数を持つロジスティックGLMモデルがあります。Rでカイ2乗検定を実行しましたanova(glm.model,test='Chisq')が、変数の2つは、テストの一番上で注文したときに予測的であり、一番下で注文したときにはそれほど予測されませんでした。summary(glm.model)それらの係数は有意でない(高いp値)であることを示唆しています。この場合、変数は重要ではないようです。 変数の有意性のより良い検定-モデルの要約の係数の有意性またはからのカイ2乗検定のどちらがよいかを尋ねたかったのanova()です。また、どちらが一方よりも優れているのはいつですか? 私はそれは広範な質問だと思いますが、何を考慮すべきかについてのポインタは評価されるでしょう。

8
立方体のエッジでのランダムウォーク
蟻は立方体の角に置かれ、移動できません。クモは反対側の角から始まり、等しい確率で立方体のエッジに沿って任意の方向移動できます。平均して、クモがアリに到達するために必要な歩数は?1 / 3(x,y,z)(x,y,z)(x,y,z)1/31/31/3 (これは宿題ではなく、インタビューの質問でした。)

3
線形回帰における有意性の矛盾:係数の有意なt検定対有意でない全体的なF統計量
4つのカテゴリ変数(それぞれ4レベル)と数値出力の間に多重線形回帰モデルを当てはめています。データセットには43個の観測値があります。 回帰により、すべての勾配係数のから次の値が得られます:.15、.67、.27、.02。したがって、4番目の予測子の係数は、\ alpha = .05信頼レベルで有意です。pppttt.15 、.67 、.27 、.02.15、.67、.27、.02.15, .67, .27, .02α =0.05α=.05\alpha = .05 一方、回帰では、すべての勾配係数がゼロに等しいという帰無仮説の全体的なF検定からppp値が得られます。私のデータセットでは、このp値は.11です。FFFppp.11.11.11 私の質問:これらの結果をどのように解釈すればよいですか?どのppp値を使用する必要があり、その理由は何ですか?4番目の変数の係数は、\ alpha = .05信頼レベルで000と大きく異なりますか?α = 0.05α=.05\alpha = .05 私は、関連する質問、見てきたFFFとttt回帰で統計を、しかし逆の状況があった:高ttt検定ppp -値と低FFF検定ppp -値が。正直なところ、線形回帰係数がゼロと有意に異なるかどうかを確認するために、tテストに加えてFFFテストが必要になる理由はよくわかりません。ttt

3
動径基底関数がカーネルであることを証明する方法は?
動径基底関数がカーネルであることを証明する方法は?私の知る限り、これを証明するためには、次のいずれかを証明する必要があります。k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) ベクトルのセットマトリックス =は半正定です。x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} =ようなマッピングを提示できます。ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle 何か助け?
35 svm  kernel-trick 


5
非常に高次元の分類のための無料のデータセット[終了]
1000を超えるフィーチャ(または曲線を含む場合はサンプルポイント)を使用した分類のために無料で利用できるデータセットは何ですか 無料のデータセットに関するコミュニティWikiが既にあります: 自由に利用可能なデータサンプルの検索 しかし、ここでは、より便利に使用できる、より焦点の絞られたリストがあればいいと思います。また、次の規則を提案します。 データセットごとに1つの投稿 データセットのセットへのリンクはありません 各データセットはに関連付けられている必要があります 名前(それが何であるかを把握するため)およびデータセットへのリンク(Rデータセットは、パッケージ名を付けることができます) フィーチャの数(pとする)、データセットのサイズ(nとする)およびラベル/クラスの数(kとする) あなたの経験からの典型的なエラー率(使用されたアルゴリズムを言葉で表す)またはリテラチャーからのこのエラー率(この最後のケースでは論文をリンクします)

3
残留標準誤差とは何ですか?
Rで重回帰モデルを実行する場合、出力の1つは自由度95,161で0.0589の残留標準誤差です。95,161の自由度は、サンプルの観測数とモデルの変数の数の差によって与えられることを知っています。残留標準誤差とは何ですか?

4
ガンマ確率変数の一般的な合計
同じスケールパラメーターを持つガンマ確率変数の合計が別のガンマ確率変数であることを読みました。また、Moschopoulosによる、ガンマランダム変数の一般的なセットを合計する方法を説明する論文を見ました。Moschopoulosのメソッドを実装しようとしましたが、まだ成功していません。 ガンマランダム変数の一般的なセットの合計はどのように見えますか?この質問を具体的にするために、それは次のように見えます: ガンマ(3 、1 )+ ガンマ(4 、2 )+ ガンマ(5 、1 )ガンマ(3、1)+ガンマ(4、2)+ガンマ(5、1)\text{Gamma}(3,1) + \text{Gamma}(4,2) + \text{Gamma}(5,1) 上記のパラメータが特に明らかになっていない場合は、他のものを提案してください。


5
線形回帰データに複数の混合線形関係が含まれている場合はどうなりますか?
水仙がさまざまな土壌条件にどのように反応するかを研究しているとしましょう。土壌のpHと水仙の成熟した高さに関するデータを収集しました。私は線形関係を期待しているので、線形回帰を実行します。 しかし、私が研究を始めたとき、個体群には実際に2種類のスイセンが含まれており、それぞれが土壌のpHに対して非常に異なる反応を示すことを知りませんでした。したがって、グラフには2つの異なる線形関係が含まれます。 もちろん、目で見て、手動で分離できます。しかし、もっと厳密なアプローチがあるのだろうか。 質問: データセットが1行またはN行のどちらに適しているかを判断する統計的テストはありますか? N行に適合する線形回帰を実行するにはどうすればよいですか?言い換えれば、混合データのもつれを解くにはどうすればよいですか? いくつかの組み合わせアプローチを考えることができますが、それらは計算量が多いようです。 明確化: 2つの品種の存在は、データ収集の時点では不明でした。各水仙の多様性は観察も記録もされていません。 この情報を回復することは不可能です。水仙はデータ収集の時から死んでいます。 私は、この問題はクラスタリングアルゴリズムの適用に似たもので、開始する前にクラスターの数をほとんど知る必要があるという印象を持っています。どのデータセットでも、行数を増やすとrmsエラーの合計が減ると思います。極端な場合、データセットを任意のペアに分割し、各ペアに線を引くだけです。(たとえば、1000個のデータポイントがある場合、それらを500個の任意のペアに分割し、各ペアに線を引くことができます。)近似は正確で、rmsエラーは正確にゼロになります。しかし、それは私たちが望むものではありません。「正しい」行数が必要です。

2
入れ子のある混合効果モデル
次のように編成された実験から収集されたデータがあります。 それぞれが30本のツリーを持つ2つのサイト。15が処理され、15が各サイトのコントロールです。各ツリーから、ステムの3つの部分とルートの3つの部分をサンプリングします。したがって、2つの因子レベル(ルート、ステム)のいずれかで表されるツリーごとに6つのレベル1のサンプルです。次に、それらのステム/ルートサンプルから、サンプル内の異なる組織を解剖することで2つのサンプルを取得します。これは、組織タイプ(組織タイプA、組織タイプB)の2つの因子レベルの1つで表されます。これらのサンプルは、連続変数として測定されます。観測の総数は720です。2つのサイト* 30本の木*(3つの幹サンプル+ 3つのルートサンプル)*(1つの組織Aサンプル+ 1つの組織Bサンプル)。データは次のようになります... ï..Site Tree Treatment Organ Sample Tissue Total_Length 1 L LT1 T R 1 Phloem 30 2 L LT1 T R 1 Xylem 28 3 L LT1 T R 2 Phloem 46 4 L LT1 T R 2 Xylem 38 5 L LT1 T R 3 …

3
モデルの赤池情報量基準(AIC)スコアはどういう意味ですか?
私はここで素人の言葉で何を意味するかについていくつかの質問を見てきましたが、これらはここでの私の目的にはあまりにも素人です。AICスコアの意味を数学的に理解しようとしています。 しかし同時に、より重要なポイントを見ないようにする厳密な証拠は必要ありません。たとえば、これが微積分であれば、私は無限小に満足し、これが確率論であれば、測定理論なしに満足します。 私の試み ここを読んで、自分自身のいくつかの表記シュガー、は、次のようにデータセットD上のモデル AIC基準です: \ text {AIC} _ {m、D} = 2k_m- 2 \ ln(L_ {m、D}) ここで、k_mはモデルmのパラメーターの数、L_ {m、D}はデータセットDのモデルmの最尤関数値です。 m D AIC m 、D = 2 k m − 2 ln (L m 、D)k m m L m 、D m DAICm,DAICm,D\text{AIC}_{m,D}mmmDDDAICm,D=2km−2ln(Lm,D)AICm,D=2km−2ln⁡(Lm,D) \text{AIC}_{m,D} = 2k_m - 2 \ln(L_{m,D}) kmkmk_mmmmLm,DLm,DL_{m,D}mmmDDD 上記が意味するものの私の理解はここにあります: m=arg maxθPr(D|θ)m=arg …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.