統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

5
分類結果の重要性をテストする正しい方法は何ですか
いくつかの異なる分類器をトレーニングしたり、いくつかの異なる特徴抽出方法を使用したりする多くの状況があります。文献では、著者はしばしば、データのランダムな分割のセット(つまり、二重にネストされた交差検証の後)で平均分類誤差を与え、時には分割での誤差にも分散を与えます。しかし、これだけでは、ある分類器が別の分類器よりもはるかに優れていると言うには不十分です。これに対する多くの異なるアプローチを見てきました-カイ2乗検定、t検定、事後検定付きANOVAなどを使用します。 統計的有意性を判断するには、どの方法を使用する必要がありますか?その疑問の根底にあるのは、分類スコアの分布についてどのような仮定を立てるべきかということです。

6
隠れマルコフモデルの問題の例?
私はかなり隠れたマルコフモデルを読み、自分でかなり基本的なバージョンをコーディングすることができました。 しかし、私が学ぶように思える2つの主な方法があります。1つはそれを読み取ってコードに実装し(完了)、2つ目はさまざまな状況でそれがどのように適用されるかを理解することです(そのため、作業中の問題にどのように関連するかをよりよく理解できます)。これまでに行ったすべての例には、何らかのDNA予測またはコイン投げが含まれています。 他のマルコフ問題を得るためのリソースがあるかどうか疑問に思っています(言語は問題ではありませんが、うまくいけば答えもあるので、私が正しいか間違っているかを知ることができます)?

3
回帰とANOVAの不一致(Rのaovとlm)
私は常に回帰はANOVAのより一般的な形式であり、結果は同一であるという印象を受けていました。しかし、最近、同じデータに対して回帰と分散分析の両方を実行しましたが、結果は大きく異なります。つまり、回帰モデルでは主効果と交互作用の両方が重要ですが、ANOVAでは主効果の1つは重要ではありません。これはインタラクションと関係があると思いますが、同じ質問をモデル化するこれら2つの方法の違いは明確ではありません。以下のシミュレーションに示すように、重要な場合、一方の予測子はカテゴリカルであり、他方の予測子は連続的です。 以下は、私のデータがどのように見えるか、実行している分析の例ですが、結果に同じp値または影響がありません(実際の結果の概要は上記のとおりです)。 group<-c(1,1,1,0,0,0) moderator<-c(1,2,3,4,5,6) score<-c(6,3,8,5,7,4) summary(lm(score~group*moderator)) summary(aov(score~group*moderator))
21 r  regression  anova 

3
NPS(ネットプロモータースコア)結果の誤差を計算するにはどうすればよいですか?
ウィキペディアにNPSの計算方法を説明します。 ネットプロモータースコアは、0〜10の評価尺度で顧客に1つの質問をすることで得られます。10は「非常に可能性が高い」、0は「まったくそうではない」です。友達ですか?」回答に基づいて、顧客は3つのグループ(プロモーター(9〜10の評価)、受動的(7〜8の評価)、および中傷者(0〜6の評価)のいずれかに分類されます。次に、中傷者の割合をプロモーターの割合から差し引いて、ネットプロモータースコア(NPS)を取得します。NPSは、-100程度の低さ(全員が批判者)、または+100程度の高さ(全員がプロモーター)です。 この調査は数年間定期的に実施されています。毎回数百の応答があります。結果のスコアは、時間の経過とともに20〜30ポイント変化しました。私は、もしあれば、どのスコアの動きが重要かを見極めようとしています。 それが単純に難しすぎると判明した場合、計算の基本の誤差を把握することに興味があります。各「バケツ」(プロモーター、パッシブ、ディトラクター)の許容誤差はどのくらいですか?スコアの平均を見るだけで、データを調査の実行ごとに1つの数値に減らした場合、誤差の範囲はどのくらいでしょうか?それは私をどこにでも連れて行くでしょうか? ここでのアイデアは役に立ちます。「NPSを使用しないでください」を除きます。その決定は、私の変化する能力の範囲外です!

3
MCMCチェーンの急速な混合に注意する必要があるのはなぜですか?
推論を描くためにマルコフ連鎖モンテカルロを使用する場合、急速に混合する、つまり、事後分布のサポートを迅速に通過する連鎖が必要です。しかし、私が理解していることから、受け入れられた候補描画は事後分布の高密度部分に集中すべきであり、集中するため、なぜこのプロパティが必要なのか理解できません。私が理解していることが真実である場合、サポート(低密度部分を含む)を介してチェーンを移動させたいですか? さらに、MCMCを使用して最適化を行っている場合、迅速なミキシングに注意する必要がありますか? ご意見をお寄せいただきありがとうございます!
21 mcmc 

4
次元の呪いとは何ですか?
具体的には、次元の呪いを厳密に示し説明する参考文献(論文、書籍)を探しています。この質問は、LaffertyとWassermanによるこのホワイトペーパーを読み始めた後に生じました。3番目の段落では、収束の最良のレートがあることを意味する「よく知られた」方程式に言及しています。誰かがそれについて説明することができれば(そしてそれを説明できるなら)、それは非常に役立つでしょう。n− 4 /(4 − d)n−4/(4−d)n^{-4/(4-d)} また、誰かが「よく知られた」方程式を導き出すリファレンスを私に指摘できますか?
21 theory 

1
Rの線形モデルの新しい入力から値を予測するにはどうすればよいですか?
ロックされています。この質問とその回答はロックされています。なぜなら、質問はトピックから外れていますが、歴史的に重要だからです。現在、新しい回答やインタラクションを受け入れていません。 R:で線形モデルを作成しましたmod = lm(train_y ~ train_x)。Xのリストを渡して、その予測/推定/予測Yを取得しpredict()たいのですが、それは何か他のもののためだと思うか、それを使用する方法がわかりません。 私は自分のモデルの係数を取ることで推測しているので、手動でtest_x変数をプラグインし、予測されたYを取得できますが、これを行うためのより効率的な方法があると推測しています。

1
Rの逆行列の効率的な計算
逆行列を計算する必要があり、solve関数を使用しています。小さなマトリックスでsolveはうまく機能しますが、大きなマトリックスでは非常に遅くなる傾向があります。より高速な結果を得ることができる他の機能または機能の組み合わせ(SVD、QR、LU、またはその他の分解機能を使用)があるかどうか疑問に思いました。

4
「不偏」とはどういう意味ですか?
「分散は偏った推定量である」と言うのはどういう意味ですか。 単純な式を使用して、バイアスのある推定値をバイアスのない推定値に変換するとはどういう意味ですか。この変換は正確に何をしますか? また、この変換の実用的な用途は何ですか?特定の種類の統計を使用するときに、これらのスコアを変換しますか?

5
高いp値を持つ強い相関係数の例
私は、非常に強い相関係数(たとえば.9以上)と高いp値(たとえば.25以上)を持つことは可能だろうかと思っていました。 これは、高いp値を持つ低い相関係数の例です。 set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927、p = 0.6994 高い相関係数、低いp値: y <- rnorm(100) x <- rnorm(100)+2*y cor.test(x,y) cor = 0.8807809、p = 2.2e-16 低相関係数、低p値: y <- rnorm(100000) x <- rnorm(100000)+.1*y cor.test(x,y) cor = 0.1035018、p = 2.2e-16 高い相関係数、高いp値:???

1
時系列のロジスティック回帰
ストリーミングデータ(多次元時系列)のコンテキストでバイナリロジスティック回帰モデルを使用して、過去の観測から与えられたデータ(行)の従属変数の値を予測します。私が知る限り、ロジスティック回帰は伝統的に事後分析に使用されており、各従属変数は既に(検査または研究の性質により)設定されています。 ただし、時系列の場合、履歴データの観点から従属変数について(オンザフライで)予測したい場合(たとえば、最後の秒の時間枠)、そしてもちろん前の従属変数の推定値?ttt また、上記のシステムが長期にわたって見られる場合、回帰が機能するためにはどのように構築する必要がありますか?最初にデータの最初の50行にラベルを付けて(つまり、従属変数を0または1に設定して)トレーニングし、次にベクトル現在の推定値を使用して、新しい確率を推定する必要がありますか到着したばかりのデータ(つまり、システムに追加されたばかりの新しい行)の従属変数は0または1ですか?ββ{\beta} 私の問題をより明確にするために、私はデータセットを行ごとに解析し、以前のすべての依存または説明の知識(観察または推定)を前提として、バイナリ結果(依存変数)の予測を試みるシステムを構築しようとしています固定時間枠に到着した変数。私のシステムはRerlにあり、推論にRを使用しています。

5
アイテム応答理論の適用を開始する方法と使用するソフトウェアは?
コンテキスト 私はアイテム反応理論について読んでいますが、それは魅力的です。私は基本を理解していると思いますが、その地域に関連する統計的手法をどのように適用するのか疑問に思っています。以下は、ITRを適用したい分野に類似した2つの記事です。 http://www.jstor.org/stable/4640738?seq=7 http://www.ncbi.nlm.nih.gov/pubmed/21744971 2つ目は、この時点で実際に拡張したいものです。 jMetrikという無料のプログラムをダウンロードしましたが、うまく機能しているようです。IRTに関しては基本的すぎると思いますが、よくわかりません。 「最良の」方法にはRの学習が含まれる可能性が高いことを知っています。ただし、その学習曲線に取り組む時間を割くことができるかどうかはわかりません。ソフトウェアを購入するための資金はいくらかありますが、私が見る限り、素晴らしいIRTプログラムは存在しないようです。 ご質問 jMetrikの有効性についてどう思いますか? IRTの適用をどのように進めますか? IRTを適用するのに最適なプログラムは何ですか? IRTを定期的に使用している人はいますか?もしそうなら、どのように?


4
決定木はほとんど常に二分木ですか?
私が遭遇したほとんどすべての決定木の例は、たまたま二分木です。これはほとんど普遍的ですか?ほとんどの標準アルゴリズム(C4.5、CARTなど)はバイナリツリーのみをサポートしていますか?私が収集したものから、CHAIDはバイナリツリーに限定されませんが、それは例外のようです。 子の1つで別の2ウェイスプリットが続く2ウェイスプリットは、単一の3ウェイスプリットとは異なります。これはアカデミックなポイントかもしれませんが、私は最も一般的なユースケースを確実に理解しようとしています。

3
Auto.arima with daily data:季節性/周期性をキャプチャする方法?
毎日の時系列にARIMAモデルを当てはめています。データは2010年2月1日から2011年7月30日まで毎日収集され、新聞販売に関するものです。週ごとの販売パターンを見つけることができるので(販売されたコピーの1日の平均量は月曜日から金曜日まで通常同じで、土曜日と日曜日に増加します)、この「季節」を捉えようとしています。売上データ「データ」を指定して、次のように時系列を作成します。 salests<-ts(data,start=c(2010,1),frequency=365) そして、auto.arima(。)関数を使用して、AIC基準を介して最適なARIMAモデルを選択します。結果は常に非季節ARIMAモデルですが、例として次の構文でいくつかのSARIMAモデルを試してみると: sarima1<-arima(salests, order = c(2,1,2), seasonal = list(order = c(1, 0, 1), period = 7)) より良い結果を得ることができます。tsコマンド/ arimaの仕様に何か問題はありますか?毎週のパターンは非常に強いので、キャプチャするのにそれほど多くの困難はないと思います。任意のヘルプは非常に便利です。ありがとう、ジュリア・デッピエーリ 更新: すでにいくつかの引数を変更しました。より正確には、プロシージャはを設定するとARIMA(4,1,3)を最良のモデルとして選択しますがD=7、AICおよびその他の適合指数および予測もまったく改善されません。季節性と周期性の混同によるいくつかの間違いがあると思います。 Auto.arima呼び出しが使用され、取得された出力: modArima<-auto.arima(salests,D=7,max.P = 5, max.Q = 5) ARIMA(2,1,2) with drift : 1e+20 ARIMA(0,1,0) with drift : 5265.543 ARIMA(1,1,0) with drift : 5182.772 ARIMA(0,1,1) with drift : 1e+20 ARIMA(2,1,0) with …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.