統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

1
ggplot2でファセットの未使用レベルを削除する[終了]
閉まっている。この質問はトピック外です。現在、回答を受け付けていません。 この質問を改善したいですか? 質問を更新して、相互検証のトピックになるようにします。 去年閉鎖されました。 ggplot2sファセットで使用されていないレベルをドロップすることは可能ですか?これは私のコードです: tab = as.data.frame(cbind(groups = mtcars$cyl, names = row.names(mtcars), val = mtcars$mpg, N = mtcars$disp)) tab$N = as.numeric(tab$N) ggplot(tab, aes(names,val)) + geom_point() + coord_flip() + theme_bw() + facet_grid(groups ~ ., drop=TRUE)#, scales="free", as.table=F, space="free") drop=Tスイッチを試しましたが、役に立ちません。何が間違っていますか?

2
時間を通じてロジスティック回帰の分類確率を更新する
学期の終わりに生徒が成功する確率を予測する予測モデルを構築しています。生徒が成功するか失敗するかについて、特に興味があります。成功とは、通常、コースを修了し、可能な合計ポイントのうち70%以上を獲得することと定義されます。 モデルを展開するとき、成功確率の推定値は、より多くの情報が利用可能になったときに更新する必要があります-生徒が課題を提出したり、課題を採点したときなど、何かが発生した直後が理想的です。この更新はベイジアンのように聞こえますが、教育統計のトレーニングを考えると、それは私の快適ゾーンの少し外側です。 私はこれまで、週ベースのスナップショットを含む履歴データセットでロジスティック回帰(実際にはなげなわ)を使用してきました。各学生には観測値があるため、このデータセットには相関する観測値があります。1人の生徒の観察結果は相関しています。特定の学生の毎週の観測内の相関関係を具体的にモデリングしているわけではありません。標準エラーは小さすぎるので、推論の設定でそれだけを考慮する必要があると思います。私は、これについてはわかりませんが、相関する観測から生じる唯一の問題は、データの1つのサブセットでクラスター化された観測を維持するために相互検証するときに注意する必要があることです。モデルがすでに見た人物についての予測に基づいて、人工的に低いサンプル外エラー率。Te r m L e n gt h / 7TermLength/7TermLength/7 Rのglmnetパッケージを使用して、ロジスティックモデルで投げ縄を行い、成功/失敗の確率を生成し、特定のコースの予測変数を自動的に選択しています。私は、他のすべての予測変数と相互作用する要素として週変数を使用しています。これは一般的に、個々の週ベースのモデルを推定することとは異なるとは思わないが、異なる週のさまざまなリスク調整係数によって調整される期間全体に適用される一般的なモデルがあるかもしれないというアイデアを提供します。 私の主な質問はこれです:データセットを毎週(または他の間隔ベースの)スナップショットに分割するだけでなく、他のすべての機能と相互作用する期間因子変数を導入するのではなく、分類確率を経時的に更新するより良い方法がありますか?累積機能(累積ポイント、クラスでの累積日数など)を使用していますか? 私の2番目の質問は次のとおりです。私は、相関の観測と予測モデリングについてはこちらを重要な何かが足りないのですか? 私の3番目の質問は次のとおりです。どのように私は毎週のスナップショットをやっている与えられた、リアルタイムの更新にこれを一般化することができますか?現在の毎週の間隔で変数をプラグインすることを計画していますが、これは私にとって厄介なようです。 参考までに、私は応用教育統計の訓練を受けていますが、昔から数学統計の背景を持っています。理にかなっている場合は、より洗練された何かを行うことができますが、比較的アクセスしやすい用語で説明する必要があります。

2
前のイベントの時間に基づいて、次のイベントがいつ発生するかを予測する方法は?
私は高校生で、コンピュータープログラミングプロジェクトに取り組んでいますが、高校の統計コース以外の統計やモデリングデータの経験はあまりないので、ちょっと混乱しています。 基本的に、私は誰かがドキュメントを印刷することを決めた時間のかなり大きなリストを持っています(統計的なテストや測定の仮定を満たすのに十分大きいと仮定します)。このリストに基づいて、以前のすべてのイベント時間を考慮して、次の印刷ジョブの最も可能性の高い時間を予測するある種の統計モデルを構築したいと思います。 私はすでにこれを読んでいますが、回答は私のプロジェクトで私が念頭に置いていることを正確に助けません。いくつかの追加調査を行った結果、隠れマルコフモデルを使用すると正確に行うことができる可能性が高いことがわかりましたが、時間のリストだけを使用して隠れマルコフモデルを生成する方法に関するリンクは見つかりません。また、リストでカルマンフィルターを使用すると便利な場合があることもわかりましたが、基本的には、実際にそれらを使用し、制限や要件を知っている人から、何かを試して動作することを期待する前に、それに関する詳細情報を取得したいと思います。 本当にありがとう!

3
分類のための半教師あり学習、能動学習、および深層学習
すべてのリソースが更新された最終編集: プロジェクトでは、機械学習アルゴリズムを分類に適用しています。 課題: 非常に限られたラベル付きデータと、より多くのラベルなしデータ。 目標: 半教師付き分類を適用する 何らかの方法で半教師付きのラベル付けプロセスを適用します(アクティブラーニングとして知られています) EM、Transductive SVM、S3VM(Semi Supervised SVM)の適用、またはLDAの使用など、研究論文から多くの情報を見つけました。このトピックに関する本はほとんどありません。 質問: 実装と実際のソースはどこにありますか? 最終更新(mpiktas、bayer、およびDikran Marsupialが提供するヘルプに基づく) 半教師付き学習: TSVM:SVMligthおよびSVMlinで。 PythonのEM Naive Bayes LinePipeプロジェクトのEM 能動的学習: Dualist:テキスト分類に関するソースコードを使用した能動学習の実装 このWebページは、アクティブラーニングの素晴らしい概要を提供しています。 実験的なデザインワークショップ:ここ。 深層学習: ここで紹介ビデオ。 一般サイト。 スタンフォード教師なし機能学習および深層学習チュートリアル。

4
RまたはSPSSを使用したリッカート応答の視覚化
2つのグループに82人の回答者(グループAの43人とグループBの39人)があり、それぞれ1〜5の65のリッカート質問の調査を完了しました(強く同意する-強く同意しない)。したがって、66列(質問ごとに1 +グループ割り当てを示す1)と82行(回答者ごとに1)のデータフレームがあります。 RまたはSPSSを使用することで、このデータを視覚化する優れた方法を誰もが知っています。 このようなものが必要です: (Jason Bryerから) しかし、コードの最初のセクションを機能させることはできません。あるいは、以前の相互検証された投稿からリッカートデータを視覚化する方法の非常に良い例を見つけました:リッカートアイテムレスポンスデータを視覚化するが、RまたはSPSSを使用してこれらの中心カウントグラフまたは積み上げ棒グラフを作成する方法に関するガイドも指示もありません。

5
標準偏差の2Dアナログ?
次の実験を考えてみましょう。人々のグループに都市のリストが与えられ、世界の(ラベル付けされていない)地図上の対応する場所をマークするように求められます。各都市について、それぞれの都市のほぼ中心にある点の散布図を取得します。イスタンブールなどの一部の都市は、他の都市よりも散乱が少ないとモスクワは言います。 与えられた都市について、testによって割り当てられたマップ上の都市の位置(ローカル座標系など)を表す2Dサンプルのセットを取得すると仮定しましょう件名。このセットのポイントの「分散」の量を、適切な単位(km)の単一の数値として表現したいと思います。{(xi,yi)}{(xi,yi)}\{(x_i, y_i)\}(x,y)(x,y)(x, y)iii 1D問題の場合、標準偏差を選択しますが、上記のような状況に対して合理的に選択できる2Dアナログはありますか?

2
2 t分布の差の分布は何ですか
... なぜ ? 想定すると、はそれぞれ平均および分散独立したランダム変数です。私の基本的な統計の本は、分布には次の特性があることを示しています。X1X1X_1X2X2X_2μ1,μ2μ1,μ2\mu_1,\mu_2σ21,σ22σ12,σ22\sigma^2_1,\sigma^2_2X1−X2X1−X2X_1-X_2 E(X1−X2)=μ1−μ2E(X1−X2)=μ1−μ2E(X_1-X_2)=\mu_1-\mu_2 Var(X1−X2)=σ21+σ22Var(X1−X2)=σ12+σ22Var(X_1-X_2)=\sigma^2_1 +\sigma^2_2 Now let's say X1X1X_1, X2X2X_2 are t-distributions with n1−1n1−1n_1-1, n2−2n2−2n_2-2 degrees of freedom. What is the distribution of X1−X2X1−X2X_1-X_2 ? This question has been edited: The original question was "What are the degrees of freedom of the difference of two t-distributions ?". mpiktas …

4
平均の信頼区間を計算する方法は?
実験を3回繰り返すと想像してください。各実験では、3つの測定値を収集します。3つの実験的手段の違いと比較して、3つはかなり近い傾向があります。総平均の計算は非常に簡単です。しかし、どうすれば大平均の信頼区間を計算できますか? サンプルデータ: 実験1:34、41、39 実験2:45、51、52 実験3:29、31、35 各実験の平均値がそうであるように、実験内の複製値はガウス分布に従うと仮定します。実験内の変動のSDは、実験的手段間のSDよりも小さくなっています。また、各実験で3つの値の順序付けがないと仮定します。各行の3つの値の左から右への順序は完全に任意です。 簡単なアプローチは、最初に各実験の平均を計算することです:38.0、49.3、および31.7、次にこれらの3つの値の平均とその95%信頼区間を計算します。この方法を使用すると、総平均は39.7で、95%の信頼区間は17.4から61.9の範囲です。 このアプローチの問題は、3つの複製の間の変動を完全に無視することです。そのバリエーションを説明する良い方法がないのだろうか。

3
誰かがPTLOS演習4.1を解決しましたか?
これは、2003年のエドウィンジェインズによる確率理論:科学の論理で与えられた演習です。ここには部分的な解決策があります。私はより一般的な部分的な解決策を考え出しましたが、他の誰かがそれを解決したかどうか疑問に思っていました。答えを投稿する前に少し待って、他の人に試してもらいます。 さて、H iで示される相互排他的で網羅的なnnn仮説があると仮定します。Hi(i=1,…,n)Hi(i=1,…,n)H_i \;\;(i=1,\dots,n)。さらに、 D jで示されるmmmデータセットがあるとしますDj(j=1,…,m)Dj(j=1,…,m)D_j \;\;(j=1,\dots,m)。i番目の仮説の尤度比は次の式で与えられます。 LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯¯¯¯¯i)LR(Hi)=P(D1D2…,Dm|Hi)P(D1D2…,Dm|H¯i)LR(H_{i})=\frac{P(D_{1}D_{2}\dots,D_{m}|H_{i})}{P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})} これらは条件付き確率であることに注意してください。i番目の仮説が与えられた場合HiHiH_{i}、mmmデータセットが独立していると仮定します。 P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D1D2…,Dm|Hi)=∏j=1mP(Dj|Hi)(i=1,…,n)Condition 1P(D_{1}D_{2}\dots,D_{m}|H_{i})=\prod_{j=1}^{m}P(D_{j}|H_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 1} ここで、分母もこの状況を考慮に入れれば非常に便利になります。 P(D1D2…,Dm|H¯¯¯¯¯i)=∏j=1mP(Dj|H¯¯¯¯¯i)(i=1,…,n)Condition 2P(D1D2…,Dm|H¯i)=∏j=1mP(Dj|H¯i)(i=1,…,n)Condition 2P(D_{1}D_{2}\dots,D_{m}|\overline{H}_{i})=\prod_{j=1}^{m}P(D_{j}|\overline{H}_{i}) \;\;\;\; (i=1,\dots,n)\;\;\;\text{Condition 2} この場合、尤度比は各データセットのより小さい係数の積に分割されるため、次のようになります。 LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯¯¯¯¯i)LR(Hi)=∏j=1mP(Dj|Hi)P(Dj|H¯i)LR(H_i)=\prod_{j=1}^{m}\frac{P(D_{j}|H_{i})}{P(D_{j}|\overline{H}_{i})} したがって、この場合、各データセットのだろう「のための投票HiHiH_i」または「反対票HiHiH_i」独立して、他のデータセットの。 演習では、n>2n>2n>2(2つ以上の仮説)の場合、この因数分解が発生するような非自明な方法がないことを証明します。つまり、条件1と条件2が成立すると仮定すると、最大で1つの要因 1と異なっているので、1つだけのデータセットは、尤度比に寄与する。P(D1|Hi)P(D1|H¯¯¯¯¯i)P(D2|Hi)P(D2|H¯¯¯¯¯i)…P(Dm|Hi)P(Dm|H¯¯¯¯¯i)P(D1|Hi)P(D1|H¯i)P(D2|Hi)P(D2|H¯i)…P(Dm|Hi)P(Dm|H¯i)\frac{P(D_{1}|H_{i})}{P(D_{1}|\overline{H}_{i})}\frac{P(D_{2}|H_{i})}{P(D_{2}|\overline{H}_{i})}\dots\frac{P(D_{m}|H_{i})}{P(D_{m}|\overline{H}_{i})} 個人的には、この結果は非常に魅力的でした。なぜなら、複数の仮説検定は一連のバイナリ仮説検定に他ならないことを基本的に示しているからです。

1
コミュニティの第4象限に対する見解はどうですか?
ブラックスワンの名声(または悪名高い)のNassim Talebは、この概念について詳しく説明し、「統計の限界の地図」と呼ぶものを開発しました。彼の基本的な議論は、統計モデルの使用が有害である決定問題の一種があるということです。これらは、間違った決定をした結果が非常に高くなる可能性のある決定問題であり、基礎となるPDFを知るのは困難です。 1つの例は、ストックオプションのショートです。この種の操作は、無制限の(少なくとも理論上)損失につながる可能性があります。そして、そのような損失の確率は不明です。実際、多くの人々は確率をモデル化していますが、タレブは、金融市場はいずれのモデルにも自信を持たせるほど古くないと主張します。あなたが今まで見たすべての白鳥が白だからといって、それは黒い白鳥が不可能またはありそうもないことを意味しません。 それでは、ここに質問があります。タレブ氏の議論について、統計コミュニティにコンセンサスのようなものはありますか? たぶん、これはコミュニティwikiであるべきです。知りません。

7
Rのスライディングウィンドウの平均
小さいスライドに沿ってウィンドウの平均を報告したい値のベクトルがあります。 たとえば、次の値のベクトルの場合: 4, 5, 7, 3, 9, 8 ウィンドウサイズが3でスライドが2の場合、次のようになります。 (4+5+7)/3 = 5.33 (7+3+9)/3 = 6.33 (9+8)/3 = 5.67 そして、これらの値のベクトルを返します: 5.33, 6.33, 5.67 私のためにこれを行う簡単な関数はありますか?また、ウィンドウスタートのインデックスも返された場合は、ボーナスが追加されます。この例では、1,3,5
19 r 


2
サンプル平均と標準偏差を使用したガンマ分布パラメーターの推定
私は、データサンプルに最適なガンマ分布のパラメーターを推定しようとしています。実際の値ではなく、データサンプルのmean、std(およびそれゆえvariance)のみを使用したいのです-これらはアプリケーションで常に利用できるとは限らないからです。 このドキュメントによれば、次の式を適用して形状とスケールを推定できます。 私は自分のデータでこれを試しましたが、Pythonプログラミングライブラリを使用して実際のデータにガンマ分布をフィッティングするのと比較すると、結果は大きく異なります。 データ/コードを添付して、当面の問題を示します。 import matplotlib.pyplot as plt import numpy as np from scipy.stats import gamma data = [91.81, 10.02, 27.61, 50.48, 3.34, 26.35, 21.0, 79.27, 31.04, 8.85, 109.2, 15.52, 11.03, 41.09, 10.75, 96.43, 109.52, 33.28, 7.66, 65.44, 52.43, 19.25, 10.97, 586.52, 56.91, 157.18, 434.74, 16.07, 334.43, 6.63, 108.41, 4.45, …

1
オートエンコーダーの損失関数
私はビットオートエンコーダを実験しており、テンソルフローを使用して、MNISTデータセットを再構築しようとするモデルを作成しました。 私のネットワークは非常に単純です:X、e1、e2、d1、Y、ここでe1とe2はエンコード層、d2とYはデコード層です(そしてYは再構築された出力です)。 Xには784個、e1には100個、e2には50個、d1には再び100個、Y 784には再びあります。 シグモイドをレイヤーe1、e2、d1、およびYのアクティベーション関数として使用しています。入力は[0,1]であり、出力もそうである必要があります。 さて、クロスエントロピーを損失関数として使用してみましたが、出力は常にブロブであり、Xからe1への重みは常にゼロ値の行列に収束することに気付きました。 一方、損失関数として二乗平均誤差を使用すると、適切な結果が得られ、入力を再構築できるようになりました。 どうしてこんなことに?値を確率として解釈することができ、したがってクロスエントロピーを使用できると思いましたが、明らかに何か間違っています。

1
マルチクラスブースト分類器のキャリブレーション
Alexandru Niculescu-MizilとRich Caruanaの論文「ブースティングからキャリブレーションされた確率を取得する」とこのスレッドでの議論を読みました。ただし、ロジスティックまたはPlattのスケーリングを理解して実装して、マルチクラスブースティング分類器の出力を調整するのにまだ問題があります(意思決定の切り株による穏やかなブースト)。 私は一般化線形モデルにある程度精通しており、バイナリケースでロジスティックおよびプラットのキャリブレーションメソッドがどのように機能するかを理解していると思いますが、論文で説明されているメソッドをマルチクラスケースに拡張する方法がわかりません。 私が使用している分類子は次を出力します: =得票数クラスのための分類器のキャストその jのサンプルのための私分類されていますfijfijf_{ij}jjjiii =推定クラスyiyiy_i この時点で、次の質問があります。 Q1:確率を推定するために多項ロジットを使用する必要がありますか?または、ロジスティック回帰を使用してこれを実行できますか(1対すべての方法など)。 Q2:マルチクラスの場合、中間ターゲット変数をどのように定義する必要がありますか(Plattのスケーリングなど)。 Q3:これは多くの質問があるかもしれないことを理解していますが、この問題の擬似コードをスケッチしてくれる人はいますか?(より実用的なレベルでは、Matlabのソリューションに興味があります)。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.