統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A


8
ヒストグラム内のビンの最適数の計算
ヒストグラムで使用するビンの数を決定するために、できる限り最適な方法を見つけることに興味があります。私のデータは最大で30〜350個のオブジェクトの範囲である必要があります。特に、「Otsuの方法のように」しきい値を適用しようとしています。悪い」オブジェクト。値の密度を高める必要があります。具体的な値は、オブジェクトごとに1〜10のスコアを持ちます。スコア6〜10の5〜10個のオブジェクトと、スコア1〜4の20〜25個のオブジェクトがありました。一般的に大津の方法のようなものが低得点のオブジェクトを閾値処理することを可能にするヒストグラムビニングパターンを見つけたいです。しかし、私が見たOtsuの実装では、ビンのサイズは256であり、多くの場合、256よりもはるかに少ないデータポイントがあります。私にとっては、256は良いビン番号ではないことを示唆しています。データが非常に少ない場合、使用するビンの数を計算するためにどのようなアプローチを取る必要がありますか?

9
現実の単一の将来のイベントの確率:「ヒラリーは75%の確率で勝つ」と言うとき、それはどういう意味ですか?
選挙は1回限りのイベントであるため、繰り返すことのできる実験ではありません。「ヒラリーは勝つ可能性が75%ある」という言葉は、厳密には技術的に何を意味するのでしょうか?直感的または概念的な定義ではなく、統計的に正しい定義を求めています。 私は、アマチュア統計のファンであり、議論の中で出てきたこの質問に答えようとしています。客観的な反応があると確信していますが、自分で考え出すことはできません...

2
2つの単変量ガウス分布間のKL発散
2つのガウス分布間のKL発散を決定する必要があります。結果をこれらと比較していますが、結果を再現できません。KL(p、p)のKLは0ではないため、私の結果は明らかに間違っています。 私はどこで間違いをしているのだろうか、誰かがそれを見つけられるかどうか尋ねます。 ましょう及び。ビショップのPRMLから、私はそれを知っていますp(x)=N(μ1,σ1)p(x)=N(μ1,σ1)p(x) = N(\mu_1, \sigma_1)q(x)=N(μ2,σ2)q(x)=N(μ2,σ2)q(x) = N(\mu_2, \sigma_2) KL(p,q)=−∫p(x)logq(x)dx+∫p(x)logp(x)dxKL(p,q)=−∫p(x)log⁡q(x)dx+∫p(x)log⁡p(x)dxKL(p, q) = - \int p(x) \log q(x) dx + \int p(x) \log p(x) dx すべての実際の回線で統合が行われ、 ∫p(x)logp(x)dx=−12(1+log2πσ21),∫p(x)log⁡p(x)dx=−12(1+log⁡2πσ12),\int p(x) \log p(x) dx = -\frac{1}{2} (1 + \log 2 \pi \sigma_1^2), 私はして自分自身を制限する私として書き出すことができ、∫p(x)logq(x)dx∫p(x)log⁡q(x)dx\int p(x) \log q(x) dx −∫p(x)log1(2πσ22)(1/2)e−(x−μ2)22σ22dx,−∫p(x)log⁡1(2πσ22)(1/2)e−(x−μ2)22σ22dx,-\int p(x) \log \frac{1}{(2 \pi \sigma_2^2)^{(1/2)}} e^{-\frac{(x-\mu_2)^2}{2 …

7
ジューダパール著 『なぜの書』:なぜ彼は統計をバッシングするのですか?
私は読んでいますなぜの書籍をユダヤパールで、それは私の皮膚の下になっている1。具体的には、彼は統計が因果関係を調査することは決してできず、因果関係に決して関心がない、そして統計が「モデルになった」というストローマンの議論を立てることにより、無条件に「古典的な」統計をバッシングしているように見えます-盲目のデータ削減企業」。統計は彼の本の中でいSワードになります。 例えば: 統計学者は、どの変数を制御すべきか、またどの変数を制御すべきではないかについて非常に混乱しているため、デフォルトのプラクティスでは、測定可能なすべてのものを制御することでした。[...]これは便利で簡単な手順ですが、無駄があり、エラーが発生します。因果革命の重要な成果は、この混乱を終わらせることでした。 同時に、統計学者は、彼らが因果関係についてまったく話すことを嫌うという意味で、支配を大きく過小評価している[...] しかし、因果モデルは、永遠のような統計にあります。つまり、回帰モデルは本質的に因果モデルとして使用できます.1つの変数が原因であり、別の変数が結果であると本質的に仮定しているため(相関は回帰モデリングとは異なるアプローチです)、この因果関係が観察されたパターンを説明するかどうかをテストするためです。 別の引用: 特に統計学者がこのパズル[モンティホールの問題]を理解するのが難しいことは不思議ではありません。RA Fisher(1922)が言うように、彼らは「データの削減」に慣れており、データ生成プロセスを無視しています。 これは、アンドリュー・ゲルマンがベイジアンとフリークエンシーの有名なxkcd漫画に書いた返事を思い出させます。「それでも、賢明なベイジアンを浅い教科書のアドバイスに盲目的に従うフリークエンシーの統計学者と比較するという点で、漫画全体は不公平だと思います」 私はそれを感じるように、ユダヤ真珠ブック内に存在し、S-言葉の不実表示の量は私が(今まで私が組織し、科学的仮説テストの有用かつ興味深い方法として認識因果推論だろうかなさ2)疑問です。 質問:ユダヤ真珠は統計を誤って伝えていると思いますか?因果推論をそれよりも大きくするだけですか?因果推論は大きなRを持つ革命であり、それが私たちのすべての思考を本当に変えると思いますか? 編集: 上記の質問は私の主な問題ですが、確かに意見があるので、これらの具体的な質問に答えてください。(1)「因果革命」の意味は何ですか?(2)「正統的な」統計とどう違うのですか? 1.また、彼はそのような謙虚な男だからです。 2.統計的な意味ではなく、科学的な意味です。 編集:Andrew Gelmanはこのブログ記事をJudea Pearlsの本に書いており、彼はこの本に関する私の問題の説明を私よりもずっと上手く行ったと思う。以下に2つの引用符を示します。 この本の66ページで、PearlとMackenzieは、その統計が「モデルブラインドデータ削減企業になった」と書いています。何言ってるんだ?私は統計学者で、政治から毒物学までの分野で30年間統計を行ってきました。「モデルブラインドデータ削減」?それはただのでたらめです。モデルは常に使用しています。 そしてもう一つ: 見て 多元主義者のジレンマについて知っています。一方では、パールは彼の方法が以前に来たすべてのものより優れていると信じています。いいよ 彼にとって、そして他の多くの人にとって、それらは因果推論を研究するための最高のツールです。同時に、多元主義者、または科学史の学生として、ケーキを焼く方法はたくさんあることを認識しています。本当に役に立たないアプローチに敬意を払うのは難しいことです。ある時点でそれを行う唯一の方法は、実際の人々がこれらの方法を使用して実際の問題を解決することを理解することです。たとえば、p値を使用して意思決定を行うことは、多くの科学的災害につながるひどく論理的に一貫性のないアイデアだと思います。同時に、多くの科学者は学習のためのツールとしてp値を使用することができます。私はそれを認識しています。同様に、統計、階層的回帰モデリング、相互作用、後層化、機械学習などの装置が原因推論における実際の問題を解決することを、パールが認識することをお勧めします。パールのような私たちの方法も混乱する可能性があります-GIGO!-多分、彼のアプローチに切り替えた方が良いと思うパールの権利。しかし、彼が私たちが何をするかについて不正確な声明を出したとき、それが助けになるとは思わない。
79 causality 

5
ポリシー外学習とポリシー上学習の違いは何ですか?
人工知能の Webサイトでは、ポリシー外学習とポリシー上学習を次のように定義しています。 「ポリシー外の学習者は、エージェントのアクションとは無関係に最適なポリシーの値を学習します。Qラーニングは、ポリシー外の学習者です。ポリシー上の学習者は、探索ステップを含め、エージェントによって実行されるポリシーの値を学習します」 これらは私には何の違いももたらさないようですので、これについてあなたの説明をお願いしたいと思います。どちらの定義も同じように見えます。私が実際に理解したことは、モデルなしの学習とモデルベースの学習であり、それらが問題の学習と関係があるかどうかはわかりません。 エージェントのアクションとは無関係に最適なポリシーを学習することはどのように可能ですか?エージェントがアクションを実行するときにポリシーは学習されませんか?

6
クラスタリングアルゴリズムが意味のある結果を生成するのに十分なデータが「クラスター化」されているかどうかを確認する方法
(高次元の)データが十分なクラスタリングを示しているので、kmeansまたは他のクラスタリングアルゴリズムの結果が実際に意味があるかどうかをどのように確認しますか? 特にk-meansアルゴリズムの場合、実際のクラスタリング結果が意味のある(スプリアスではない)ために、クラスター内分散の減少はどれくらい必要ですか? 次元的に縮小された形式のデータをプロットすると、クラスタリングが明らかになります。また、クラスタリングを視覚化できない場合、kmeans(または他の方法)の結果は意味がありませんか?


5
曲線下面積(AUC)またはc統計を手で計算する方法
バイナリロジスティック回帰モデルの曲線下面積(AUC)またはc統計を手動で計算することに興味があります。 たとえば、検証データセットでは、従属変数の真の値である保持(1 =保持、0 =保持されない)、およびモデルである回帰分析により生成された各観測の予測保持ステータスがありますトレーニングセットを使用して構築されます(これは0〜1の範囲です)。 私の最初の考えは、モデル分類の「正しい」数を特定し、「正しい」観測値の数を総観測値の数で単純に割ってc統計量を計算することでした。「正しい」とは、観測の真の保持ステータス= 1であり、予測される保持ステータスが> 0.5である場合、それは「正しい」分類です。さらに、観測の真の保持ステータス= 0で、予測保持ステータスが0.5未満の場合、それも「正しい」分類です。予測値= 0.5のときに「タイ」が発生すると想定していますが、検証データセットではその現象は発生しません。一方、「誤った」分類は、観測の真の保持ステータス= 1であり、予測される保持ステータスが0未満の場合です。5または結果の真の保持ステータス= 0であり、予測保持ステータスが> 0.5である場合。私はTP、FP、FN、TNを知っていますが、この情報を与えられたc統計を計算する方法を知りません。

7
連続予測変数を分割することの利点は何ですか?
モデルで使用する前に、連続予測変数を取得してそれを分割(たとえば、五分位数に分割)することの価値は何かと思っています。 変数をビニングすると情報が失われるように思えます。 これは、非線形効果をモデル化できるからですか? 変数を連続的に保ち、それが実際に直線関係ではなかった場合、データに最適な何らかの曲線を考え出す必要がありますか?

6
t-SNEの出力のクラスタリング
ノイズの多いデータセットをクラスター化してからクラスター内のサブグループ効果を探すのに便利なアプリケーションがあります。私は最初にPCAを調べましたが、変動の90%に達するには約30のコンポーネントが必要なので、わずか数台のPCでクラスタリングを行うと多くの情報が失われます。 次に、t-SNEを(初めて)試しました。これにより、2次元で奇妙な形が得られ、k-meansを介したクラスタリングに非常に適しています。さらに、結果としてクラスター割り当てを使用してデータでランダムフォレストを実行すると、生データを構成する変数の観点から、問題のコンテキストを考慮して、クラスターがかなり賢明な解釈を持つことがわかります。 しかし、これらのクラスターについてレポートする場合、どのように説明しますか?主成分のK-meansクラスターは、データセットの分散のX%を構成する派生変数に関して、互いに近い個人を明らかにします。t-SNEクラスターについて、同等のステートメントを作成できますか? おそらく次の効果があります: t-SNEは、基礎となる高次元多様体の近似的な連続性を明らかにするため、高次元空間の低次元表現上のクラスターは、隣接する個人が同じクラスターに存在しない「尤度」を最大化します 誰もがそれよりも良い宣伝文句を提案できますか?


3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
k-meansクラスター分析の結果のきれいなプロットを作成する方法は?
Rを使用してK-meansクラスタリングを実行しています。14個の変数を使用してK-meansを実行しています K-meansの結果をプロットする美しい方法は何ですか? 既存の実装はありますか? 14個の変数があると、結果のプロットが複雑になりますか? GGclusterと呼ばれるクールなものを見つけましたが、まだ開発中です。また、サモンマッピングについても読みましたが、あまり理解していませんでした。これは良い選択肢でしょうか?

3
Rが負の場合
私の理解では、は乗なので負にはなり得ません。しかし、単一の独立変数と従属変数を使用してSPSSで単純な線形回帰を実行しました。私のSPSS出力は、負の値を与えます。Rから手動でこれを計算する場合、は正になります。これを負として計算するためにSPSSは何をしましたか?R 2 R 2R2R2R^2R2R2R^2R2R2R^2 R=-.395 R squared =-.156 B (un-standardized)=-1261.611 私が使用したコード: DATASET ACTIVATE DataSet1. REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN /DEPENDENT valueP /METHOD=ENTER ageP 負の値を取得します。誰もこれが何を意味するのか説明できますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.