統計とビッグデータ

8

多くの場合、統計で異常値を扱うことについて話します。これについて私を悩ませているのは、私が知る限り、外れ値の定義は完全に主観的であるということです。たとえば、あるランダム変数の真の分布が非常に裾が大きく、または二峰性である場合、外れ値を検出するための標準の視覚化または要約統計は、サンプリングしたい分布の部分を誤って削除します。異常値が存在する場合、その異常値の厳密な定義とは何ですか？また、分析に不当な量の主観性を導入することなく、異常値にどのように対処できますか？

44 outliers definition

5

多重比較が問題になるのはなぜですか？

多重比較の問題が実際に何であるかを理解するのは難しいと思います。簡単な例えで言えば、多くの決定を下す人は多くの間違いを犯すと言われています。そのため、ボンフェローニ補正のような非常に保守的な予防策が適用され、この人が間違いを犯す可能性ができるだけ低くなるようにします。しかし、間違った決定の割合ではなく、その人が行ったすべての決定の中で間違いを犯したかどうかを気にするのはなぜですか？何が私を他の類推と混同するかを説明しよう。2人の裁判官がいて、1人は60歳、もう1人は20歳だとします。それからボンフェローニの訂正は、20歳の人に執行を決定する際に可能な限り保守的であるように伝えます。しかし、60歳の人はすぐに引退する可能性があり、意思決定が少なくなるため、他の人に比べて不注意になる可能性があります。しかし、実際には、両方の裁判官は、彼らが行う決定の総数に関係なく、同様に慎重または保守的でなければなりません。この類推は多かれ少なかれ、Bonferroni補正が適用される実際の問題に変換されると思います。

44 hypothesis-testing multiple-comparisons

4

統計モデルのチートシート

私は、何らかの情報をリストする統計モデル「チートシート」があるかどうか疑問に思っていました。モデルを使用する場合モデルを使用しない場合必須およびオプションの入力期待される出力モデルはさまざまな分野（ポリシー、バイオ、エンジニアリング、製造など）でテストされていますか？実践や研究で受け入れられていますか？予想される変動/精度/精度注意事項拡張性廃止されたモデル、使用しない、または使用しないなど。以前、さまざまなWebサイトで階層を見てきました。また、さまざまな教科書の単純なモデルのチートシートもいくつか見ました。ただし、さまざまなタイプの分析と理論に基づいたさまざまなタイプのモデルを含む、より大きなモデルがあれば便利です。

44 references modeling

6

Rを使用してテストを実行し、データが正規分布に従うかどうかを確認する方法

次の構造のデータセットがあります。 a word | number of occurrence of a word in a document | a document id Rで正規分布のテストを実行するにはどうすればよいですか？おそらく簡単な質問ですが、私はR初心者です。

44 r distributions normality-assumption

6

最新の統計/機械学習で多重共線性がチェックされないのはなぜですか

従来の統計では、モデルの構築中に、分散インフレーション係数（VIF）の推定などの方法を使用して多重共線性をチェックしますが、機械学習では、代わりに特徴選択に正則化を使用し、特徴が相関しているかどうかをチェックしないようですまったく。なぜそうするのですか？

44 regression machine-learning multicollinearity regularization vif

4

GLMの過剰分散が重要かどうかを判断するテストはありますか？

RでポアソンGLMを作成しています。過剰分散をチェックするために、残留偏差と自由度の比を調べていsummary(model.name)ます。この比率を「有意」とみなすカットオフ値またはテストはありますか？1より大きい場合、データは分散しすぎますが、比率が1に比較的近い場合（たとえば、比率1.7（残差= 25.48、df = 15）と1.3（rd = 324、df） = 253）]、まだ準ポアソン/負の二項式に切り替える必要がありますか？ここで、このテストの重要性を発見しました：1-pchisq（residual deviance、df）ですが、これは一度しか見たことがなく、緊張しています。また、比率<1.5が一般に安全であると読みました（ソースが見つかりません）。ご意見？

44 statistical-significance overdispersion

2

k-meansクラスタリングには平均の正規化と特徴のスケーリングが必要ですか？

k-meansを実行する前の最良の（推奨）前処理手順は何ですか？

44 clustering normalization k-means

6

Rプロットでラベルが重複しないようにするにはどうすればよいですか？[閉まっている]

私はRで非常に簡単な散布図にラベルを付けようとしています。これは私が使用するものです： plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ご覧のとおり、結果は平凡です（クリックして拡大）。 textxy関数を使用してこれを補正しようとしましたが、それは良くありません。画像自体を大きくしても、密集したクラスターでは機能しません。これを補正し、R が重ならないラベルをプロットできるようにする機能や簡単な方法はありますか？ここに私が持っているデータの小さなサブセットがあります： Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

44 r data-visualization scatterplot

4

出力レイヤーのどのアクティベーション関数ですか？

隠しレイヤーのアクティベーション関数の選択は非常に明確ですが（主にシグモイドまたはtanh）、出力レイヤーのアクティベーション関数をどのように決定するのでしょうか。一般的な選択肢は、線形関数、シグモイド関数、およびソフトマックス関数です。ただし、いつどれを使用すればよいですか？

44 neural-networks

3

2つの異なる回帰からの係数の等価性のテスト

これは基本的な問題のようですが、2つの異なる回帰からの係数の等価性をテストする方法が実際にはわからないことに気付きました。誰もこれにいくらか光を当てることができますか？より正式に、私は、次の2つの回帰を実行したとしますとどこ、回帰の計画行列を指し、、および回帰における係数のベクトルに。とは潜在的に非常に異なっており、異なる次元などがあることに注意してください。たとえば、かどうかに興味があります。、Y 2 = X 2 β 2 + ε 2 X I I β I I X 1 X 2 β 11 ≠ β 21y1= X1β1+ ϵ1y1=X1β1+ϵ1 y_1 = X_1\beta_1 + \epsilon_1 y2= X2β2+ ϵ2y2=X2β2+ϵ2 y_2 = X_2\beta_2 + \epsilon_2 バツ私XiX_i私iiβ私βi\beta_i私iiバツ1X1X_1バツ2X2X_2β^11≠ β^21β^11≠β^21\hat\beta_{11} \neq \hat\beta_{21} これらが同じリグレッションに由来する場合、これは簡単なことです。しかし、それらは異なるものから来ているので、私はそれを行う方法がよくわかりません。誰かがアイデアを持っていますか、私にいくつかの指針を与えることができますか？私の問題の詳細：私の最初の直観は、信頼区間を見ることでした。そして、それらが重なる場合、それらは本質的に同じであると言えます。ただし、この手順には正しいサイズのテストが付属していません（つまり、個々の信頼区間にはありますが、それらを一緒に見ると同じ確率にはなりません）。私の「2番目」の直観は、通常のt検定を行うことでした。つまり、取るα = …

44 hypothesis-testing inference

5

クラスタリングの前にデータをスケーリングすることは重要ですか？

私が見つかりました。このチュートリアルあなたは（私はそれがzスコアにデータを変換することを信じている）クラスタ化する前に、機能上のスケールの機能を実行する必要があることを示唆しています。それが必要かどうか疑問に思っています。私は主に、データをスケーリングしないときに素敵な肘のポイントがあるので尋ねていますが、スケーリングすると消えます。:)

44 clustering k-means

4

二項確率変数のサンプルの平均の標準誤差

2つの結果を持つことができる実験を実行しており、2つの結果の基礎となる「真の」分布は、パラメーターnnnと持つ二項分布であると仮定していますppp：Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)。私は標準誤差を計算することができ、の分散の形から BINOMIL（N、P）：σ2X=NのP、Q、Q=1-P。だから、σX=√SEX=σXn√SEX=σXnSE_X = \frac{\sigma_X}{\sqrt{n}}Binomial(n,p)Binomial(n,p){\rm Binomial}(n, p)σ2X=npqσX2=npq \sigma^{2}_{X} = npqq=1−pq=1−pq = 1-p。標準エラーの場合、SEX= √が得られますσX=npq−−−√σX=npq\sigma_X=\sqrt{npq}、しかしどこかでSEX= √を見たSEX=pq−−√SEX=pqSE_X=\sqrt{pq}。私は何を間違えましたか？SEX=pqn−−√SEX=pqnSE_X = \sqrt{\frac{pq}{n}}

44 binomial standard-error

5

forward-backwardアルゴリズムとViterbiアルゴリズムの違いは何ですか？

私は、隠れマルコフモデル（HMM）の推論のための前方後方アルゴリズムとビタビアルゴリズムの違いを知りたいです。

44 algorithms hidden-markov-model viterbi-algorithm forward-backward

5

ランダムフォレストアルゴリズムの最適化された実装

私は、ALGLIB、Waffles、およびなどのいくつかのRパッケージなど、ランダムフォレストの実装がいくつかあることに気付きましたrandomForest。これらのライブラリが高度に最適化されているかどうかを教えてもらえますか？統計学習の要素で詳しく説明されているランダムフォレストと基本的に同等ですか、それとも多くの余分なトリックが追加されていますか？この質問が具体的であることを願っています。私が探している答えのタイプの例として、線形代数パッケージBLASが高度に最適化されているかどうか尋ねられた場合、それは非常に高度に最適化されていて、非常に特殊なアプリケーションを除いて改善しようとする価値はほとんどないと言います。

43 random-forest algorithms model-evaluation

4

自然対数の変化がパーセンテージの変化であるのはなぜですか？これを行うログについてはどうですか？

誰かがログのプロパティがどのようにそれを作成するのかを説明して、係数が変化率として解釈されるログ線形回帰を行うことができますか？

43 regression logarithm mathematical-statistics