統計とビッグデータ

1

変数を変換する場合、同じ変換をすべて使用する必要がありますか？たとえば、次のように、さまざまに変換された変数を選択できますか。、してみましょう年齢、雇用の長さ、住宅の長さ、および収入こと。バツ1、x2、x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) または、変換と一貫性を保ち、すべてを同じように使用する必要がありますか？次のように： Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 私の理解では、変換の目標は正常性の問題に対処することです。各変数のヒストグラムを見ると、それらが非常に異なる分布を示していることがわかります。これにより、必要な変換は変数ごとに異なると信じられます。 ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) 最後に、それは使用して変数を変換する方法有効です持っているの値を？この変換は、すべての変数で一貫している必要がありますか、それとも含まない変数でもアドホックに使用されますか？x n 0 0ログ（xn+ 1 ）log⁡(xn+1)\log(x_n + 1)バツnxnx_n000000 ## R Code plot(df[1:7])

41 r regression logistic data-transformation

3

2つの正規分布したランダム変数間のユークリッド距離の分布は何ですか？

正確な位置は不明ですが、既知のパラメーター（および使用して正規分布に従って分布している2つのオブジェクトが与えられていると仮定します。我々は、これらの位置が上に分布によって記述されるように、両方の二変量法線であると仮定することができる座標（すなわち、および期待含むベクターであるの座標とそれぞれ）。また、オブジェクトは独立していると仮定します。a∼N(m,s)a∼N(m,s)a \sim N(m, s)b∼N(v,t))b∼N(v,t))b \sim N(v, t))(x,y)(x,y)(x,y)mmmvvvB(x,y)(x,y)(x,y)aaabbb これらの2つのオブジェクト間のユークリッド距離の2乗分布が既知のパラメトリック分布であるかどうかは誰にもわかりませんか？または、この関数のPDF / CDFを分析的に導出する方法は？

41 normal-distribution distance-functions

4

30を十分な大きさのサンプルサイズとして使用することをサポートするには、どの参考文献を引用する必要がありますか

少なくとも30単位のサンプルサイズが「大きなサンプル」と見なされることを何度も読んだり聞いたりしました（通常、CLTにより平均値の正規性の仮定が成り立つ...）。したがって、私の実験では、通常30ユニットのサンプルを生成します。サンプルサイズ30を使用する際に引用する必要がある参考資料を教えてください。

41 references sample-size normality-assumption central-limit-theorem rule-of-thumb

8

与えられたサンプルがポアソン分布から取得された場合、どのようにテストできますか？

正規性テストは知っていますが、「ポアソン性」をテストするにはどうすればよいですか？〜1000個の非負整数のサンプルがありますが、これらはポアソン分布から取得されたものと思われ、それをテストしたいと思います。

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

13

年齢の中央値が平均年齢よりも良い統計であるのはなぜですか？

Wolfram Alphaを見るとまたは、このウィキペディアページ年齢の中央値による国のリスト年齢に関しては、明らかに中央値が選択の統計量のようです。算術平均がより悪い統計になる理由を自分で説明することはできません。なぜそうですか？このサイトの存在を知らなかったため、もともとここに投稿しました。

41 mean median

4

ゼロ相関が必ずしも独立性を意味するわけではない理由

2つの変数に0の相関がある場合、なぜそれらは必ずしも独立していないのですか？特別な状況下でゼロ相関変数は独立していますか？可能であれば、高度に技術的な説明ではなく、直感的な説明を探しています。

41 correlation independence

5

実用的なハイパーパラメーター最適化：ランダム検索とグリッド検索

私は現在、BengioとBergstaのハイパーパラメーター最適化のためのランダム検索[1]を行っています。著者は、ランダム検索がグリッド検索よりもほぼ同等のパフォーマンスを達成する上で効率的であると主張しています。私の質問は次のとおりです。ここの人々はその主張に同意しますか？私の仕事では、ランダム検索を簡単に実行できるツールが不足しているため、主にグリッド検索を使用しています。グリッド対ランダム検索を使用している人々の経験は何ですか？

41 machine-learning hyperparameter optimization

1

エラー対策の解釈方法は？

Wekaで特定のデータセットに対して分類を実行していますが、公称値を予測しようとすると、出力に正確に予測された値と誤って予測された値が明確に表示されることに気付きました。ただし、現在は数値属性に対して実行しており、出力は次のとおりです。 Correlation coefficient 0.3305 Mean absolute error 11.6268 Root mean squared error 46.8547 Relative absolute error 89.2645 % Root relative squared error 94.3886 % Total Number of Instances 36441 これをどうやって解釈しますか？私はそれぞれの概念をグーグルで試しましたが、統計は私の専門分野ではまったくないため、あまり理解していません。統計の観点からELI5タイプの回答をいただければ幸いです。

41 machine-learning error weka mse rms

3

正規分布とガウス分布の違いは何ですか

正規分布とガウス分布には大きな違いがありますか、それらを区別せずに使用する多くの論文を見てきました。通常、それらを同じものと呼んでいます。しかし、私のPIは最近、法線は平均= 0と標準= 1のガウスの特定のケースであると私に言った。ウィキペディアによると、彼らが正規と呼ぶものは標準正規分布であり、正規はガウスの同義語ですが、それでもまた、ウィキペディアについてもよくわかりません。ありがとう

41 normal-distribution terminology

9

Fメジャー値の解釈方法

fメジャー値の違いを解釈する方法を知りたいです。f-measureは精度とリコールのバランスのとれた平均であることは知っていますが、F-measureの違いの実際的な意味について尋ねています。たとえば、分類器C1の精度が0.4で、別の分類器C2の精度が0.8である場合、C2はC1と比較して2種類のテスト例を正しく分類したと言えます。ただし、ある分類器の分類器C1のF尺度が0.4であり、別の分類器C2のF尺度が0.8である場合、2つの分類器のパフォーマンスの違いについて何を述べることができますか？C2がC1よりもX個のインスタンスを正しく分類していると言えますか？

41 classification precision-recall

5

傾向スコアは、回帰に共変量を追加することとどのように異なりますか？

傾向スコアと因果分析に比較的慣れていないことは認めます。新人として私には明らかではないことの1つは、傾向スコアを使用した「バランス」が、回帰に共変量を追加したときに起こることと数学的に異なることです。操作の違いは何ですか？また、回帰に部分母集団の共変量を追加するよりも優れているのはなぜですか？メソッドの経験的比較を行ういくつかの研究を見てきましたが、2つのメソッドの数学的特性と、PSMが回帰共変量を含むのに因果解釈に役立つ理由に関する良い議論は見ていません。また、この分野では多くの混乱と論争があり、事態をさらに難しくしています。これについての考えや、区別をよりよく理解するための優れたリソース/論文へのポインタはありますか？（Judea Pearlの因果関係の本をゆっくりと進めているので、それを指す必要はありません）

41 regression multivariate-analysis causality propensity-scores

1

softmax_cross_entropy_with_logitsはsoftmax_cross_entropy_with_logits_v2とどう違うのですか？

具体的には、私はこの声明について疑問に思うだろう： TensorFlowの将来のメジャーバージョンでは、デフォルトでbackpropのラベル入力に勾配が流れるようになります。を使用すると表示されますtf.nn.softmax_cross_entropy_with_logits。同じメッセージの中で、それを見ることを促しますtf.nn.softmax_cross_entropy_with_logits_v2。私はドキュメントを調べましたが、それは次のことだけを述べていtf.nn.softmax_cross_entropy_with_logits_v2ます：バックプロパゲーションは、ロジットとラベルの両方に発生します。ラベルへの逆伝播を禁止するには、この関数にフィードする前にstop_gradientsにラベルテンソルを渡します。反対に、tf.nn.softmax_cross_entropy_with_logits「S：バックプロパゲーションはロジットにのみ発生します。件名が非常に新しいので（基本的なチュートリアルを進めようとしています）、これらのステートメントはあまり明確ではありません。私は逆伝播の浅い理解を持っていますが、前のステートメントは実際には何を意味しますか？バックプロパゲーションとラベルはどのように接続されていますか？そして、これtf.nn.softmax_cross_entropy_with_logits_v2はオリジナルとは対照的に私がどのように働くかをどのように変えますか？

41 machine-learning supervised-learning tensorflow backpropagation

6

ランダムフォレスト-過剰適合の処理方法

私はコンピューターサイエンスのバックグラウンドを持っていますが、インターネット上の問題を解決してデータサイエンスを学ぼうとしています。私はこの数週間、この問題に取り組んでいます（約900行と10個の機能）。最初はロジスティック回帰を使用していましたが、ランダムフォレストに切り替えました。トレーニングデータでランダムフォレストモデルを実行すると、aucの値が非常に高くなります（> 99％）。ただし、テストデータで同じモデルを実行すると、結果はそれほど良くありません（精度約77％）。これにより、トレーニングデータを過剰に適合していると信じることになります。ランダムフォレストでの過剰適合の防止に関するベストプラクティスは何ですか？開発環境としてrとrstudioを使用しています。randomForestパッケージを使用しており、すべてのパラメーターのデフォルトを受け入れました

41 random-forest overfitting

3

どうすればよい計算

ϕ （⋅ ）ϕ(⋅)\phi(\cdot)とΦ （⋅ ）Φ(⋅)\Phi(\cdot)が標準正規分布の密度関数と分布関数であると仮定します。積分の計算方法： ∫∞- ∞Φ （w − ab） ϕ（w）d w∫−∞∞Φ(w−ab)ϕ(w)dw\int^{\infty}_{-\infty}\Phi\left(\frac{w-a}{b}\right)\phi(w)\,\mathrm dw

41 mathematical-statistics normal-distribution integral

3

統計的独立は因果関係の欠如を意味しますか？

2つの確率変数AとBは統計的に独立しています。これは、プロセスのDAGで：およびもちろん意味します。しかし、それはまた、BからAへの玄関口がないことを意味しますか？(A⊥⊥B)(A⊥⊥B)(A {\perp\!\!\!\perp} B)P(A|B)=P(A)P(A|B)=P(A)P(A|B)=P(A) そのため、を取得する必要があるためです。その場合、統計的独立性は自動的に因果関係の欠如を意味しますか？P(A|do(B))=P(A)P(A|do(B))=P(A)P(A|do(B))=P(A)

40 independence causality bayesian-network dag