統計とビッグデータ

1

それぞれが特徴を持つデータポイントが与えられると、はとしてラベル付けされ、他のはとしてラベル付けされます。各フィーチャは、からランダムに値を取ります（均一な分布）。2つのクラスを分割できる超平面が存在する確率はどのくらいですか？、D N / 2 0 、N / 2 1 [ 0 、1 ]nnndddn/2n/2n/2000n/2n/2n/2111[0,1][0,1][0,1] まず最も簡単なケース、つまり考えてみましょう。d=1d=1d = 1

24 probability classification mathematical-statistics separation

3

機械学習でパワー変換またはログ変換があまり教えられないのはなぜですか？

機械学習（ML）は、線形およびロジスティック回帰手法を多用しています。また、機能の工学的手法（に依存しているfeature transform、kernelなど）。なぜ何も程度variable transformation（例えばpower transformation）MLに言及していませんか？（たとえば、ルートの取得やフィーチャへのログについて聞いたことはありません。通常は単に多項式またはRBFを使用します。）同様に、MLの専門家が従属変数のフィーチャ変換を気にしないのはなぜですか？（たとえば、yの対数変換を行うことについて聞いたことはありません。yを変換しません。）編集：たぶん質問は間違いではないかもしれませんが、私の本当の質問は「MLへの変数への累乗変換は重要ではないのですか？」

24 regression machine-learning data-transformation

4

人工ニューラルネットワークから人間の脳について何を学ぶことができますか？

私の質問/タイトルはあまり具体的ではないことを知っているので、それを明確にしようとします：人工ニューラルネットワークの設計は比較的厳密です。もちろん、一般的に、それらは生物学の影響を受け、実際のニューラルネットワークの数学的モデルを構築しようとしますが、実際のニューラルネットワークの理解は正確なモデルの構築には不十分です。したがって、正確なモデルや、実際のニューラルネットワークに「近い」ものは考えられません。私の知る限り、すべての人工ニューラルネットワークは実際のニューラルネットワークからはかけ離れています。生物学には、標準の古典的な完全に接続されたMLPは存在しません。リカレントニューラルネットワークには実際の神経可塑性がないため、RNNの各ニューロンには同じ「フィードバックアーキテクチャ」がありますが、実際のニューロンは情報を個別に保存および共有します。畳み込みニューラルネットワークは効果的で人気がありますが、（たとえば）人間の脳の画像処理はごく少数の畳み込み層で構成されていますが、最新のソリューション（GoogLeNetなど）はすでに数十層を使用しています... 、彼らは人間のパフォーマンスにも近くありません。特に、実際のニューラルネットワークと比較して、かなりの量のレイヤーとデータ削減が必要なため、「レイヤーごとのパフォーマンス」を考える場合。さらに、私の知る限り、モジュール式の自己拡張/自己再構築人工ニューラルネットワークでさえ、実際のニューラルネットワークの巨大な適応性と比較してかなり「固定的かつ静的」です。生物学的ニューロンには通常、ニューロンを非常に多様な異なる領域や他のニューロンに接続する数千の樹状突起があります。人工ニューラルネットワークは、はるかに「単純」です。それでは、人間の脳/実際のニューラルネットワークについて、人工ニューラルネットワークから学べることはありますか？それとも、古典的な静的アルゴリズムよりも優れたパフォーマンスを発揮するソフトウェアを作成しようとするだけなのでしょうか（あるいは、そのようなアルゴリズムが失敗するようなことをするのでしょうか）。誰かがこのトピックに関する（できれば科学的な）情報源を提供できますか？編集：より多くの回答が高く評価されています（：

24 machine-learning neural-networks bioinformatics artificial-intelligence neuroscience

4

時系列異常検出のアルゴリズム

現在、RでTwitterのAnomalyDetectionを使用しています：https : //github.com/twitter/AnomalyDetection。このアルゴリズムは、季節性のあるデータの時系列異常検出を提供します。質問：これに似た他のアルゴリズムはありますか（季節性の制御は重要ではありません）？私はデータで可能な限り多くの時系列アルゴリズムをスコアリングしようとしています。これにより、最適なもの/アンサンブルを選択できます。

24 r regression time-series anomaly-detection

1

Multinomial（1 / n、…、1 / n）は、離散化されたディリクレ（1、..、1）として特徴付けられますか？

そのため、この質問は少し厄介ですが、それを補うためにカラフルなグラフを含めます！最初に背景、次に質問。バックグラウンドあなたが持っていると言う以上の等しいprobailitesと次元の多項分布カテゴリを。してみましょう正規化数（可能：つまり、その分布から）、N π = （π 1、... 、π N）Cnnnnnnπ= （π1、… 、πn）π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc （c1、… 、cn）〜多項（1 / n 、… 、1 / n ）π私= c私n(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 現在、を介した分布は -simplexをサポートしていますが、個別のステップがあります。たとえば、場合、この分布には次のサポートがあります（赤い点）：N 、N = 3ππ\pinnnn = 3n=3n = 3 同様のサポートを備えた別の分布は、次元の分布、つまり単位シンプレックス上の均一な分布です。たとえば、次は3次元の 1、1、1）からのランダムな描画です。ディリクレ（1 、... 、1 …

24 distributions bayesian bootstrap multinomial dirichlet-distribution

2

ベイジアン投げ縄vs通常の投げ縄

lassoにはさまざまな実装ソフトウェアが用意されています。さまざまなフォーラムで、ベイジアンアプローチと頻度主義的アプローチについて多くのことを話し合っています。私の質問はなげなわ特有のものです - ベイジアンなげなわと通常のなげなわの違いや利点は何ですか？パッケージ内の実装の2つの例を次に示します。 # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) それで、いつ私は1つまたは他の方法に行くべきですか？それとも同じですか？

24 r machine-learning linear-model lasso

1

多重相関係数

Iは、複数の相関の幾何学的な意味に興味RRR決意するのと係数R2R2R^2回帰におけるyi=β1+β2x2,i+⋯+βkxk,i+ϵiyi=β1+β2x2,i+⋯+βkxk,i+ϵiy_i = \beta_1 + \beta_2 x_{2,i} + \dots + \beta_k x_{k,i} + \epsilon_i 、またはベクトル表記で、 y=Xβ+ϵy=Xβ+ϵ\mathbf{y} = \mathbf{X \beta} + \mathbf{\epsilon} ここで、設計行列XX\mathbf{X}有するnnn行およびkkk列を、そのうちの最初のものであるx1=1nx1=1n\mathbf{x}_1 = \mathbf{1}_n、切片に相当するが、その1Sのベクトルβ1β1\beta_1。ジオメトリは、k次元の可変空間ではなく、nnn次元の対象空間でより興味深いものです。帽子行列を定義します。kkk H=X(X⊤X)−1X⊤H=X(X⊤X)−1X⊤\mathbf{H} = \mathbf{X \left(X^\top X \right)}^{-1} \mathbf{X}^\top これは、の列空間への正射影ですXX\mathbf{X}。つまり、各変数x iを表すk個のベクトルが広がる原点を通る平面です。その最初は1 nです。次いで、Hは観測された応答のベクトル突出Yを平坦にその「影」に、近似値のベクトルY = H yは、と我々は残差のベクトルを参照投影経路に沿って見た場合に、E = yと- ykkkxixi\mathbf{x}_i1n1n\mathbf{1}_nHH\mathbf{H}yy\mathbf{y}y^=Hyy^=Hy\mathbf{\hat{y}} = \mathbf{Hy}e=y−y^e=y−y^\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}}三角形の3番目の辺を形成します。これにより、幾何学的な解釈への2つのルートが提供されR2R2R^2ます。複数の相関係数の二乗RRRとの間の相関として定義され、yy\mathbf{y}およびY。これは、角度の余弦として幾何学的に表示されます。y^y^\mathbf{\hat{y}} ベクトルの長さの点で：例えば、SSresidual=∑ni=1e2i=∥e∥2SSresidual=∑i=1nei2=‖e‖2SS_\text{residual} = …

24 regression correlation multiple-regression r-squared geometry

2

ベイジアンはコルモゴロフの公理を受け入れますか？

通常、確率論はコルゴモロフの公理で教えられます。ベイジアンもコルモゴロフの公理を受け入れますか？

24 probability bayesian kolmogorov-axioms

2

オートエンコーダーは意味のある機能を学習できません

次の2つのような50,000個の画像があります。データのグラフを表します。これらの画像から特徴を抽出したかったので、Theano（deeplearning.net）が提供するオートエンコーダコードを使用しました。問題は、これらのオートエンコーダーが機能を学習していないようです。私はRBMを試しましたが、それは同じです。 MNISTデータセットは素晴らしい機能を提供しますが、私のデータは何ももたらさないようです。以下に例を示します。 MNISTで作成されたフィルター：データをトレーニングして作成したフィルター：隠れ層サイズとトレーニングエポックのさまざまな組み合わせを使用しましたが、結果は常に同じです。なぜ機能しないのですか？自動エンコーダーがこれらの画像から特徴を抽出できないのはなぜですか？編集：同様の問題を抱えている人のために。解決策は本当にシンプルで、原因は本当に馬鹿げていました。RGBエンコーディングのピクセル値を0〜1の範囲の浮動小数点数に再スケーリングするのを忘れました。値を再スケーリングすることで問題が解決しました。

24 machine-learning neural-networks feature-construction rbm autoencoders

5

分散が小さいPCが「有用」であるPCAの例

通常、主成分分析（PCA）では、最初の数台のPCが使用され、データの変動の多くを説明していないため、低分散PCは削除されます。ただし、バリエーションの少ないPCが有用な例（データのコンテキストでの使用、直感的な説明など）があり、破棄しないでください。

24 pca

5

混合モデルで因子をランダムとして扱うことの利点は何ですか？

いくつかの理由で、モデルファクターをランダムとしてラベル付けすることの利点を受け入れるのに問題があります。私には、ほとんどすべての場合、最適な解決策はすべての要因を固定として扱うことのように見えます。まず、固定とランダムの区別は非常にarbitrary意的です。標準的な説明では、特定の実験ユニット自体に興味がある場合は固定効果を使用し、実験ユニットによって表される母集団に興味がある場合はランダム効果を使用する必要があります。これは、データと実験デザインが同じままであっても、固定ビューとランダムビューを交互に切り替えられることを意味するため、あまり役に立ちません。また、この定義は、因子がランダムとしてラベル付けされている場合、モデルから引き出された推論は、因子が固定としてラベル付けされている場合よりも母集団により何らかの形で適用できるという幻想を促進します。最後に、ゲルマンは、固定ランダムな区別が混乱していることを示しています定義レベルでも、固定効果とランダム効果の定義がさらに4つあるためです。第二に、混合モデルの推定は非常に複雑です。「完全に固定された」モデルとは対照的に、p値を取得する方法はいくつかあります。。第三に、ランダムな要因によっていくつの暗黙的なパラメータが導入されるかという不透明な問題があります。次の例は、Burnham＆Andersonのモデル選択とマルチモデル推論：実用的な情報理論的アプローチでの私の適応です。バイアスと分散のトレードオフの観点から、ランダム効果の役割は次のように説明できます。処理と主因子効果を持つ一元配置分散分析を検討してくださいは推定可能です。エラー項には分布があります。観測値の数が固定されている場合、バイアス分散のトレードオフは、が上がるにつれて低下します。我々はと言うと仮定K K - 1 N（0 、σ 2）K KKKKKKKK− 1K−1K - 1N（0 、σ2）N（0、σ2）\mathcal N(0, \sigma^2)KKKKKK主効果は分布から引き出されます。対応するモデルは、固定（オーバーフィット）バージョンとインターセプトのみを含むアンダーフィットモデルの中間の複雑さを持ちます。固定モデルの有効なパラメーターの数はN（0 、σK）N（0、σK）\mathcal N(0, \sigma_K) 1i n t e r c e p t +（K− 1 ）mはI nはe ffe c t s +1σ= K+ 1。1私ntercept+（K−1）ma私neffects+1σ=K+1。1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + …

24 model-selection random-effects-model aic fixed-effects-model mixed-model

3

歪んだ分布での外れ値の検出

データポイントとしての上位値または下位四分位数からの1.5 * IQRを超える外れ値の古典的な定義では、非歪分布の仮定があります。歪んだ分布（指数関数、ポアソン、幾何学など）の場合、元の関数の変換を分析して外れ値を検出するのに最適な方法ですか？たとえば、指数分布で緩やかに管理されている分布は、対数関数で変換できます-どの時点で、同じIQR定義に基づいて外れ値を探すことは許容できますか？

24 distributions outliers skewness exponential interquartile

2

期待値最大化アルゴリズムがローカル最適に収束することが保証されているのはなぜですか？

EMアルゴリズムの説明をいくつか読みました（たとえば、Bishopのパターン認識と機械学習、および機械学習に関するロジャーとジェロラミの最初のコースから）。EMの派生は大丈夫です、私はそれを理解しています。また、アルゴリズムが何かをカバーする理由も理解しています：各ステップで結果を改善し、尤度は1.0で制限されているため、単純な事実（関数が増加し、制限される場合は収束する）を使用することで、アルゴリズムが収束することがわかりますいくつかの解決策。しかし、それがローカルミニマムであることをどのように知るのでしょうか？各ステップでは、1つの座標（潜在変数またはパラメーター）のみを検討しているため、ローカルミニマムでは両方の座標を同時に移動する必要があるなど、何かを見逃す可能性があります。これは、EMのインスタンスである一般的なクラスの山登りアルゴリズムと同様の問題だと思います。したがって、一般的な山登りアルゴリズムでは、関数f（x、y）= x * yに対してこの問題があります。（0、0）ポイントから開始する場合、両方の方向を一度に考慮することによってのみ、0の値から上に移動できます。

24 missing-data convergence expectation-maximization

1

カテゴリー変数のみを使用した回帰

すべての従属変数と独立変数がカテゴリ変数である場合、回帰を行うことは可能ですか？

24 regression logistic categorical-data

4

Shapiro–Wilkは最高の正規性テストですか？Anderson-Darlingのような他のテストよりも優れているのはなぜですか？

私は与えられた有意水準、のためので、シャピロ-ウィルク検定は、最高の正規のテストと見なされることが文献でどこかで読んだ、帰無仮説を棄却する確率は、それの偽は他の場合よりも高い場合正常性テスト。αα\alpha 可能であれば数学的な議論を使用して、他の正常性テスト（アンダーソン-ダーリングテストなど）と比較してどのように機能するかを説明してください。

24 hypothesis-testing normal-distribution normality-assumption