統計とビッグデータ

3

利点は何ですか、なぜ深いネットワークで複数のLSTMを並べて使用するのですか？LSTMを使用して、一連の入力を単一の入力として表します。それで、その単一の表現ができたら、なぜそれを再び渡すのでしょうか？これは自然言語生成プログラムで見たからです。

25 classification neural-networks deep-learning lstm rnn

1

修正された線形単位が非線形と見なされるのはなぜですか？

なぜ整流線形ユニット（ReLU）の活性化関数は非線形と見なされますか？ f(x)=max(0,x)f(x)=max(0,x) f(x) = \max(0,x) 入力が正の場合は線形であり、深いネットワークの代表的な力を解き放つための私の理解からは、非線形活性化が必須です。そうでなければ、ネットワーク全体を単一のレイヤーで表すことができます。

25 neural-networks deep-learning

5

欠落データを処理する機械学習アルゴリズム

私は、検査値を含む高次元の臨床データを使用して予測モデルを開発しようとしています。データ空間は、5kサンプルと200変数でまばらです。アイデアは、機能選択方法（IG、RFなど）を使用して変数をランク付けし、予測モデルの開発にトップランクの機能を使用することです。素朴なベイズのアプローチでは機能の選択はうまくいきますが、変数空間のデータが欠落している（NA）ために予測モデルの実装で問題に直面しています。欠落データのあるサンプルを慎重に処理できる機械学習アルゴリズムはありますか？

25 machine-learning missing-data

4

独立したランダム変数の機能

独立したランダム変数の関数自体が独立しているという主張は本当ですか？結果は、いくつかの証明、たとえば正規分布の標本平均と標本分散の独立性の証明などで暗黙的に使用されることがよくありますが、その正当性を見つけることができませんでした。一部の著者はそれを与えられたとおりに受け取っているようですが、これが常に当てはまるかどうかはわかりません。

25 probability self-study random-variable independence

2

ディリクレ分布からの描画

我々が持つディリクレ分布持っていると言うKKK次元ベクトルパラメータα⃗ = [ α1、α2、。。。、αK]α→=[α1、α2、。。。、αK]\vec\alpha = [\alpha_1, \alpha_2,...,\alpha_K]。この分布からサンプル（次元ベクトル）を描画するにはどうすればよいですか？（おそらく）簡単な説明が必要です。KKK

25 sampling dirichlet-distribution

2

ロジスティック回帰の背後にある直感

最近、機械学習の勉強を始めましたが、ロジスティック回帰の背後にある直感を理解することができませんでした。以下は、私が理解しているロジスティック回帰についての事実です。仮説の基礎として、シグモイド関数を使用します。なぜそれが正しい選択なのか理解していますが、なぜそれが私が理解できない唯一の選択なのかを理解しています。仮説は、適切な出力である確率を表す111、それゆえ私たちの関数のドメインがあるべき[ 0 、1 ][0、1][0,1]、これはシグモイド関数の唯一の財産である私が有用であることが判明し、ここで適切な、しかし、多くの機能は、この特性を満たします。さらに、シグモイド関数には、この形式の導関数f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x))、しかし、ロジスティック回帰ではこの特別な形式のユーティリティは見当たりません。質問：どのようなシグモイド関数についてとても特別な、なぜ私たちは、ドメインと他の機能を使用することはできません？[0,1][0,1][0,1] コスト関数は、2つのパラメータで構成さであれば、Y = 1 、C O S T（時間θ（X ）、Y ）= - ログ（1 - 時間θ（X ））であれば、Y =をCost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))。上記と同じように、なぜそれが正しいのか理解していますが、なぜそれが唯一の形式なのですか？例えば、なぜできませんでした | 時間θ （X ） - Y | コスト関数の良い選択ですか？y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| 質問：上記の形式の費用関数について何が特別なのか。なぜ別のフォームを使用できないのですか？ロジスティック回帰の理解を共有していただければ幸いです。

25 regression machine-learning logistic

5

バイナリ変数を標準化する必要がありますか？

一連の機能を備えたデータセットがあります。それらのいくつかはバイナリアクティブまたは起動、(1=(1=(1=0=0=0=非アクティブまたは休止）であり、残りはなどの実際の値。4564.3424564.3424564.342 私は私、機械学習アルゴリズムには、このデータを送りたいのすべての実数値の特徴-score。私はそれらを範囲と間で取得します。現在、バイナリ値もスコア化されているため、ゼロはなり、1はなり。zzz333−2−2-2zzz−0.222−0.222-0.2220.55550.55550.5555 このようなバイナリ変数の標準化は意味がありますか？

25 machine-learning normalization binary-data

3

SVMのような離散分類器のROC曲線：なぜそれを「曲線」と呼ぶのですか？、単なる「点」ではないのですか？

議論：バイナリ分類のroc曲線を生成する方法混乱は、「バイナリ分類子」（2つのクラスを分離する任意の分類子）がヤンの「離散分類子」（ SVMのような離散出力0/1）およびANNやBayes分類器のような連続出力ではない...など。したがって、議論はROCが「バイナリ連続分類器」に対してどのようにプロットされるかについてであり、答えは出力がソートされることです出力は連続的であり、ROC曲線上の各ポイントを生成するためにしきい値が使用されるため、スコアによって。私の質問は、SVMなどの「バイナリ離散分類器」に関するもので、出力値は0または1です。したがって、ROCは曲線ではなく1つのポイントのみを生成します。なぜそれを曲線と呼ぶのか混乱しています！まだしきい値について話せますか？特にSVMでしきい値を使用するにはどうすればよいですか？AUCを計算するにはどうすればよいですか？

25 cross-validation roc auc

1

leave-one-out相互検証はどのように機能しますか？異なるモデルから最終モデルを選択する方法は？

いくつかのデータがあり、このデータからモデル（線形回帰モデルなど）を作成します。次のステップでは、Leave-One-Out Cross-Validation（LOOCV）をモデルに適用して、モデルのパフォーマンスを確認します。 LOOCVを正しく理解したら、このサンプル（トレーニングセット）を除くすべてのサンプルを使用して、各サンプル（テストセット）の新しいモデルを構築します。次に、モデルを使用してテストセットを予測し、エラーを計算し。（予測- 実際）（予測した−実際の）(\text{predicted} - \text{actual}) 次のステップでは、選択した関数を使用して生成されたすべてのエラー（平均二乗誤差など）を集計します。これらの値を使用して、モデルの品質（または適合度）を判断できます。質問：これらの品質値が適用されるモデルはどのモデルですか。LOOCVから生成されたメトリックが自分のケースに適している場合、どのモデルを選択する必要がありますか？LOOCVは異なるモデルを調べました（はサンプルサイズです）。どのモデルを選択する必要がありますか？nnnnnn すべてのサンプルを使用するモデルですか？このモデルは、LOOCVプロセスでは計算されませんでした！エラーが最も少ないモデルですか？

25 cross-validation

1

行と列の長さに制約があるランダム行列

行と列、平均= 0でランダムに分布し、各行の長さ（L2ノルム）がで各列の長さがように制約された要素を持つランダムな非正方行列を生成する必要があります。同様に、平方値の合計は各行で1、各列でです。RRR1 √CCC111 RRC−−√RC\sqrt{\frac{R}{C}}RCRC\frac{R}{C} これまでのところ、これを達成する方法の1つを見つけました。単純に行列要素をランダムに初期化し（たとえば、平均、任意分散がゼロの均一分布、正規分布、またはラプラス分布から）、次に行と列を交互に正規化します、行の正規化で終わる。これは、目的の結果にかなり迅速に収束するようです（たとえば、および場合、列の長さの分散は、回の反復後、通常です）が、この高速収束率に依存できるかどうかはわかりません一般的に（さまざまなマトリックス次元と初期要素分布用）。R = 40 C = 80 0.00001 2l e n g t h =1length=1{\rm length} = 1R = 40R=40R=40C= 80C=80C=80 0.00001 0.00001~0.00001222 私の質問はこれです：目的の結果（、）を直接反復することなく達成する方法はあり行/列の正規化？たとえば、ランダムなベクトルを正規化するアルゴリズムのようなもの（要素をランダムに初期化し、二乗和の値を測定し、共通のスカラーで各要素をスケーリングします）。そうでない場合、上記の反復法の収束率（たとえば、エラーまでのnum回の繰り返し）の簡単な特性評価はありますか？c o l u m n l e n g t h s = √R O のw l e n g t h s …

25 random-generation normalization markov-process random-matrix

3

Rの列ごとの行列の正規化[終了]

閉まっている。この質問はトピック外です。現在、回答を受け付けていません。この質問を改善したいですか？質問を更新して、相互検証のトピックになるようにします。 6年前に閉鎖されました。 Rの行列の列ごとの正規化を実行したいと思います。行列が与えられた場合m、各要素を列の合計で除算して各列を正規化します。これを行う1つの（ハック的な）方法は次のとおりです。 m / t(replicate(nrow(m), colSums(m))) 同じタスクを達成するためのより簡潔/エレガント/効率的な方法はありますか？

25 r data-transformation normalization matrix

2

R時系列ベクトルのサブセット化

時系列があり、開始、終了、および頻度を保持しながら、時系列として保持しながらサブセット化します。たとえば、時系列があるとします。 > qs <- ts(101:110, start=c(2009, 2), frequency=4) > qs Qtr1 Qtr2 Qtr3 Qtr4 2009 101 102 103 2010 104 105 106 107 2011 108 109 110 今、私はそれをサブセットします： > qs[time(qs) >= 2010 & time(qs) < 2011] [1] 104 105 106 107 正しい結果が得られましたが、時系列（つまり、開始、終了、頻度）から「ラッピング」を失ったことに注意してください。このための機能を探しています。時系列のサブセット化は一般的なシナリオではありませんか？私はまだ見つけていないので、ここに私が書いた関数があります： subset.ts <- function(data, start, end) { …

25 r time-series

1

有限補正係数の説明

有限の母集団からサンプリングし、標本サイズが母集団の5％を超える場合、次の式を使用して標本の平均誤差と標準誤差を修正する必要があることを理解しています。 FPC=N−nN−1−−−−√FPC=N−nN−1\hspace{10mm} FPC=\sqrt{\frac{N-n}{N-1}} ここで、は母集団のサイズで、はサンプルサイズです。nNNNnnn この式について3つの質問があります。しきい値が5％に設定されているのはなぜですか？公式はどのように導き出されましたか？このペーパー以外に、この公式を包括的に説明する他のオンラインリソースはありますか？

25 sampling finite-population

4

相互作用によって回帰の直接的な影響がなくなるとどうなりますか？

回帰では、相互作用の用語は関連する両方の直接的な影響を一掃します。インタラクションをドロップするか、結果を報告しますか？相互作用は元の仮説の一部ではありませんでした。

25 regression interaction

6

一連の最高周波数からZipfの法則係数を計算する方法は？

クエリの頻度はいくつかありますが、Zipfの法則の係数を推定する必要があります。これらはトップ周波数です： 26486 12053 5052 3033 2536 2391 1444 1220 1152 1039

25 distributions estimation pareto-distribution zipf