統計とビッグデータ machine-learning

2

これらのテキスト表現モデルの違いは何ですか/単語のバッグとベクトル空間モデル？

12 machine-learning text-mining

2

MLのソフトマックス関数と熱力学のボルツマン分布の間の関係はどのくらい深いですか？

実数を確率に変換するためにニューラルネットワークで一般的に使用されるソフトマックス関数は、ボルツマン分布と同じ関数です。これは、熱力学の特定の温度Tにおける熱平衡状態の粒子のアンサンブルのエネルギーの確率分布です。これが実用的である理由として、いくつかの明確な発見的理由を見ることができます。入力値が負であっても、softmaxは合計が1になる正の値を出力します。それは常に微分可能であり、逆伝播に便利です。これには、ネットワークの小さな値に対する許容度を制御する「温度」パラメーターがあります（Tが非常に大きい場合、すべての結果は等しく可能性が高く、非常に小さい場合、最大の入力を持つ値のみが選択されます）。ボルツマン関数は、実用的な理由でソフトマックスとしてのみ使用されているのですか、それとも熱力学/統計物理学との関係が深いのですか？

12 machine-learning neural-networks softmax

2

調和平均の代わりに加重算術平均を使用しないのはなぜですか？

精度と再現率の組み合わせにおける加重算術平均とは対照的に、調和平均を使用することの固有の値は何ですか（たとえば、Fメジャーを計算するため）。加重算術平均が調和平均の役割を果たす可能性があると考えていますか、それとも何か不足していますか？

12 machine-learning monte-carlo precision-recall harmonic-mean

2

カーネルサイズとはどういう意味ですか？

人々がニューラルネットワークについて話すとき、彼らが「カーネルサイズ」と言うとき、彼らはどういう意味ですか？カーネルは相似関数ですが、カーネルサイズについてはどうでしょうか。

12 machine-learning neural-networks

1

線形関数近似で重みをQ値に適合させる方法

強化学習では、大きな状態空間が存在する場合に線形関数近似がよく使用されます。（テーブルをルックアップすると実行不可能になります。）線形関数近似による値の形式は、Q -Q−Q- Q （s 、a ）= w1f1（s 、a ）+ w2f2（s 、a ）+ ⋯ 、Q(s,a)=w1f1(s,a)+w2f2(s,a)+⋯,Q(s,a) = w_1 f_1(s,a) + w_2 f_2(s,a) + \cdots, ここで、は重み、は特徴です。F Iw私wiw_if私fif_i 機能はユーザーによって事前定義されています。私の質問は、重みはどのように割り当てられるのですか？関数近似を使用したラーニングに関する講義スライドをいくつか読んだりダウンロードしたりしました。それらのほとんどは、次の線形回帰に関するスライドがあります。単なるスライドなので、不完全になる傾向があります。2つのトピック間の関係/関係は何ですか。Q -Q−Q-

12 machine-learning feature-selection reinforcement-learning

4

分類子とは何ですか？

分類子とは何かの一般的な定義が見つかりません。どのように機能するかは理解していますが、定義に至りません。

12 machine-learning classification

2

Keras：val_lossが増加する一方で損失が減少するのはなぜですか？

一連のパラメーターのグリッド検索を設定しました。バイナリ分類を行うKerasニューラルネットに最適なパラメーターを見つけようとしています。出力は1または0です。約200の機能があります。グリッド検索を行ったとき、一連のモデルとそのパラメーターを取得しました。最良のモデルには次のパラメーターがありました。 Epochs : 20 Batch Size : 10 First Activation : sigmoid Learning Rate : 1 First Init : uniform そしてそのモデルの結果は： loss acc val_loss val_acc 1 0.477424 0.768542 0.719960 0.722550 2 0.444588 0.788861 0.708650 0.732130 3 0.435809 0.794336 0.695768 0.732682 4 0.427056 0.798784 0.684516 0.721137 5 0.420828 0.803048 0.703748 0.720707 …

12 machine-learning cross-validation deep-learning tensorflow theano

5

機械学習の問題のプロトタイプを作成するには、どのプログラミング言語をお勧めしますか？

現在Octaveで作業していますが、ドキュメントが不十分なため、進捗は非常に遅くなっています。どの言語が学習および使用が簡単で、機械学習の問題を解決するために十分に文書化されていますか？私は小さなデータセット（数千の例）のプロトタイプを探しているので、速度は重要ではありません。編集：私は推奨エンジンを開発しています。したがって、私は正則化線形回帰、ニューラルネット、SVN、または協調フィルタリングの使用に興味があります。

12 r machine-learning matlab software python

1

ヤコビアン因子による異なる確率密度変換

ビショップではパターン認識と機械学習、私はちょうど確率密度の後、以下の読みp(x∈(a,b))=∫bap(x)dxp(x∈(a,b))=∫abp(x)dxp(x\in(a,b))=\int_a^bp(x)\textrm{d}x導入されました。変数の非線形変化の下では、確率密度は、ヤコビアン係数のために、単純な関数とは異なる形で変換されます。我々は変数の変化を検討した場合、例えば、x=g(y)x=g(y)x = g(y)、関数f(x)f(x)f(x)となる f~(y)=f(g(y))f~(y)=f(g(y))\tilde{f}(y) = f(g(y))。次に、密度p y（y ）に対応する確率密度px(x)px(x)p_x(x)を考えます。py(y)py(y)p_y(y) 新しい変数yyyに関して、ここで、px(x)px(x)p_x(x)とpy(y)py(y)p_y(y)は異なる密度であるという事実を示します。範囲内の観察(x,x+δx)(x,x+δx)(x, x + \delta x)の値が小さいためであろう δxδx\delta x、範囲に変換する(y,y+δy(y,y+δy(y, y + \delta y） px(x)δx≃py(y)δypx(x)δx≃py(y)δyp_x(x)\delta x \simeq p_y(y)δy、ひいてはpy(y)=px(x)|dxdy|=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y) = p_x(x) |\frac{dx}{dy}| = p_x(g(y)) | g\prime (y) |。ヤコビアンファクターとは何ですか？正確に何が（多分定性的に）どういう意味ですか？ビショップは、この性質の結果は確率密度の最大値の概念は変数の選択に依存するということであると言います。これは何を意味するのでしょうか？私には、これは少しおかしくなります（序章にあると考えてください）。ヒントをお願いします、ありがとう！

12 machine-learning probability

1

分散のMLEがガウス分布でバイアスされていることを理解するにはどうすればよいですか？

PRMLを読んでいて、画像が理解できません。絵を理解するためのヒントと、ガウス分布の分散のMLEが偏っている理由を教えてください。式1.55：式1.56 σ 2 M L E =1μMLE=1N∑n=1NxnμMLE=1N∑n=1Nxn \mu_{MLE}=\frac{1}{N} \sum_{n=1}^N x_n σ2MLE=1N∑n=1N(xn−μMLE)2σMLE2=1N∑n=1N(xn−μMLE)2 \sigma_{MLE}^2=\frac{1}{N}\sum_{n=1}^{N}(x_n-\mu_{MLE})^2

12 machine-learning self-study maximum-likelihood

1

ヘッセ行列と共分散行列の関係

私は最尤推定を研究していますが、最尤推定で推論を行うには、分散を知る必要があります。分散を見つけるには、曲率に2次微分を持つヘッセ行列のように見えるクラマーのラオ下限を知る必要があります。共分散行列とヘッセ行列の間の関係を定義するために、私はちょっと混乱しています。質問についてのいくつかの説明を聞くことを願っています。簡単な例が評価されます。

12 machine-learning mathematical-statistics maximum-likelihood data-mining

1

対数均一分布とはどういう意味ですか？

128と4000の間の対数均一分布からデータがサンプリングされると誰かが言ったとき、それはどういう意味ですか？均一分布からのサンプリングとどう違うのですか？このペーパーを参照してください：http : //www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf ありがとう！

12 machine-learning distributions uniform

5

3 x 3の混同行列で精度を計算して再現する方法

Predicted class Cat Dog Rabbit Actual class Cat 5 3 0 Dog 2 3 1 Rabbit 0 2 11 精度と再現率を計算するにはどうすればよいですか。F1スコアの計算が簡単になります。通常の混同行列は2 x 2の次元です。しかし、それが3 x 3になると、精度の計算方法と再現率がわかりません。

12 machine-learning precision-recall

2

シングルユニットLSTMと3ユニットLSTMニューラルネットワークの違い

次のKerasコードのLSTM input_t = Input((4, 1)) output_t = LSTM(1)(input_t) model = Model(inputs=input_t, outputs=output_t) print(model.summary()) として表すことができます model.predict(np.array([[[1],[2],[3],[4]]]))（唯一の）LSTMユニットを呼び出すと、最初にベクトル[1]が処理され、次に[2]と前の入力からのフィードバックが処理されて、ベクトル[4]まで続きます。つまり、です。x1= [ 1],x2= [ 2 ],x3= [ 3 ] 、x4= [ 4 ]x1=[1]、バツ2=[2]、バツ３=[３]、バツ4=[4]x_1 = [1], x_2 = [2], x_3 = [3], x_4 = [4] 次のニューラルネットワークが同じ入力シーケンスを処理する方法がわかりません [1],[2],[3],[4] input_t = Input((4, 1)) output_t = LSTM(3)(input_t) model = Model(inputs=input_t, …

12 machine-learning neural-networks lstm keras

3

PCAおよびLDAにおける「再構築エラー」の意味

PCA、LDA、Naive Bayesをそれぞれ圧縮と分類に実装しています（圧縮と分類にLDAの両方を実装しています）。私はコードを書いてあり、すべてが動作します。私が知っておく必要があるのは、報告書に関して、再構成エラーの一般的な定義です。私は多くの数学とその使用法を文献で見つけることができます...しかし、私が本当に必要なのは鳥瞰図/わかりやすい言葉の定義なので、レポートに適合させることができます。

12 machine-learning pca terminology dimensionality-reduction discriminant-analysis

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」