タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

3
(深い)ニューラルネットワークが他の方法より明らかに優れていなかった、教師あり学習の問題はありますか?
私は人々がSVMとカーネルに多くの努力を注いでいるのを見てきましたが、彼らは機械学習のスターターとしてかなり面白そうです。しかし、ほぼ常に(深い)ニューラルネットワークの点で優れたソリューションを見つけることができると期待する場合、この時代に他の方法を試すことの意味は何ですか? このトピックに関する私の制約は次のとおりです。 教師あり学習のみを考えます。回帰および分類。 結果の可読性はカウントされません。教師あり学習問題の精度のみが重要です。 計算コストは​​考慮されていません。 他の方法が役に立たないと言っているわけではありません。


5
SVMは一度に1つの例を学習することができますか?
ストリーミングデータセットがありますが、例は一度に1つずつ入手できます。それらに対してマルチクラス分類を行う必要があります。学習プロセスにトレーニング例を提供したらすぐに、その例を破棄する必要があります。同時に、ラベルなしデータの予測を実行するために最新のモデルも使用しています。 私の知る限り、ニューラルネットワークは、サンプルを1つずつフィードし、そのサンプルで順伝播と逆伝播を実行することにより、ストリーム学習を行うことができます。 SVMは一度に1つの例を学習するストリームを実行し、すぐに例を破棄できますか?

1
ブースティングの相対的な変数の重要性
Gradient Boosted Treesで相対的な変数の重要度がどのように計算されるかについての説明を探しています。 メジャーは、変数が分割用に選択された回数に基づいており、各分割の結果としてモデルに対する2乗改善によって重み付けされ、すべてのツリーで平均されます。[ Elith et al。2008年、回帰ツリーをブーストするためのワーキングガイド ] そして、それは以下よりも抽象的ではありません: I2j^(T)=∑t=1J−1i2t^1(vt=j)Ij2^(T)=∑t=1J−1it2^1(vt=j)\hat{I_{j}^2}(T)=\sum\limits_{t=1}^{J-1} \hat{i_{t}^2} 1(v_{t}=j) 合計がJ末端ノードツリーTの非末端ノードに対するものであり、v tはノードtに関連付けられた分割変数であり、^ i 2 tは、定義された分割の結果としての二乗誤差の対応する経験的改善ですas i 2(R l、R r)= w l w rtttJJJTTTvtvtv_{t}ttti2t^it2^\hat{i_{t}^2}、 ¯ のY L、 ¯ Y Rはそれぞれ左右娘応答手段であり、WL、WR重みの対応する和です。i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i2(Rl,Rr)=wlwrwl+wr(yl¯−yr¯)2i^2(R_{l},R_{r})=\frac{w_{l}w_{r}}{w_{l}+w_{r}}(\bar{y_{l}}-\bar{y_{r}})^2yl¯,yr¯yl¯,yr¯\bar{y_{l}}, \bar{y_{r}}wl,wrwl,wrw_{l}, w_{r}[フリードマン2001、グリーディ関数近似:勾配ブースティングマシン] 最後に、関連するセクション(10.13.1ページ367)が上記の2番目のリファレンス(説明される可能性がある)と非常に似ているため、統計学習の要素(Hastie et al。2008)がここで非常に役立つとは思いませんでした。フリードマンが本の共著者であるという事実によって)。 PS:相対変数の重要度の測定値は、gbm Rパッケージのsummary.gbmによって提供されることを知っています。ソースコードを調べようとしましたが、実際の計算がどこで行われているのか見つけることができないようです。 ブラウニーポイント:これらのプロットをRで取得する方法を知りたい

3
隠れマルコフモデルと条件付きランダムフィールドの直感的な違い
HMM(Hidden Markov Models)は生成モデルであり、CRFは識別モデルであることを理解しています。また、CRF(条件付きランダムフィールド)がどのように設計され使用されているかも理解しています。私が理解していないのは、それらがHMMとどのように異なるかです。HMMの場合、前のノード、現在のノード、および遷移確率でのみ次の状態をモデル化できますが、CRFの場合はこれを実行でき、任意の数のノードを接続して依存関係を形成できますまたはコンテキスト?私はここで正しいですか?

4
活性化関数としてtanhがシグモイドよりも常に優れているのはなぜですか?
Andrew NgのCourseraのニューラルネットワークとディープラーニングコースでは、tanhtanhtanhを使用することはを使用するよりもほぼ常に好ましいと述べていsigmoidsigmoidsigmoidます。 彼が与える理由は、を使用する出力tanhtanhtanhはsigmoidsigmoidsigmoidの0.5 ではなく0を中心とし、これにより「次の層の学習が少し簡単になる」からです。 アクティベーションの出力速度を中心に学習するのはなぜですか?バックプロップ中に学習が行われると、彼は前のレイヤーを参照していると思いますか? tanhtanhtanh推奨する他の機能はありますか?より急な勾配は、消失する勾配を遅らせますか? sigmoidsigmoidsigmoidが望ましい状況はありますか? 数学的に軽く、直感的な回答が望ましい。

4
次数を下げるのではなく、多項式回帰で正則化を使用するのはなぜですか?
たとえば、回帰を行う場合、選択する2つのハイパーパラメーターは、多くの場合、関数の容量(たとえば、多項式の最大指数)と正則化の量です。私が混乱しているのは、なぜ低容量の機能を選択し、正規化を無視しないのですか?そのように、それは過剰適合しません。正則化とともに高容量機能を持っている場合、それは低容量機能と正則化を持たないことと同じではありませんか?

1
時間的ネットワークでのリンク異常検出
リンク異常検出を使用してトレンドのトピックを予測するこの論文に出会いましたが、非常に興味深いことがわかりました。この論文は、「リンク異常検出によるソーシャルストリームの新興トピックの発見」です。 別のデータセットに複製したいのですが、それらの使用方法を知るための方法に十分な知識がありません。6か月の間にノードのネットワークの一連のスナップショットがあるとします。ノードには、次数の長い分布があり、ほとんどはわずかな接続しかありませんが、一部は非常に多くの接続を持ちます。この期間内に新しいノードが表示されます。 バーストの前兆と思われる異常なリンクを検出するために、論文で使用されている逐次割引正規化最尤計算をどのように実装できますか?より適切な他の方法はありますか? 理論的にも実際的にもお願いします。誰かがこれをPythonまたはRで実装する方法を教えてくれたら、それは非常に役立ちます。 誰でも?私はあなたが賢明な人々が答えのためのいくつかの最初の考えを持っていることを知っています、




2
OLS線形回帰のコスト関数
Andrew NgがCourseraで機械学習について行った線形回帰に関する講義と少し混同されています。そこで、彼は平方和を最小化するコスト関数を次のように与えました。 12 メートル∑i = 1m(hθ( X(i ))− Y(i ))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 がどこから来たのか理解しています。彼は、二乗項で微分を実行したときに、二乗項の2が半分でキャンセルされるようにしたと思います。しかし、がどこから来たのかわかりません。 11212\frac{1}{2}1m1m\frac{1}{m} なぜを行う必要があるのですか?標準線形回帰では、それはありません。単に残差を最小化します。ここで必要なのはなぜですか?1m1m\frac{1}{m}

1
回帰用のCNNアーキテクチャ?
入力が画像で、ラベルが80から350の間の連続値である回帰問題に取り組んでいます。画像は、反応が起こった後のいくつかの化学物質のものです。判明する色は、残りの別の化学物質の濃度を示し、それがモデルが出力するものです-その化学物質の濃度。画像は回転、反転、ミラー化できますが、期待される出力は同じままです。この種の分析は実際のラボで行われます(このモデルをトレーニングするのと同じように、非常に特殊な機械が色分析を使用して化学物質の濃度を出力します)。 これまでのところ、おおよそVGG(conv-conv-conv-poolブロックの複数のシーケンス)に基づいたモデルで実験したことがあります。より最近のアーキテクチャ(Inception、ResNetなど)を試す前に、画像を使用した回帰でより一般的に使用される他のアーキテクチャがあるかどうかを調査したいと思いました。 データセットは次のようになります。 データセットには約5,000の250x250のサンプルが含まれていますが、64x64にサイズ変更したため、トレーニングが簡単になりました。有望なアーキテクチャを見つけたら、より大きな解像度の画像で実験します。 これまでのところ、私の最良のモデルでは、トレーニングセットと検証セットの両方で約0.3の平均二乗誤差があり、これは私のユースケースでは受け入れられません。 これまでの私の最高のモデルは次のようになります。 // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=64, kernel=[3,3])->batch_norm()->relu() x = maxpool(x, size=[2,2], stride=[2,2]) x …

2
「ディープラーニング」とマルチレベル/階層モデリングの違いは何ですか?
「ディープラーニング」は、マルチレベル/階層モデリングの単なる別の用語ですか? 前者よりも後者の方がはるかに精通していますが、主な違いは定義にあるのではなく、アプリケーションドメイン内での使用方法と評価方法にあります。 典型的な「深層学習」アプリケーションのノードの数は多く、一般的な階層形式を使用するように見えますが、マルチレベルモデリングのアプリケーションは、通常、モデル化される生成プロセスを模倣する階層関係を使用します。適用された統計(階層モデリング)ドメインで一般的な階層を使用することは、現象の「誤った」モデルと見なされますが、ドメイン固有の階層をモデル化することは、一般的な深層学習機械を作成する目的を覆すと見なされる場合があります。 これらの2つのことは、実際には2つの異なる名前の2つの異なる方法で使用される同じ機械ですか?

7
検証の精度が変動するのはなぜですか?
MRIデータを使用して癌に対する反応を予測する4層CNNがあります。ReLUアクティベーションを使用して、非線形性を導入します。列車の精度と損失はそれぞれ単調に増加および減少します。しかし、私のテストの精度は大きく変動し始めます。学習率を変更して、レイヤー数を減らしてみました。しかし、それは変動を止めるものではありません。私もこの答えを読み、その答えの指示に従ってみましたが、再び運はありませんでした。誰が私が間違っているのかを理解するのを手伝ってもらえますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.