タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。


5
ニューラルネットワークの「死にゆくReLU」問題とは何ですか?
視覚認識のための畳み込みニューラルネットワークに関するスタンフォードのコースノートを参照すると、次の段落が述べられています。 「残念ながら、ReLUユニットはトレーニング中に壊れやすく、「死ぬ」可能性があります。たとえば、ReLUニューロンを流れる大きな勾配により、ニューロンがデータポイントで再びアクティブにならないように重みが更新される可能性があります。つまり、ReLUユニットは、データマニホルドからノックオフされる可能性があるため、トレーニング中に不可逆的に死ぬ可能性があります。学習率の設定が高すぎると、ネットワークの%が「死んでいる」(つまり、トレーニングデータセット全体でアクティブにならないニューロン)場合があります。学習率を適切に設定すれば、これはあまり問題になりません。 ここでのニューロンの死はどういう意味ですか? 簡単な言葉で直感的な説明をお願いします。

5
ニューラルネットワークのクロスエントロピー誤差関数
ML初心者向けのMNISTでは、クロスエントロピーを次のように定義しています Hy′(y):=−∑iy′ilog(yi)Hy′(y):=−∑iyi′log⁡(yi)H_{y'} (y) := - \sum_{i} y_{i}' \log (y_i) i y ′ iyiyiy_iはクラス予測確率値で、はそのクラスの真の確率です。iiiy′iyi′y_i' 質問1 ()が0になるのは問題ではありませんか?これはもちろん、本当に悪い分類器を持っていることを意味します。しかし、データセットのエラー、たとえばとしてラベル付けされた「明白な」を考えてください。単にクラッシュしますか?選択したモデル(最後にソフトマックスアクティベーション)は、基本的に正しいクラスに対して確率0を与えませんか?yiyiy_ilog(yi)log⁡(yi)\log(y_i)13 質問2 クロスエントロピーは次のように定義されることを学びました Hy′(y):=−∑i(y′ilog(yi)+(1−y′i)log(1−yi))Hy′(y):=−∑i(yi′log⁡(yi)+(1−yi′)log⁡(1−yi))H_{y'}(y) := - \sum_{i} ({y_i' \log(y_i) + (1-y_i') \log (1-y_i)}) 何が正しいのですか?いずれかのバージョンの教科書の参照はありますか?これらの関数は、その特性がどのように異なりますか(ニューラルネットワークのエラー関数として)?

15
機械学習のためのPython vs R
学術目的で機械学習アプリケーションを開発し始めたところです。私は現在Rを使用しており、Rで自分を訓練しています。しかし、多くの場所で、Pythonを使用している人を見てきました。 学界や産業界で人々は何を使用していますか?また、推奨事項は何ですか?

8
学習率の選択
現在SGD、バックプロパゲーションを使用したニューラルネットの確率的勾配降下法の実装に取り​​組んでおり、その目的は理解していますが、学習率の値を選択する方法についていくつか質問があります。 学習率は、降下率を決定するため、誤差勾配の形状に関連していますか? もしそうなら、この情報をどのように使用して価値についての決定を知らせるのですか? それがどのような種類の値を選択する必要がない場合、どのように選択する必要がありますか? オーバーシュートを避けるために小さな値が必要なようですが、ローカルミニマムにとらわれたり、下降に時間がかかったりしないように、どのように選択しますか? 一定の学習率を持つことは理にかなっていますか、または勾配の最小値に近づくにつれてその値を変更するために何らかのメトリックを使用する必要がありますか? つまり、SGDの学習率を選択するにはどうすればよいですか?



5
コスト関数が二乗誤差を使用するのはなぜですか?
機械学習を始めたばかりで、これまでは1つの変数に対する線形回帰を扱ってきました。 私は仮説があることを学びました。それは: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x パラメータのための良好な値を調べるにはθ0θ0\theta_0とθ1θ1\theta_1、私たちは、計算結果と我々のテストデータの実際の結果との間の差を最小限にしたいです。だから我々は引きます hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 1からmまでのすべてのに対して。したがって、この差の合計を計算し、合計に1を掛けて平均を計算しますiii111mmm1m1m\frac{1}{m}。ここまでは順調ですね。これは次の結果になります。 1m∑mi=1hθ(x(i))−y(i)1m∑i=1mhθ(x(i))−y(i)\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)} しかし、これは提案されたものではありません。代わりに、コースは差の二乗値を取得し、1を掛けることを提案します。したがって、式は次のとおりです。12m12m\frac{1}{2m} 12m∑mi=1(hθ(x(i))−y(i))212m∑i=1m(hθ(x(i))−y(i))2\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 何故ですか?なぜここで二乗関数を使用し、なぜ1を乗算するのかの代わりに112m12m\frac{1}{2m}?1m1m\frac{1}{m}


8
データサイエンティストvs機械学習エンジニア
「データサイエンティスト」と「機械学習エンジニア」の違いはありますか? 過去1年ほどで、「機械学習エンジニア」が求人に多く登場し始めました。これは特にサンフランシスコで顕著です。サンフランシスコでは、おそらく「データサイエンティスト」という言葉が生まれました。ある時点で「データサイエンティスト」が「統計学者」を追い越し、「データサイエンティスト」にも同じことが徐々に起こり始めているのではないかと思っています。 このサイトでは、キャリアに関するアドバイスはトピック外としてリストされていますが、定義について質問しているため、私の質問は非常に関連性が高いと考えています。私自身のキャリアの軌跡や、他のトピック外の質問が持っているような個人的な状況を考えれば、私は推奨事項について尋ねません。 この質問は、いつかはこのサイトの多くのユーザーに大きな影響を与える可能性があるため、話題になっています。実際、「統計学者」対「データ科学者」の進化が起こらなかった場合、このスタック交換サイトは存在しない可能性があります。その意味で、これはかなり適切な、潜在的に存在する問題です。

3
AUCと標準精度の利点
私は曲線下面積(AUC)を調べ始めていましたが、その有用性について少し混乱しています。最初に説明したとき、AUCはパフォーマンスの優れた尺度であるように見えましたが、私の研究では、高標準精度測定と低AUCで「ラッキー」モデルをキャッチするのに最適であるという点で、その利点はほとんど限界に達していないということがわかりました。 したがって、モデルの検証にAUCに依存することを避けるべきですか、それとも組み合わせが最善でしょうか?ご助力いただきありがとうございます。

6
決定木/ランダムフォレストの機能としての文字列
決定木/ランダムフォレストのアプリケーションでいくつかの問題を行っています。機能として数字と文字列(国名など)を持つ問題を解決しようとしています。ライブラリであるscikit-learnは、パラメータとして数字のみを使用しますが、文字列を注入するだけでなく、かなりの知識が必要です。 このようなシナリオをどのように処理しますか? Pythonのハッシュなどのメカニズムにより、文字列を数値に変換できます。しかし、決定木問題で文字列を処理する方法に関するベストプラクティスを知りたいと思います。

8
Pythonでのオープンソースの異常検出
問題の背景: 私は、IT監視スペースで見つかったログファイルに似たログファイルを含むプロジェクトに取り組んでいます(ITスペースを最もよく理解しています)。これらのログファイルは時系列データであり、さまざまなパラメーターの数百/数千の行に編成されています。各パラメーターは数値(浮動)であり、各時点に重要な値またはエラー値があります。私の仕事は、異常検出(スパイク、フォール、一部のパラメーターが同期していない異常なパターン、奇妙な1次/ 2次などの派生動作など)のためにログファイルを監視することです。 同様の課題で、SplunkとPrelertを試しましたが、現在はオープンソースのオプションを検討しています。 制約: よく知っているのでPythonに限定しています。Rへの切り替えと関連する学習曲線を遅らせたいと思っています。R(または他の言語/ソフトウェア)に対する圧倒的なサポートがないように思われない限り、このタスクのためにPythonに固執したいと思います。 また、私は今のところWindows環境で作業しています。Windowsで小さなログファイルをサンドボックス化し続けたいのですが、必要に応じてLinux環境に移行できます。 リソース: 結果として行き止まりで以下をチェックアウトしました。 Pythonや不正検出のための機械学習アルゴリズムを実装するためのR。ここの情報は役立ちますが、残念ながら、適切なパッケージを見つけるのに苦労しています: Twitterの「AnomalyDetection」はRにあり、Pythonに固執したいと思います。さらに、Pythonポートの特異性は、Windows環境での実装で問題を引き起こすようです。 私の次の試みであるSkylineは、(GitHubの問題から)ほぼ廃止されたようです。オンラインがあまりサポートされていないように思えるので、私はこれについて深く掘り下げていません。 scikit-learn私はまだ調査中ですが、これははるかにマニュアルのようです。草むらのアプローチは私には問題ありませんが、学習ツールの私のバックグラウンドは弱いので、Splunk + Prelertに似たアルゴリズムのような技術的側面のブラックボックスのようなものが欲しいです。 問題の定義と質問: パッケージまたはライブラリを介してPythonの時系列ログファイルからの異常検出プロセスを自動化するのに役立つオープンソースソフトウェアを探しています。 そのようなことは、当面のタスクを支援するために存在しますか、それとも私の心の中に想像上のものがありますか? 背景の基礎や概念など、目標を達成するための具体的な手順を誰でも支援できますか? これは、尋ねるのに最適なStackExchangeコミュニティですか、それともStats、Math、またはSecurityまたはStackoverflowがより良いオプションですか? EDIT [2015年7月23日] に最新のアップデートがありますpyculiarityをしているように見える固定 Windows環境のために!私はまだ確認していませんが、コミュニティにとって別の便利なツールになるはずです。 編集[2016-01-19] マイナーアップデート。これに取り組む時間はありませんでしたが、特定の詳細な研究を続ける前に、この問題の基礎を理解するために一歩後退しています。たとえば、私が取っている2つの具体的な手順は次のとおりです。 異常検出のためのWikipedia記事[ https://en.wikipedia.org/wiki/Anomaly_detection ] から始めて、完全に理解し、[ https://などの他のリンクされたWikipedia記事の概念階層を上下に移動しますen.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]、その後に、[ https://en.wikipedia.org/wiki/Machine_learning ]。 Chandola et al 2009 "Anomaly Detection:A Survey" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]およびHodge et al 2004 によって行われたすばらしい調査でのテクニックの調査「異常値検出方法の調査」[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 …


3
RNN対CNNの高レベル
リカレントニューラルネットワーク(RNN)とその種類、畳み込みニューラルネットワーク(CNN)とその種類について考えてきました。 これらの2つの点は言うに公平でしょうか。 CNNを使用して、コンポーネント(画像など)をサブコンポーネント(画像内のオブジェクトの輪郭など、画像内のオブジェクトなど)に分割します。 RNNを使用して、サブコンポーネントの組み合わせ(画像キャプション、テキスト生成、言語翻訳など)を作成します。 これらの記述の不正確さを指摘したい方がいれば幸いです。ここでの私の目標は、CNNとRNNの使用に関するより明確な基盤を得ることです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.