タグ付けされた質問 「deep-learning」

主にディープニューラルネットワーク(つまり、2つ以上の非表示レイヤーを持つネットワーク)で行われる、データの階層表現を学習するために使用される技術に関する機械学習研究の新しい領域だけでなく、何らかの確率的グラフィカルモデルでも行われます。

3
KerasのマルチGPU
複数のGPUでトレーニングを分割するために、kerasライブラリ(またはテンソルフロー)でどのようにプログラムできますか?8個のGPUを備えたAmazon ec2インスタンスにいて、それらすべてを使用してより高速にトレーニングしたいとしますが、コードは単一のCPUまたはGPU用です。

4
ノイズ対照推定(NCE)損失の直感的な説明?
これら2つのソースからNCE(候補サンプリングの形式)について読みました。 テンソルフローの評価 オリジナルペーパー 誰かが次のことで私を助けることができます: NCEの仕組みの簡単な説明(上記を解析して理解するのは難しいことがわかったので、そこに提示された数学につながる直感的なものは素晴らしいでしょう) 上記のポイント1の後、これがネガティブサンプリングとどのように異なるかについての自然に直感的な説明。数式にわずかな変更があることがわかりますが、数学を理解できませんでした。ネガティブサンプリングのコンテキストでの直感的な理解はありword2vecます。ボキャブラリーからランダムにいくつかのサンプルを選択し、Vそれらのみを更新するため|V|、サイズが大きくなり、高速化が実現します。間違っている場合は修正してください。 どちらをいつ使用するか、どのように決定されますか?例を含めることができれば素晴らしいと思います(アプリケーションを理解しやすいかもしれません) NCEはネガティブサンプリングより優れていますか?どのような方法で良いですか? ありがとうございました。

1
論文:レイヤーの正規化、繰り返しバッチ正規化(2016)、およびバッチ正規化RNN(2015)の違いは何ですか?
そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。 しかし、Recurrent Batch Normalization(Cooijmans、2016)とBatch Normalized Recurrent Neural Networks(Laurent、2015)というタイトルの論文があることを覚えています。これら3つの違いは何ですか? 私が理解できないこの関連作業セクションがあります: 以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します

5
ディープラーニングと勾配ブースティング:いつ使用するか
大きなデータセットに大きなデータの問題があります(たとえば、5,000万行と200列)。データセットは、約100の数値列と100のカテゴリ列、およびバイナリクラス問題を表す応答列で構成されます。各カテゴリ列のカーディナリティは50未満です。 ディープラーニングメソッドまたはアンサンブルツリーベースのメソッド(勾配ブースティング、アダブースト、またはランダムフォレストなど)のどちらを使用すべきかをアプリオリに知りたい。ある方法を他の方法よりも判断するのに役立つ探索的データ分析や他の手法はありますか?

3
softmax分類器では、なぜexp関数を使用して正規化を行うのですか?
標準の正規化ではなく、softmaxを使用する理由 この質問のトップアンサーのコメントエリアで、@ Kilian Batznerは2つの質問を提起しました。数値的な利点を除いて、誰も説明をしていないようです。 クロスエントロピー損失を使用する理由はわかりますが、それはソフトマックスとどのように関連していますか?「ソフトマックス関数は、予測と真実の間のクロスエントロピーを最小化しようとしていると見ることができます」とおっしゃいました。私は標準/線形正規化を使用しますが、クロスエントロピー損失を使用するとします。次に、クロスエントロピーを最小化しようとします。それでは、数値の利点を除いて、ソフトマックスはどのようにクロスエントロピーにリンクされていますか? 確率的ビューについては、ログの確率を見る動機は何ですか?推論は「xを対数確率として解釈するため、softmaxでe ^ xを使用する」に少し似ているようです。同じ理由で、ソフトマックスでe ^ e ^ e ^ xを使用します。これは、xをlog-log-log-probabilitiesとして解釈するためです(もちろん、ここで誇張しています)。softmaxの数値的な利点は得られますが、それを使用する理論的な動機は何ですか?

7
機械学習タスクのためにデータをシャッフルする必要がある理由
機械学習タスクでは、データをシャッフルして正規化するのが一般的です。正規化の目的は明確です(同じ範囲の特徴値を持つため)。しかし、多くの苦労の末、データをシャッフルするための価値ある理由は見つかりませんでした。 ここでこの記事を読んで、データをシャッフルする必要がある場合について説明しましたが、データをシャッフルする必要がある理由は明らかではありません。さらに、バッチ勾配降下が必要なAdamやSGDなどのアルゴリズムでよく見かけます(データはミニバッチに分離する必要があり、バッチサイズを指定する必要があります)。この投稿によれば、各エポックのデータをシャッフルして、バッチごとに異なるデータを持つことが重要です。したがって、おそらくデータはシャッフルされ、さらに重要なことに変更されます。 なぜこれを行うのですか?

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
ニューラルネットワークをトレーニングするためのCPUとGPUの選択
GPUの「オーバーヘッド」についての議論を見てきました。「小さな」ネットワークの場合、GPUよりも実際にCPU(またはCPUのネットワーク)でトレーニングする方が速いかもしれません。 「小さい」とはどういう意味ですか? たとえば、100個の隠れユニットを持つ単一層MLPは「小さい」でしょうか? 「小規模」の定義は、リカレントアーキテクチャに対して変わりますか? CPUでトレーニングするかGPUでトレーニングするかを決定するときに考慮する必要がある他の基準はありますか? 編集1: 私はブログの記事を見つけました(?おそらく古いそれは2014年からです): "...ほとんどのネットワークカードはCPUに登録されているメモリでのみ機能するため、2つのノード間のGPUからGPUへの転送は次のようになります。GPU1からCPU 1、ネットワークカード1、ネットワークカード2、CPU 2からGPU 2.つまり、遅いネットワークカードを選択した場合、1台のコンピューターで高速化が行われない可能性があります。高速ネットワークカードでも、クラスターが大きい場合、GPUから比較しても高速化されませんGPUの動作が速すぎるため、ネットワークカードがCPUに対応できません。 これが、GoogleやMicrosoftのような多くの大企業がGPUクラスターではなくCPUを使用して大規模なニューラルネットワークをトレーニングしている理由です。」 そのため、この投稿によると、ある時点でCPUを使用した方が高速だった可能性があります。これはまだ事実ですか? 編集2:はい、そのブログ投稿は次の理由で非常に古くなっている可能性があります。 ノード内のGPUはPCIeバスを介して接続されているため、通信は約6GiB / sで発生する可能性があります。(例:https : //www.youtube.com/watch?v=el1iSlP1uOs、約35分)。スピーカーは、これがGPU1からCPU、GPU2に行くよりも速いことを暗示しています。ネットワークカードがボトルネックではなくなったことを意味します。

2
グラウンドトゥルースとは
Machine Learningのコンテキストでは、Ground Truthという用語が頻繁に使用されるのを見てきました。私はよく検索して、ウィキペディアで次の定義を見つけました。 機械学習では、「グラウンドトゥルース」という用語は、教師あり学習手法に対するトレーニングセットの分類の精度を指します。これは、研究仮説を証明または反証するために統計モデルで使用されます。「グラウンドトゥルースティング」という用語は、このテストの適切な客観的(証明可能な)データを収集するプロセスを指します。ゴールドスタンダードと比較してください。 ベイジアンスパムフィルタリングは、教師あり学習の一般的な例です。このシステムでは、アルゴリズムはスパムと非スパムの違いを手動で学習します。これは、アルゴリズムのトレーニングに使用されるメッセージのグラウンドトゥルースに依存します。グラウンドトゥルースの不正確さは、結果として生じるスパム/非スパム判定の不正確さと相関します。 ポイントは、私が本当にそれが意味するものを得ることができないということです。ことで、ラベルがそれぞれに使用データオブジェクトまたはターゲット関数それぞれにラベルを与え、データオブジェクト、または多分何か他のもの?

7
機械学習モデルをトレーニングする無料のクラウドサービスはありますか?
大量のトレーニングデータを使用してディープモデルをトレーニングしたいのですが、デスクトップには、これらの豊富なデータを使用してこのようなディープモデルをトレーニングする能力がありません。 機械学習とディープラーニングモデルのトレーニングに使用できる無料のクラウドサービスがあるかどうかを知りたいのですが? また、クラウドサービスがあるかどうかも知りたいと思います。クラウドサービスでは、トレーニング結果を追跡でき、クラウドに接続していなくてもトレーニングは継続されます。

1
PyTorch対Tensorflow Fold
PyTorchとTensorflow Foldは両方とも、入力データの長さまたは次元が不均一な状況(つまり、動的グラフが有用または必要な状況)に対処することを目的とした深層学習フレームワークです。 依存するパラダイム(例:動的バッチ処理)とその意味、それぞれに実装できる/できないもの、弱点/強さなどの意味で、それらを比較する方法を知りたいと思います。 この情報を使用して、動的計算グラフの探索を開始するためにそれらの1つを選択するつもりですが、特定のタスクはありません。 注1:DyNetやChainerのような他の動的計算グラフフレームワークも比較で歓迎されますが、PyTorchとTensorflow Foldに焦点を当てたいと思います。 注2:PyTorchでこのhackernewsスレッドを見つけましたが、情報はまばらですが、それほど多くはありません。 注3:Tensorflow Foldに関する別の関連するhackernewsスレッドには、比較方法に関する情報が含まれています。 注4:関連するRedditスレッド。 注5:Tensorflow Foldのgithubに関連するバグで、重要な制限を特定しています。評価中に条件分岐を実行できないことです。 注6:使用されているアルゴリズム(動的バッチ処理など)に関連した可変長入力に関するpytorchフォーラムでの議論。

1
Kerasは精度をどのように計算しますか?
Kerasはクラスワイズ確率から精度をどのように計算しますか?たとえば、テストセットに2つのクラスのいずれかに属することができる100個のサンプルがあるとします。クラスごとの確率のリストもあります。Kerasは、2つのクラスのいずれかにサンプルを割り当てるためにどのしきい値を使用しますか?

7
機械学習はリストから最大値を見つけるなどの機能を学習できますか?
リストである入力があり、出力はinput-listの要素の最大値です。 機械学習は、入力に存在する入力要素の最大値を常に選択するような関数を学習できますか? これは非常に基本的な質問のように思えるかもしれませんが、機械学習が一般的に何ができるかを理解できるかもしれません。ありがとう!

5
ニューラルネットワークでニューロンと層の数を設定する方法
私はニューラルネットワークの初心者であり、2つの概念を理解するのに苦労しています。 特定のニューラルネットワークが持つ中間層の数をどのように決定しますか?1対10または何でも。 各中間層のニューロン数をどのように決定しますか?各中間層に同数のニューロンを配置することを推奨しますか、それともアプリケーションによって異なりますか?

2
Kerasで2つの異なるモデルをマージする
2つのKerasモデルを1つのモデルにマージしようとしていますが、これを達成できません。 たとえば、添付の図では、次元8の中間層を取得し、これをモデル(再び次元8の)層への入力として使用し、モデルとモデル両方を単一のモデル。A2A2A2B1B1B1BBBAAABBB 機能モジュールを使用して、モデルとモデル個別に作成しています。どうすればこのタスクを達成できますか?AAABBB 注:はモデル入力層であり、はモデル入力層です。A1A1A1AAAB1B1B1BBB

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.