データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

1
「体験リプレイ」とは何ですか?その利点は何ですか?
私はGoogleのDeepMind Atariの論文を読んでおり、「エクスペリエンスリプレイ」の概念を理解しようとしています。経験リプレイは、他の多くの強化学習ペーパー(特にAlphaGoペーパー)で取り上げられるため、その仕組みを理解したいと思います。以下は抜粋です。 まず、データをランダム化するエクスペリエンスリプレイと呼ばれる生物学的にヒントを得たメカニズムを使用して、観測シーケンスの相関を取り除き、データ分布の変化を滑らかにしました。 次に、このペーパーは次のように詳しく説明します。 他の安定した方法は、ニューラルフィットQ-反復として、強化学習の設定でニューラルネットワークを訓練するために存在するが、これらの方法では、ネットワークの繰り返し訓練伴う新規の反復の数百人を。その結果、これらの方法は、私たちのアルゴリズムとは異なり、非効率的であり、大規模なニューラルネットワークではうまく使用できません。図1に示す深い畳み込みニューラルネットワークを使用して、近似値関数をパラメーター化します。ここで、は反復でのQネットワークのパラメーター(つまり重み)です。エクスペリエンスのリプレイを実行するために、各タイムステップエージェントのエクスペリエンスを保存しますQ (s 、a ; θ私)Q(s、a;θ私)Q(s, a; \theta_i)θ私θ私\theta_i私私iet= (st、t、rt、st + 1)et=(st、at、rt、st+1)e_t = (s_t, a_t, r_t, s_{t+1})tttデータセット内。学習中に、経験値サンプル(またはミニバッチ)にQ学習の更新を適用します。反復でのQ学習の更新では、次の損失関数が使用されます。Dt= { e1、… 、et}Dt={e1、…、et}D_t = \{e_1, \dots, e_t \}(s 、a 、r 、s′)〜U(D )(s、a、r、s′)〜うん(D)(s, a, r, s') \sim U(D)私私i L私(θ私)= E(s 、a 、r 、s′)〜U(D )[ ( r + γ最大a′Q (s′、′; θ−私)− Q (s …

4
「LSTMセルのユニット数」の意味は何ですか?
Tensorflowコードから:Tensorflow。RnnCell。 num_units: int, The number of units in the LSTM cell. これが何を意味するのか理解できません。LSTMセルの単位は何ですか。ゲートを入力、出力、および忘れますか?これは、「Deep LSTMの再帰投影レイヤーのユニット数」を意味しますか。では、なぜこれが「LSTMセルのユニット数」と呼ばれるのですか?LSTMセルとは何ですか?VS VS LSTMブロックとの違いは何ですか?セルでない場合の最小LSTMユニットとは何ですか?

2
pytorchでtorch.no_gradの使用は何ですか?
私はpytorchを初めて使い、この githubコードから始めました。コードの60-61行目のコメントがわかりません"because weights have requires_grad=True, but we don't need to track this in autograd"。requires_grad=Trueautogradを使用するための勾配を計算する必要がある変数について言及していることを理解しましたが、それはどういう意味"tracked by autograd"ですか?
19 pytorch 

4
Pandasデータフレームの他の列に基づいて欠損値を埋める方法は?
3番目の列に欠損値が含まれる5 * 3データフレームがあるとします 1 2 3 4 5 NaN 7 8 9 3 2 NaN 5 6 NaN 最初の製品の2番目の列という欠損値ベースのルールの値を生成したいと考えています 1 2 3 4 5 20 <--4*5 7 8 9 3 2 6 <-- 3*2 5 6 30 <-- 5*6 データフレームを使用するにはどうすればよいですか?ありがとう。 このような欠損値を計算する条件を追加するにはどうすればよいですか? if 1st % 2 == 0 then 3rd = …
19 pandas 

4
XGBoostを使用した不均衡なマルチクラスデータ
このディストリビューションには3つのクラスがあります。 Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 そして、私はxgboost分類に使用しています。というパラメータがあることを知っていますscale_pos_weight。 しかし、「マルチクラス」の場合はどのように処理され、どのように適切に設定できますか?

1
ニューラルネットワークアーキテクチャの決定方法
ニューラルネットワークアーキテクチャを構築するときに、非表示層にいくつのノードを配置し、どのように非表示層を配置するかをどのように決定する必要があるのか​​と思いました。 入力層と出力層はトレーニングセットに依存することを理解していますが、一般に隠れ層と全体的なアーキテクチャをどのように決定するのですか?

3
非公式テキスト上の名前付きエンティティ認識のデータセット
現在、ラベル付きデータセットを検索して、非公式テキスト(ツイートに似たもの)から名前付きエンティティを抽出するモデルをトレーニングしています。データセットのドキュメントには大文字と文法が欠けていることが多いため、今日の最先端のエンティティ認識システムの多くがそうであるニュース記事やジャーナルエントリよりも少し「非公式」なドメイン外データを探しています。訓練を受けた。 推奨事項はありますか?これまでのところ、私はここで公開されているツイッターから5万トークンを見つけることができました。
18 dataset  nlp 

4
メタデータでテキスト文書に注釈を付ける方法は?
多くのテキスト文書(自然言語、構造化されていない)がある場合、それらに何らかのセマンティックメタデータで注釈を付ける可能な方法は何ですか?たとえば、短いドキュメントを考えてみましょう。 I saw the company's manager last day. それから情報を抽出できるようにするには、追加データで注釈を付けてあいまいさを軽減する必要があります。このようなメタデータを見つけるプロセスは問題ではないため、手動で行われると想定します。問題は、これらのデータをさらに便利に/効率的に分析できるように、これらのデータをどのように保存するかです。 可能なアプローチはXMLタグを使用することです(以下を参照)が、冗長すぎるようで、テキストドキュメントにそのようなメタデータを保存するためのより良いアプローチ/ガイドラインがあるかもしれません。 <Person name="John">I</Person> saw the <Organization name="ACME">company</Organization>'s manager <Time value="2014-5-29">last day</Time>.

3
アルゴリズム開発をスケールアップするには?
探索的データ分析に取り組み、アルゴリズムを開発していると、視覚化、コードの記述、小さなデータセットの実行、繰り返しのサイクルにほとんどの時間が費やされていることがわかります。私が持っているデータは、コンピュータビジョン/センサーフュージョンタイプのものである傾向があり、アルゴリズムは視覚に負荷がかかり(オブジェクトの検出や追跡など)、既製のアルゴリズムはこのコンテキストでは機能しません。これには多くの反復が必要であることがわかります(たとえば、アルゴリズムのタイプをダイヤルしたり、アルゴリズムのパラメーターを調整したり、視覚化を正しくしたりする)ため、小さなデータセットでも実行時間が非常に長くなるため、すべて一緒に時間がかかります。 アルゴリズム開発自体をどのように高速化し、スケーラブルにすることができますか? 特定の課題: 反復回数を減らすにはどうすればよいですか?(特に、アルゴリズムの種類はもちろん、その詳細は別として、異なるバージョンを試してその動作を調べることなく簡単に予測できるとは思えない場合) 開発中に大きなデータセットで実行する方法は?(多くの場合、小さなデータセットから大きなデータセットへの移行は、多くの新しい動作と新しい問題が発生した場合です) アルゴリズムパラメータをより速く調整するにはどうすればよいですか? 機械学習型ツールをアルゴリズム開発自体に適用する方法は?(たとえば、アルゴリズムを手で書く代わりに、いくつかの簡単な構成要素を書き、問題から学んだ方法でそれらを組み合わせてください、など)
18 algorithms 


3
ロジスティック回帰におけるコスト関数のPython実装:ある式ではドット乗算、別の式では要素ごとの乗算
ロジスティック回帰の設定におけるPython、numpyおよび行列の乗算に関連する非常に基本的な質問があります。 まず、数学表記を使用していないことをおaび申し上げます。 マトリックスドット乗算と要素ごとのプルティプリケーションの使用について混乱しています。コスト関数は次のように与えられます: そして、Pythonで私はこれを次のように書いています cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) しかし、たとえばこの式(最初の式-wに関するJの微分) は dw = 1/m * np.dot(X, dz.T) 上記でドット乗算を使用するのが正しい理由がわかりませんが、コスト関数では要素ごとの乗算を使用します。 cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) これは詳しく説明されていませんが、質問は非常に単純なので、基本的なロジスティック回帰の経験がある人でも私の問題を理解できると思います。



1
経度/緯度機能を扱う方法[終了]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 閉じた3年前。 25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか? 編集:これは、農業の収量を​​予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。

4
ユークリッド距離と逆のマンハッタン距離を使用するのはいつですか?
機械学習でユークリッド距離よりもマンハッタン距離を使用する理由について、適切な議論を探しています。 私がこれまで良い議論に見つけた最も近いものはこのMIT講義にあります。 36:15に、スライドで次のステートメントを確認できます。 「通常、ユークリッドメトリックを使用します。異なる次元が比較可能でない場合は、マンハッタンが適切な場合があります。」 教授が、爬虫類の足の数が0から4まで変化するので(他の機能はバイナリで、0から1までしか変化しないため)、「足の数」機能の方がずっと多くなると言った直後ユークリッド距離が使用される場合の重み。案の定、それは確かに正しいです。しかし、マンハッタン距離を使用する場合、その問題が発生します(ユークリッド距離のように差を2乗しないため、問題がわずかに軽減されるだけです)。 上記の問題を解決するより良い方法は、「脚の数」機能を正規化して、その値が常に0〜1になるようにすることです。 したがって、問題を解決するためのより良い方法があるため、この場合のマンハッタン距離を使用するという議論には、少なくとも私の意見では、より強力なポイントが欠けているように感じました。 ユークリッド上でマンハッタン距離を使用する理由と時期を誰かが実際に知っていますか?マンハッタン距離を使用するとより良い結果が得られる例を教えてもらえますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.