データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

5
AlphaGoのポリシーネットワークとバリューネットワークの違い
GoogleのAlphaGoの概要(http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html)を読んでいて、「ポリシーネットワーク」と「値ネットワーク」。高いレベルでは、ポリシーネットワークは移動を提案するために使用され、バリューネットワークは次の目的で使用されることを理解しています。「検索ツリーの深さを減らして[ゲームの終わり。」 これらの2つのネットワークは私にとって冗長なようです。価値ネットワークを使用してポリシーを整理していない場合、ポリシーネットワークは何をしますか?バリューネットワークがディープラーニングニューラルネットワークであることは明らかです。ポリシーネットワークは単なる理論上の抽象化であり、実際のニューラルネットワークではありませんか?値ネットワークのターゲット変数は勝ち負けのようです。ポリシーネットワークのターゲット変数はありますか?もしそうなら、それは何ですか?最適化しようとしているポリシーネットワークとは何ですか? Natureで公開されたGoogleの論文の完全なPDFは、https: //vk.com/doc-44016343_437229031?dl = 56ce06e325d42fbc72にあります。

3
ジニ係数とジニ不純物-決定木
問題は、意思決定ツリーの構築に関するものです。ウィキペディアによると、「ジニ係数」は「ジニ不純物」と混同しないでください。ただし、ディシジョンツリーを構築するときに両方のメジャーを使用できます。これらは、アイテムのセットを分割するときの選択をサポートできます。 1)「ジニ不純物」-これは標準の決定木分割メトリックです(上記のリンクを参照)。 2)「ジニ係数」-各分割は、AUC基準に基づいて評価できます。分割シナリオごとに、ROC曲線を作成し、AUCメトリックを計算できます。ウィキペディアによると、AUC =(GiniCoeff + 1)/ 2; 質問は次のとおりです。これらの対策はどちらも同等ですか?一方では、Gini係数をGini不純物と混同しないでください。一方、これらの両方の手段は、同じことを行うために使用できます-決定木の分割の品質を評価します。

4
名前付きエンティティの認識のためのWord2Vec
Googleのword2vec実装を使用して、名前付きエンティティ認識システムを構築したいと考えています。構造を逆伝播する再帰的ニューラルネットは、名前付きエンティティ認識タスクに適していると聞きましたが、そのタイプのモデルに適した実装または適切なチュートリアルを見つけることができませんでした。非定型コーパスを使用しているため、NLTKなどの標準NERツールのパフォーマンスは非常に低く、独自のシステムをトレーニングする必要があるようです。 要するに、この種の問題に利用できるリソースは何ですか?利用可能な標準的な再帰ニューラルネットの実装はありますか?

3
なぜXGBoostとランダムフォレストが必要なのですか?
いくつかの概念については明確ではありませんでした。 XGBoostは、弱い学習者を強い学習者に変換します。これを行う利点は何ですか?多くの弱学習器を組み合わせるだけではなく単一のツリーを使用していますか? ランダムフォレストはツリーを作成するために、木から様々なサンプルを使用しています。だけではなく、単数形の木を使用して、この方法の利点は何ですか?

5
データサイエンスプロジェクトのVMイメージ
データサイエンスのタスクに使用できるツールは多数あり、すべてをインストールして完璧なシステムを構築するのは面倒です。 Python、R、その他のオープンソースのデータサイエンスツールがインストールされ、すぐに使用できるLinux / Mac OSイメージはありますか?最新バージョンのPython、R(IDEを含む)、およびその他のオープンソースデータ視覚化ツールがインストールされたUbuntuまたは軽量OSが理想的です。私はグーグルでのクイック検索でこれに遭遇していません。 何かあるのか、それともあなたの誰かが自分で作ったのか教えてください。一部の大学には独自のVMイメージがあるかもしれません。そのようなリンクを共有してください。
24 python  r  tools 

4
Scikit-learn:SGDClassifierにロジスティック回帰だけでなく予測もさせる
ロジスティック回帰をトレーニングする方法は、scikit-learnがインターフェイスを提供する確率的勾配降下を使用することです。 私がやりたいのは、scikit-learnのSGDClassifierを取得して、ここでロジスティック回帰と同じスコアを取得することです。ただし、スコアが同等ではないため、機械学習の機能強化が欠落している必要があります。 これが私の現在のコードです。ロジスティック回帰と同じ結果を生成するSGDClassifierには何が欠けていますか? from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset is available in sklearn by default. # This data is also conveniently preprocessed. …


3
NLPと機械学習のコミュニティがディープラーニングに関心を持っているのはなぜですか?
このトピックに関する質問がいくつかありますので、お役に立てば幸いです。私はディープラーニングの分野で初めての経験がありますが、いくつかのチュートリアルを行いましたが、概念を互いに関連付けたり区別したりすることはできません。

4
ランダムフォレストはオーバーフィットしますか?
私はランダムフォレストについて読んでいますが、過剰適合の問題に関する明確な答えを見つけることができません。ブライマンの元の論文によると、森の中の木の数を増やしても過剰適合すべきではありませんが、これについてはコンセンサスがないようです。これにより、この問題に関するかなりの混乱が生じています。 私よりも専門家が具体的な答えをくれたり、問題をよりよく理解するために正しい方向を教えてくれるかもしれません。

3
Python機械学習モデルを保存するためのベストプラクティス
機械学習モデルを保存、保存、共有するためのベストプラクティスは何ですか? Pythonでは、通常、pickleまたはjoblibを使用して、モデルのバイナリ表現を保存します。私の場合、モデルのサイズは最大100Moになります。また、設定しない限り、joblibは1つのモデルを複数のファイルに保存できますcompress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the-コレ)。 しかし、モデルへのアクセス権を制御し、異なるマシンのモデルを使用できるようにしたい場合、それらを保存する最良の方法は何ですか? いくつかの選択肢があります。 それらをファイルとして保存し、Git LFSを使用してリポジトリに配置します それらをバイナリファイルとしてSQLデータベースに保存します。 たとえば、Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB これは、SQL Serverチームが推奨する方法でもあります。 https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

4
潜在的な特徴の意味?
推奨システムの行列因子分解について学習しており、この用語latent featuresが頻繁に出現するのを見ていますが、それが何を意味するのか理解できません。機能が何であるかは知っていますが、潜在的な機能の概念がわかりません。説明してください。または、少なくともそれについて読むことができる紙/場所を指し示しますか?

4
データセット全体を使用して最終モデルをトレーニングする方が常に良いですか?
好みの機械学習モデルをトレーニング、検証、テストした後の一般的な手法は、テストサブセットを含む完全なデータセットを使用して、製品などに展開する最終モデルをトレーニングすることです。 私の質問は、そうすることは常に最善のことですか?実際にパフォーマンスが低下した場合はどうなりますか? たとえば、テストサブセットの分類でモデルのスコアが約65%である場合を想定します。これは、モデルのトレーニングが不十分であるか、テストサブセットが外れ値で構成されていることを意味します。後者の場合、それらを使用して最終モデルをトレーニングするとパフォーマンスが低下し、展開後に初めて確認できます。 最初の質問の言い換え: 高価なロケット実験に搭載された組み込み電子機器にモデルを展開するなど、モデルの1回限りのデモンストレーションがあった場合、最終ステップでテストサブセットを使用して再トレーニングされたモデルを信頼できますか?新しいパフォーマンスでテストしましたか?

3
ランダムフォレストを使用したモデリングには相互検証が必要ですか?
私が見た限りでは、これについて意見が異なる傾向があります。最善の方法は、クロス検証を使用することです(特に、同じデータセット上のRFと他のアルゴリズムを比較する場合)。一方、元のソースは、モデルトレーニング中にOOBエラーが計算されるという事実は、テストセットのパフォーマンスの指標として十分であると述べています。Trevor Hastieでさえ、比較的最近の講演で「ランダムフォレストは無料の相互検証を提供する」と述べています。直感的に、1つのデータセットでRFベースのモデルをトレーニングして改善しようとする場合、これは理にかなっています。 誰かがランダムフォレストとの交差検証の必要性に対する賛成論と反対論を並べてください。

3
データサイエンスプロジェクトのアイデア[終了]
閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集して事実と引用で答えられるように質問を更新してください。 5年前に閉鎖されました。 これがこの質問をするのにふさわしい場所であるかどうかはわかりませんが、データサイエンスに専念するコミュニティが私の意見では最も適切な場所であるはずです。 データサイエンスと機械学習を始めたばかりです。私は8か月ほど作業できる長期プロジェクトのアイデアを探しています。 データサイエンスと機械学習の組み合わせは素晴らしいでしょう。 コアの概念を理解し、同時にそれらを実装するのに役立つほど大きなプロジェクトは非常に有益です。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.