データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ


7
データを整理するための組織化されたプロセス
Rを使用したデータサイエンスの限られた時間から、不良データのクリーニングは分析用データの準備の非常に重要な部分であることに気付きました。 データを処理する前にクリーニングするためのベストプラクティスやプロセスはありますか?その場合、これらのベストプラクティスの一部を実装する自動化ツールまたは半自動化ツールはありますか?
34 r  data-cleaning 

5
パンダで分析するために20GBファイルを開く
現在、機械学習の目的でパンダとpythonを使用してファイルを開こうとしていますが、それらをすべてDataFrameに入れることが理想的です。現在、ファイルのサイズは18 GBで、RAMは32 GBですが、メモリエラーが発生し続けます。 あなたの経験からそれは可能ですか?そうでない場合、これを回避するより良い方法を知っていますか?(ハイブテーブル?RAMのサイズを64に増やしますか?データベースを作成し、Pythonからアクセスします)

3
KerasのマルチGPU
複数のGPUでトレーニングを分割するために、kerasライブラリ(またはテンソルフロー)でどのようにプログラムできますか?8個のGPUを備えたAmazon ec2インスタンスにいて、それらすべてを使用してより高速にトレーニングしたいとしますが、コードは単一のCPUまたはGPU用です。

4
ノイズ対照推定(NCE)損失の直感的な説明?
これら2つのソースからNCE(候補サンプリングの形式)について読みました。 テンソルフローの評価 オリジナルペーパー 誰かが次のことで私を助けることができます: NCEの仕組みの簡単な説明(上記を解析して理解するのは難しいことがわかったので、そこに提示された数学につながる直感的なものは素晴らしいでしょう) 上記のポイント1の後、これがネガティブサンプリングとどのように異なるかについての自然に直感的な説明。数式にわずかな変更があることがわかりますが、数学を理解できませんでした。ネガティブサンプリングのコンテキストでの直感的な理解はありword2vecます。ボキャブラリーからランダムにいくつかのサンプルを選択し、Vそれらのみを更新するため|V|、サイズが大きくなり、高速化が実現します。間違っている場合は修正してください。 どちらをいつ使用するか、どのように決定されますか?例を含めることができれば素晴らしいと思います(アプリケーションを理解しやすいかもしれません) NCEはネガティブサンプリングより優れていますか?どのような方法で良いですか? ありがとうございました。

5
Apache SparkとHadoopの使用例は何ですか
Hadoop 2.0とYARNを使用すると、Hadoopはもはやマップ削減ソリューションだけに縛られることはありません。その進歩により、Apache SparkとHadoopの両方がHDFSの上にあることを考慮したユースケースは何ですか?Sparkの導入ドキュメントを読みましたが、Hadoopと比較してSparkでより効率的で簡単に解決できる問題に遭遇した人がいるかどうか興味があります。

1
論文:レイヤーの正規化、繰り返しバッチ正規化(2016)、およびバッチ正規化RNN(2015)の違いは何ですか?
そのため、最近、レイヤーの正規化に関する論文があります。Kerasにも実装されています。 しかし、Recurrent Batch Normalization(Cooijmans、2016)とBatch Normalized Recurrent Neural Networks(Laurent、2015)というタイトルの論文があることを覚えています。これら3つの違いは何ですか? 私が理解できないこの関連作業セクションがあります: 以前、バッチ正規化はリカレントニューラルネットワークに拡張されていました[Laurent et al。、2015、Amodei et al。、2015、Cooijmans et al。、2016]。前の研究[Cooijmans et al。、2016]は、時間ステップごとに独立した正規化統計を保持することにより、反復バッチ正規化の最高のパフォーマンスが得られることを示唆しています。著者は、反復バッチ正規化レイヤーのゲインパラメーターを0.1に初期化すると、モデルの最終的なパフォーマンスに大きな違いが生じることを示しています。私たちの仕事は、重量の正規化にも関係しています[Salimans and Kingma、2016]。重み正規化では、分散の代わりに、着信重みのL2ノルムを使用して、加算された入力をニューロンに正規化します。。予想される統計を使用して重み正規化またはバッチ正規化を適用することは、元のフィードフォワードニューラルネットワークの異なるパラメーター化を持つことと同等です。ReLUネットワークでの再パラメーター化は、Pathnormalized SGDで研究されました[Neyshabur et al。、2015]。ただし、提案されているレイヤーの正規化方法は、元のニューラルネットワークの再パラメーター化ではありません。したがって、層の正規化モデルには、他の方法とは異なる不変性特性があります。これについては、次のセクションで説明します

1
マルチクラス分類に最適なKerasモデルは何ですか?
私はどこの必要性3つのイベントWINNER =(の分類1に、研究に取り組んでいますwin、draw、lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 私の現在のモデルは: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model それがマルチクラス分類に適しているかどうかわかりません バイナリ分類の最適な設定は何ですか? 編集:#2-そのような? model.add(Dense(input_dim=input_dim, …

5
ディープラーニングと勾配ブースティング:いつ使用するか
大きなデータセットに大きなデータの問題があります(たとえば、5,000万行と200列)。データセットは、約100の数値列と100のカテゴリ列、およびバイナリクラス問題を表す応答列で構成されます。各カテゴリ列のカーディナリティは50未満です。 ディープラーニングメソッドまたはアンサンブルツリーベースのメソッド(勾配ブースティング、アダブースト、またはランダムフォレストなど)のどちらを使用すべきかをアプリオリに知りたい。ある方法を他の方法よりも判断するのに役立つ探索的データ分析や他の手法はありますか?

3
softmax分類器では、なぜexp関数を使用して正規化を行うのですか?
標準の正規化ではなく、softmaxを使用する理由 この質問のトップアンサーのコメントエリアで、@ Kilian Batznerは2つの質問を提起しました。数値的な利点を除いて、誰も説明をしていないようです。 クロスエントロピー損失を使用する理由はわかりますが、それはソフトマックスとどのように関連していますか?「ソフトマックス関数は、予測と真実の間のクロスエントロピーを最小化しようとしていると見ることができます」とおっしゃいました。私は標準/線形正規化を使用しますが、クロスエントロピー損失を使用するとします。次に、クロスエントロピーを最小化しようとします。それでは、数値の利点を除いて、ソフトマックスはどのようにクロスエントロピーにリンクされていますか? 確率的ビューについては、ログの確率を見る動機は何ですか?推論は「xを対数確率として解釈するため、softmaxでe ^ xを使用する」に少し似ているようです。同じ理由で、ソフトマックスでe ^ e ^ e ^ xを使用します。これは、xをlog-log-log-probabilitiesとして解釈するためです(もちろん、ここで誇張しています)。softmaxの数値的な利点は得られますが、それを使用する理論的な動機は何ですか?

5
強化学習でのQ関数とV関数とは何ですか?
ように私には思えるVVV機能を簡単に表すことができるQQQ機能ひいてはVVV機能は、私には余分のようです。しかし、強化学習は初めてなので、何か間違ったことがあると思います。 定義 Q学習とV学習は、マルコフ決定プロセスのコンテキストにあります。A MDPは 5タプルである(S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma)と SSSは状態のセットです(通常は有限) AAAはアクションのセットです(通常は有限) P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s,s′,a)=P(st+1=s′|st=s,at=a)P(s, s', a) = P(s_{t+1} = s' | s_t = s, a_t = a)は、アクション aで状態sssから状態に到達する確率です。s′s′s'aaa R(s,s′,a)∈RR(s,s′,a)∈RR(s, s', a) \in \mathbb{R}状態から行く直後の報酬であるsss状態にs′s′s'アクションとaaa。(通常はのみがs′s′s'重要であるように思えます) γ∈[0,1]γ∈[0,1]\gamma \in [0, 1]割引率と呼ばれ、決定された場合は、1つの即時報酬に焦点を当てて(γ=0γ=0\gamma = 0)、総報酬(γ=1γ=1\gamma = 1)またはいくつかのトレードオフ。 政策ππ\piによると、強化学習:入門サットンによるとバート氏は、関数であるπ:S→Aπ:S→A\pi: S \rightarrow A(これは確率論することができます)。 よるマリオマルティンススライド、VVV関数である Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}Vπ(s)=Eπ{Rt|st=s}=Eπ{∑k=0∞γkrt+k+1|st=s}V^\pi(s) = E_\pi \{R_t | s_t …

7
機械学習タスクのためにデータをシャッフルする必要がある理由
機械学習タスクでは、データをシャッフルして正規化するのが一般的です。正規化の目的は明確です(同じ範囲の特徴値を持つため)。しかし、多くの苦労の末、データをシャッフルするための価値ある理由は見つかりませんでした。 ここでこの記事を読んで、データをシャッフルする必要がある場合について説明しましたが、データをシャッフルする必要がある理由は明らかではありません。さらに、バッチ勾配降下が必要なAdamやSGDなどのアルゴリズムでよく見かけます(データはミニバッチに分離する必要があり、バッチサイズを指定する必要があります)。この投稿によれば、各エポックのデータをシャッフルして、バッチごとに異なるデータを持つことが重要です。したがって、おそらくデータはシャッフルされ、さらに重要なことに変更されます。 なぜこれを行うのですか?

5
リストのリストをPandas Dataframeに変換します
私は次のようなリストのリストをPandas Dataframeに変換しようとしています [['New York Yankees ', '"Acevedo Juan" ', 900000, ' Pitcher\n'], ['New York Yankees ', '"Anderson Jason"', 300000, ' Pitcher\n'], ['New York Yankees ', '"Clemens Roger" ', 10100000, ' Pitcher\n'], ['New York Yankees ', '"Contreras Jose"', 5500000, ' Pitcher\n']] 基本的に、配列内の各アイテムを4列のパンダデータフレームに変換しようとしています。pd.Dataframeは私が探しているものをまったく提供していないので、これに対する最善のアプローチは何でしょうか。
30 pandas 

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.