タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

1
マルチクラス分類に最適なKerasモデルは何ですか?
私はどこの必要性3つのイベントWINNER =(の分類1に、研究に取り組んでいますwin、draw、lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 私の現在のモデルは: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model それがマルチクラス分類に適しているかどうかわかりません バイナリ分類の最適な設定は何ですか? 編集:#2-そのような? model.add(Dense(input_dim=input_dim, …

1
xgboostがsklearn GradientBoostingClassifierよりもずっと速いのはなぜですか?
私は、100個の数値特徴を備えた50kの例で勾配ブースティングモデルをトレーニングしようとしています。XGBClassifier一方、私のマシンで43秒以内に、ハンドル500本の木、GradientBoostingClassifierハンドルのみ10樹木(!)1分2秒:(私は気にしませんでしたでは、それは時間がかかるだろうと500本の木を育てるしようとしている。私は、同じ使用していますlearning_rateし、max_depth設定を、 下記参照。 XGBoostがこれほど速くなったのはなぜですか?sklearnの人が知らない勾配ブースティングのためのいくつかの新しい実装を使用していますか?それとも、「角を切り」、より浅い木を育てるのですか? PS私はこの議論を知っています:https : //www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyが、そこに答えを得ることができませんでした... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=0, silent=True, subsample=1) GradientBoostingClassifier(init=None, learning_rate=0.05, loss='deviance', max_depth=10, max_features=None, max_leaf_nodes=None, min_samples_leaf=1, min_samples_split=2, min_weight_fraction_leaf=0.0, n_estimators=10, presort='auto', random_state=None, subsample=1.0, verbose=0, warm_start=False)
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
XGBoostパラメーターのハイパーチューニング
XGBoostは、カテゴリー依存変数と連続従属変数の両方の処理に関して、素晴らしい仕事をしてきました。しかし、XGBoostの問題に対して最適化されたパラメーターを選択するにはどうすればよいですか? これは、最近のKaggleの問題に対するパラメーターの適用方法です。 param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda = 1 ) clf <- xgb.train( …
27 r  python  xgboost 

3
線形回帰で重みを非負にする方法
Pythonでscikit-learnを使用する標準の線形回帰を使用しています。ただし、すべての機能に対して重みをすべて正(負ではない)にしたいのですが、それを達成する方法はありますか?私はドキュメントを見ていましたが、それを達成する方法を見つけることができませんでした。最善の解決策が得られない可能性があることは理解していますが、重みが負でないことが必要です。

7
Python作業環境を別のマシンにクローンする方法は?
ワークステーションでPython(Anaconda + Flask)を使用して機械学習モデルを開発しましたが、すべてうまくいきます。後で、このプログラムを別のマシンに出荷しようとしましたが、もちろん同じ環境をセットアップしようとしましたが、プログラムは実行に失敗しました。プログラムを他のマシンにコピーし、そこでもスムーズに実行されるようにしました。 失敗した場合の問題を把握することはできません(プログラムコードとエラーメッセージの両方が豊富なので、ここでは説明できません)。 。 だから、私の質問は、特定のプログラムがうまく動作する環境を考えると、どうすればそれがうまく動作するはずの別のプログラムにクローンを作成できますか?もちろん、完全なシステムの複製なしで;)
26 python  anaconda 

1
PyTorch対Tensorflow Fold
PyTorchとTensorflow Foldは両方とも、入力データの長さまたは次元が不均一な状況(つまり、動的グラフが有用または必要な状況)に対処することを目的とした深層学習フレームワークです。 依存するパラダイム(例:動的バッチ処理)とその意味、それぞれに実装できる/できないもの、弱点/強さなどの意味で、それらを比較する方法を知りたいと思います。 この情報を使用して、動的計算グラフの探索を開始するためにそれらの1つを選択するつもりですが、特定のタスクはありません。 注1:DyNetやChainerのような他の動的計算グラフフレームワークも比較で歓迎されますが、PyTorchとTensorflow Foldに焦点を当てたいと思います。 注2:PyTorchでこのhackernewsスレッドを見つけましたが、情報はまばらですが、それほど多くはありません。 注3:Tensorflow Foldに関する別の関連するhackernewsスレッドには、比較方法に関する情報が含まれています。 注4:関連するRedditスレッド。 注5:Tensorflow Foldのgithubに関連するバグで、重要な制限を特定しています。評価中に条件分岐を実行できないことです。 注6:使用されているアルゴリズム(動的バッチ処理など)に関連した可変長入力に関するpytorchフォーラムでの議論。

6
好きなFacebookサイトに基づいてユーザーの年齢を推定するための機械学習手法
Facebookアプリケーションのデータベースがあり、機械学習を使用して、ユーザーが好きなFacebookサイトに基づいてユーザーの年齢を推定しようとしています。 私のデータベースには3つの重要な特徴があります。 私のトレーニングセットの年齢分布(合計で1万2,000ユーザー)は若いユーザーに偏っています(つまり、27歳の1157ユーザーと65歳の23ユーザー)。 多くのサイトには、5人以下のLikerがあります(5人未満のLikerでFBサイトを除外しました)。 サンプルよりも多くの機能があります。 したがって、私の質問は次のとおりです。さらなる分析のためにデータを準備するためにどのような戦略を提案しますか?何らかの次元削減を実行する必要がありますか?この場合、どのMLメソッドを使用するのが最も適切でしょうか? 私は主にPythonを使用しているため、Python固有のヒントをいただければ幸いです。

2
Kerasで2つの異なるモデルをマージする
2つのKerasモデルを1つのモデルにマージしようとしていますが、これを達成できません。 たとえば、添付の図では、次元8の中間層を取得し、これをモデル(再び次元8の)層への入力として使用し、モデルとモデル両方を単一のモデル。A2A2A2B1B1B1BBBAAABBB 機能モジュールを使用して、モデルとモデル個別に作成しています。どうすればこのタスクを達成できますか?AAABBB 注:はモデル入力層であり、はモデル入力層です。A1A1A1AAAB1B1B1BBB

4
pandas.DataFrame.isinを並行して実行する簡単な方法はありますか?
DataFrame.isinパンダの機能を多用するモデリングおよびスコアリングプログラムを使用して、数千の特定のページごとに個々のユーザーのFacebookの「いいね」のレコードのリストを検索します。これは、1つのコアでのみ実行され、残りは数十個のコアで同時に実行されるため、モデリングやスコアリングの部分よりも、プログラムの最も時間のかかる部分です。 私は手動でデータフレームをチャンクに分割し、操作を並行して実行できることを知っていますが、それを自動的に行う簡単な方法はありますか?言い換えれば、簡単に委任された操作を実行していることを認識し、それを自動的に配布するパッケージがありますか?おそらくそれはあまりにも多くを求めていますが、私は過去にPythonですでに利用可能なものに十分驚いていましたので、尋ねる価値があると思います。 これがどのように達成されるかについてのその他の提案(魔法のユニコーンパッケージによってでなくても!)も歓迎します。主に、ソリューションのコーディングに同量の時間を費やすことなく、実行ごとに15〜20分間削る方法を見つけようとしています。

4
名前付きエンティティの認識のためのWord2Vec
Googleのword2vec実装を使用して、名前付きエンティティ認識システムを構築したいと考えています。構造を逆伝播する再帰的ニューラルネットは、名前付きエンティティ認識タスクに適していると聞きましたが、そのタイプのモデルに適した実装または適切なチュートリアルを見つけることができませんでした。非定型コーパスを使用しているため、NLTKなどの標準NERツールのパフォーマンスは非常に低く、独自のシステムをトレーニングする必要があるようです。 要するに、この種の問題に利用できるリソースは何ですか?利用可能な標準的な再帰ニューラルネットの実装はありますか?

5
データサイエンスプロジェクトのVMイメージ
データサイエンスのタスクに使用できるツールは多数あり、すべてをインストールして完璧なシステムを構築するのは面倒です。 Python、R、その他のオープンソースのデータサイエンスツールがインストールされ、すぐに使用できるLinux / Mac OSイメージはありますか?最新バージョンのPython、R(IDEを含む)、およびその他のオープンソースデータ視覚化ツールがインストールされたUbuntuまたは軽量OSが理想的です。私はグーグルでのクイック検索でこれに遭遇していません。 何かあるのか、それともあなたの誰かが自分で作ったのか教えてください。一部の大学には独自のVMイメージがあるかもしれません。そのようなリンクを共有してください。
24 python  r  tools 

4
Scikit-learn:SGDClassifierにロジスティック回帰だけでなく予測もさせる
ロジスティック回帰をトレーニングする方法は、scikit-learnがインターフェイスを提供する確率的勾配降下を使用することです。 私がやりたいのは、scikit-learnのSGDClassifierを取得して、ここでロジスティック回帰と同じスコアを取得することです。ただし、スコアが同等ではないため、機械学習の機能強化が欠落している必要があります。 これが私の現在のコードです。ロジスティック回帰と同じ結果を生成するSGDClassifierには何が欠けていますか? from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset is available in sklearn by default. # This data is also conveniently preprocessed. …

3
Python機械学習モデルを保存するためのベストプラクティス
機械学習モデルを保存、保存、共有するためのベストプラクティスは何ですか? Pythonでは、通常、pickleまたはjoblibを使用して、モデルのバイナリ表現を保存します。私の場合、モデルのサイズは最大100Moになります。また、設定しない限り、joblibは1つのモデルを複数のファイルに保存できますcompress=1(/programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the-コレ)。 しかし、モデルへのアクセス権を制御し、異なるマシンのモデルを使用できるようにしたい場合、それらを保存する最良の方法は何ですか? いくつかの選択肢があります。 それらをファイルとして保存し、Git LFSを使用してリポジトリに配置します それらをバイナリファイルとしてSQLデータベースに保存します。 たとえば、Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB これは、SQL Serverチームが推奨する方法でもあります。 https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

4
クラスタリングする前にデータを標準化する必要はありますか?
クラスター化する前にデータを標準化する必要がありますか?以下からの例ではscikit learnDBSCANについて、ここで彼らはラインで次の操作を行います。 X = StandardScaler().fit_transform(X) しかし、なぜそれが必要なのかわかりません。結局のところ、クラスタリングはデータの特定の分布を想定していません-それは教師なしの学習方法なので、その目的はデータを探索することです。 なぜデータを変換する必要があるのですか?

5
PythonでのKL発散の計算
私はこれにかなり慣れていないため、この背後にある理論的概念を完全に理解しているとは言えません。Pythonの複数のポイントリスト間のKL Divergenceを計算しようとしています。私はhttp://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.htmlを使用してこれを試みています。私が遭遇している問題は、返される値が2つの数値リスト(その1.3862943611198906)で同じであることです。私はここで何らかの理論上の間違いを犯していると感じていますが、それを見つけることはできません。 values1 = [1.346112,1.337432,1.246655] values2 = [1.033836,1.082015,1.117323] metrics.mutual_info_score(values1,values2) それは私が実行しているものの例です-2つの入力に対して同じ出力を取得しているだけです。何かアドバイス/助けをいただければ幸いです!

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.