タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

3
Kerasからのmodel.predict関数の出力はどういう意味ですか?
Quora公式データセットで重複する質問を予測するLSTMモデルを作成しました。テストラベルは0または1です。1は質問のペアが重複していることを示します。使用してモデルを構築した後model.fit、私が使用してモデルをテストしmodel.predict、テストデータに。出力は、以下のような値の配列です。 [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] 配列の最初の10個の値のみを表示しています。これらの値の意味と、各質問ペアの予測ラベルは何ですか?

1
XGBRegressorとxgboost.trainの大きな速度差は?
次のコードを使用してモデルをトレーニングする場合: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 約1分で終了します。 Sci-Kit学習メソッドを使用してモデルをトレーニングする場合: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

1
intのpandas列をタイムスタンプデータ型に変換します
特に、1970-1-1以降に渡されたミリ秒数の列を含むデータフレームがあります。このintの列をタイムスタンプデータに変換する必要があるため、タイムスタンプ列シリーズを1970-1-1の日時値のみで構成されるシリーズに追加することにより、最終的に日時データの列に変換できます。 一連の文字列を日時データ(pandas.to_datetime)に変換する方法は知っていますが、intの列全体を日時データまたはタイムスタンプデータに変換する解決策を見つけることができません。

1
Pythonのマップ上のヒートマップ
モード分析には、優れたヒートマップ機能があります(https://community.modeanalytics.com/gallery/geographic-heat-map/)。ただし、マップの比較には役立ちません(レポートごとに1つのみ)。 許可されているのは、ラップされたpythonノートブックにデータを簡単に取り込むことです。そして、Pythonの任意の画像を簡単にレポートに追加できます。 私の質問は次のとおりです。Pythonで実際のマップにヒートマップを再作成するにはどうすればよいですか。私はfolliumとplotlyをチェックアウトしましたが、どちらも同様の機能を持っているようには見えません。

5
scikit-learnランダムフォレストの機能の重要性は非常に高い標準偏差を示しています
私はscikit-learn Random Forest Classifierを使用しており、この例のように機能の重要度をプロットします。 ただし、機能の重要度の標準偏差は、機能の重要度自体よりも常に大きいという意味で、私の結果は完全に異なります(添付画像を参照)。 このような動作をすることは可能ですか、それをプロットするときにいくつかの間違いをしていますか? 私のコードは次のとおりです。 import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier() clf.fit(predictors.values, outcome.values.ravel()) importance = clf.feature_importances_ importance = pd.DataFrame(importance, index=predictors.columns, columns=["Importance"]) importance["Std"] = np.std([tree.feature_importances_ for tree in clf.estimators_], axis=0) x = range(importance.shape[0]) y = importance.ix[:, …

4
事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は?
word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、(GoogleNewDataset事前学習済みモデル)などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください!!!

8
Pythonはビッグデータに適していますか
私はこの記事で読んR言語はビッグデータに適してビッグデータを構成していること5TB、そしてそれがないながらにこのタイプのデータでの作業の実現可能性についての情報提供の良い仕事R、それはについてはほとんど情報を提供しますPython。Pythonこれだけのデータを扱うことができるのかと思っていました。
13 bigdata  python 

2
トレーニングおよびテストデータの変数が大文字で定義されているのはなぜですか(Python)。
この質問がこのサイトで最も適切であることを願っています... Pythonでは、通常、クラス名は最初の文字として大文字を使用して定義されます。次に例を示します。 class Vehicle: ... しかし、機械学習の分野では、しばしば回は訓練し、試験データは以下のように定義されているXとY-ではないxとy。たとえば、私は現在Kerasでこのチュートリアルを読んでいますが、変数としてXおよびYを使用しています: from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target なぜこれらは大文字として定義されているのですか?これらの変数を定義するために大文字を使用する方が良いという、機械学習分野の間に(少なくともPythonでは)慣例はありますか? あるいは、人々は機械学習で大文字と小文字の変数を区別しますか? 実際、同じチュートリアルが後でこれらの変数を次のように区別します。 from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)
13 python  dataset 

3
逆伝播におけるバイアス項の勾配
ニューラルネットワークをゼロから実装して、その背後にある数学を理解しようとしました。私の問題は、バイアスに関する導関数を取るときの逆伝播に完全に関連しており、逆伝播で使用されるすべての方程式を導き出しました。これで、バイアスに関する微分を除いて、すべての方程式がニューラルネットワークのコードと一致しています。 z1=x.dot(theta1)+b1 h1=1/(1+np.exp(-z1)) z2=h1.dot(theta2)+b2 h2=1/(1+np.exp(-z2)) dh2=h2-y #back prop dz2=dh2*(1-dh2) H1=np.transpose(h1) dw2=np.dot(H1,dz2) db2=np.sum(dz2,axis=0,keepdims=True) オンラインでコードを検索しましたが、なぜ行列を加算してdb2=np.sum(dz2,axis=0,keepdims=True)からスカラーが元のバイアスから減算されるのか、行列全体が減算されないのはなぜですか。誰かがその背後にある直感を与えるのを手伝ってくれる?バイアスに関して損失の偏微分をとるz2=h1.dot(theta2)+b2と、h1とthetaが0になり、b2が1になるため、dz2である上部勾配のみが得られ ます。したがって、上部の項は残ります。 b2+=-alpha*db2


1
多次元および多変量時系列予測(RNN / LSTM)Keras
Keras(またはTensorFlow)を使用して多次元および多変量の時系列予測を作成するためにデータを表現および形成する方法を理解しようとしてきましたが、正しい形状(ほとんどの例はわずかに少ない 私のデータセット: いくつかの都市 温度、車の交通量、湿度などの情報があります たとえば、過去2年間(毎日1レコード) 私がやりたいこと: 温度、車の交通量、湿度の遅れの可能性のあるバージョンを使用して、来年に期待できる気温を各都市で予測したい(もちろん、さらにいくつかの機能がありますが、これは単に思考の例)。 混乱していること: 2つの都市がある場合、365日間に3つの機能を記録しました。モデルがこれら2つの都市の365日間の予測を出力できるように、入力をどのように整形する必要があります(つまり、365日間の2つの時系列温度)。 直感的には、テンソルの形状は(?, 365, 3)365日間と3つの機能になります。しかし、私は何を第一次元に固執するのか定かではありません。そして最も重要なことは、それが多くの都市のためでなければならないとしたら驚かれるでしょう。しかし、同時に、寸法を適切に理解する必要があることをモデルに指定する方法がわかりません。 任意のポインターが役立ちます。私は他のニューラルネットワークでこれを行ったので、Kerasなどでネットワークをどのように構築するか、より具体的には所望の入力のシーケンスをエンコードするのに最適な方法で、残りの問題にかなり精通しています。 ああ、また、私は各都市を独立して訓練し予測することができたと思いますが、誰もがおそらくどの都市にも特有ではないが、それらのいくつかを検討した場合にのみ見ることができる学習すべきことがあることに同意するでしょうそのため、モデルにエンコードすることが重要だと思う理由です。
12 python  keras  rnn  lstm 

2
検証の損失と精度は一定のまま
このペーパーを一連の医療画像に実装しようとしています。ケラスでやってます。ネットワークは基本的に4つのconvおよびmax-poolレイヤーで構成され、その後に完全に接続されたレイヤーとソフト最大分類子が続きます。 私の知る限り、私はこの論文で言及されているアーキテクチャに従っています。ただし、検証の損失と正確さは、全体を通して一定のままです。精度は〜57.5%に固定されているようです。 私がどこで間違っているのかについてのどんな助けも大歓迎です。 私のコード: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np from sklearn.utils import shuffle from sklearn.cross_validation import train_test_split import theano import os import glob …

3
NLTKのNERに関するヘルプ
Pythonを使用してしばらくの間NLTKで作業しています。私が直面している問題は、私のカスタムデータを使用してNLTKでNERをトレーニングするのに役立つものがないということです。彼らはMaxEntを使用し、ACEコーパスでトレーニングしました。私はウェブでたくさん検索しましたが、NLTKのNERのトレーニングに使用できる方法を見つけることができませんでした。 誰かがリンク/記事/ブログなどを提供してくれれば、NLTKのNERのトレーニングで使用されるトレーニングデータセットフォーマットに誘導できるので、その特定のフォーマットでデータセットを準備できます。そして、私が自分のデータのためにNLTKのNERをトレーニングするのに役立つリンク/記事/ブログなどに誘導された場合。 これは広く検索されており、回答が最も少ない質問です。NERと連携する将来の誰かにとって役立つかもしれません。

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.