データサイエンス python

3

Quora公式データセットで重複する質問を予測するLSTMモデルを作成しました。テストラベルは0または1です。1は質問のペアが重複していることを示します。使用してモデルを構築した後model.fit、私が使用してモデルをテストしmodel.predict、テストデータに。出力は、以下のような値の配列です。 [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] 配列の最初の10個の値のみを表示しています。これらの値の意味と、各質問ペアの予測ラベルは何ですか？

14 machine-learning python neural-network keras lstm

1

XGBRegressorとxgboost.trainの大きな速度差は？

次のコードを使用してモデルをトレーニングする場合： import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) 約1分で終了します。 Sci-Kit学習メソッドを使用してモデルをトレーニングする場合： import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = 0.6 objective = …

13 machine-learning python decision-trees xgboost efficiency

1

intのpandas列をタイムスタンプデータ型に変換します

特に、1970-1-1以降に渡されたミリ秒数の列を含むデータフレームがあります。このintの列をタイムスタンプデータに変換する必要があるため、タイムスタンプ列シリーズを1970-1-1の日時値のみで構成されるシリーズに追加することにより、最終的に日時データの列に変換できます。一連の文字列を日時データ（pandas.to_datetime）に変換する方法は知っていますが、intの列全体を日時データまたはタイムスタンプデータに変換する解決策を見つけることができません。

13 python time-series data-cleaning pandas

1

Pythonのマップ上のヒートマップ

モード分析には、優れたヒートマップ機能があります（https://community.modeanalytics.com/gallery/geographic-heat-map/）。ただし、マップの比較には役立ちません（レポートごとに1つのみ）。許可されているのは、ラップされたpythonノートブックにデータを簡単に取り込むことです。そして、Pythonの任意の画像を簡単にレポートに追加できます。私の質問は次のとおりです。Pythonで実際のマップにヒートマップを再作成するにはどうすればよいですか。私はfolliumとplotlyをチェックアウトしましたが、どちらも同様の機能を持っているようには見えません。

13 python visualization geospatial

5

scikit-learnランダムフォレストの機能の重要性は非常に高い標準偏差を示しています

私はscikit-learn Random Forest Classifierを使用しており、この例のように機能の重要度をプロットします。ただし、機能の重要度の標準偏差は、機能の重要度自体よりも常に大きいという意味で、私の結果は完全に異なります（添付画像を参照）。このような動作をすることは可能ですか、それをプロットするときにいくつかの間違いをしていますか？私のコードは次のとおりです。 import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier() clf.fit(predictors.values, outcome.values.ravel()) importance = clf.feature_importances_ importance = pd.DataFrame(importance, index=predictors.columns, columns=["Importance"]) importance["Std"] = np.std([tree.feature_importances_ for tree in clf.estimators_], axis=0) x = range(importance.shape[0]) y = importance.ix[:, …

13 python random-forest

4

事前に訓練されたモデルの重みで新しいword2vecモデルを初期化する方法は？

word2vectorモデルの使用とトレーニングにPythonのGensimライブラリを使用しています。最近、（GoogleNewDataset事前学習済みモデル）などの事前学習済みのword2vecモデルでモデルの重みを初期化することを検討していました。私は数週間それと格闘してきました。さて、私はgesimに、事前に訓練されたモデルの重みでモデルの重みを初期化するのに役立つ関数があることを調べました。以下に説明します。 reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. この関数で同じことができるかどうかはわかりません。助けてください！！！

13 python nlp word-embeddings word2vec gensim

8

Pythonはビッグデータに適していますか

私はこの記事で読んR言語はビッグデータに適してビッグデータを構成していること5TB、そしてそれがないながらにこのタイプのデータでの作業の実現可能性についての情報提供の良い仕事R、それはについてはほとんど情報を提供しますPython。Pythonこれだけのデータを扱うことができるのかと思っていました。

13 bigdata python

2

トレーニングおよびテストデータの変数が大文字で定義されているのはなぜですか（Python）。

この質問がこのサイトで最も適切であることを願っています... Pythonでは、通常、クラス名は最初の文字として大文字を使用して定義されます。次に例を示します。 class Vehicle: ... しかし、機械学習の分野では、しばしば回は訓練し、試験データは以下のように定義されているXとY-ではないxとy。たとえば、私は現在Kerasでこのチュートリアルを読んでいますが、変数としてXおよびYを使用しています： from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target なぜこれらは大文字として定義されているのですか？これらの変数を定義するために大文字を使用する方が良いという、機械学習分野の間に（少なくともPythonでは）慣例はありますか？あるいは、人々は機械学習で大文字と小文字の変数を区別しますか？実際、同じチュートリアルが後でこれらの変数を次のように区別します。 from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)

13 python dataset

3

逆伝播におけるバイアス項の勾配

ニューラルネットワークをゼロから実装して、その背後にある数学を理解しようとしました。私の問題は、バイアスに関する導関数を取るときの逆伝播に完全に関連しており、逆伝播で使用されるすべての方程式を導き出しました。これで、バイアスに関する微分を除いて、すべての方程式がニューラルネットワークのコードと一致しています。 z1=x.dot(theta1)+b1 h1=1/(1+np.exp(-z1)) z2=h1.dot(theta2)+b2 h2=1/(1+np.exp(-z2)) dh2=h2-y #back prop dz2=dh2*(1-dh2) H1=np.transpose(h1) dw2=np.dot(H1,dz2) db2=np.sum(dz2,axis=0,keepdims=True) オンラインでコードを検索しましたが、なぜ行列を加算してdb2=np.sum(dz2,axis=0,keepdims=True)からスカラーが元のバイアスから減算されるのか、行列全体が減算されないのはなぜですか。誰かがその背後にある直感を与えるのを手伝ってくれる？バイアスに関して損失の偏微分をとるz2=h1.dot(theta2)+b2と、h1とthetaが0になり、b2が1になるため、dz2である上部勾配のみが得られます。したがって、上部の項は残ります。 b2+=-alpha*db2

13 python neural-network backpropagation

2

テンソルフローの1つのホットエンコーディングとは何ですか？

現在、tf.one_hot（indices、depth）を使用したテンソルフローのコースを行っています。今、私はこれらのインデックスがそのバイナリシーケンスにどのように変化するか理解していません。誰かが私に正確なプロセスを説明してもらえますか？？？

12 machine-learning python neural-network deep-learning tensorflow

1

多次元および多変量時系列予測（RNN / LSTM）Keras

Keras（またはTensorFlow）を使用して多次元および多変量の時系列予測を作成するためにデータを表現および形成する方法を理解しようとしてきましたが、正しい形状（ほとんどの例はわずかに少ない私のデータセット：いくつかの都市温度、車の交通量、湿度などの情報がありますたとえば、過去2年間（毎日1レコード）私がやりたいこと：温度、車の交通量、湿度の遅れの可能性のあるバージョンを使用して、来年に期待できる気温を各都市で予測したい（もちろん、さらにいくつかの機能がありますが、これは単に思考の例）。混乱していること： 2つの都市がある場合、365日間に3つの機能を記録しました。モデルがこれら2つの都市の365日間の予測を出力できるように、入力をどのように整形する必要があります（つまり、365日間の2つの時系列温度）。直感的には、テンソルの形状は(?, 365, 3)365日間と3つの機能になります。しかし、私は何を第一次元に固執するのか定かではありません。そして最も重要なことは、それが多くの都市のためでなければならないとしたら驚かれるでしょう。しかし、同時に、寸法を適切に理解する必要があることをモデルに指定する方法がわかりません。任意のポインターが役立ちます。私は他のニューラルネットワークでこれを行ったので、Kerasなどでネットワークをどのように構築するか、より具体的には所望の入力のシーケンスをエンコードするのに最適な方法で、残りの問題にかなり精通しています。ああ、また、私は各都市を独立して訓練し予測することができたと思いますが、誰もがおそらくどの都市にも特有ではないが、それらのいくつかを検討した場合にのみ見ることができる学習すべきことがあることに同意するでしょうそのため、モデルにエンコードすることが重要だと思う理由です。

12 python keras rnn lstm

2

検証の損失と精度は一定のまま

このペーパーを一連の医療画像に実装しようとしています。ケラスでやってます。ネットワークは基本的に4つのconvおよびmax-poolレイヤーで構成され、その後に完全に接続されたレイヤーとソフト最大分類子が続きます。私の知る限り、私はこの論文で言及されているアーキテクチャに従っています。ただし、検証の損失と正確さは、全体を通して一定のままです。精度は〜57.5％に固定されているようです。私がどこで間違っているのかについてのどんな助けも大歓迎です。私のコード： from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np from sklearn.utils import shuffle from sklearn.cross_validation import train_test_split import theano import os import glob …

12 machine-learning python deep-learning keras

3

NLTKのNERに関するヘルプ

Pythonを使用してしばらくの間NLTKで作業しています。私が直面している問題は、私のカスタムデータを使用してNLTKでNERをトレーニングするのに役立つものがないということです。彼らはMaxEntを使用し、ACEコーパスでトレーニングしました。私はウェブでたくさん検索しましたが、NLTKのNERのトレーニングに使用できる方法を見つけることができませんでした。誰かがリンク/記事/ブログなどを提供してくれれば、NLTKのNERのトレーニングで使用されるトレーニングデータセットフォーマットに誘導できるので、その特定のフォーマットでデータセットを準備できます。そして、私が自分のデータのためにNLTKのNERをトレーニングするのに役立つリンク/記事/ブログなどに誘導された場合。これは広く検索されており、回答が最も少ない質問です。NERと連携する将来の誰かにとって役立つかもしれません。

12 machine-learning python nlp

1

LSTMセルはいくつ使用すればよいですか？

使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則（または実際の規則）はありますか？具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。私が定義する分類問題があると仮定してください： t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか？ 4*((n+1)*m + m*m)*c cセルの数はどこですか？これに基づいています：LSTMネットワークのパラメーターの数を計算する方法？私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

5

Pythonの「頻繁なシーケンスマイニング」パッケージは適切ですか？

MLLibのFPM以外に、Pythonで優れた「頻繁なシーケンスマイニング」パッケージを使用した（または気に入った）誰かがいますか？私は安定したパッケージを探しています。ありがとうございました！

12 python sequential-pattern-mining

タグ付けされた質問 「python」

タグ付けされた質問「python」