プログラミング scikit-learn

20

文字列ラベルのLabelEncoderパンダをエンコードするためにscikit-learnを使用しようとしていますDataFrame。データフレームには多数（50以上）の列があるLabelEncoderため、列ごとにオブジェクトを作成しないようにします。私はむしろ、データのすべての列LabelEncoderにわたって機能する1つの大きなオブジェクトが欲しいだけです。全体DataFrameをにLabelEncoderスローすると、以下のエラーが発生します。ここではダミーデータを使用していることに注意してください。実際には、文字列でラベル付けされたデータの約50列を扱っているため、名前で列を参照しないソリューションが必要です。 import pandas from sklearn import preprocessing df = pandas.DataFrame({ 'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 'New_York'] }) le = preprocessing.LabelEncoder() le.fit(df) トレースバック（最後の最後の呼び出し）：ファイル ""、行1、ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py"、行103、フィットy = column_or_1d（y、warn = True）ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py"、line 306、in column_or_1d raise ValueError（ "bad …

216 python pandas scikit-learn neuraxle

12

NumPyで配列を正規化する方法は？

1つのNumPy配列のノルムが欲しいのですが。より具体的には、この関数の同等のバージョンを探しています def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm skearnまたはそのようなものはありますかnumpy？この関数vは、が0ベクトルである状況で機能します。

203 python numpy scikit-learn statistics normalization

6

scikit-learnで分類子をディスクに保存する

トレーニング済みの単純ベイズ分類器をディスクに保存し、それを使用してデータを予測するにはどうすればよいですか？ scikit-learnのWebサイトにある次のサンプルプログラムがあります。 from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

191 python machine-learning scikit-learn classification

15

ImportError：sklearn.cross_validationという名前のモジュールはありません

Ubuntu 14.04でPython 2.7を使用しています。scikit-learn、numpy、matplotlibを次のコマンドでインストールしました。 sudo apt-get install build-essential python-dev python-numpy \ python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib \ ipython しかし、これらのパッケージをインポートすると： from sklearn.cross_validation import train_test_split それは私にこのエラーを返します： ImportError: No module named sklearn.cross_validation 私は何をする必要がありますか？

174 python scikit-learn

7

scikit-learn K-Means Clusteringを使用して独自の距離関数を指定することは可能ですか？

172 python machine-learning cluster-analysis k-means scikit-learn

10

Pythonの二乗平均平方根誤差（RMSE）のライブラリ関数はありますか？

次のような二乗平均平方根誤差関数を実装できることはわかっています。 def rmse(predictions, targets): return np.sqrt(((predictions - targets) ** 2).mean()) このrmse関数がライブラリのどこかに、おそらくscipyまたはscikit-learnに実装されている場合、私は何を探していますか？

158 python scikit-learn scipy

21

scikit-learnディシジョンツリーからディシジョンルールを抽出する方法は？

意思決定ツリーの学習済みツリーから、基になる決定ルール（または「決定パス」）をテキストリストとして抽出できますか？何かのようなもの： if A>0.4 then if B<0.2 then if C>0.8 then class='X' ご協力いただきありがとうございます。

157 python machine-learning scikit-learn decision-tree random-forest

9

scikit-learn LinearRegressionでp値（有意性）を見つける

各係数のp値（有意性）を見つけるにはどうすればよいですか？ lm = sklearn.linear_model.LinearRegression() lm.fit(x,y)

154 python numpy statistics scikit-learn regression

10

RuntimeWarning：numpy.dtypeのサイズが変更されました。バイナリの非互換性を示している可能性があります

保存されたSVMモデルをロードしようとすると、このエラーが発生します。私はsklearn、NumPy、SciPyをアンインストールして、最新バージョンをすべて一緒に再インストールしました（pipを使用）。まだこのエラーが発生します。どうして？ In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print numpy.__version__ 1.11.2 In [5]: import scipy; print scipy.__version__ 0.18.1 In [7]: import pandas; print pandas.__version__ 0.19.1 In [10]: clf = joblib.load('model/trained_model.pkl') --------------------------------------------------------------------------- RuntimeWarning Traceback (most recent call last) <ipython-input-10-5e5db1331757> in <module>() ----> 1 clf = joblib.load('sentiment_classification/model/trained_model.pkl') /usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/numpy_pickle.pyc …

148 python numpy scikit-learn

6

Scikit学習のランダム状態（疑似乱数）

scikit learnに機械学習アルゴリズムを実装したいのですが、このパラメーターのrandom_state機能がわかりません。なぜそれを使用する必要があるのですか？また、疑似乱数とは何なのか理解できませんでした。

148 python scikit-learn

5

データを3つのセット（トレーニング、検証、テスト）に分割する方法は？

私はパンダのデータフレームを持っていて、それを3つの別々のセットに分割したいと思います。からtrain_test_splitを使用sklearn.cross_validationすると、データを2つのセット（trainとtest）に分割できることがわかります。しかし、データを3つのセットに分割することに関する解決策は見つかりませんでした。できれば、元のデータのインデックスが欲しいです。回避策は、train_test_split2回使用し、インデックスを調整することです。しかし、データを2つではなく3つのセットに分割する、より標準的な/組み込みの方法はありますか？

146 pandas numpy dataframe machine-learning scikit-learn

6

sklearnによるパンダデータフレーム列のスケーリング

混合型の列を持つpandasデータフレームがあり、sklearnのmin_max_scalerをいくつかの列に適用したいと思います。理想的には、これらの変換を適切に実行したいのですが、その方法をまだ理解していません。機能する次のコードを作成しました。 import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = preprocessing.MinMaxScaler() def scaleColumns(df, cols_to_scale): for col in cols_to_scale: df[col] = pd.DataFrame(min_max_scaler.fit_transform(pd.DataFrame(dfTest[col])),columns=[col]) return df dfTest A B C 0 14.00 103.02 big 1 90.20 107.26 small 2 90.95 110.35 …

137 python pandas scikit-learn dataframe

3

1つのホットエンコーディングで機械学習のパフォーマンスが向上するのはなぜですか？

ワンホットエンコーディングを特定のデータセット（マトリックス）で使用し、学習アルゴリズムのトレーニングデータとして使用すると、元のマトリックス自体をトレーニングデータとして使用する場合と比較して、予測精度に関してはるかに優れた結果が得られることに気付きました。このパフォーマンスの向上はどのように起こりますか？

127 machine-learning data-mining scikit-learn data-analysis

13

sklearnエラーValueError：入力にNaN、無限大、またはdtype（ 'float64'）には大きすぎる値が含まれています

私はsklearnを使用していて、アフィニティの伝播に問題があります。入力行列を作成しましたが、次のエラーが発生し続けます。 ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 私は走った np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True 使ってみた mat[np.isfinite(mat) == True] = 0 無限値を削除しますが、これも機能しませんでした。アフィニティ伝播アルゴリズムを使用できるように、マトリックスの無限値を取り除くにはどうすればよいですか？私はanacondaとpython 2.7.9を使用しています。

127 python python-2.7 scikit-learn valueerror

6

RandomForestClassifierのfeature_importancesはどのように決定されますか？

データ入力として時系列を使用した分類タスクがあり、各属性（n = 23）は特定の時点を表します。絶対的な分類結果に加えて、どの属性/日付が結果にどの程度貢献しているのかを知りたいです。したがって、私はを使用feature_importances_しています。ただし、それらがどのように計算され、どのメジャー/アルゴリズムが使用されているかを知りたいです。残念ながら、このトピックに関するドキュメントは見つかりませんでした。

125 scikit-learn random-forest feature-selection

タグ付けされた質問 「scikit-learn」

タグ付けされた質問「scikit-learn」