タグ付けされた質問 「scikit-learn」

scikit-learnは、機械学習に重点を置いた、データ分析とデータマイニングのためのシンプルで効率的なツールを提供するPython用の機械学習ライブラリです。誰でもアクセスでき、さまざまな状況で再利用できます。NumPyとSciPyに基づいて構築されています。このプロジェクトはオープンソースであり、商用利用が可能です(BSDライセンス)。

20
scikit-learnの複数の列にわたるラベルエンコーディング
文字列ラベルのLabelEncoderパンダをエンコードするためにscikit-learnを使用しようとしていますDataFrame。データフレームには多数(50以上)の列があるLabelEncoderため、列ごとにオブジェクトを作成しないようにします。私はむしろ、データのすべての列LabelEncoderにわたって機能する1つの大きなオブジェクトが欲しいだけです。 全体DataFrameをにLabelEncoderスローすると、以下のエラーが発生します。ここではダミーデータを使用していることに注意してください。実際には、文字列でラベル付けされたデータの約50列を扱っているため、名前で列を参照しないソリューションが必要です。 import pandas from sklearn import preprocessing df = pandas.DataFrame({ 'pets': ['cat', 'dog', 'cat', 'monkey', 'dog', 'dog'], 'owner': ['Champ', 'Ron', 'Brick', 'Champ', 'Veronica', 'Ron'], 'location': ['San_Diego', 'New_York', 'New_York', 'San_Diego', 'San_Diego', 'New_York'] }) le = preprocessing.LabelEncoder() le.fit(df) トレースバック(最後の最後の呼び出し):ファイル ""、行1、ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/preprocessing/label.py"、行103、フィットy = column_or_1d(y、warn = True)ファイル "/Users/bbalin/anaconda/lib/python2.7/site-packages/sklearn/utils/validation.py"、line 306、in column_or_1d raise ValueError( "bad …

12
NumPyで配列を正規化する方法は?
1つのNumPy配列のノルムが欲しいのですが。より具体的には、この関数の同等のバージョンを探しています def normalize(v): norm = np.linalg.norm(v) if norm == 0: return v return v / norm skearnまたはそのようなものはありますかnumpy? この関数vは、が0ベクトルである状況で機能します。

6
scikit-learnで分類子をディスクに保存する
トレーニング済みの単純ベイズ分類器をディスクに保存し、それを使用してデータを予測するにはどうすればよいですか? scikit-learnのWebサイトにある次のサンプルプログラムがあります。 from sklearn import datasets iris = datasets.load_iris() from sklearn.naive_bayes import GaussianNB gnb = GaussianNB() y_pred = gnb.fit(iris.data, iris.target).predict(iris.data) print "Number of mislabeled points : %d" % (iris.target != y_pred).sum()

15
ImportError:sklearn.cross_validationという名前のモジュールはありません
Ubuntu 14.04でPython 2.7を使用しています。scikit-learn、numpy、matplotlibを次のコマンドでインストールしました。 sudo apt-get install build-essential python-dev python-numpy \ python-numpy-dev python-scipy libatlas-dev g++ python-matplotlib \ ipython しかし、これらのパッケージをインポートすると: from sklearn.cross_validation import train_test_split それは私にこのエラーを返します: ImportError: No module named sklearn.cross_validation 私は何をする必要がありますか?





10
RuntimeWarning:numpy.dtypeのサイズが変更されました。バイナリの非互換性を示している可能性があります
保存されたSVMモデルをロードしようとすると、このエラーが発生します。私はsklearn、NumPy、SciPyをアンインストールして、最新バージョンをすべて一緒に再インストールしました(pipを使用)。まだこのエラーが発生します。どうして? In [1]: import sklearn; print sklearn.__version__ 0.18.1 In [3]: import numpy; print numpy.__version__ 1.11.2 In [5]: import scipy; print scipy.__version__ 0.18.1 In [7]: import pandas; print pandas.__version__ 0.19.1 In [10]: clf = joblib.load('model/trained_model.pkl') --------------------------------------------------------------------------- RuntimeWarning Traceback (most recent call last) <ipython-input-10-5e5db1331757> in <module>() ----> 1 clf = joblib.load('sentiment_classification/model/trained_model.pkl') /usr/local/lib/python2.7/dist-packages/sklearn/externals/joblib/numpy_pickle.pyc …

6
Scikit学習のランダム状態(疑似乱数)
scikit learnに機械学習アルゴリズムを実装したいのですが、このパラメーターのrandom_state機能がわかりません。なぜそれを使用する必要があるのですか? また、疑似乱数とは何なのか理解できませんでした。

5
データを3つのセット(トレーニング、検証、テスト)に分割する方法は?
私はパンダのデータフレームを持っていて、それを3つの別々のセットに分割したいと思います。からtrain_test_splitを使用sklearn.cross_validationすると、データを2つのセット(trainとtest)に分割できることがわかります。しかし、データを3つのセットに分割することに関する解決策は見つかりませんでした。できれば、元のデータのインデックスが欲しいです。 回避策は、train_test_split2回使用し、インデックスを調整することです。しかし、データを2つではなく3つのセットに分割する、より標準的な/組み込みの方法はありますか?

6
sklearnによるパンダデータフレーム列のスケーリング
混合型の列を持つpandasデータフレームがあり、sklearnのmin_max_scalerをいくつかの列に適用したいと思います。理想的には、これらの変換を適切に実行したいのですが、その方法をまだ理解していません。機能する次のコードを作成しました。 import pandas as pd import numpy as np from sklearn import preprocessing scaler = preprocessing.MinMaxScaler() dfTest = pd.DataFrame({'A':[14.00,90.20,90.95,96.27,91.21],'B':[103.02,107.26,110.35,114.23,114.68], 'C':['big','small','big','small','small']}) min_max_scaler = preprocessing.MinMaxScaler() def scaleColumns(df, cols_to_scale): for col in cols_to_scale: df[col] = pd.DataFrame(min_max_scaler.fit_transform(pd.DataFrame(dfTest[col])),columns=[col]) return df dfTest A B C 0 14.00 103.02 big 1 90.20 107.26 small 2 90.95 110.35 …

3
1つのホットエンコーディングで機械学習のパフォーマンスが向上するのはなぜですか?
ワンホットエンコーディングを特定のデータセット(マトリックス)で使用し、学習アルゴリズムのトレーニングデータとして使用すると、元のマトリックス自体をトレーニングデータとして使用する場合と比較して、予測精度に関してはるかに優れた結果が得られることに気付きました。このパフォーマンスの向上はどのように起こりますか?

13
sklearnエラーValueError:入力にNaN、無限大、またはdtype( 'float64')には大きすぎる値が含まれています
私はsklearnを使用していて、アフィニティの伝播に問題があります。入力行列を作成しましたが、次のエラーが発生し続けます。 ValueError: Input contains NaN, infinity or a value too large for dtype('float64'). 私は走った np.isnan(mat.any()) #and gets False np.isfinite(mat.all()) #and gets True 使ってみた mat[np.isfinite(mat) == True] = 0 無限値を削除しますが、これも機能しませんでした。アフィニティ伝播アルゴリズムを使用できるように、マトリックスの無限値を取り除くにはどうすればよいですか? 私はanacondaとpython 2.7.9を使用しています。

6
RandomForestClassifierのfeature_importancesはどのように決定されますか?
データ入力として時系列を使用した分類タスクがあり、各属性(n = 23)は特定の時点を表します。絶対的な分類結果に加えて、どの属性/日付が結果にどの程度貢献しているのかを知りたいです。したがって、私はを使用feature_importances_しています。 ただし、それらがどのように計算され、どのメジャー/アルゴリズムが使用されているかを知りたいです。残念ながら、このトピックに関するドキュメントは見つかりませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.