タグ付けされた質問 「scikit-learn」

scikit-learnは、機械学習に重点を置いた、データ分析とデータマイニングのためのシンプルで効率的なツールを提供するPython用の機械学習ライブラリです。誰でもアクセスでき、さまざまな状況で再利用できます。NumPyとSciPyに基づいて構築されています。このプロジェクトはオープンソースであり、商用利用が可能です(BSDライセンス)。

4
get_dummies(パンダ)とOneHotEncoder(Scikit-learn)の長所と短所は何ですか?
機械学習分類器のカテゴリ変数を数値に変換するさまざまな方法を学習しています。私はそのpd.get_dummies方法に出くわし、sklearn.preprocessing.OneHotEncoder()パフォーマンスと使用法の点でそれらがどのように異なるかを見たかったのです。 私が使用する方法についてのチュートリアル見つかっOneHotEncoder()にhttps://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/をするのでsklearnドキュメントには、この機能のあまり有用ではなかったです。正しくやっていない気がします…でも いくつかの使用の長所と短所を説明することができpd.dummies超えるsklearn.preprocessing.OneHotEncoder()と、その逆の?私はそれOneHotEncoder()があなたにスパース行列を与えることを知っていますが、それ以外はそれがどのように使われるか、そしてそのpandas方法にどのような利点があるのか​​わかりません。非効率的に使用していますか? import pandas as pd import numpy as np from sklearn.datasets import load_iris sns.set() %matplotlib inline #Iris Plot iris = load_iris() n_samples, m_features = iris.data.shape #Load Data X, y = iris.data, iris.target D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names)) DF_data = pd.DataFrame(X,columns=iris.feature_names) DF_data["target"] = pd.Series(y).map(D_target_dummy) #sepal length (cm) sepal width (cm) …

5
scikit-learnを使用して複数のカテゴリに分類します
scikit-learnの教師あり学習方法の1つを使用して、テキストを1つ以上のカテゴリに分類しようとしています。私が試したすべてのアルゴリズムの予測関数は、1つの一致を返すだけです。 たとえば、次のようなテキストがあります。 "Theaters in New York compared to those in London" そして、フィードするすべてのテキストスニペットの場所を選択するようにアルゴリズムをトレーニングしました。 上記の例では、私はそれを返すようにしたいと思うNew YorkとLondon、それだけを返しますNew York。 scikit-learnを使用して複数の結果を返すことは可能ですか?または、次に高い確率でラベルを返しますか? ご協力いただきありがとうございます。 - -更新 使用してみましたOneVsRestClassifierが、テキストごとに1つのオプションしか返されません。以下は私が使用しているサンプルコードです y_train = ('New York','London') train_set = ("new york nyc big apple", "london uk great britain") vocab = {'new york' :0,'nyc':1,'big apple':2,'london' : 3, 'uk': 4, 'great britain' : 5} count …

3
複数のカテゴリー列を変換する
私のデータセットには、列挙したい2つのカテゴリー列があります。2つの列には両方の国が含まれており、一部が重複しています(両方の列に表示されます)。同じ国のcolumn1とcolumn2に同じ番号を付けたいのですが。 私のデータは次のように見えます: import pandas as pd d = {'col1': ['NL', 'BE', 'FR', 'BE'], 'col2': ['BE', 'NL', 'ES', 'ES']} df = pd.DataFrame(data=d) df 現在、私はデータを次のように変換しています: from sklearn.preprocessing import LabelEncoder df.apply(LabelEncoder().fit_transform) ただし、これはFRとESを区別しません。次の出力に到達する別の簡単な方法はありますか? o = {'col1': [2,0,1,0], 'col2': [0,2,4,4]} output = pd.DataFrame(data=o) output

2
外れ値を見つけるためのIsolationForestでのGridSearchCVの使用
IsolationForest外れ値の検索に使用したい。でのモデルに最適なパラメータを見つけたいGridSearchCV。問題は、常に同じエラーが発生することです。 TypeError: If no scoring is specified, the estimator passed should have a 'score' method. The estimator IsolationForest(behaviour='old', bootstrap=False, contamination='legacy', max_features=1.0, max_samples='auto', n_estimators=100, n_jobs=None, random_state=None, verbose=0, warm_start=False) does not. 方法IsolationForestがないので、問題があるようscoreです。これを修正する方法はありますか?また、孤立した森のスコアを見つける方法はありますか?これは私のコードです: import pandas as pd from sklearn.ensemble import IsolationForest from sklearn.model_selection import GridSearchCV df = pd.DataFrame({'first': [-112,0,1,28,5,6,3,5,4,2,7,5,1,3,2,2,5,2,42,84,13,43,13], 'second': [42,1,2,85,2,4,6,8,3,5,7,3,64,1,4,1,2,4,13,1,0,40,9], 'third': [3,4,7,74,3,8,2,4,7,1,53,6,5,5,59,0,5,12,65,4,3,4,11], …

2
デカルト座標でRANSACを使用して線を合わせる方法
2Dライダーを使用しており、ライダーの位置に対する角度と距離としてデータを取得しています。Lidarを使用してフロアプランを作成する必要があり、データは部屋を表す以下のとおりです。部屋の壁を見つけるためにランサックアルゴリズムを使用したいと思います。ランサックに合うことができれば、どういうわけか私はフロアフランを見つけることができたと信じています。コードを書きましたが、壁に適合しません。部屋の壁に合うようにするには、どのような変更を行う必要がありますか? #(angle, distance) 0,942 0.62,3469 1.25,3350 2.5,3410 3.12,3404 3.75,3403 4.37,3464 5,3441 5.62,3445 6.25,3444 6.87,3455 7.5,3464 8.12,3464 8.75,3477 9.37,3470 10,3504 10.62,3505 11.25,3505 11.87,3516 12.5,3529 13.12,3541 13.75,3543 14.37,3552 15,3559 15.62,3565 16.25,3578 16.87,3591 17.5,3607 18.12,3624 18.75,3634 19.37,3630 20,3651 20.62,3673 21.25,3678 21.87,3697 22.5,3711 23.12,3726 23.75,3744 24.37,3765 25,3780 25.62,3796 26.25,3809 26.87,3830 27.5,3867 28.12,3881 28.75,3854 29.37,3751 …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.