タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

2
ランダムフォレスト分類にカテゴリデータタイプを適合させるにはどうすればよいですか?
ランダムフォレストアルゴリズムを適用して、トレーニングデータセットの精度を見つける必要があります。しかし、私のデータセットのタイプは、カテゴリーと数値の両方です。これらのデータをフィッティングしようとすると、エラーが発生します。 '入力にNaN、無限大、またはdtype(' float32 ')には大きすぎる値が含まれています。 問題はオブジェクトのデータ型です。RFを適用するために変換せずにカテゴリデータを適合させるにはどうすればよいですか? これが私のコードです。

1
トレーニングの精度とテストの精度と混同行列
ランダムフォレストを使用して予測モデルを開発した後、次のメトリックを取得します。 Train Accuracy :: 0.9764634601043997 Test Accuracy :: 0.7933284397683713 Confusion matrix [[28292 1474] [ 6128 889]] これは、このコードの結果です。 training_features, test_features, training_target, test_target, = train_test_split(df.drop(['bad_loans'], axis=1), df['target'], test_size = .3, random_state=12) clf = RandomForestClassifier() trained_model = clf.fit(training_features, training_target) trained_model.fit(training_features, training_target) predictions = trained_model.predict(test_features) Train Accuracy: accuracy_score(training_target, trained_model.predict(training_features)) Test Accuracy: accuracy_score(test_target, predictions) Confusion …

1
Y軸に単一のDataFrameの2つの列をプロットする方法
2つのDataFrames(Action、Comedy)があります。アクションには2つの列(年、評価)の評価が含まれ、列には年に関する平均評価が含まれます。コメディデータフレームには、平均値が異なる同じ2つの列が含まれています。 両方のデータフレームをtotal_year Dataframeにマージします total_yearの出力 今度は、X軸に年の列が含まれ、Y軸にアクション列とコメディー列の両方が含まれる折れ線グラフにtotal_yearをプロットします。 次のコードを使用して、Y軸に一度に1列のみをプロットできます。 total_year[-15:].plot(x='year', y='action' ,figsize=(10,5), grid=True ) Y軸に両方の列をプロットするにはどうすればよいですか? 私はこの方法でグラフを描きたい人に知らせるためにグーグルからこの写真を撮りました

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Keras LSTMと1D時系列
私はKerasの使用方法を学んでおり、CholletのDeep Learning for Pythonの例を使用して、ラベル付けされたデータセットで妥当な成功を収めました。データセットは、3つの潜在的なクラスを含む長さ3125の〜1000時系列です。 予測率が約70%になる基本的な高密度レイヤーを超えて、LSTMレイヤーとRNNレイヤーについて説明します。 すべての例では、各時系列に複数の機能を持つデータセットを使用しているようであり、結果としてデータを実装する方法を見つけるのに苦労しています。 たとえば、1000x3125の時系列がある場合、それをSimpleRNNやLSTMレイヤーなどにフィードするにはどうすればよいですか?これらのレイヤーの機能に関する基本的な知識が不足していますか? 現在のコード: import pandas as pd import numpy as np import os from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM, Dropout, SimpleRNN, Embedding, Reshape from keras.utils import to_categorical from keras import regularizers from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt …

2
GPUでトレーニングに時間がかかるのはなぜですか?
詳細: GPU:GTX 1080 トレーニング:10のクラスに属する約110万の画像 検証:10クラスに属する約150の画像 エポックごとの時間:〜10時間 CUDA、cuDNN、Tensorflow(Tensorflow GPUも)をセットアップしました。 私のモデルはエポックごとに10時間かかるほど複雑ではないと思います。私のGPUに問題があるかどうかも確認しましたが、問題はありませんでした。 完全に接続されたレイヤーによるトレーニング時間ですか? 私のモデル: model = Sequential() model.add() model.add(Conv2D(64, (3, 3), padding="same", strides=2)) model.add(Activation('relu')) model.add(Dropout(0.25)) model.add(Conv2D(64, (3, 3), padding="same", strides=2)) model.add(Activation('relu')) model.add(Dropout(0.25)) model.add(Conv2D(32, (3, 3))) model.add(Activation('relu')) model.add(MaxPooling2D(pool_size=(3, 3), strides=2)) model.add(Flatten()) model.add(Dense(256)) model.add(Activation('relu')) model.add(Dense(4096)) model.add(Activation('relu')) model.add(Dense(10)) model.add(Activation('softmax')) model.summary() opt = keras.optimizers.rmsprop(lr=0.0001, decay=1e-6) model.compile(loss='categorical_crossentropy', optimizer=opt, …

2
TensorFlowを使用して財務時系列データを予測しようとしています
私はMLとTensorFlowを初めて使用し(数時間前に開始しました)、それを使用して時系列の次のいくつかのデータポイントを予測しようとしています。私は私の入力を受け取り、これを使ってこれを行っています: /----------- x ------------\ .-------------------------------. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | '-------------------------------' \----------- y ------------/ 私がやっていることは、xを入力データとして使用し、yをその入力の目的の出力として使用して、0〜6を指定すると1〜7(特に7)が得られるようにすることです。ただし、xを入力としてグラフを実行すると、yではなくxに似た予測が得られます。 ここにコードがあります(この投稿とこの投稿に基づいています): import tensorflow as tf import numpy as np import matplotlib.pyplot as plot import pandas as pd import csv def load_data_points(filename): print("Opening CSV …

3
任意の数の入力と出力を備えた人工ニューロンネットワーク(ANN)
問題にANNを使用したいのですが、問題は入力と出力のノード番号が固定されていないことです。 私は質問をする前にグーグル検索をしましたが、RNNが私の問題を解決するのに役立つことがわかりました。しかし、私が見つけたすべての例は、どういうわけか、入力ノードと出力ノードの数を定義しています。 それで、私は戦略、それをどのように現実のものにするか、または少なくともいくつかの例を探しています。KerasまたはPyTorchで望ましいです。 私の問題の詳細: 2つの入力リストがあります。最初のリストの長さは固定され、2に等しくなります。fe: in_1 = [2,2] ただし、2番目のリストの長さは柔軟で、長さは3からinf、feまで可能です。 in_2 = [1,1,2,2] または in_2 = [1,1,1,2,2,2,3,3,3] また、入力リストは互いに依存しています。最初のリストは、出力リストの次元を示しています。したがって、in_1 = [2,2]の場合、出力は[2,2]形式に再形成される可能性がある必要があることを意味します。 現在、2つの入力リストを1つに結合することを考えています。 in = in_1 + in_2 = [2, 2, 1, 1, 2, 2] さらに、出力の長さはin_2リストと同じです。fi: 入力リストが次の場合: in_1 = [2, 2] in_2 = [1, 1, 2, 2] 出力は次のようになります。 out = [1, 2, 1, …

4
一緒によく購入するアイテムを視覚化
次の構造のデータセットがCSVファイルに挿入されています。 Banana Water Rice Rice Water Bread Banana Juice 各行は、一緒に購入されたアイテムのコレクションを示しています。例えば、最初の行は、アイテムがことを示しBanana、Water、そしてRice一緒に購入しました。 次のような視覚化を作成したいと思います。 これは基本的にグリッドチャートですが、入力構造を読み取って上記のようなチャートを出力として生成できるツール(おそらくPythonまたはR)が必要です。

1
Kerasを使用したディープラーニングのためのデータの再形成
私はケラスの初心者であり、ライブラリが実際にどのように機能するかを理解するためにMNISTの例から始めました。Kerasサンプルフォルダー内のMNIST問題のコードスニペットは次のようになります。 import numpy as np np.random.seed(1337) # for reproducibility from keras.datasets import mnist from keras.models import Sequential from keras.layers import Dense, Dropout, Activation, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.utils import np_utils batch_size = 128 nb_classes = 10 nb_epoch = 12 # input image dimensions img_rows, img_cols = 28, …

2
Python機械学習/データサイエンスプロジェクトの構造
Python Machine Learningプロジェクトをどのように編成するべきかについての情報を探しています。Pythonの通常のプロジェクトにはCookiecutterがあり、R ProjectTemplateがあります。 これは現在のフォルダー構造ですが、Jupyter Notebookと実際のPythonコードを混在させているため、あまり明確ではないようです。 . ├── cache ├── data ├── my_module ├── logs ├── notebooks ├── scripts ├── snippets └── tools 私はスクリプトフォルダーで作業していて、現在すべての関数をmy_moduleの下のファイルに追加していますが、データのロードエラー(相対パス/絶対パス)やその他の問題が発生します。 このトピックに関する適切なベストプラクティスや適切な例は、いくつかのKaggle競合ソリューションと、そのようなノートブックの最初にすべての機能が凝縮されたいくつかのノートブック以外には見つかりませんでした。
10 python 

2
パンダデータフレームの行を反復して新しい列を作成する
私はこのようなパンダデータフレーム(X11)を持っています:実際には私は99列までdx99まで持っています dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 25041、40391、5856などのセル値用に追加の列を作成したいので、25041が任意のdxs列の特定の行にある場合、値が1または0の列25041があります。私はこのコードを使用していますが、行数が少ない場合に機能します。 mat = X11.as_matrix(columns=None) values, counts = np.unique(mat.astype(str), return_counts=True) for x in values: X11[x] = …

4
IMDB Webページをこする方法は?
データ分析の学習の一環として、Pythonを使用してWebスクレイピングを自分で学習しようとしています。次のURLのimdb Webページをスクレイピングしようとしています:http : //www.imdb.com/search/title? sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoupモジュールを使用しています。以下は私が使用しているコードです: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, genres,runtime, rating, year 次の出力が得られます。 The Shawshank …

2
多数の機能を備えたロジスティック回帰を実行するにはどうすればよいですか?
330のサンプルと各サンプルに27の特徴を持つデータセットがあり、ロジスティック回帰のバイナリクラスの問題があります。 「10の場合のルール」によると、各機能を含めるには少なくとも10のイベントが必要です。しかし、私は20%の陽性クラスと80%の陰​​性クラスの不均衡なデータセットを持っています。 その結果、イベントは70件になり、ロジスティックモデルに含めることができる機能は約7/8だけになります。 すべての機能を予測変数として評価したいのですが、機能を手動で選択したくありません。 それであなたは何を提案しますか?7つの機能をすべて組み合わせる必要がありますか?アソシエーションモデルで各機能を単独で評価し、最終的なモデルに最適な機能のみを選択する必要がありますか? カテゴリカルな機能と継続的な機能の扱いについても知りたいのですが、混在させることはできますか?カテゴリー[0-1]と連続[0-100]がある場合、正規化する必要がありますか? 私は現在Pythonを使用しています。 あなたの助けをありがとう!

3
DataFrameで連続するゼロを見つけ、条件付き置換を行います
私はこのようなデータセットを持っています: サンプルデータフレーム import pandas as pd df = pd.DataFrame({ 'names': ['A','B','C','D','E','F','G','H','I','J','K','L'], 'col1': [0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0], 'col2': [0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0]}) 私はいくつかの交換したい0のではcol1とcol2と1さんが、それに置き換わるものではありませ0「3以上の場合だ0sが同じ列で連続しています」。これはパンダでどのように行うことができますか? 元のデータセット: names col1 col2 A 0 0 B 1 0 C 0 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.