タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

2
大規模なデータセットの効率的な次元削減
約100万行と約500Kのスパースフィーチャのデータセットがあります。次元を1K〜5Kの密集したフィーチャのオーダーのどこかに減らしたい。 sklearn.decomposition.PCAスパースデータでは機能しませんsklearn.decomposition.TruncatedSVD。使用しようとしましたが、メモリエラーがすぐに発生します。このスケールで効率的に次元を削減するための私のオプションは何ですか?

3
pysparkデータフレーム内のすべての数値を定数値で置き換えます
「null」要素と数値要素で構成されるpysparkデータフレームを考えます。一般に、数値要素には異なる値があります。データフレームのすべての数値を定数の数値(たとえば、値1)に置き換えるにはどうすればよいですか?前もって感謝します! pysparkデータフレームの例: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ 3 & null & 1.2 & null \end{array} 結果は次のようになります。 123c111nullc21null1c311nullc1c2c3111121null13null1null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 1 …

2
標準スケーラーを使用する場合とノーマライザを使用する場合
私は、標準的なスカラーが何をするのかとノーマはscikitドキュメントごとに、何をするかを理解する:ノーマ、標準スケーラーを。 標準スケーラーがいつ適用されるか知っています。しかし、どのシナリオでノーマライザが適用されますか?一方が他方よりも優先されるシナリオはありますか?

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
Kerasを使用して時系列の将来の値を予測する方法
KerasでこのLSTMニューラルネットワークを構築しました import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter = ';',header=None, …

3
ニューラルネットワーク-最も類似した画像を見つける
私はPython、scikit-learn、kerasを使用しています。次のような前面時計の画像が30万枚あります: Watch_1、Watch_2、Watch_3。 入力として実際の時計の写真を受け取って、上の写真よりも理想的ではない状況で撮影したプログラム(異なる背景色、暗い稲妻など)を書き、それに3000の時計の中で最も類似している時計を見つけたいと思います。同様に、薄いレースの丸い茶色の時計の写真を入力として与えると、丸い形の暗い色の薄いレースの出力時計として期待されます。 これを行うための最も効率的な機械学習アルゴリズムは何ですか? たとえば、このリンクをたどることで、2つの異なる解決策を考えています。 1)CNNを特徴抽出器として使用し、入力画像を参照して、画像のすべてのペアについてこれらの特徴間の距離を比較します。 2)シャムニューラルネットワークで2つのCNNを使用して画像を比較する。 これらの2つのオプションは、このタスクに最適なオプションですか、それとも他のことを提案しますか? このタスクについて、事前にトレーニングされたニューラルネットワーク(事前に定義されたハイパーパラメーターを使用)を知っていますか? これについてStackOverflowで興味深い投稿をいくつか見つけましたが、それらはかなり古いです:Post_1、Post_2、Post_3。

1
Tensorflowでバッチをトレーニングする
現在、大きなcsvファイル(> 70GBで6,000万行以上)でモデルをトレーニングしようとしています。そのために、tf.contrib.learn.read_batch_examplesを使用しています。この関数が実際にデータを読み取る方法を理解するのに苦労しています。たとえば50.000のバッチサイズを使用している場合、ファイルの最初の50.000行を読み取りますか?ファイル全体(1エポック)をループする場合は、num_rows / batch_size = 1.200ステップ数をestimator.fitメソッドに使用する必要がありますか? 現在使用している入力関数は次のとおりです。 def input_fn(file_names, batch_size): # Read csv files and create examples dict examples_dict = read_csv_examples(file_names, batch_size) # Continuous features feature_cols = {k: tf.string_to_number(examples_dict[k], out_type=tf.float32) for k in CONTINUOUS_COLUMNS} # Categorical features feature_cols.update({ k: tf.SparseTensor( indices=[[i, 0] for i in range(examples_dict[k].get_shape()[0])], values=examples_dict[k], shape=[int(examples_dict[k].get_shape()[0]), 1]) for …

1
TensorflowニューラルネットワークTypeError:Fetch引数に無効なタイプがあります
私はテンソルフローを使用して単純なニューラルネットワークを作成していますが、自分で収集したデータを使用していますが、それは協力的ではありません:PIは、修正できない、または修正を見つけることができないエラーに遭遇しました。 エラーメッセージ: TypeError:2861.6152のFetch引数2861.6152に無効なtypeが含まれています。文字列またはTensorでなければなりません。(float32をTensorまたはOperationに変換できません。) エラーは私のコードの次の行を参照しています: _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: batch_output}) コードで次の行をコメントアウトしてもエラーが発生しないことはすでにわかっています。 prediction = neural_network_model(champion_data) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(prediction, item_data)) optimizer = tf.train.AdamOptimizer().minimize(cost) _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: batch_output}) したがって、これらの行の1つが、期待どおりに表示されないものを取得しています。私はすでに明白なことを試しました(batch_inputとbatch_outputからnp.array()を削除するか、それをlist()で置き換えます)が、それは問題を解決しません。私の現在の仮説は、neural_network_model(champion_data)の出力が何らかの形で間違った形またはタイプであるというものですが、それをテストする方法、またはそうであることが判明した場合の解決方法はわかりません。 完全なコードはここにあります:https : //gist.github.com/HasseIona/4bcaf9f95ae828e056d5210a2ea07f88 編集:neural_network_modelに入力されるチャンピオンデータ、予測、およびコストがすべてテンソルであることを確認しました。私は問題がなんとかしてコードのfeed_dict = {}の部分にあるという仮説を使用して問題を解決しようとしましたが、今のところどこにも行きません

4
文から情報を抽出する
シンプルなチャットボットを作成しています。ユーザーの応答から情報を取得したい。シナリオ例: Bot : Hi, what is your name? User: My name is Edwin. 文からエドウィンという名前を抽出したいと思います。ただし、ユーザーは次のようなさまざまな方法で応答できます。 User: Edwin is my name. User: I am Edwin. User: Edwin. 単語間の依存関係に頼ろうとしましたが、うまくいきません。 この問題に取り組むためにどのようなテクニックを使用できるかについてのアイデアはありますか? [更新しました] 名前付きエンティティの認識と、品詞のタガーとパーサーをテストしました。ほとんどのモデルは、個人名または固有名詞のエンティティの最初の文字が大文字でなければならないようにトレーニングされていることがわかりました。これは通常のドキュメントにも当てはまりますが、チャットボットには関係ありません。例えば User: my name is edwin. ほとんどのNERはこれを認識できませんでした。
11 python  nlp 


3
SparkでのIPython / Jupyterの問題(認識されないエイリアス)
いくつかのハードウェアでクラスタを構築するために出費する前に、Sparkを試すためのVMセットの設定に取り組んでいます。簡単な説明:私は応用機械学習のバックグラウンドを持つ学者であり、データサイエンスでは仕事がやや終了しました。私はコンピューティングにツールを使用していますが、それらを設定する必要はほとんどありません。 3つのVM(1つのマスター、2つのスレーブ)を作成し、Sparkを正常にインストールしました。すべてが正常に機能しているようです。私の問題は、クラスター上のマシンで実行されていないブラウザーから接続できるJupyterサーバーを作成することです。 Jupyter Notebookを正常にインストールしました...実行されます。Sparkでリモートサーバーに接続する新しいIPythonプロファイルを追加しました。 今問題 コマンド $ ipython --profile=pyspark 正常に動作し、スパーククラスターに接続します。しかしながら、 $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably have no effect. デフォルトでは、defaultプロファイルではなくpysparkプロファイルになります。 私のノートブック構成pysparkは: c = get_config() c.NotebookApp.ip = '*' c.NotebookApp.open_browser = False c.NotebookApp.port = 8880 c.NotebookApp.server_extensions.append('ipyparallel.nbextension') c.NotebookApp.password = u'some password is here'

2
Pysparkでカテゴリデータを数値データに変換する方法
私はIpythonノートブックを使用してpysparkアプリケーションを操作しています。収入が5万人の範囲に収まるかそれ以上かを判断するための多数のカテゴリ列を含むCSVファイルがあります。すべての入力を使用して分類アルゴリズムを実行し、収入の範囲を決定したいと思います。マップされた変数に変数のディクショナリーを作成し、マップ関数を使用して変数を処理する数値にマップする必要があります。基本的に、モデルの実装に取り​​掛かれるように、データセットは数値形式にする必要があります。 データセットには、教育、婚姻状況、労働者階級などのカテゴリ列があります。pysparkで数値列に変換する方法を誰かに教えてもらえますか? workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ワーククラスのキーと値のペアを含むサンプルディクショナリを作成しました。しかし、これをマップ関数で使用して、CSVファイルのカテゴリデータを対応する値に置き換える方法がわかりません。 wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) if s in wcdict else s) print(df_new) これは、カテゴリデータを数値データに変換するために通常のpythonで記述したコードです。正常に動作します。スパークのコンテキストで変換を実行したい。また、データソースには9つのカテゴリ列があります。辞書の更新プロセスを自動化して9列すべてにKVペアを設定する方法はありますか?

3
マルチパーティシステムでの選挙の結果を計算するために使用する回帰
議会選挙の結果を予測したい。私の出力は、各当事者が受け取る%になります。3つ以上の関係者がいるため、ロジスティック回帰は実行可能なオプションではありません。パーティごとに個別の回帰を行うこともできますが、その場合、結果は何らかの形で互いに独立しています。結果の合計が100%になるとは限りません。 どの回帰(または他の方法)を使用する必要がありますか?特定のライブラリを介してRまたはPythonでこのメソッドを使用することは可能ですか?

1
t-SNE Pythonの実装:Kullback-Leibler divergence
[1]の場合と同様に、t-SNEは、特定の条件が満たされるまで、カルバックライブラー(KL)の発散を徐々に減らします。t-SNEの作成者は、KLダイバージェンスを視覚化のパフォーマンス基準として使用することを提案しています。 t-SNEが報告するカルバックライブラー分岐を比較できます。t-SNEを10回実行し、KLダイバージェンスが最も低いソリューションを選択することは完全に問題ありません[2] 私はt-SNEの2つの実装を試しました: python:sklearn.manifold.TSNE()。 R:tsne、library(tsne)から。 これらの実装はどちらも、冗長性が設定されている場合、反復ごとにエラー(カルバックライブラーダイバージェンス)を出力します。ただし、ユーザーがこの情報を取得することを許可していないため、私には少し奇妙に見えます。 たとえば、コード: import numpy as np from sklearn.manifold import TSNE X = np.array([[0, 0, 0], [0, 1, 1], [1, 0, 1], [1, 1, 1]]) model = TSNE(n_components=2, verbose=2, n_iter=200) t = model.fit_transform(X) 生成する: [t-SNE] Computing pairwise distances... [t-SNE] Computed conditional probabilities for sample 4 / …

1
CPU使用率とメモリに関するscikit-learn n_jobsパラメータ
scikit-learnのほとんどの推定器には、/を使用して並列ジョブを作成するためのn_jobsパラメーターがあります。これを設定すると、Pythonプロセスが1つだけ作成され、コアが最大になるため、CPU使用率が2500%を上回っていることに気付きました。これは、正の整数> 1に設定するのとはかなり異なります。これにより、使用率が100%を超える複数のPythonプロセスが作成されます。fitpredictjoblib-1 これを設定すると、マルチCPU LinuxサーバーのCPUとコアの使用にどのように影響しますか?(たとえば、n_jobs=88つのCPUが完全にロックされている場合、またはCPUが他のタスク/プロセス用にいくつかのコアをまだ予約しているかどうか) さらに、大規模なデータセットをMemoryError設定n_jobs=-1するときに、たまに表示されます。ただし、メモリ使用量は通常、単一のPythonプロセスで約30〜40%です。の値に応じて、データとメモリはどのように管理/コピーされn_jobsますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.