タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。


8
scikit_learnモデルのfitとfit_transformの違いは?
私はデータサイエンスの初心者でfitありfit_transform、scikit-learnのメソッドとメソッドの違いを理解していません。誰がデータを変換する必要があるのか​​を簡単に説明できますか? トレーニングデータにモデルを適合させ、テストデータに変換することはどういう意味ですか?たとえば、カテゴリ変数をトレイン内の数値に変換し、新しい機能セットをテストデータに変換するということですか?

15
機械学習のためのPython vs R
学術目的で機械学習アプリケーションを開発し始めたところです。私は現在Rを使用しており、Rで自分を訓練しています。しかし、多くの場所で、Pythonを使用している人を見てきました。 学界や産業界で人々は何を使用していますか?また、推奨事項は何ですか?

11
scikit学習を使用するSVMは無限に実行され、実行を完了しません
595605行と5列(機能)のあるトレーニングデータセットと、397070行のテストデータセットでscikit learn(python)を使用してSVRを実行しようとしています。データは前処理され、正規化されています。 テスト例を正常に実行することはできますが、データセットを使用して実行し、1時間以上実行しても、プログラムの出力または終了を確認できませんでした。別のIDEを使用して、さらにはターミナルからも実行しようとしましたが、それは問題ではないようです。また、「C」パラメーター値を1から1e3に変更してみました。 scikitを使用するすべてのsvm実装で同様の問題に直面しています。 私はそれが完了するのを十分に待っていませんか?この実行にはどれくらい時間がかかりますか? 私の経験から、それは数分以上は必要ありません。 システム構成は次のとおりです。Ubuntu14.04、8GB RAM、大量の空きメモリ、第4世代i7プロセッサ

1
パンダのisna()とisnull()の違い
私はかなり長い間、パンダを使用しています。しかし、パンダisna()とisnull()パンダの違いはわかりません。さらに重要なことは、データフレーム内の欠損値を識別するためにどれを使用するかです。 値がnaまたはとして検出される方法の基本的な違いは何nullですか?

6
決定木/ランダムフォレストの機能としての文字列
決定木/ランダムフォレストのアプリケーションでいくつかの問題を行っています。機能として数字と文字列(国名など)を持つ問題を解決しようとしています。ライブラリであるscikit-learnは、パラメータとして数字のみを使用しますが、文字列を注入するだけでなく、かなりの知識が必要です。 このようなシナリオをどのように処理しますか? Pythonのハッシュなどのメカニズムにより、文字列を数値に変換できます。しかし、決定木問題で文字列を処理する方法に関するベストプラクティスを知りたいと思います。

8
Pythonでのオープンソースの異常検出
問題の背景: 私は、IT監視スペースで見つかったログファイルに似たログファイルを含むプロジェクトに取り組んでいます(ITスペースを最もよく理解しています)。これらのログファイルは時系列データであり、さまざまなパラメーターの数百/数千の行に編成されています。各パラメーターは数値(浮動)であり、各時点に重要な値またはエラー値があります。私の仕事は、異常検出(スパイク、フォール、一部のパラメーターが同期していない異常なパターン、奇妙な1次/ 2次などの派生動作など)のためにログファイルを監視することです。 同様の課題で、SplunkとPrelertを試しましたが、現在はオープンソースのオプションを検討しています。 制約: よく知っているのでPythonに限定しています。Rへの切り替えと関連する学習曲線を遅らせたいと思っています。R(または他の言語/ソフトウェア)に対する圧倒的なサポートがないように思われない限り、このタスクのためにPythonに固執したいと思います。 また、私は今のところWindows環境で作業しています。Windowsで小さなログファイルをサンドボックス化し続けたいのですが、必要に応じてLinux環境に移行できます。 リソース: 結果として行き止まりで以下をチェックアウトしました。 Pythonや不正検出のための機械学習アルゴリズムを実装するためのR。ここの情報は役立ちますが、残念ながら、適切なパッケージを見つけるのに苦労しています: Twitterの「AnomalyDetection」はRにあり、Pythonに固執したいと思います。さらに、Pythonポートの特異性は、Windows環境での実装で問題を引き起こすようです。 私の次の試みであるSkylineは、(GitHubの問題から)ほぼ廃止されたようです。オンラインがあまりサポートされていないように思えるので、私はこれについて深く掘り下げていません。 scikit-learn私はまだ調査中ですが、これははるかにマニュアルのようです。草むらのアプローチは私には問題ありませんが、学習ツールの私のバックグラウンドは弱いので、Splunk + Prelertに似たアルゴリズムのような技術的側面のブラックボックスのようなものが欲しいです。 問題の定義と質問: パッケージまたはライブラリを介してPythonの時系列ログファイルからの異常検出プロセスを自動化するのに役立つオープンソースソフトウェアを探しています。 そのようなことは、当面のタスクを支援するために存在しますか、それとも私の心の中に想像上のものがありますか? 背景の基礎や概念など、目標を達成するための具体的な手順を誰でも支援できますか? これは、尋ねるのに最適なStackExchangeコミュニティですか、それともStats、Math、またはSecurityまたはStackoverflowがより良いオプションですか? EDIT [2015年7月23日] に最新のアップデートがありますpyculiarityをしているように見える固定 Windows環境のために!私はまだ確認していませんが、コミュニティにとって別の便利なツールになるはずです。 編集[2016-01-19] マイナーアップデート。これに取り組む時間はありませんでしたが、特定の詳細な研究を続ける前に、この問題の基礎を理解するために一歩後退しています。たとえば、私が取っている2つの具体的な手順は次のとおりです。 異常検出のためのWikipedia記事[ https://en.wikipedia.org/wiki/Anomaly_detection ] から始めて、完全に理解し、[ https://などの他のリンクされたWikipedia記事の概念階層を上下に移動しますen.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]、その後に、[ https://en.wikipedia.org/wiki/Machine_learning ]。 Chandola et al 2009 "Anomaly Detection:A Survey" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]およびHodge et al 2004 によって行われたすばらしい調査でのテクニックの調査「異常値検出方法の調査」[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 …

2
Kerasで異なる長さの例を使用してRNNをトレーニングする
私はRNNについて学び始めようとしていますが、Kerasを使用しています。私はバニラRNNおよびLSTMレイヤーの基本的な前提を理解していますが、トレーニングの特定の技術的ポイントを理解するのに苦労しています。 でkerasドキュメントは、RNN層への入力は、形を持たなければならないと言います(batch_size, timesteps, input_dim)。これは、すべてのトレーニング例のシーケンス長が固定されていることを示していますtimesteps。 しかし、これは特に典型的なものではありませんか?さまざまな長さの文に対してRNNを動作させたい場合があります。いくつかのコーパスでトレーニングするとき、さまざまな長さの一連の文をフィードします。 私がすべきことは、トレーニングセット内の任意のシーケンスの最大長を見つけてゼロパッドすることです。しかし、それは、それより長い入力長でテスト時に予測を行うことができないことを意味しますか? これはKerasの特定の実装に関する質問ですが、この種の一般的な問題に直面したときに人々が通常何をするかについても尋ねています。
61 python  keras  rnn  training 

8
地理的位置座標のクラスタリング(緯度、経度のペア)
位置情報クラスタリングの正しいアプローチとクラスタリングアルゴリズムは何ですか? 次のコードを使用して、地理位置座標をクラスター化しています。 import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], c=y); plt.show() 距離関数としてHaversine式ではなくユークリッド距離を使用するため、地理位置情報クラスタリングにK-meansを使用するのは正しいですか?

9
Pythonを使用した再現可能なデータサイエンスのためのツールとプロトコル
Pythonを使用したデータサイエンスプロジェクトに取り組んでいます。プロジェクトにはいくつかの段階があります。各ステージは、データセットの取得、Pythonスクリプト、補助データ、構成およびパラメーターの使用、および別のデータセットの作成で構成されます。コードをgitに保存し、その部分をカバーします。私は聞いてみたい: データバージョン管理のためのツール。 ステージと実験を再現できるツール。 そのようなプロジェクトのプロトコルおよび推奨ディレクトリ構造。 自動化されたビルド/実行ツール。

4
ニューラルネットワーク:使用するコスト関数?
主にニューラルネットワークを使用した実験にTensorFlowを使用しています。かなりの実験(XOR-Problem、MNIST、いくつかのリグレッションなど)を行っていますが、全体的に初心者と見なされる可能性があるため、特定の問題に対して「正しい」コスト関数を選択するのに苦労しています。 TensorFlowに来る前に、PythonとNumPyを使用して、完全に接続されたMLPとリカレントネットワークをいくつかコーディングしましたが、ほとんどの場合、単純な2乗誤差と単純な勾配不足で十分な問題がありました。 ただし、TensorFlowはカスタムコスト関数を作成するだけでなく、かなり多くのコスト関数を提供するので、ニューラルネットワークのコスト関数専用のチュートリアルがあるかどうか知りたいのですが?(私はすでに公式のTensorFlowチュートリアルの半分のように実行しましたが、特定のコスト関数または学習者が特定の問題に使用される理由を実際には説明していません-少なくとも初心者には) いくつか例を挙げます: cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(y_output, y_train)) 1つのベクトルの合計が1になるように、両方の入力にsoftmax関数を適用すると思いますが、ロジットとのクロスエントロピーは正確には何ですか?私はそれが値を合計し、クロスエントロピーを計算すると思った...だからメトリック測定?!出力を正規化し、合計して二乗誤差を取ると、これは非常に同じではないでしょうか?さらに、なぜこれがMNISTなどに使用されるのですか(またはさらに難しい問題)?私は10または多分1000のクラスのように分類したい場合は、に関する情報破棄完全に値を合計しません。これは、実際の出力はクラスでしたの? cost = tf.nn.l2_loss(vector) これは何のため?l2の損失はほぼ二乗誤差であると考えましたが、TensorFlowのAPIは、入力が1つのテンソルに過ぎないことを示しています。まったく考えがつかないのですか?! 加えて、クロスエントロピーについてこれをかなり頻繁に見ました: cross_entropy = -tf.reduce_sum(y_train * tf.log(y_output)) ...しかし、なぜこれが使用されるのですか?数学的にクロスエントロピーの損失ではありません: -1/n * sum(y_train * log(y_output) + (1 - y_train) * log(1 - y_output)) (1 - y_train) * log(1 - y_output)ほとんどのTensorFlowの例の一部はどこにありますか?不足していませんか? 回答:この質問は非常に開かれていることは知っていますが、すべての問題/コスト関数が詳細にリストされている10ページほどになるとは思いません。どのコスト関数を使用するかについての簡単な要約(一般的にもTensorFlowでも、私にとっては重要ではありません)と、このトピックに関する説明が必要です。および/または初心者向けのソース;)

7
ValueError:入力にNaN、無限大、またはdtype( 'float32')には大きすぎる値が含まれています
RandomForestモデルを使用してテストデータを予測すると、ValueErrorが発生しました。 私のコード: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) エラー: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). テストデータセットで不適切な値を見つけるにはどうすればよいですか?また、これらのレコードを削除したくないのですが、平均値または中央値に置き換えることはできますか? ありがとう。

3
パンダとの相関行列の計算と可視化
いくつかのエントリを持つパンダデータフレームがあり、あるタイプの店舗の収入間の相関関係を計算したいと思います。収入データ、活動エリアの分類(劇場、衣料品店、食品など)およびその他のデータを備えた店舗が多数あります。 新しいデータフレームを作成し、同じカテゴリに属する​​すべての種類の店舗の収入を含む列を挿入しようとしましたが、返されるデータフレームには最初の列のみが入力され、残りはNaNでいっぱいです。私が疲れたコード: corr = pd.DataFrame() for at in activity: stores.loc[stores['Activity']==at]['income'] そうしたいので、.corr()店舗のカテゴリ間の相関行列を与えるために使用できます。 その後、matplolibでマトリックス値(ピアソンの相関を使用するため、-1から1)をプロットする方法を知りたいと思います。

5
パンダで分析するために20GBファイルを開く
現在、機械学習の目的でパンダとpythonを使用してファイルを開こうとしていますが、それらをすべてDataFrameに入れることが理想的です。現在、ファイルのサイズは18 GBで、RAMは32 GBですが、メモリエラーが発生し続けます。 あなたの経験からそれは可能ですか?そうでない場合、これを回避するより良い方法を知っていますか?(ハイブテーブル?RAMのサイズを64に増やしますか?データベースを作成し、Pythonからアクセスします)

3
KerasのマルチGPU
複数のGPUでトレーニングを分割するために、kerasライブラリ(またはテンソルフロー)でどのようにプログラムできますか?8個のGPUを備えたAmazon ec2インスタンスにいて、それらすべてを使用してより高速にトレーニングしたいとしますが、コードは単一のCPUまたはGPU用です。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.