タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

2
パンダの2つの列でグループ化された値を合計する方法
次のようなPandas DataFrameがあります。 df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 このような新しいDataFrameを生成するにはどうすればよいですか: Date one two 0 2017-1-1 3 …

3
PySparkで複数のデータフレームを行ごとにマージする
私は10個のデータフレーム持っているpyspark.sql.dataframe.DataFrameから取得した、randomSplitと(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)今私は9に参加したいtd、私はそれを行うべきか、単一のデータフレームにS」を? 私はすでにを試しましたunionAllが、この関数は2つの引数のみを受け入れます。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 3つ以上のデータフレームを行ごとに結合する方法はありますか? これを行う目的はCrossValidator、PySpark メソッドを使用せずに手動で10倍のクロス検証を実行することです。したがって、9をトレーニングに、1をテストデータに、それから他の組み合わせで繰り返します。

2
train_test_split()エラー:サンプル数が一致しない入力変数が見つかりました
Pythonはかなり新しいですが、いくつかの分類データに基づいて最初のRFモデルを構築します。すべてのラベルをint64数値データに変換し、numpy配列としてXおよびYにロードしましたが、モデルをトレーニングしようとするとエラーが発生します。 配列は次のようになります。 >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

2
ケラスvs. tf.keras
私は間を選択する際に混乱ビットだKeras(keras-チーム/ keras)とtf.keras私の新しい研究プロジェクトのために(tensorflow / tensorflow /パイソン/ keras /)。 Kerasは誰にも所有されていないという議論があります。そのため、人々は貢献することに満足しており、将来プロジェクトを管理するのがはるかに容易になります。‬ 他の側では、tf.kerasは、Googleがこれより厳密なテストとメンテナンスを所有しています。さらに、これはTensorflow v.2に存在する新機能を利用するためのより良いオプションのようです。 ですから、データサイエンス(機械学習)プロジェクト(研究段階)を開始するには、最初は両方とも大丈夫ですが、どちらを選択しますか?!‬

3
OrdinalEncoderとLabelEncoderの違い
MLに関する本を読んだ後、scikit-learn learnの公式ドキュメントを調べていたところ、次のことに遭遇しました。 ドキュメンテーションではそれについて説明されていsklearn.preprocessing.OrdinalEncoder()ますが、本ではそれについて説明さsklearn.preprocessing.LabelEncoder()れていました。誰かが私に2つの違いを教えてくださいませんか?

3
ロジスティック回帰におけるコスト関数のPython実装:ある式ではドット乗算、別の式では要素ごとの乗算
ロジスティック回帰の設定におけるPython、numpyおよび行列の乗算に関連する非常に基本的な質問があります。 まず、数学表記を使用していないことをおaび申し上げます。 マトリックスドット乗算と要素ごとのプルティプリケーションの使用について混乱しています。コスト関数は次のように与えられます: そして、Pythonで私はこれを次のように書いています cost = -1/m * np.sum(Y * np.log(A) + (1-Y) * (np.log(1-A))) しかし、たとえばこの式(最初の式-wに関するJの微分) は dw = 1/m * np.dot(X, dz.T) 上記でドット乗算を使用するのが正しい理由がわかりませんが、コスト関数では要素ごとの乗算を使用します。 cost = -1/m * np.sum(np.dot(Y,np.log(A)) + np.dot(1-Y, np.log(1-A))) これは詳しく説明されていませんが、質問は非常に単純なので、基本的なロジスティック回帰の経験がある人でも私の問題を理解できると思います。

1
経度/緯度機能を扱う方法[終了]
閉じた。この質問には詳細または明確さが必要です。現在、回答を受け付けていません。 この質問を改善したいですか?詳細を追加し、この投稿を編集して問題を明確にします。 閉じた3年前。 25個の機能を持つ架空のデータセットに取り組んでいます。特徴の2つは場所の緯度と経度であり、その他はさまざまな範囲のpH値、標高、windSpeedなどです。他の機能で正規化を実行できますが、緯度/経度機能にどのようにアプローチしますか? 編集:これは、農業の収量を​​予測する問題です。緯度/経度は非常に重要だと思います。ロケーションは予測に不可欠であるため、ジレンマになります。


4
Kerasを使用したLSTM-RNNのハイパーパラメーター検索(Python)
Keras RNNチュートリアルから:「RNNには注意が必要です。バッチサイズの選択が重要であり、損失とオプティマイザーの選択が重要です。いくつかの構成は収束しません。」 したがって、これはKeras上のLSTM-RNNのハイパーパラメーターのチューニングに関するより一般的な質問です。RNNに最適なパラメーターを見つけるためのアプローチについて知りたいです。 KerasのGithubでIMDBの例から始めました。 メインモデルは次のようになります。 (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = Sequential() model.add(Embedding(max_features, 128, input_length=maxlen)) model.add(LSTM(128)) model.add(Dropout(0.5)) model.add(Dense(1)) model.add(Activation('sigmoid')) # try using different optimizers …

3
Pythonでの画像の特徴抽出
私のクラスでは、2つの分類器を使用してアプリケーションを作成し、画像内のオブジェクトがポルフィラ門(seasponge)または他のオブジェクトの例であるかどうかを判断する必要があります。 しかし、Pythonでの特徴抽出技術に関しては、完全に失われています。私のアドバイザーは、クラスでカバーされていない画像を使用するように私を説得しました。 誰もが意味のある文書や読書を検討したり、検討する方法を提案したりできますか?

4
膨大なデータのPythonでのt-sne実装の速度を改善する
それぞれ200次元のほぼ100万のベクトルで次元削減を行いたい(doc2vec)。モジュールのTSNE実装を使用していsklearn.manifoldますが、主な問題は時間の複雑さです。でもmethod = barnes_hut、計算速度はまだ遅いです。メモリー不足になることもあります。 130G RAMを搭載した48コアプロセッサで実行しています。並列に実行する方法や、プロセスを高速化するために豊富なリソースを使用する方法はありますか。

4
tfrecordファイルをシャードに分割する利点は何ですか?
私はTensorflowで音声認識に取り組んでおり、LSTM NNを大規模なウェーブデータセットでトレーニングする予定です。パフォーマンスが向上するため、tfrecordsを使用する予定です。tfrecordsファイルが断片に分割されるインターネット(例:Inception)にはいくつかの例があります。私の質問は、tfrecordsファイルをシャードに入れることの利点は何ですか?この分割によりパフォーマンスが向上しますか?

3
時系列での異常検出に適したパッケージを探しています
時系列の異常検出に使用できる包括的なオープンソースパッケージ(できればpythonまたはR)はありますか? scikit-learnには1つのクラスのSVMパッケージがありますが、時系列データ用ではありません。たとえば、異常検出にベイジアンネットワークを使用する、より洗練されたパッケージを探しています。


9
PydotPlus内でインポートしたときにGraphVizが機能しない( `GraphVizの実行可能ファイルが見つかりません`)
私はこれらのパッケージをかなり長い間動作させるように努めてきましたが、成功しませんでした。基本的にエラーは: GraphViz's Executables not found 編集:私はlog元々エラーのある端末を投稿していませんでした。私はUbuntu今使用しているので、過去に取得したものとまったく同じエラーを再現することはできません(1年前、これまでははるかに遠い...)。ただし、現在の設定で同様のエラーが発生しています。で仮想環境を使用しているときでもpipenv。エラーは、@张乾元の回答に記載されている行に起因するようです: Traceback (most recent call last): File "example.py", line 49, in <module> Image(graph.create_png()) File "/home/philippe/.local/lib/python3.6/site-packages/pydotplus/graphviz.py", line 1797, in <lambda> lambda f=frmt, prog=self.prog: self.create(format=f, prog=prog) File "/home/philippe/.local/lib/python3.6/site-packages/pydotplus/graphviz.py", line 1960, in create 'GraphViz\'s executables not found') pydotplus.graphviz.InvocationException: GraphViz's executables not found 私がインストールしようとしたGraphViz2種類の方法を経由して:経由pip install graphvizとを通じて.msiパッケージ(ともインストールしようpydot、pydotplusとgraphviz多くの異なる順序で)。 私が実行しようとしているコードは、単にIris Datasetのdot-to-pngコンバーターです。 from …
17 python 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.