タグ付けされた質問 「anaconda」

5
パンダで分析するために20GBファイルを開く
現在、機械学習の目的でパンダとpythonを使用してファイルを開こうとしていますが、それらをすべてDataFrameに入れることが理想的です。現在、ファイルのサイズは18 GBで、RAMは32 GBですが、メモリエラーが発生し続けます。 あなたの経験からそれは可能ですか?そうでない場合、これを回避するより良い方法を知っていますか?(ハイブテーブル?RAMのサイズを64に増やしますか?データベースを作成し、Pythonからアクセスします)

7
Python作業環境を別のマシンにクローンする方法は?
ワークステーションでPython(Anaconda + Flask)を使用して機械学習モデルを開発しましたが、すべてうまくいきます。後で、このプログラムを別のマシンに出荷しようとしましたが、もちろん同じ環境をセットアップしようとしましたが、プログラムは実行に失敗しました。プログラムを他のマシンにコピーし、そこでもスムーズに実行されるようにしました。 失敗した場合の問題を把握することはできません(プログラムコードとエラーメッセージの両方が豊富なので、ここでは説明できません)。 。 だから、私の質問は、特定のプログラムがうまく動作する環境を考えると、どうすればそれがうまく動作するはずの別のプログラムにクローンを作成できますか?もちろん、完全なシステムの複製なしで;)
26 python  anaconda 

2
パンダデータフレームの行を反復して新しい列を作成する
私はこのようなパンダデータフレーム(X11)を持っています:実際には私は99列までdx99まで持っています dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 25041、40391、5856などのセル値用に追加の列を作成したいので、25041が任意のdxs列の特定の行にある場合、値が1または0の列25041があります。私はこのコードを使用していますが、行数が少ない場合に機能します。 mat = X11.as_matrix(columns=None) values, counts = np.unique(mat.astype(str), return_counts=True) for x in values: X11[x] = …

3
Sparkのヒープサイズを設定または取得する方法(Pythonノートブック経由)
Macbook ProでIPython NotebookのSpark(1.5.1)を使用しています。SparkとAnacondaをインストールした後、ターミナルからIPythonを起動しますIPYTHON_OPTS="notebook" pyspark。これにより、すべてのIPythonノートブックを一覧表示するWebページが開きます。それらの1つを選択して、2番目のWebページで開くことができます。SparkContext(sc)はすでに使用可能で、ノートブックの最初のコマンドはでhelp(sc)、正常に実行されます。私が抱えている問題は、対処方法がわからないJavaヒープスペースエラーが発生することです。現在のJavaヒープ設定を表示する方法と、セットアップのコンテキスト内でそれを増やす方法 次のエラーメッセージが表示されます。 Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 19 in stage 247.0 failed 1 times, most recent failure: Lost task 19.0 in stage 247.0 (TID 953, localhost): java.lang.OutOfMemoryError: Java heap space
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.