タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

1
異なるPythonカーネル間でDataFrameをリロードしないでください
変数(大きなテーブル/データフレーム)をメモリに保持し、複数のipythonノートブックで共有する方法はありますか? 私はMATLABの永続変数に概念的に似ている何かを探しています。そこで、複数の個別のエディター(ノートブック)からカスタム関数/ライブラリーを呼び出し、その外部関数に結果(または大きなテーブル)をキャッシュさせることができます。 頻繁に使用するテーブル(ノートブックから呼び出されるカスタムライブラリを介して読み込まれる)の再読み込みは避けたいと思います。これは、新しい分析を開始するたびに約2〜3分かかるためです。

3
同一の値をグループ化し、Pythonでその頻度を数える方法は?
Pythonを使用した分析の初心者なので、穏やかにしてください:-)この質問に対する答えが見つかりませんでした。別の形式ですでに他の場所で回答されている場合は、お詫びします。 小売店のトランザクションデータのデータセットがあります。変数と説明は次のとおりです。 section:ストアのセクション、str。 prod_name:製品の名前、str; 領収書:請求書の番号、int; レジ係、レジ係の番号、int; コスト:アイテムのコスト、フロート。 MM / DD / YY形式の日付、str; 時間、形式HH:MM:SS、str; 領収書は、1回のトランザクションで購入されたすべての製品に対して同じ値を持つため、1回のトランザクションで行われた購入の平均数を決定するために使用できます。 これについて最善の方法は何ですか?基本的groupby()には、ヒストグラムを作成できるように、独自の同一の出現ごとに受信変数をグループ化するために使用したいと思います。 Pandas DataFrameでデータを操作する。 編集: 以下は、ヘッダー付きのサンプルデータです(prod_nameは実際には16進数です)。 section,prod_name,receipt,cashier,cost,date,time electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20 womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46 womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47 menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20 このサンプルセットから、領収書102857の2つのオカレンス(1つのトランザクションで2つのアイテムを購入したため)と、領収書102856およびレシート102858のそれぞれ1つのオカレンスを示す領収書のヒストグラムが予想されます。注:データセットは巨大ではありません。 100万行。

1
XGBoost線形回帰の出力が正しくない
私はXGBoostの初心者なので、無知です。これがPythonコードです: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred 出力は: [ 24.126194 24.126194] ご覧のとおり、入力データは単純な直線です。だから私が期待する出力は[40,50]です。ここで何が悪いのですか?

3
環境データに基づいて作物収量を予測する機械学習モデルを構築する
私は、10年間(2005〜2014年)の農場の気温、降水量、大豆収量に関するデータを含むデータセットを持っています。このデータに基づいて、2015年の利回りを予測したいと思います。 作物の収穫は作物の生育シーズンの終わりに行われるため、データセットには気温と降水量のDAILY値がありますが、収量は1年に1つしかありません。 回帰または他のいくつかの機械学習ベースのモデルを構築して、2015年の収穫を予測します。これは、前年の収穫と温度および降水量との関係を研究することによって導出された回帰/その他のモデルに基づいています。 scikit-learnを使用した機械学習の実行に精通しています。ただし、この問題をどのように表すかはわかりません。ここで注意が必要なのは、気温と降水量は毎日ですが、収量は1年に1つの値に過ぎないということです。 これにどのように取り組みますか?

2
scikit分類器が分類にかかる時間はどれくらいですか?
100万のラベル付きドキュメントで構成されるコーパスのテキスト分類にscikit線形サポートベクターマシン(SVM)分類器を使用することを計画しています。私がやろうとしていることは、ユーザーがキーワードを入力すると、分類子はまずそれをカテゴリーに分類し、次にそのカテゴリーのカテゴリーのドキュメント内で後続の情報検索クエリが発生することです。少し質問があります: 分類にそれほど時間がかからないことを確認するにはどうすればよいですか?より良い結果を得るために、ユーザーが分類が完了するのを待つ時間を費やす必要はありません。 ウェブサイト/ウェブアプリケーションにPythonのscikitライブラリを使用することはこれに適していますか? アマゾンまたはフリップカートがユーザークエリで分類を実行する方法を知っている人はいますか?それとも完全に異なるロジックを使用していますか?

2
ベクトル演算に基づく確率的勾配降下法?
N個のサンプルを持つデータセットを使用して、確率的勾配降下回帰アルゴリズムをトレーニングしたいとします。データセットのサイズは固定なので、データをT回再利用します。各反復または「エポック」で、トレーニングセット全体をランダムに並べ替えた後、各トレーニングサンプルを1回だけ使用します。 私の実装はPythonとNumpyに基づいています。したがって、ベクトル演算を使用すると、計算時間を大幅に短縮できます。バッチ勾配降下法のベクトル化された実装を考え出すことは非常に簡単です。ただし、確率的勾配降下法の場合、各エポックですべてのサンプルを反復する外部ループを回避する方法を理解できません。 誰かが確率的勾配降下法のベクトル化された実装を知っていますか? 編集:データセットのサイズが固定されている場合、オンライン勾配降下法を使用する理由を尋ねられました。 [1]から、オンライン勾配降下法は、バッチ勾配降下法よりも経験的コストの最小値まで収束が遅いことがわかります。ただし、一般化のパフォーマンスを測定する予想コストの最小値に速く収束します。これらの理論上の結果が私の特定の問題に及ぼす影響を、相互検証によってテストしたいと思います。ベクトル化された実装がない場合、私のオンライン勾配降下コードはバッチ勾配降下コードよりもはるかに遅くなります。これにより、相互検証プロセスが完了するまでの時間が大幅に増加します。 編集:私は、ffriendからの要求に応じて、オンライン勾配降下法の実装の疑似コードをここに含めます。回帰問題を解決しています。 Method: on-line gradient descent (regression) Input: X (nxp matrix; each line contains a training sample, represented as a length-p vector), Y (length-n vector; output of the training samples) Output: A (length-p+1 vector of coefficients) Initialize coefficients (assign value 0 to all coefficients) Calculate outputs …

2
ニューラルネットワークのデバッグ
scipy.optimize.minimize(共役勾配)最適化関数を使用して、Pythonで人工ニューラルネットワークを構築しました。 私は勾配チェックを実装し、すべてをダブルチェックしました、そしてそれが正しく機能していることは確かです。 何度か実行したところ、「最適化は正常に終了しました」に達しましたが、隠れ層の数を増やすと、正常に終了した後、仮説のコストが増加します(他のすべては同じままです)。 直感的には、隠れ層の数が増えるとコストが下がるように感じられます。これは、データに適合するより複雑な仮説を生成できるためですが、そうではないようです。 ここで何が起こっているのかを理解するのに興味がありますか、またはニューラルネットを間違って実装した場合はどうなりますか?

2
scikitのmax_depthは、決定木の枝刈りと同等ですか?
決定木を使って作成した分類器を分析していました。scikitのディシジョンツリーには、max_depthというチューニングパラメータがあります。これは決定木の枝刈りに相当しますか?そうでない場合、scikitを使用してディシジョンツリーをプルーニングするにはどうすればよいですか? dt_ap = tree.DecisionTreeClassifier(random_state=1, max_depth=13) boosted_dt = AdaBoostClassifier(dt_ap, random_state=1) boosted_dt.fit(X_train, Y_train)

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 

3

2
線形回帰、ディシジョンツリー、またはランダムフォレスト回帰を選択するのはいつですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 4年前休業。 私はプロジェクトに取り組んでおり、どのアルゴリズムを選択するかを決定するのが困難ですregression。私は1つを選ぶ必要がありますどのような条件の下で知りたいlinear regressionか、Decision Tree regressionまたはRandom Forest regression?上記のツリーの中で特定のアルゴリズムに移行することを決定するデータの特定の特性はありますか?決定を下すためにデータセットを調べる必要がある特性は何ですか?そして、もう一つが選択になるだろういくつかの理由があるdecision treeかrandom forest、アルゴリズム同じ正しさをすることによって達成することができたとしてもはlinear regression?
10 machine-learning  algorithms  random-forest  linear-regression  decision-trees  machine-learning  predictive-modeling  forecast  r  clustering  similarity  data-mining  dataset  statistics  text-mining  text-mining  data-cleaning  data-wrangling  machine-learning  classification  algorithms  xgboost  data-mining  dataset  dataset  regression  graphs  svm  unbalanced-classes  cross-validation  optimization  hyperparameter  genetic-algorithms  visualization  predictive-modeling  correlation  machine-learning  predictive-modeling  apache-spark  statistics  normalization  apache-spark  map-reduce  r  correlation  confusion-matrix  r  data-cleaning  classification  terminology  dataset  image-classification  machine-learning  regression  apache-spark  machine-learning  data-mining  nlp  parsing  machine-learning  dimensionality-reduction  visualization  clustering  multiclass-classification  evaluation  unsupervised-learning  machine-learning  machine-learning  data-mining  supervised-learning  unsupervised-learning  machine-learning  data-mining  classification  statistics  predictive-modeling  data-mining  clustering  python  pandas  machine-learning  dataset  data-cleaning  data  bigdata  software-recommendation 

1
Kerasモデルが背景を認識することを学ぶのはなぜですか?
私はPascal VOC2012でこのDeeplabv3 +のKeras実装をトレーニングするために、事前トレーニング済みのモデル(そのデータセットでもトレーニング済み)を使用してトレーニングしています。 精度がすぐに1.0に収束する奇妙な結果が得られました。 5/5 [==============================] - 182s 36s/step - loss: 26864.4418 - acc: 0.7669 - val_loss: 19385.8555 - val_acc: 0.4818 Epoch 2/3 5/5 [==============================] - 77s 15s/step - loss: 42117.3555 - acc: 0.9815 - val_loss: 69088.5469 - val_acc: 0.9948 Epoch 3/3 5/5 [==============================] - 78s 16s/step - loss: 45300.6992 …

1
マルチクラスデータセットで誤った分類を引き起こす不均衡なデータ
39のカテゴリ/クラスと850万件のレコードがあるテキスト分類に取り組んでいます。(将来的にはデータとカテゴリーが増えるでしょう)。 私のデータの構造またはフォーマットは次のとおりです。 ---------------------------------------------------------------------------------------- | product_title | Key_value_pairs | taxonomy_id | ---------------------------------------------------------------------------------------- Samsung S7 Edge | Color:black,Display Size:5.5 inch,Internal | 211 Storage:128 GB, RAM:4 GB,Primary Camera:12 MP Case cover Honor 8 | Color:transparent,Height:15 mm,width:22 mm | 212 Ruggers Men's T-Shirt | Size:L,ideal for:men,fit:regular, | 111 sleeve:half sleeve Optimum Nutrition Gold | …

1
HDF5は、別個のpythonプロセスによって同時に確実に読み書きできますか?
このプロジェクトのデータセット全体が含まれる単一のHDF5ファイルにライブデータを経時的に記録するスクリプトを書いています。私はPython 3.6を使用clickしていて、データの収集に使用するコマンドラインツールを作成することにしました。 私の懸念は、データ収集スクリプトがHDF5ファイルに書き込んでいて、まだ作成されていないMLアプリケーションが同じファイルからデータを読み取ろうとするとどうなるかです。 私はHDF5パラレルI / Oに関するHDFグループのドキュメントを調べましたが、それではあまりわかりませんでした。
9 python  dataset 

2
学習率がニューラルネットワークの重みを急上昇させるのはなぜですか?
私はテンソルフローを使用して簡単なニューラルネットワークを記述し、少しの研究を行っています。トレーニング中に「nan」の重みに多くの問題がありました。オプティマイザの変更、損失、データサイズの変更など、さまざまな解決策を試しましたが、役に立ちませんでした。最後に、学習率の変化が私の体重に信じられないほどの違いをもたらすことに気づきました。 .001の学習率(かなり保守的だと思いました)を使用すると、最小化関数は実際に指数関数的に損失を発生させます。1エポック後、損失は数千から1兆、そして無限( 'nan')にジャンプする可能性があります。学習率を.0001に下げたところ、すべてうまくいきました。 1)なぜ1桁がそのような影響を与えるのですか? 2)最小化機能が文字通りその機能の反対を実行し、損失を最大化するのはなぜですか?学習率に関係なく、それは起こらないはずです。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.