タグ付けされた質問 「python」

プログラミング言語Pythonに関連するデータサイエンスの質問に使用します。一般的なコーディングの質問(-> stackoverflow)は対象としていません。

2
トレーニングセットに負のy値がない場合、勾配ブースティング回帰は負の値を予測するのはなぜですか?
私は木の数を増やすと学ぶscikitさんGradientBoostingRegressor、私は私のトレーニングやテストセットには負の値が存在しないにもかかわらず、多くの負の予測を取得します。私は約10の機能を持っていますが、そのほとんどはバイナリです。 私が調整していたパラメーターのいくつかは次のとおりです。 木/反復の数; 深さを学ぶ; そして学習率。 負の値のパーセンテージは、最大で2%のようです。学習深度1(切り株)は、負の値の最大の%を持っているように見えました。このパーセンテージは、ツリーが多く、学習率が小さいほど増加するように見えました。データセットは、kaggle遊び場コンテストの1つからのものです。 私のコードは次のようなものです: from sklearn.ensemble import GradientBoostingRegressor X_train, X_test, y_train, y_test = train_test_split(X, y) reg = GradientBoostingRegressor(n_estimators=8000, max_depth=1, loss = 'ls', learning_rate = .01) reg.fit(X_train, y_train) ypred = reg.predict(X_test)

1
Excelでどこまで行けるのですか?[閉まっている]
休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。 この質問を改善してみませんか?質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。 私のビジネスでは、すべての分析をExcelで処理しています。これには、主にスケジューリング、生産計画、会計業務が含まれます。現在、予測モデルを少し追加することを検討しており、Excelで十分ですが、複雑なモデルはサポートされていません。 私が見ているように、Excelの主な利点は、Excelの使いやすさと、使い慣れるようにユーザーを見つけてトレーニングできることです。一方、より洗練された環境(R、pythonなど)では、さまざまな分析タスクを処理できますが、より高度なトレーニングを受けた個人が必要です。 Excelがデータサイエンスに十分であるかどうかについてもこの質問を読みました。それは私の目的には少し範囲外ですが、RやPythonなどのツールはExcelよりもはるかに優れているという結論に達しました。 私の質問は(データ分析の文脈で):「より高度なツールに変更する必要なしに、Excelでどれだけの距離をとることができるか」です。または「Excelから-Rにしましょう-どの時点で移行する必要がありますか?」 どうもありがとうございました!

2
列の値がNaNの場合に行全体を削除する方法[終了]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 2年前休業。 列に関連するNaN値を含むすべての行を削除します。次のようなデータセットがあるとしましょう: Age Height Weight Gender 12 5'7 NaN M NaN 5'8 160 M 32 5'5 165 NaN 21 NaN 155 F 55 5'10 170 NaN 「Gender」にNaN値があるすべての行を削除したい。私が望む出力: Age Height Weight Gender 12 5'7 NaN M NaN 5'8 160 M 21 NaN 155 F …

1
時系列データの異なるセットを比較する方法
Pythonとsklearnを使用してtime#seriesの間に異常検出を実行しようとしています(ただし、他のパッケージの提案は大歓迎です!)。 10個の時系列のセットがあります。各時系列は、タイヤのトルク値(合計10タイヤ)から収集されたデータで構成されており、セットには同じ数のデータポイントが含まれていない場合があります(セットサイズが異なります)。各時系列データは、ほとんど、tire_id、タイムスタンプ、およびsig_value(信号またはセンサーからの値)です。1つの時系列のサンプルデータは次のようになります。 tire_id timestamp sig_value tire_1 23:06.1 12.75 tire_1 23:07.5 0 tire_1 23:09.0 -10.5 今、私はそれらの10を持っています、そしてそれらの2は奇妙に振る舞います。これは異常検出の問題であることを理解していますが、オンラインで読んだほとんどの記事は、同じ時系列内の異常ポイントを検出しています(ある時点で、そのタイヤのトルク値が正常でない場合)。 どの2つのタイヤが異常な動作をしているのかを検出するために、クラスタリング手法、基本的にはk-meansクラスタリングを使用してみました(監視されていないため)。 k-meansクラスタリングにフィードするデータを準備するために、各時系列(各タイヤについて)について計算しました。 最大の振幅(差)を持つ隣接する極大と極小の上位3セット トルク値の平均 トルク値の標準偏差 また、クラスターの数を2のみに設定したので、クラスター1または2のいずれかです。 したがって、(クラスターを割り当てた後の)最終結果は次のようになります。 amplitude local maxima local minima sig_value_std \ tire_0 558.50 437.75 -120.75 77.538645 tire_0 532.75 433.75 -99.00 77.538645 tire_0 526.25 438.00 -88.25 77.538645 tire_1 552.50 -116.50 436.00 71.125912 tire_1 …

1
バニラニューラルネットワークからリカレントニューラルネットワークに進む際の質問
私は最近、与えられた数の入力、非表示のノード、および入力と同じ数の出力で、バニラニューラルネットワークがどのように機能するかを学びました。 私はリカレントニューラルネットワークに関連するさまざまな投稿を見てきましたが、その背後にある概念は理解していますが、RNNの背後にあるロジックの特定の部分は理解できません。 ここに私が持っている4つの主な質問があります: 再帰型ニューラルネットワークで逆伝播はどのように機能しますか? 入力から非表示ノードにつながる重みは、他のすべてのステップで同じですか?非表示ノードから出力までの重みはどうですか? バイアスはリカレントニューラルネットワークでどのように機能するのですか? 活性化関数としてシグモイド関数の代わりにタン関数が通常使用されるのはなぜですか? これらの質問のいくつかは非常に基本的であることに気づきましたが、基本は今まさに必要なものだと思います。 関連する動画や投稿へのリンクも非常に役立ち、正しい結果を示すGoogleキーワードも役立ちます。これら4つの質問は、サンプルのPythonコードを理解するのを妨げているため、本当に助けが必要です。

2
パンダのインデックスを数える
これは初歩的な質問のように感じますが、私はこれに非常に慣れていないので、それを解読したり、答えを見つけることができませんでした。 最終的に私がここでやろうとしているのは、特定の列の一意の値を数え、それらの一意の値のうち、一致する列に複数の一意の値があるものを特定することです。 したがって、このデータについて、私が判断しようとしているのは、すべての購入に対して「誰が」「複数のレシート」を持っているか、そして各製品カテゴリーに基づいて同じ情報を判断することです。 これまでの私のアプローチ: 次のようなデータセットがあります。 receipt,name,etc,category 1,george,xxx,fish 1,george,xxx,cat 2,george,xxx,fish 3,bill,xxx,fish 3,bill,xxx,dog 4,jill,xxx,cat 5,bill,xxx,cat 5,bill,xxx,cat 5,bill,xxx,dog 6,george,xxx,fish だから私はこれを行うことができます: df.set_index(['name','receipt']) もっと面白くなる etc category name receipt george 1 xxx fish 1 xxx cat 2 xxx fish bill 3 xxx fish 3 xxx dog jill 4 xxx cat bill 5 xxx cat 5 xxx …

2
LSTM:時系列を予測するときに非定常性を処理する方法
LSTMを使用して、時系列の1ステップ先の予測を行いたい。アルゴリズムを理解するために、私はおもちゃの例を作成しました:単純な自己相関プロセス。 def my_process(n, p, drift=0, displacement=0): x = np.zeros(n) for i in range(1, n): x[i] = drift * i + p * x[i-1] + (1-p) * np.random.randn() return x + displacement 次に、この例に従ってKerasでLSTMモデルを作成しました。p=0.99長さの自己相関が高いプロセスをシミュレートn=10000し、その最初の80%でニューラルネットワークをトレーニングし、残りの20%に対して1ステップ先の予測を実行させました。 私が設定した場合drift=0, displacement=0、すべてが正常に動作します: それから私は設定しdrift=0, displacement=10、物事は洋ナシ形になりました(y軸の異なるスケールに注意してください): [ - 1 、1 ][−1、1][-1, 1] 次に、を設定しdrift=0.00001, displacement=10、データを再度正規化して、その上でアルゴリズムを実行しました。これはよく見えません: バツt− Xt − 1バツt−バツt−1X_{t} - X_{t-1}バツtバツtX_t …

3
入れ子の交差検証と最適な回帰モデルの選択-これは正しいSKLearnプロセスですか?
正しく理解していれば、入れ子になったCVは、どのモデルとハイパーパラメーターのチューニングプロセスが最適かを評価するのに役立ちます。内側のループ(GridSearchCV)は最適なハイパーパラメーターを見つけ、外側のループ()はハイパーパラメーターcross_val_score調整アルゴリズムを評価します。次にmse、最終的なモデルテストで最小化する(回帰分類器を調べている)外側のループから、どのチューニング/モデルコンボを選択するかを決定します。 ネストされた相互検証に関する質問/回答を読みましたが、これを利用する完全なパイプラインの例を見たことはありません。それで、以下の私のコード(実際のハイパーパラメータ範囲は無視してください-これは単なる例です)と思考プロセスは理にかなっていますか? from sklearn.cross_validation import cross_val_score, train_test_split from sklearn.grid_search import GridSearchCV from sklearn.metrics import mean_squared_error from sklearn.ensemble import RandomForestRegressor from sklearn.svm import SVR from sklearn.datasets import make_regression # create some regression data X, y = make_regression(n_samples=1000, n_features=10) params = [{'C':[0.01,0.05,0.1,1]},{'n_estimators':[10,100,1000]}] # setup models, variables mean_score = [] models = [SVR(), …

2
Pylearn2とTensorFlow
私は長いNN研究プロジェクトに飛び込もうとしていて、Pylearn2またはTensorFlowの方向への推進を望んでいましたか?2015年12月の時点で、コミュニティは何らかの方向に傾い始めていますか? このリンクは、TenserFlowに縛られることへの懸念を私に与えました。

1
HOG記述子とSVM分類器による画像内の人間の認識のパフォーマンスが低い
私は、HOG記述子とSVM分類器を組み合わせて、写真の中の人間を認識しています。OpenCV用のPythonラッパーを使用しています。私はpymagesearchで優れたチュートリアルを使用しました。これは、アルゴリズムが何をするかを説明し、detectMultiScaleメソッドのパラメーターを設定する方法についてのヒントを提供します。 具体的には # initialize the HOG descriptor hog = cv2.HOGDescriptor() # Set the support vector machine to be pre-trained for people detection hog.setSVMDetector(cv2.HOGDescriptor_getDefaultPeopleDetector()) # Detect people in the image (rects, weights) = hog.detectMultiScale(image, winStride=(4, 4), padding=(8, 8), scale=1.05) パラメータは、チュートリアル自体の説明に従って、精度とパフォーマンスの両方の微調整に従って選択されます。 私の問題は、文献によると写真で人間を認識するための現在最良の方法のように思えるこの方法(元の論文は2005年の日付です)が私の画像でかなりうまく機能しないように見えることです。モデルのある服とない服の両方を含む画像があり、この方法でモデルのある服を認識しようとしています。モデルを含むかどうかをタグ付けするために手動でスキャンした300枚の画像のサブセットでは、メソッドは30%の確率で失敗します。 これらは例としていくつかの画像です。 ここでそれは行方不明の人間を検出しました: ここでそれは完全な人間を手に入れませんでした: ここではそれをまったく認識しませんでした: 検出器が直立した人間に有効であることを理解しています。彼らはまた、完全な数字である必要がありますか?私のイメージは、頭も足もない半身像を含みます。 これの前に、Haar機能ベースのカスケード分類器を使用して画像内の顔を認識しました。同じ画像セットの精度は90%でしたので、これを改善しようとしました。また、ここで機能しない理由を理解することにも興味があります。

1
sklearn-過剰適合問題
現在の機械学習の問題を解決する最善の方法に関する推奨事項を探しています 問題の概要と私が行ったことは次のとおりです: EEGデータの900回以上の試行があり、各試行は1秒の長さです。それぞれのグラウンドトゥルースは既知であり、状態0と状態1を分類します(40〜60%の分割) 各試行は、特定の周波数帯域のパワーをフィルタリングおよび抽出する前処理を通過し、これらは一連の機能を構成します(機能マトリックス:913x32) 次に、sklearnを使用してモデルをトレーニングします。cross_validationは、テストサイズ0.2を使用する場合に使用されます。分類子はrbfカーネルでSVCに設定されています、C = 1、ガンマ= 1(私はいくつかの異なる値を試しました) ここでコードの短縮版を見つけることができます:http : //pastebin.com/Xu13ciL4 私の問題: 分類子を使用してテストセットのラベルを予測すると、すべての予測が0になる トレイン精度は1ですが、テストセット精度は約0.56です。 私の学習曲線プロットは次のようになります: さて、これはここでオーバーフィットの古典的なケースのようです。ただし、ここでの過剰適合は、サンプルに対する特徴の数が極端に多い(32個の特徴、900個のサンプル)ために発生することはほとんどありません。私はこの問題を軽減するためにいくつかのことを試みました: サンプル数に対して機能が多すぎるために、次元削減(PCA)を使用してみましたが、精度スコアと学習曲線プロットは上記と同じに見えます。コンポーネントの数を10未満に設定しない限り、トレインの精度は低下し始めますが、情報を失い始めていることを考えると、これは多少予想されませんか? データの正規化と標準化を試みました。標準化(SD = 1)は、トレインまたは精度スコアを変更することはありません。(0-1)を正規化すると、トレーニングの精度が0.6に低下します。 SVCに対してさまざまなCおよびガンマ設定を試しましたが、どちらのスコアも変更されません GaussianNBなどの他の推定量を使用して、adaboostなどのアンサンブル法を使用してみました。変化なし linearSVCを使用して正則化メソッドを明示的に設定しようとしましたが、状況は改善されませんでした theanoを使用してニューラルネットで同じ機能を実行してみましたが、列車の精度は約0.6、テストは約0.5です 私は問題について考え続けることができてうれしいですが、この時点で私は正しい方向へのナッジを探しています。私の問題はどこにあり、それを解決するために私は何ができますか? 私の機能のセットが2つのカテゴリーを区別しないだけの可能性は十分にありますが、この結論にジャンプする前に他のいくつかのオプションを試してみたいと思います。さらに、私の機能が区別されない場合、それは低いテストセットスコアを説明しますが、その場合、どのようにして完璧なトレーニングセットスコアを取得できますか?それは可能ですか?

1
ディープラーニング研究におけるTheano
Theanoはディープラーニング研究でどのくらい広く使用されていますか? Theanoは機械学習アルゴリズムの実装を学ぶための良いスタートですか? フィードフォワードネットワークのようなものの実装を学ぶことは本当に役立ちますか?大学院生は、学生時代に少なくとも一度はニューラルネットワークやその他のアルゴリズムを実装していますか? バックグラウンド: フィードフォワードとリカレントネットワーク、バックプロパゲーション、機械学習問題の一般的なパイプライン、および必要な数学について、私は理にかなった考えを持っています。

1
NLTKによる複雑なチャンク
私は、NLTKブックの第7章に従って、NLTKのカスケードチャンカーの使用方法を理解しようとしています。残念ながら、重要なチャンク対策を実行するときにいくつかの問題が発生します。 このフレーズから始めましょう: "adventure movies between 2000 and 2015 featuring performances by daniel craig" 次の文法を使用すると、関連するすべてのNPを見つけることができます。 grammar = "NP: {<DT>?<JJ>*<NN.*>+}" ただし、NLTKを使用してネストされた構造を構築する方法がわかりません。この本は次の形式を示していますが、明らかにいくつか欠けているものがあります(たとえば、実際に複数のルールをどのように指定するのですか?): grammar = r""" NP: {<DT|JJ|NN.*>+} # Chunk sequences of DT, JJ, NN PP: {<IN><NP>} # Chunk prepositions followed by NP VP: {<VB.*><NP|PP|CLAUSE>+$} # Chunk verbs and their arguments CLAUSE: {<NP><VP>} # …
8 python  nlp  nltk 

4
Windows 8のコマンドプロンプトでpysparkアプリケーションを実行する方法
Sparkコンテキストで記述されたpythonスクリプトがあり、それを実行したいと思います。IPythonとSparkを統合しようとしましたが、できませんでした。そこで、スパークパス[Installation folder / bin]を環境変数として設定しようとして、cmdプロンプトでspark-submitコマンドを呼び出しました。私はそれがsparkのコンテキストを見つけることだと思いますが、それは本当に大きなエラーを生み出します。誰かがこの問題について私を助けてくれますか? 環境変数のパス:C:/Users/Name/Spark-1.4; C:/Users/Name/Spark-1.4/bin その後、cmdプロンプトで:spark-submit script.py

4
画像データのNaN値を置き換える方法は?
私のデータセットには合計200列があり、各列はすべての画像の同じピクセルに対応しています。合計で48,500行あります。データのラベルの範囲は0〜9です。 データは次のようになります。 raw_0 raw_1 raw_2 raw_3 raw_4 0 120.0 133.0 96.0 155.0 66.0 1 159.0 167.0 163.0 185.0 160.0 2 45.0 239.0 66.0 252.0 NaN 3 126.0 239.0 137.0 NaN 120.0 4 226.0 222.0 153.0 235.0 171.0 5 169.0 81.0 100.0 44.0 104.0 6 154.0 145.0 76.0 134.0 175.0 7 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.