データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ


11
scikit学習を使用するSVMは無限に実行され、実行を完了しません
595605行と5列(機能)のあるトレーニングデータセットと、397070行のテストデータセットでscikit learn(python)を使用してSVRを実行しようとしています。データは前処理され、正規化されています。 テスト例を正常に実行することはできますが、データセットを使用して実行し、1時間以上実行しても、プログラムの出力または終了を確認できませんでした。別のIDEを使用して、さらにはターミナルからも実行しようとしましたが、それは問題ではないようです。また、「C」パラメーター値を1から1e3に変更してみました。 scikitを使用するすべてのsvm実装で同様の問題に直面しています。 私はそれが完了するのを十分に待っていませんか?この実行にはどれくらい時間がかかりますか? 私の経験から、それは数分以上は必要ありません。 システム構成は次のとおりです。Ubuntu14.04、8GB RAM、大量の空きメモリ、第4世代i7プロセッサ

5
コスト関数が二乗誤差を使用するのはなぜですか?
機械学習を始めたばかりで、これまでは1つの変数に対する線形回帰を扱ってきました。 私は仮説があることを学びました。それは: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x パラメータのための良好な値を調べるにはθ0θ0\theta_0とθ1θ1\theta_1、私たちは、計算結果と我々のテストデータの実際の結果との間の差を最小限にしたいです。だから我々は引きます hθ(x(i))−y(i)hθ(x(i))−y(i)h_\theta(x^{(i)})-y^{(i)} 1からmまでのすべてのに対して。したがって、この差の合計を計算し、合計に1を掛けて平均を計算しますiii111mmm1m1m\frac{1}{m}。ここまでは順調ですね。これは次の結果になります。 1m∑mi=1hθ(x(i))−y(i)1m∑i=1mhθ(x(i))−y(i)\frac{1}{m}\sum_{i=1}^mh_\theta(x^{(i)})-y^{(i)} しかし、これは提案されたものではありません。代わりに、コースは差の二乗値を取得し、1を掛けることを提案します。したがって、式は次のとおりです。12m12m\frac{1}{2m} 12m∑mi=1(hθ(x(i))−y(i))212m∑i=1m(hθ(x(i))−y(i))2\frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2 何故ですか?なぜここで二乗関数を使用し、なぜ1を乗算するのかの代わりに112m12m\frac{1}{2m}?1m1m\frac{1}{m}

1
パンダのisna()とisnull()の違い
私はかなり長い間、パンダを使用しています。しかし、パンダisna()とisnull()パンダの違いはわかりません。さらに重要なことは、データフレーム内の欠損値を識別するためにどれを使用するかです。 値がnaまたはとして検出される方法の基本的な違いは何nullですか?

11
なぜ人々はSQLよりもパンダを好むのですか?
1996年からSQLを使用しているので、偏見があるかもしれません。MySQLとSQLite 3を広範囲に使用しましたが、Microsoft SQL ServerとOracleも使用しました。 Pandasで行った操作の大部分は、SQLで簡単に実行できます。これには、データセットのフィルタリング、表示する特定の列の選択、値への関数の適用などが含まれます。 SQLには、オプティマイザーとデータ永続性があるという利点があります。SQLには、明確で理解可能なエラーメッセージもあります。パンダは、時にはそれが単一使用するのに適切なのですここでやや不可解なAPI、持っている[ stuff ]あなたが必要とする、他の回[[ stuff ]]、そして時にはあなたが必要です.loc。パンダの複雑さの一部は、非常に多くの過負荷が進行しているという事実から生じています。 だから、私はパンダがとても人気がある理由を理解しようとしています。
69 pandas  sql 


8
データサイエンティストvs機械学習エンジニア
「データサイエンティスト」と「機械学習エンジニア」の違いはありますか? 過去1年ほどで、「機械学習エンジニア」が求人に多く登場し始めました。これは特にサンフランシスコで顕著です。サンフランシスコでは、おそらく「データサイエンティスト」という言葉が生まれました。ある時点で「データサイエンティスト」が「統計学者」を追い越し、「データサイエンティスト」にも同じことが徐々に起こり始めているのではないかと思っています。 このサイトでは、キャリアに関するアドバイスはトピック外としてリストされていますが、定義について質問しているため、私の質問は非常に関連性が高いと考えています。私自身のキャリアの軌跡や、他のトピック外の質問が持っているような個人的な状況を考えれば、私は推奨事項について尋ねません。 この質問は、いつかはこのサイトの多くのユーザーに大きな影響を与える可能性があるため、話題になっています。実際、「統計学者」対「データ科学者」の進化が起こらなかった場合、このスタック交換サイトは存在しない可能性があります。その意味で、これはかなり適切な、潜在的に存在する問題です。

5
ARIMA vs LSTMを使用した時系列予測
私が扱っている問題は、時系列値を予測することです。私は一度に1つの時系列を見ており、たとえば入力データの15%に基づいて、その将来の値を予測したいと思います。これまでのところ、2つのモデルに出くわしました。 LSTM(長期短期記憶;リカレントニューラルネットワークのクラス) 有馬 私は両方を試し、それらに関するいくつかの記事を読みました。今、私は2つを比較する方法についてより良い感覚を得ようとしています。私がこれまでに見つけたもの: LSTMは、大量のデータを処理し、十分なトレーニングデータを利用できる場合に優れていますが、ARIMAは小さなデータセットに適しています(これは正しいですか?) ARIMAでは、(p,q,d)データに基づいて計算する必要がある一連のパラメーターが必要ですが、LSTMではそのようなパラメーターを設定する必要はありません。ただし、LSTM用に調整する必要があるハイパーパラメーターがいくつかあります。 編集:ここで素晴らしい記事を読んでいる間に気づいた2つの大きな違いの1つは、ARIMAは定常時系列(季節性、傾向などがない)でのみうまく機能することであり、 ARIMAを使用したい 上記の特性以外に、最良のモデルの選択に役立つ他のポイントや事実を見つけることができませんでした。誰かが記事、論文、またはその他のものを見つけるのを手伝ってくれたら本当に感謝しています(これまでのところ運がなかった、あちこちの一般的な意見だけで、実験に基づいたものは何もありませんでした) もともとストリーミングデータを扱っていることに言及する必要がありますが、今のところ、最大サイズが20kデータポイントの50データセットを含むNABデータセットを使用しています。

3
AUCと標準精度の利点
私は曲線下面積(AUC)を調べ始めていましたが、その有用性について少し混乱しています。最初に説明したとき、AUCはパフォーマンスの優れた尺度であるように見えましたが、私の研究では、高標準精度測定と低AUCで「ラッキー」モデルをキャッチするのに最適であるという点で、その利点はほとんど限界に達していないということがわかりました。 したがって、モデルの検証にAUCに依存することを避けるべきですか、それとも組み合わせが最善でしょうか?ご助力いただきありがとうございます。

6
決定木/ランダムフォレストの機能としての文字列
決定木/ランダムフォレストのアプリケーションでいくつかの問題を行っています。機能として数字と文字列(国名など)を持つ問題を解決しようとしています。ライブラリであるscikit-learnは、パラメータとして数字のみを使用しますが、文字列を注入するだけでなく、かなりの知識が必要です。 このようなシナリオをどのように処理しますか? Pythonのハッシュなどのメカニズムにより、文字列を数値に変換できます。しかし、決定木問題で文字列を処理する方法に関するベストプラクティスを知りたいと思います。

1
2つのカテゴリ変数とカテゴリ変数と連続変数の間の相関関係を取得する方法は?
私は回帰モデルを構築していますが、以下を計算して相関を確認する必要があります 2つのマルチレベルカテゴリ変数間の相関 マルチレベルのカテゴリ変数と連続変数の相関 マルチレベルのカテゴリ変数のVIF(分散インフレーション係数) ピアソンは2つの連続変数に対してのみ機能するため、上記のシナリオにピアソン相関係数を使用するのは間違っていると思います。 以下の質問に答えてください 上記の場合に最適な相関係数はどれですか? VIF計算は連続データに対してのみ機能するので、代替手段は何ですか? 提案する相関係数を使用する前に確認する必要がある仮定は何ですか? SAS&Rでそれらを実装する方法は?

3
最大プール層を介したバックプロップ?
これは、しばらくの間私を悩ませてきた小さな概念的な質問です。ニューラルネットワークの最大プール層をどのように逆伝播できますか? Torch 7のnnライブラリに関するこのチュートリアルを実行しているときに、最大プール層に遭遇しました。このライブラリは、深層ネットワークの各レイヤーの勾配計算とフォワードパスを抽象化します。max-poolingレイヤーの勾配計算がどのように行われるかわかりません。 入力がレイヤーニューロンに入る場合、(として定義される): zilzil{z_i}^liiilllδilδil{\delta_i}^lδil=∂E∂zilδil=∂E∂zil{\delta_i}^l = \frac{\partial E}{\partial {z_i}^l}δil=θ′(zil)∑jδjl+1wl,l+1i,jδil=θ′(zil)∑jδjl+1wi,jl,l+1 {\delta_i}^l = \theta^{'}({z_i}^l) \sum_{j} {\delta_j}^{l+1} w_{i,j}^{l,l+1} そのため、最大プール層は、通常どおり次の層のを受け取ります。ただし、最大プーリングニューロンの活性化関数は値のベクトル(最大値)を入力として受け取るため、はもう1つの数値ではなく、ベクトル(はます。さらに、最大関数である、その入力に関して微分可能ではありません。δjl+1δjl+1{\delta_j}^{l+1}δilδil{\delta_i}^{l}θ′(zjl)θ′(zjl)\theta^{'}({z_j}^l)∇θ({zjl})∇θ({zjl})\nabla \theta(\left\{{z_j}^l\right\})θθ\theta だから....それは正確にどのように機能するのですか?

8
Pythonでのオープンソースの異常検出
問題の背景: 私は、IT監視スペースで見つかったログファイルに似たログファイルを含むプロジェクトに取り組んでいます(ITスペースを最もよく理解しています)。これらのログファイルは時系列データであり、さまざまなパラメーターの数百/数千の行に編成されています。各パラメーターは数値(浮動)であり、各時点に重要な値またはエラー値があります。私の仕事は、異常検出(スパイク、フォール、一部のパラメーターが同期していない異常なパターン、奇妙な1次/ 2次などの派生動作など)のためにログファイルを監視することです。 同様の課題で、SplunkとPrelertを試しましたが、現在はオープンソースのオプションを検討しています。 制約: よく知っているのでPythonに限定しています。Rへの切り替えと関連する学習曲線を遅らせたいと思っています。R(または他の言語/ソフトウェア)に対する圧倒的なサポートがないように思われない限り、このタスクのためにPythonに固執したいと思います。 また、私は今のところWindows環境で作業しています。Windowsで小さなログファイルをサンドボックス化し続けたいのですが、必要に応じてLinux環境に移行できます。 リソース: 結果として行き止まりで以下をチェックアウトしました。 Pythonや不正検出のための機械学習アルゴリズムを実装するためのR。ここの情報は役立ちますが、残念ながら、適切なパッケージを見つけるのに苦労しています: Twitterの「AnomalyDetection」はRにあり、Pythonに固執したいと思います。さらに、Pythonポートの特異性は、Windows環境での実装で問題を引き起こすようです。 私の次の試みであるSkylineは、(GitHubの問題から)ほぼ廃止されたようです。オンラインがあまりサポートされていないように思えるので、私はこれについて深く掘り下げていません。 scikit-learn私はまだ調査中ですが、これははるかにマニュアルのようです。草むらのアプローチは私には問題ありませんが、学習ツールの私のバックグラウンドは弱いので、Splunk + Prelertに似たアルゴリズムのような技術的側面のブラックボックスのようなものが欲しいです。 問題の定義と質問: パッケージまたはライブラリを介してPythonの時系列ログファイルからの異常検出プロセスを自動化するのに役立つオープンソースソフトウェアを探しています。 そのようなことは、当面のタスクを支援するために存在しますか、それとも私の心の中に想像上のものがありますか? 背景の基礎や概念など、目標を達成するための具体的な手順を誰でも支援できますか? これは、尋ねるのに最適なStackExchangeコミュニティですか、それともStats、Math、またはSecurityまたはStackoverflowがより良いオプションですか? EDIT [2015年7月23日] に最新のアップデートがありますpyculiarityをしているように見える固定 Windows環境のために!私はまだ確認していませんが、コミュニティにとって別の便利なツールになるはずです。 編集[2016-01-19] マイナーアップデート。これに取り組む時間はありませんでしたが、特定の詳細な研究を続ける前に、この問題の基礎を理解するために一歩後退しています。たとえば、私が取っている2つの具体的な手順は次のとおりです。 異常検出のためのWikipedia記事[ https://en.wikipedia.org/wiki/Anomaly_detection ] から始めて、完全に理解し、[ https://などの他のリンクされたWikipedia記事の概念階層を上下に移動しますen.wikipedia.org/wiki/K-nearest_neighbors_algorithm ]、その後に、[ https://en.wikipedia.org/wiki/Machine_learning ]。 Chandola et al 2009 "Anomaly Detection:A Survey" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ]およびHodge et al 2004 によって行われたすばらしい調査でのテクニックの調査「異常値検出方法の調査」[ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]。 …

2
Kerasで異なる長さの例を使用してRNNをトレーニングする
私はRNNについて学び始めようとしていますが、Kerasを使用しています。私はバニラRNNおよびLSTMレイヤーの基本的な前提を理解していますが、トレーニングの特定の技術的ポイントを理解するのに苦労しています。 でkerasドキュメントは、RNN層への入力は、形を持たなければならないと言います(batch_size, timesteps, input_dim)。これは、すべてのトレーニング例のシーケンス長が固定されていることを示していますtimesteps。 しかし、これは特に典型的なものではありませんか?さまざまな長さの文に対してRNNを動作させたい場合があります。いくつかのコーパスでトレーニングするとき、さまざまな長さの一連の文をフィードします。 私がすべきことは、トレーニングセット内の任意のシーケンスの最大長を見つけてゼロパッドすることです。しかし、それは、それより長い入力長でテスト時に予測を行うことができないことを意味しますか? これはKerasの特定の実装に関する質問ですが、この種の一般的な問題に直面したときに人々が通常何をするかについても尋ねています。
61 python  keras  rnn  training 


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.