データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

3
入れ子の交差検証と最適な回帰モデルの選択-これは正しいSKLearnプロセスですか?
正しく理解していれば、入れ子になったCVは、どのモデルとハイパーパラメーターのチューニングプロセスが最適かを評価するのに役立ちます。内側のループ(GridSearchCV)は最適なハイパーパラメーターを見つけ、外側のループ()はハイパーパラメーターcross_val_score調整アルゴリズムを評価します。次にmse、最終的なモデルテストで最小化する(回帰分類器を調べている)外側のループから、どのチューニング/モデルコンボを選択するかを決定します。 ネストされた相互検証に関する質問/回答を読みましたが、これを利用する完全なパイプラインの例を見たことはありません。それで、以下の私のコード(実際のハイパーパラメータ範囲は無視してください-これは単なる例です)と思考プロセスは理にかなっていますか? from sklearn.cross_validation import cross_val_score, train_test_split from sklearn.grid_search import GridSearchCV from sklearn.metrics import mean_squared_error from sklearn.ensemble import RandomForestRegressor from sklearn.svm import SVR from sklearn.datasets import make_regression # create some regression data X, y = make_regression(n_samples=1000, n_features=10) params = [{'C':[0.01,0.05,0.1,1]},{'n_estimators':[10,100,1000]}] # setup models, variables mean_score = [] models = [SVR(), …

1
違い:レプリケーターニューラルネットワークとオートエンコーダー
私は現在、RNN(Replicator Neural Networks)を使用した外れ値の検出に関する論文を研究していて、オートエンコーダーとの違いは何ですか?RNNは、外れ値/異常検出の聖杯として多くの人にとって踏みにじられているようですが、オートエンコーダーが長い間存在していたため、この考え方はかなり古いようです。

1
ニューラルネットワークを使用して画像から複数のパラメーターを抽出する
ニューラルネットワークを使用して画像からパラメーターを抽出したい。 例: レンガの壁の画像が与えられた場合、NNはレンガの幅と高さ、色、粗さを抽出する必要があります。 特定のパラメーターの画像を生成してNNをトレーニングし、それを使用して実際の画像からパラメーターを抽出することができます。 CNNを調査しました。彼らと一緒にこのタスクを実行できますか?分類の代わりに複数のパラメーターを抽出するには、特別な学習アルゴリズムが必要ですか?そのようなタスク用に設計されたNNはありますか?

2
大きな点群を通る線のあてはめ
パーティクルトラック(カメラで撮影された時間内のxy平面での移動、つまり3d-256x256pxと私のサンプルセットでは約3kフレーム)とノイズによって形成された大きなポイントセット(10kポイントのオーダー)があります。これらの粒子は、ほぼ直線上をほぼ同じ方向に移動しますが、それらの軌道を分析するために、点を通る線をフィットさせようとしています。シーケンシャルRANSACを使用しようとしましたが、TとJリンケージと同様に、誤検出を確実に選択するための基準を見つけることができませんでした。 これは、シーケンシャルランサックで得られた適合性の良いデータセットと不良なデータセットの一部の画像です。ここでは、 粒子ブロブの重心を使用しています。ブロブサイズは1ピクセルと約20ピクセルの間で変化します。 たとえば、10フレームごとにのみ使用するサブサンプルも非常にうまく機能するため、処理するデータサイズをこの方法で削減できることがわかりました。 ニューラルネットワークで実現できるすべてのことについてブログの投稿を読んで、これを読み始める前に、これが実現可能なアプリケーションかどうかを尋ねたいと思います(私は数学の知識がないので、かなりのことをしなければなりません少し読んでください)? または、別の方法を提案できますか? ありがとう! 補遺:以下は、Matlab関数が30本の平行なノイズのあるラインを含むサンプルの点群を生成するコードです。これは、まだ区別できません。 function coords = generateSampleData() coords = []; for i = 1:30 randOffset = i*2; coords = vertcat(coords, makeLine([100+randOffset 100 100], [200+randOffset 200 200], 150, 0.2)); end figure scatter3(coords(:,1),coords(:,2),coords(:,3),'.') function linepts = makeLine(startpt, endpt, numpts, noiseOffset) dirvec = endpt - startpt; linepts = …

2
コサイン類似度を見つけるときに非評価フィールドの値はどうあるべきか
私は非常に基本的な書籍推薦システムに取り組んでいます。コサイン類似度を見つけるときに、ユーザーによって評価されていないフィールドをどうするかを知りたいのですが、それらを無視して、評価されたフィールドのみで計算するか、0とマークする必要があります。 本書私は、次のAMは、それがユークリッドとピアソン相関の場合には、間違った解釈を与えるため、フィールドを除外すると言うが、コサイン類似度の場合には、それが0にすべての非定格のフィールドになります。 評価されていないフィールドをCosineについてのみ0にして他のフィールドを0にする必要がある理由、またはそれを行う別の方法がある理由を誰かが説明できますか?(ユークリッドとピアソンでフィールド0を作成すると出力にどのように影響するか知っていますが、コサインはわかりません)


2
新しいデータサイエンティストのためのヒント
大規模なデータセットを扱う仕事を始めようとしています。傾向などを見つけることが期待されます。MLやその他のハードスキルを習得するための多くのリソースを見つけ、自分が(半)この目的のために有能。 データサイエンティストとして役立つ特定のソフトスキルがあるかどうか知りたいです。 始めに知っておきたいことは何ですか? Kaggleは学習に非常に役立ちますが、明確な目的も示します。 データセットが与えられたが、明確な目的がない場合、どのように対処しますか? これが広すぎる場合は、もっと具体的な質問を考えます。
8 beginner 

4
Rでのメールの分類
私はRでプロジェクトに取り組んでいます。会社からのメールが約1200通あり、そのほとんどがリクエストのタイプであるclassまたはclassというラベルが付いています。およそ1000通のメールにclassというラベルが付けられ、200通にはclassというラベルが付けられ。私の目標は、教師あり学習を使用して、新しいメールを分類するモデルを構築することです。11_{1}1 222_{2}11_{1}22_{2} しかし、多くの前処理(構文解析、ストップワードの削除など)を行い、ドキュメント用語行列で一般的なアルゴリズム(SVM、決定木など)を試した後、混乱行列には多くの偽陽性と偽陰性が含まれていましたが、 SVMのほんの少しの偽陰性。 どうすれば結果を改善できるでしょうか。オーバーサンプリング、つまりバイグラムの特徴表現を使用する必要がありますか?問題は、2つのカテゴリのトピックが本当に近いということです。

2
2つのWord2vecベクトルを平均して単一の単語の統一表現を取得する
Word2vecアルゴリズムのトレーニング済みデータに取り組んでいます。元の状態を保つには単語が必要なので、前処理段階では単語を小文字にしません。したがって、異なるバリエーションの単語があります(たとえば、「地球」と「地球」)。 私が考えることのできる唯一の方法は、「地球」と「地球」のベクトルを平均して、単語を表す単一のベクトルを作成することです。(特徴ベクトルの次元は類似しているため) これは「大丈夫」な方法ですか?そうでない場合、この問題を処理するための良い方法は何でしょうか? 注:前処理ですべての単語を下げることは、現時点ではオプションではありません。 編集:フィーチャの寸法が本当に直線的であるかどうかに関する情報も役立ちます。 編集2:両方からの回答を組み合わせるpatapouf_aiとyazhi最良の結果が得られました。これらはどのように組み合わされますか?加重平均は結果を改善しましたが、スケーリングされたシグモイド関数に単語の頻度を置くと、単語の頻度を線形的に使用することで、単語の頻度よりも重要度が高くなるため、最良の結果が得られました。

1
スパイキングニューラルネットワークが他のアルゴリズムより優れている(非スパイキング)ドメインはありますか?
Echo State NetworksやLiquid State Machinesなどのリザーバーコンピューティングテクニックについて読んでいます。どちらの方法も、ランダムに接続された(または接続されていない)スパイキングニューロンの母集団に入力を供給することと、出力を生成する比較的単純な読み出しアルゴリズム(線形回帰など)を含みます。ニューロンの母集団の重みは、固定されているか、STDPのようなヘブライアンのようなローカルアクティビティルールによってトレーニングされています。 これらの手法は、重要な時間コンポーネントを持つ多次元入力をモデル化するときにうまく機能します。ただし、スパイクニューロンの膜電位の計算には微分方程式の積分が含まれ、計算コストが高くなる可能性があります。 リザーバーコンピューティングテクニックの追加の計算の複雑さの方が、予測または分類タスクのゲインよりも優れている例はありますか? たとえば、RNN、ANN、SVM、DNN、CNN、またはその他のアルゴリズムに基づいて、比較的複雑なアーキテクチャよりもSNN技術が優れているケースはありますか?

3
XOR関数のニューラルネットの作成
1層ネットワークは線形分離可能ではないため、xor関数を予測できないことはよく知られている事実です。xorを予測するために、ロジスティックシグモイド関数とbackpropを使用して、2層ネットワークを作成しようとしました。私のネットワークには、入力層に2つのニューロン(および1つのバイアス)、非表示層に2つのニューロンと1つのバイアス、および1つの出力ニューロンがあります。驚いたことに、これは収束しません。新しいレイヤーを追加すると、入力(2 + 1)、hidden1(2 + 1)、hidden2(2 + 1)、出力の3レイヤーネットワークが機能します。また、2層ネットワークを維持しながら、非表示層のサイズを4ニューロン+ 1バイアスに増やした場合も、収束します。3つ以下の非表示ニューロンを持つ2層ネットワークがxor関数をモデル化できない理由はありますか?



2
データの不整合を修正する
持っているデータを分析しようとしていますが、データに多くの不整合があります。 分析しようとしているSQLテーブルがあります。 表は次の構造を持つ大学の表です。name:string, city:string, state:string, country:string 名前は常に存在しますが、都市、州、国が欠落している可能性があります。私の主な問題は、タイプミスがたくさんあり、大学名の異なる赤緯があることです。たとえば、ここに私が見つけたときにスタンドフォード大学の赤緯があります SELECT "universities".* FROM "perm_universities" WHERE (name like '%stanford%')。 stanford university - stanford - ca - united states of america the leland stanford junior university - stanford - ca - united states of america leland stanford jr. university - stanford - ca - united …

1
ミニバッチ勾配降下にはランダム要素を使用する必要がありますか?
ニューラルネットワークにミニバッチ勾配降下法を実装する場合、各ミニバッチでランダムな要素を取ることが重要ですか?または、トレーニングの最初に要素を1回シャッフルするだけで十分ですか? (私は彼らが何をしているのかを明確に述べている情報源にも興味があります。)

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.