タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

4
テキスト分類子トレーニングデータセットを提案する
テキスト分類子のトレーニングに使用できる自由に利用できるデータセットはどれですか? 私たちは、ユーザーに最も関連するコンテンツを推奨することでユーザーエンゲージメントを強化しようとしているため、事前定義された単語のバッグに基づいてコンテンツを分類した場合、すでに分類されたランダムな数の投稿に関するフィードバックを得ることで、ユーザーに魅力的なコンテンツを推奨できると考えました前。 この情報を使用して、これらのクラスでラベル付けされたパルスを彼に推奨できます。しかし、コンテンツに関連しない定義済みの単語のバッグを使用した場合、特徴ベクトルはゼロでいっぱいになることもわかりました。また、カテゴリはコンテンツに関連していない可能性があります。これらの理由により、コンテンツを分類せずにクラスタリングする別のソリューションを試しました。 ありがとう:)

2
スマートフォンのデータセット問題を使用した人間活動認識
私はこのコミュニティに不慣れです。うまくいけば、私の質問がここに収まるでしょう。学部のデータ分析コースの一環として、スマートフォンのデータセットを使用して、人間の行動認識に関するプロジェクトを行うことにしました。私に関する限り、このトピックは機械学習とサポートベクターマシンに関連しています。私はまだこの技術に詳しくないので、助けが必要です。 私はこのプロジェクトのアイデアに従うことにしましたhttp://www.inf.ed.ac.uk/teaching/courses/dme/2014/datasets.htmlプロジェクトの目標は、人間とは何か活動を決定です(一番上の最初のプロジェクトを)スマートフォン(Samsung Galaxy S II)が被験者の腰に記録したデータから(例:WALKING、WALKING_UPSTAIRS、WALKING_DOWNSTAIRS、SITTING、STANDING、LAYING)内蔵の加速度計とジャイロスコープを使用して、データには3軸の線形加速度と50Hzの一定速度での3軸の角速度が含まれます。 すべてのデータセットは、いくつかの説明と機能ラベルが付いた1つのフォルダーに含まれています。データは「テスト」ファイルと「トレーニング」ファイルに分割され、データは次の形式で表されます。 2.5717778e-001 -2.3285230e-002 -1.4653762e-002 -9.3840400e-001 -9.2009078e-001 -6.6768331e-001 -9.5250112e-001 -9.2524867e-001 -6.7430222e-001 -8.9408755e-001 -5.5457721e-001 -4.6622295e-001 7.1720847e-001 6.3550240e-001 7.8949666e-001 -8.7776423e-001 -9.9776606e-001 -9.9841381e-001 -9.3434525e-001 -9.7566897e-001 -9.4982365e-001 -8.3047780e-001 -1.6808416e-001 -3.7899553e-001 2.4621698e-001 5.2120364e-001 -4.8779311e-001 4.8228047e-001 -4.5462113e-002 2.1195505e-001 -1.3489443e-001 1.3085848e-001 -1.4176313e-002 -1.0597085e-001 7.3544013e-002 -1.7151642e-001 4.0062978e-002 7.6988933e-002 -4.9054573e-001 -7.0900265e-001 そして、それはファイルに含まれる内容のごく一部にすぎません。 このデータが何を表し、どのように解釈できるのか、私にはよくわかりません。また、データの分析、分類、およびクラスタリングには、どのツールを使用する必要がありますか?このデータをラベルを含めてExcelに入れて、たとえばRまたはPythonを使用してサンプルデータを抽出し、これに取り組む方法はありますか? ヒント/ヒントをいただければ幸いです。

4
数学博士(非線形プログラミング)からデータサイエンスへの切り替え?
私は数学の博士号を取得しています。卒業後、データサイエンティストとして業界に行きたい学生。質問をする前に、私の教育の背景を簡単に説明し、理解を深めます。 数学コースワーク: これは主に純粋な数学で行われました:トポロジー、機能分析などですが、より多くの応用されたもの(私が論文に特化したもの)も含まれます:凸最適化、非線形プログラミング、数値解析、線形プログラミング、多目的最適化。また、現時点では推論統計の知識はありませんが、確率論には自信があります。 プログラミング: 私は学士号で1年のコースを受講したばかりですが、それはほとんどMathematicaといくつかのJavaでしたが、正直なところ何も覚えていません。このコースの内容には、データ構造やアルゴリズムの設計と分析、データベース管理システムは含まれていません。また、学士論文でアルゴリズムを実装するために自分でMatlabを学びました。 上記の背景は、学士号と修士号のプログラム中のものです。今、博士号の間 プログラムでは、機械学習が非線形最適化、プログラミング、および現実世界のアプリケーションの間の(私にとって)完璧な組み合わせであることを発見しました。つまり、機械学習は理論的に興味深く、アプリケーション指向です。これが私が産業界に行くことにとても興奮した理由です。したがって、私は過去3年間で、自分のことを(少しの自由な時間に)自分で学び始めました。 学んだことの短い要約: Python:最適化アルゴリズムを実装し、jupyterノートブックとnumpyライブラリを操作し(実際、論文のためにこれを行わなければなりませんでした)、パンダで基本的なデータ操作とクリーニングタスクを行うことに慣れています。これは、dataquest(https://app.dataquest.io)というプラットフォームでオンラインで学びました。ただし、データ構造とアルゴリズムのインタビューに合格するための十分な知識がないと思います(上記を参照)。 機械学習:私は大学のトピックのマスターレベルのコースを受講しました(私はドイツにいるため、博士課程にはコースがないので、これはすべて私の個人的な時間でした)、それは本当に楽しかったです。含まれるトピック:k-NN、PCA、SVM、NNなど 今学期のデータベースのコースは、SQLに焦点を当てています。 今学期は、Courseraのディープラーニング専門分野を受講します。 最後に、私はトピックを完全に学ぶことができると感じていると言いたいです。実際、時間の経過とともに、オンラインで利用できる大学院レベルのコース(たとえば、スタンフォードCS231N、CS234など)を受講するつもりです。私の意見では、オンラインコースは十分に厳格ではない可能性があるためです。うまくいけば、防衛の後、私はこれにフルタイムで集中することができるでしょう。 したがって、質問: この時点でまだ雇用できますか(つまり、上記の知識でこの学期を終えた後)?正直、まだ準備は出来ていないと思いますが、1年で上手くいけると自信を持っています。 会社が私にチャンスを与えると考えるのがあまりにも単純すぎるのですか? どうしてもヒラブルになるにはどうすればいいですか?

1
トレーニングラベルの信頼度を使用して予測精度を向上させることはできますか?
バイナリ値でラベル付けされたトレーニングデータがあります。また、これらの各ラベルの信頼度を収集しました。つまり、0.8の信頼度は、人間のラベラーの80%がそのラベルに同意することを意味します。 この信頼性データを使用して分類子の精度を向上させることはできますか? 以下はうまくいくでしょうか? 1a)ラベルが0で、そのラベルの信頼度データが0.8の場合、トレーニングデータに0.2の新しいラベルを付けます。 1b)ラベルが1で、そのラベルの信頼性データが0.8の場合、トレーニングデータに0.8の新しいラベルを付けます。 2)トレーニングセットのすべてのエントリに対して、この方法を使用して新しいラベルを計算します 3)問題を回帰問題として扱います(ラベルの範囲は0〜1)。 4)新しいラベルが特定の値の上か下かに基づいて、ラベルのないデータを分類します。つまり、すべての予測ラベルにX未満の場合はクラス0を、Xを超える場合はクラス1を指定します。 現在、モデルにRBFカーネルを備えたSVMを使用しています。 前もって感謝します!


2
多次元時系列から30分前のイベントを予測するモデルをトレーニングする方法
私の分野の専門家は、イベント(黄色のバイナリスパイク)が発生する 30分前に、その可能性を予測できます。ここでの頻度は1秒です。このビューは数時間分のデータを表します。「悪意のある」パターンがあるはずの箇所を黒く囲んでいます。次元間に相互作用が存在するため、次元を個別に調査することはできません(またはそれらを検討できますか?) 私はScikit Learn を使用して監視された MLモデルを構築しようとしています。これは、通常のリズムを学習し、症状がスパイクにつながる可能性がある場合を検出します。私はどちらの方向を取るか迷っています。私は異常検出を試しましたが、それはその場検出でのみ機能し、以前は機能しませんでした。 それらのイベントの前に「悪意のある」パターンを検出するにはどうすればよいですか(ターゲット変数としてそれらを取得します)? どのアルゴリズムまたはデータ処理パイプラインが役立つかについてのアドバイスを歓迎します。ありがとうございました:)

3
CNNメモリ消費
提案されたモデルが、指定された量のメモリを備えたGPUでトレーニングされるのに十分小さいかどうかを推定できるようにしたい このような単純なCNNアーキテクチャがある場合: Input:50x50x3 C1:32個の3x3カーネル、パディング付き(実際には、入力深度を考えると、実際には3x3x3でしょうか?) P1:2x2、ストライド2 C2:64 x 3x3カーネル、パディングあり P2:2x2、ストライド2 FC:500ニューロン Output:softmax 10クラス 64のミニバッチサイズ 32ビットの浮動小数点値を想定して、トレーニング中にネットワークの各レイヤーのメモリコストをどのように計算しますか?そして、そのようなモデルをトレーニングするために必要な総メモリは?

1
Apache Sparkでコサイン類似度を計算する
特定の単語のIDFが計算されたDataFrameがあります。例えば (10,[0,1,2,3,4,5],[0.413734499590671,0.4244680552337798,0.4761400657781007, 1.4004620708967006,0.37876590175292424,0.48374466516332]) .... and so on クエリQを指定すると、このクエリのTF-IDFを計算できます。データフレーム内のすべてのドキュメントを含むクエリのコサイン類似度を計算するにはどうすればよいですか(100万のドキュメントに近い) ベクトルの乗算を使用して、map-reduceジョブで手動で実行できます コサイン類似度(Q、ドキュメント)=ドット積(Q、ドキュメント)/ || Q || * ||ドキュメント|| しかし確かにSpark MLはテキストのコサイン類似度の計算をネイティブでサポートする必要がありますか? 言い換えると、検索クエリが与えられた場合、DataFrameからドキュメントTF-IDFの最も近い余弦をどのように見つけるのですか?

2
ビッグデータセットの機械学習のベストプラクティス
私はマスターを卒業しようとしており、機械学習について学び、それを使って研究プロジェクトを実行していました。ビッグデータセット(100 GBまたはTBなど)で機械学習タスクを実行するときの業界のベストプラクティスについて知りたいです。仲間のデータサイエンティストが彼らの経験を共有できるかどうか感謝します。ここに私の質問があります: 明らかに、非常に大きなデータセットはトレーニングに長い時間がかかります(数日または数週間になる場合があります)。多くの場合、さまざまなモデル(SVM、ニューラルネットワークなど)をトレーニングして、より良いパフォーマンスモデルを比較して見つける必要があります。業界のプロジェクトでは、できるだけ早く結果を出したいのですが、最高のパフォーマンスが得られると思います。トレーニングとテストの時間を短縮するためのヒントはありますか?データセットをサブセット化することをお勧めする場合は、データセットをサブセット化して、データセットのシナリオのすべてまたは大部分をカバーするのに最適な方法を知りたいと思います。 交差適合を実行すると、過剰適合が減少する可能性があるため、より良いことはわかっています。ただし、相互検証はトレーニングにも時間がかかり、相互検証でトレーニングされたモデルは直接実装されない可能性があります(Python sklearnエクスペリエンスから言えば、実装するクロス検証テストの後に、モデルをデータセットで再度トレーニングする必要があります)。通常、ビッグデータプロジェクトで相互検証を行っていますか、それともトレーニングテストの分割で問題を解決していますか? フィードバックに感謝します。


1
ニューラルネットによる強化学習について(Qラーニング)
ニューラルネットを関数近似器として使用している場合の強化学習とマルコフ決定過程(MDP)を理解しようとしています。 環境を確率論的に探索するMDPと、これがどのように学習パラメーターにマッピングされるか、そして最終的なソリューション/ポリシーがどのように見つかるかとの関係に問題があります。 Qラーニングの場合、ニューラルネットワークは本質的にq値自体の関数近似器として機能するため、将来は非常に多くのステップがあると私は思いますか?これは、バックプロパゲーションまたは他の方法を介して更新パラメーターにどのようにマッピングされますか? また、ネットワークが将来の報酬を予測する方法を学習した後、これは実際に意思決定を行うという点でシステムにどのように適合しますか?私は、最終的なシステムが確率的に状態遷移を行わないことを想定しています。 ありがとう

2
機械学習のステップ
予測モデルを作成する場合、以下の一連のステップオプションのうち正しいものはどれですか。 オプション1: 最初に最も明らかに悪い予測子を排除し、必要に応じて残りを前処理します。次に、相互検証を使用してさまざまなモデルをトレーニングし、いくつかの最良のものを選択し、それぞれが使用した上位予測子を特定し、それらのモデルのみを使用してそれらのモデルを再トレーニングし、精度を評価します。再度交差検証を使用して、最適なものを選択し、主要な予測子を使用して完全なトレーニングセットでトレーニングし、それを使用してテストセットを予測します。 オプション2: まず、最も明らかに悪い予測子を排除し、必要に応じて残りを前処理してから、再検証機能選択(例:rfを使用したRFE)などの特徴選択手法を使用して、交差検証を行い、主要な予測子の理想的な数とこれらの予測子を特定します。次に、交差検証を使用してさまざまなモデルタイプをトレーニングし、以前に特定された上位予測子でどのモデルが最高の精度を提供するかを確認します。次に、完全なトレーニングセットの予測子を使用して、これらのモデルの最適なモデルを再度トレーニングし、それを使用してテストセットを予測します。

1
オートエンコーダーの再構築で、逆ではなくフォワードアクティベーションと同じアクティベーション機能を使用するのはなぜですか?
あなたは、n個のニューロンと入力層を有し、第一の中間層があるとし典型的で、ニューロンを。次に、次のにして、隠れ層の番目のニューロンの作動を計算します。m &lt; n a j jmmmm&lt;nm&lt;nm < najaja_jjjj aj=f(∑i=1..nwi,jxi+bj)aj=f(∑i=1..nwi,jxi+bj)a_j = f\left(\sum\limits_{i=1..n} w_{i,j} x_i+b_j\right)、ここではまたはような活性化関数です。tanh シグモイドffftanhtanh\tanhsigmoidsigmoid\text{sigmoid} ネットワークをトレーニングするには、で示される入力の再構成を計算し、と間の誤差を最小化します。ここで、番目の要素は通常、次のように計算されます。z x i zzzzzzzxxxiiizzz zi=f(∑j=1..mw′j,iaj+b′i)zi=f(∑j=1..mwj,i′aj+bi′) z_i = f\left ( \sum\limits_{j=1..m} w_{j,i}' a_j+b'_i \right) なぜ再構築されたは通常、逆関数を使用する代わりに同じ活性化関数を使用して計算されるのか、なぜ結合された重みとバイアスを使用する代わりに別々のとが役立つのでしょうか?次のように、逆活性化関数を使用して再構築を計算すること(たとえば、)を実行する方がはるかに直感的です。w ′ b ′ f − 1アークタンzzzw′w′w'b′b′b'f−1f−1f^{-1}arctanharctanh\text{arctanh} z′i=∑j=1..mf−1(aj)−bjwTj,izi′=∑j=1..mf−1(aj)−bjwj,iT z_i' = \sum\limits_{j=1..m} \frac{f^{-1}(a_j)-b_j}{w_{j,i}^T} ここでは、結合された重み、つまりw '= w ^ Tが使用され、入力層に追加のバイアスセットを導入する代わりに、隠れ層のw′=wTw′=wTw' = w^Tバイアスb_jが使用されることに注意してくださいbjbjb_j。 そして、非常に関連する質問:再構成を計算する代わりに、フィーチャを視覚化するために、通常、隠れ層の次元を使用して単位行列を作成します。次に、行列の各列を再活性化関数への入力として使用し、入力ニューロンに出力を誘導します。再活性化関数については、同じ活性化関数(またはziziz_i)または逆関数(それぞれz′izi′z'_i)を使用する方が良いでしょうか?

1
動作をハードコーディングせずに簡単な機械学習を行うにはどうすればよいですか?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 5年前休業。 私は常に機械学習に興味を持っていましたが、簡単な「Hello World」の例から始めることについて1つのことを理解できません。ハードコーディング動作を回避するにはどうすればよいですか? たとえば、ランダムに配置された障害物を回避する方法をボットに「教える」場合、障害物が動き回るので、相対運動だけを使用することはできませんが、距離などのハードコードはしたくありません。機械学習の全体のポイントを台無しにします。 明らかに、ランダムにコードを生成することは実際的ではないので、どうすればこれを実行できますか?

3
LSTMセル、ユニット、入力に関する質問
LSTMネットワークがどのように機能するかを学習しようとしています。基本を理解しても、内部構造の詳細はわかりません。 このブログリンクで、私はこのLSTMアーキテクチャのスキームを見つけました 明らかに、すべての円はLSTMこのような個々のユニットに対応している必要があります これは正しいです? セル内の各ユニットは他のユニットから独立していますか?または、彼らは情報を共有しますか? 次の構成があるとします。サンプル数= 1000時間ステップ数= 10特徴数= 5 この場合、セルの各ユニットは、サイズ5のベクトルを入力として受け取りますか? しかし、1つのユニットの出力のサイズはどうなるでしょうか。1? ありがとう

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.