タグ付けされた質問 「machine-learning」

「経験とともに自動的に改善するコンピューターシステム」を構築する方法と原則。

1
ミニバッチ勾配降下にはランダム要素を使用する必要がありますか?
ニューラルネットワークにミニバッチ勾配降下法を実装する場合、各ミニバッチでランダムな要素を取ることが重要ですか?または、トレーニングの最初に要素を1回シャッフルするだけで十分ですか? (私は彼らが何をしているのかを明確に述べている情報源にも興味があります。)

1
スペクトルクラスタリングのコンテキストで、アフィニティ行列の固有ベクトルとグラフラプラシアン固有ベクトルの違いは何ですか?
スペクトルクラスタリングでは、固有ベクトル問題を解くのが標準的な方法です LのV = λ VLv=λvL v = \lambda v ここで、はグラフラプラシアン、は固有値関連する固有ベクトルです。VのλLLLvvvλλ\lambda 私の質問:なぜわざわざグラフラプラシアンをとるのですか?このビデオでやったように、グラフ(アフィニティマトリックス)自体の固有ベクトル問題を解決することはできませんか? PS:CrossValidatedで同じ質問をしましたが、これはより適切なチャネルだと思います。私が間違っていたら私を許してください。

2
Pylearn2とTensorFlow
私は長いNN研究プロジェクトに飛び込もうとしていて、Pylearn2またはTensorFlowの方向への推進を望んでいましたか?2015年12月の時点で、コミュニティは何らかの方向に傾い始めていますか? このリンクは、TenserFlowに縛られることへの懸念を私に与えました。

2
機械学習:単一の入力から可変数の出力
単一の入力を可変長の出力リストにマッピングする機械学習アルゴリズムはありますか?もしそうなら、公共使用のためのアルゴリズムの実装はありますか?そうでない場合、回避策として何をお勧めしますか? 私の場合、入力は単一のスカラーで、出力は可変長のスカラーのリストです。たとえば、リストの長さを入力として、1のリストを出力したいとします。次に、<input、output>は<1、[1]>、<2、[1、1]>などになります。小さな調整を行うと、長さの平方根が得られます。この場合、<2、[1、1 、1、1]>が答えになります。注:入力を出力に直接接続する必要はありません。 より複雑な例として、見た目と順序のシーケンスを学びたいとしましょう。有効な<input、output>ペアは、<1、[1]>、<2、[1、1]>、<3、[2、1]>、<4、[1、2、1、1]です。 >、<5、[1、1、1、2、2、1]>など。私の問題も、より多くの例を生成できるという点で似ています。私は有限の例のセットに制限されていません。


1
レコメンダーシステムでトレーニング/テストを分割する方法
私はMovieLens10Mデータセットを使用して、ユーザーの評価を予測しています。アルゴリズムを公平に評価したい場合、トレーニングデータとテストデータをどのように分割すればよいですか? デフォルトでは、データはトレーニングとテストセットに分割されていると思います。「テスト」には、トレーニングセットでこれまで見られなかった映画が含まれています。モデルが各映画をトレーニングセットで少なくとも1回見たことが必要な場合、データをどのように分割すればよいですか?すべてのデータについて各ユーザーのN個を除くすべての評価を取得し、保留されているNxUser_num評価のパフォーマンスを評価する必要がありますか?

1
R-ニューラルネットワークプロットの解釈
stats.SEにも同様の質問があることは知っていますが、私の要求を満たす質問は見つかりませんでした。質問を重複としてマークする前に、コメントでpingしてください。 neuralnetSP500インデックスの時系列を予測するために基づいてニューラルネットワークを実行していて、以下に掲載されているプロットをどのように解釈できるかを理解したいと思います。 特に、隠れ層の重みと入力の重みの解釈が何であるかを理解することに興味があります。誰かがその数を解釈する方法を教えてもらえますか? 任意のヒントをいただければ幸いです。

1
sklearn-過剰適合問題
現在の機械学習の問題を解決する最善の方法に関する推奨事項を探しています 問題の概要と私が行ったことは次のとおりです: EEGデータの900回以上の試行があり、各試行は1秒の長さです。それぞれのグラウンドトゥルースは既知であり、状態0と状態1を分類します(40〜60%の分割) 各試行は、特定の周波数帯域のパワーをフィルタリングおよび抽出する前処理を通過し、これらは一連の機能を構成します(機能マトリックス:913x32) 次に、sklearnを使用してモデルをトレーニングします。cross_validationは、テストサイズ0.2を使用する場合に使用されます。分類子はrbfカーネルでSVCに設定されています、C = 1、ガンマ= 1(私はいくつかの異なる値を試しました) ここでコードの短縮版を見つけることができます:http : //pastebin.com/Xu13ciL4 私の問題: 分類子を使用してテストセットのラベルを予測すると、すべての予測が0になる トレイン精度は1ですが、テストセット精度は約0.56です。 私の学習曲線プロットは次のようになります: さて、これはここでオーバーフィットの古典的なケースのようです。ただし、ここでの過剰適合は、サンプルに対する特徴の数が極端に多い(32個の特徴、900個のサンプル)ために発生することはほとんどありません。私はこの問題を軽減するためにいくつかのことを試みました: サンプル数に対して機能が多すぎるために、次元削減(PCA)を使用してみましたが、精度スコアと学習曲線プロットは上記と同じに見えます。コンポーネントの数を10未満に設定しない限り、トレインの精度は低下し始めますが、情報を失い始めていることを考えると、これは多少予想されませんか? データの正規化と標準化を試みました。標準化(SD = 1)は、トレインまたは精度スコアを変更することはありません。(0-1)を正規化すると、トレーニングの精度が0.6に低下します。 SVCに対してさまざまなCおよびガンマ設定を試しましたが、どちらのスコアも変更されません GaussianNBなどの他の推定量を使用して、adaboostなどのアンサンブル法を使用してみました。変化なし linearSVCを使用して正則化メソッドを明示的に設定しようとしましたが、状況は改善されませんでした theanoを使用してニューラルネットで同じ機能を実行してみましたが、列車の精度は約0.6、テストは約0.5です 私は問題について考え続けることができてうれしいですが、この時点で私は正しい方向へのナッジを探しています。私の問題はどこにあり、それを解決するために私は何ができますか? 私の機能のセットが2つのカテゴリーを区別しないだけの可能性は十分にありますが、この結論にジャンプする前に他のいくつかのオプションを試してみたいと思います。さらに、私の機能が区別されない場合、それは低いテストセットスコアを説明しますが、その場合、どのようにして完璧なトレーニングセットスコアを取得できますか?それは可能ですか?

1
ディープラーニング研究におけるTheano
Theanoはディープラーニング研究でどのくらい広く使用されていますか? Theanoは機械学習アルゴリズムの実装を学ぶための良いスタートですか? フィードフォワードネットワークのようなものの実装を学ぶことは本当に役立ちますか?大学院生は、学生時代に少なくとも一度はニューラルネットワークやその他のアルゴリズムを実装していますか? バックグラウンド: フィードフォワードとリカレントネットワーク、バックプロパゲーション、機械学習問題の一般的なパイプライン、および必要な数学について、私は理にかなった考えを持っています。

3
データセットの異なる要素間の類似性を見つける方法
前書き さまざまな人々のさまざまな観察のデータセットがあり、他の人に最も近い人を知るために人々をグループ化したいとします。また、それらが互いにどれだけ近いかを知り、統計的有意性を知るための測定も必要です。 データ eat_rate drink_rate sleep_rate play_rate name game 1 0.0542192259 0.13041721 5.013682e-03 1.023533e-06 Paul Rayman 4 0.0688171511 0.01050611 6.178833e-03 3.238838e-07 Paul Mario 6 0.0928997660 0.01828468 9.321211e-03 3.525951e-07 Jenn Mario 7 0.0001631273 0.02212345 7.061524e-05 1.531270e-07 Jean FIFA 8 0.0028735509 0.05414688 1.341689e-03 4.533366e-07 Mark FIFA 10 0.0034844717 0.09152440 4.589990e-04 5.802708e-07 Mark …

4
スパムメールの検出を学ぶには?
スパムメール検出機能がどのように実行されるかを知りたい。私は市販の製品を作るつもりはありません。それは私にとって真剣な学習課題になります。したがって、私はフォローできる既存のプロジェクト、ソースコード、記事、論文などのリソースを探しています。私は例で学びたいのですが、一から学ぶだけでは十分ではないと思います。ベイジアンで手を汚したいのが理想です。 そのようなものはありますか?プログラミング言語は私にとって問題ではありません。

1
テキストデータを300のカテゴリに分類するためにどの分類アルゴリズムを試すか
ヘルスケアドメインのテキストデータが40000行あります。データには、テキスト(2〜5文)の1つの列と、そのカテゴリの1つの列があります。それを300のカテゴリーに分類したい。一部のカテゴリは独立していますが、いくらか関連しています。カテゴリ間のデータの分布も均一ではありません。つまり、一部のカテゴリ(そのうちの約40)には、2〜3行程度のデータしかありません。 各クラス/カテゴリのログ確率を添付しています。(またはクラスの分布)ここに。

3
シーケンスデータのセグメンテーションのアルゴリズム
長さNのベクトルの大きなシーケンスがあります。これらのベクトルをMセグメントに分割するには、教師なし学習アルゴリズムが必要です。 例えば: K平均法は、異なる場所からの類似した要素を単一のクラスターに入れるため、適切ではありません。 更新: 実際のデータは次のようになります。 ここでは、3つのクラスターが表示されます。 [0..50], [50..200], [200..250] アップデート2: 私は修正されたk-meansを使用して、この許容できる結果を得ました: クラスターの境界: [0, 38, 195, 246]

4
モデルがモデル化されているものに作用し、それによって概念が変わるときの用語は何ですか?
私は、文学の研究や執筆で私を助けるために、この概念に慣習的な用語があるかどうかを確認しようとしています。機械学習モデルが現実の世界で将来のインスタンスに影響を与えるアクションを起こすとき、それは何と呼ばれますか? ある特定の製品を推奨し、別の特定の製品を推奨しないレコメンダーシステムのようなものを考えています。次に、誰かが最初の製品を購入する可能性を高め、誰かが2番目の製品を購入する可能性を減らしました。したがって、これらの販売数は最終的にトレーニングインスタンスになり、一種のフィードバックループが作成されます。 これに用語はありますか?

2
データ内のユーザー名を匿名化するためのベストプラクティスは何ですか?
データマイニング技術を使用してさらに分析するために、元のテキストデータを他の学生に共有するように依頼するプロジェクトに取り組んでいます。提出物で学生名を匿名化するのが適切だと思います。 学生が自分の作品を提出し、バックエンドスクリプトが匿名化されたIDを挿入するURLのより優れたソリューションを別にして、自分の名前を匿名化するために、学生が自分で実装するようにどのようなソリューションを指示できますか? 私はまだこの分野の初心者です。私は標準が何であるか知りません。私はその解決策がハッシュアルゴリズムかもしれないと考えていました。2人が同じ偽の名前を選ぶことができるので、それは偽の名前を作るよりも良い解決策のように思えます。可能性のある人々は同じ偽の名前を選ぶことができます。私が知っておくべき懸念のいくつかは何ですか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.