タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

2
サポートベクターマシンと回帰
サポートベクターマシンが分類を処理する方法についてはすでに優れた議論がありましたが、サポートベクターマシンが回帰に一般化する方法については非常に混乱しています。 私を啓発したい人はいますか?

4
特徴の数と観測値の数
「堅牢な」分類器をトレーニングするために必要な特徴の数と観測の数の関係についての論文/本/アイデアはありますか? たとえば、トレーニングセットとして2つのクラスから1000個の特徴と10個の観測値があり、テストセットとして10個の他の観測値があるとします。分類子Xをトレーニングすると、テストセットで90%の感度と90%の特異性が得られます。この精度に満足しているとしましょう。これに基づいて、それは優れた分類器であると言えます。一方、10ポイントのみを使用して1000変数の関数を近似しました。

4
スキップ層接続を備えたニューラルネットワーク
ニューラルネットワークでの回帰に興味があります。 隠れノードがゼロのニューラルネットワーク+スキップレイヤー接続は線形モデルです。 同じニューラルネットについてですが、隠れノードはありますか?スキップ層接続の役割は何でしょうか? 直観的には、スキップ層接続を含めると、最終モデルは線形モデルといくつかの非線形部分の合計になります。 ニューラルネットにスキップレイヤー接続を追加することには、利点や欠点はありますか?

2
変分オートエンコーダーでのKLD損失と再構成損失の重み付け方法
VAEで見たほぼすべてのコード例で、損失関数は次のように定義されています(これはtensorflowコードですが、theano、torchなどでも同様です。これはconvnetでも見られますが、あまり関係ありません) 、単に合計が引き継がれる軸に影響します): # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # reconstruction error, using pixel-wise L2 loss, for each batch rec_loss = …

1
分類と回帰を組み合わせたアルゴリズムはありますか?
分類と回帰を同時に行うことができるアルゴリズムがあるかどうか疑問に思っています。たとえば、アルゴリズムに分類子を学習させたいと同時に、各ラベル内で連続ターゲットも学習させます。したがって、トレーニングの例ごとに、カテゴリラベルと連続値があります。 最初に分類器をトレーニングし、次に各ラベル内のリグレッサーをトレーニングできますが、両方を実行できるアルゴリズムがあれば素晴らしいと思います。

5
畳み込みニューラルネットワークとディープラーニングの違いは何ですか?
プロジェクトでディープラーニングを使用したい。いくつかの論文を読んで、質問がありました。畳み込みニューラルネットワークとディープラーニングに違いはありますか?これらは同じものですか、それとも大きな違いがありますか?

8
機械学習の原理理論と数学的理論が重要なのはなぜですか?
私は、原理的/理論的な機械学習を持つことがなぜそんなに重要なのだろうと考えてきました。人間としての個人的な観点から、原理的な機械学習が重要である理由を理解できます。 人間は自分がしていることを理解するのが好きで、私たちは理解の美しさと満足感を見つけます。 理論的な観点から、数学は楽しいです 物事の設計を導く原則がある場合、ランダムな推測、奇妙な試行錯誤に費やす時間が少なくなります。たとえば、ニューラルネットが実際にどのように機能するかを理解すれば、たった今試行錯誤を繰り返すよりもはるかに時間をかけて設計することができます。 より最近では、原則が明確であり、理論も明確であれば、システムへの(できれば)より透明性があるはずです。システムの機能を理解すれば、AIは多くの人々の誇大宣伝がすぐに消えてしまうリスクがあるため、これは良いことです。 原則は、世界が持つ可能性のある重要な構造と、別のツールではなくツールを使用するタイミングを要約する簡潔な方法のようです。 しかし、これらの理由は、機械学習の集中的な理論的研究を正当化するほど十分に強力なのでしょうか?理論に対する最大の批判の1つは、実行が非常に難しいため、通常、非常に制限されたケースや、本質的に結果を役に立たなくする必要がある仮定を研究することになります。Torの作者によるMITでの講演でこれを聞いたことがあると思います。彼が聞いたTorの批判の一部は理論的な議論であるが、本質的に、人々は現実の現実のシナリオについて物事を証明することができない。 計算能力とデータが非常に多いこの新しい時代では、実際のデータセットとテストセットを使用してモデルをテストできます。経験主義を使用して、物事が機能するかどうかを確認できます。代わりに、エンジニアリングと経験主義で機能するAGIまたはシステムを実現できる場合、特に定量化の限界を達成するのが非常に困難ですが、直感と定性的な答えがはるかに簡単な場合、機械学習の原理的および理論的な正当化を追求する価値がありますデータ駆動型アプローチで達成しますか?このアプローチは古典的な統計では利用できませんでした。そのため、当時は理論が非常に重要であったと思います。 私は個人的に常に理論を愛し、考えており、原則的なアプローチが重要でした。しかし、実際のデータとコンピューティング能力で物事を試すことができるという力で、理論的な追求の大きな努力(そして潜在的に低い報酬)がまだ価値があるのだろうかと思いました。 機械学習の理論的および原則的な追求は本当に重要ですか?

1
最先端のストリーミング学習
私は最近大規模なデータセットを扱っており、ストリーミング方法に関する多くの論文を見つけました。いくつか例を挙げると: Follow-the-Regularized-Leader and Mirror Descent:等価定理とL1正則化(http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf) ストリーミング学習:ワンパスSVM(http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf) Pegasos:SVMのプライム推定サブGrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf またはここ:SVMは一度に1つの例をストリーム学習できますか? ストリーミングランダムフォレスト(http://research.cs.queensu.ca/home/cords2/ideas07.pdf) しかし、私はそれらが互いにどのように比較されるかに関するドキュメントを見つけることができませんでした。私が読んだすべての記事は、異なるデータセットで実験を行っているようです。 私は、sowia-ml、vowpal wabbitについて知っていますが、それらは既存の膨大な量のメソッドと比較して、ごく少数のメソッドを実装しているようです! あまり一般的ではないアルゴリズムのパフォーマンスは十分ではありませんか?できるだけ多くの方法をレビューしようとしている論文はありますか?

4
相互検証後の「テスト」データセットの使用方法
私が見たいくつかの講義やチュートリアルでは、データを3つの部分(トレーニング、検証、テスト)に分割することを提案しています。しかし、テストデータセットの使用方法や、このアプローチがデータセット全体の相互検証よりも優れている方法は明確ではありません。 データの20%をテストセットとして保存したとします。次に、残りを取得してk分割し、交差検証を使用して、このデータセットの未知のデータに対して最適な予測を行うモデルを見つけます。私たちが見つけた最良のモデルは、75%の精度を提供するとしましょう。 さまざまなQ&A Webサイトのさまざまなチュートリアルと多くの質問から、保存された(テスト)データセットでモデルを検証できるようになりました。しかし、それがどの程度正確に行われているのか、それが何の要点なのかはまだわかりません。 テストデータセットの精度が70%であるとします。 それでは、次に何をしますか?テストデータセットで高いスコアを取得するまで、別のモデルを試し、次に別のモデルを試しますか?しかし、この場合、限られた(20%のみ)テストセットに適合するモデルを見つけるだけのように見えます。一般的に最適なモデルを見つけるという意味ではありません。 さらに、限られたデータセットでのみ計算される場合、このスコアをモデルの一般的な評価としてどのように考えることができますか?このスコアが低い場合は、不運で「不良」なテストデータを選択した可能性があります。 一方、所有しているすべてのデータを使用してからk分割交差検証を使用してモデルを選択すると、所有しているデータセット全体の未知のデータに対して最適な予測を行うモデルが見つかります。


7
機械学習科学者の毎日の仕事は何ですか?
私は現在、論文を書いているドイツの大学のマスターCS学生です。私は博士号を継続するか、業界で仕事を見つける必要がある場合、私は非常に難しい決定を下す必要があります2ヶ月で完了します。 博士号取得の理由: 私は非常に好奇心が強い人だと私は私がまだ欠けていると感じあまり知識を。私は多くのことを学びたいです。博士課程はそのために役立ちます。より良いコースを行い、大量の論文を読み、データマイニングと機械学習の専門家になることができるからです。私は数学が大好きですが、私の学部では得意ではありませんでした(悪い大学)。今、このドイツ語のユニで、私は多くの素晴らしい数学スキルを開発したと感じています。私は本当に数学が大好きなので、それを改善したいと思います!(私は学部生と生涯で数学が本当に悪かったのですが、今ではうまく数学ができると思います!) 知的にやりがいのある仕事をします。 私は正直に言う必要があり、また、私は私よりも高い学位を持つ他の人に会うことを嫌います。したがって、私が通りを歩いて博士号を持つ人に会ったら、「ああ、この男は私より賢いわ」と言う必要はありません。私は反対側にいることを好む。;) 博士号を取得しない理由: 私はインターネットで博士号を取得するかしないかについて読みました。ほとんどの場合、博士号を持つ人は、マスターを持つ人と同じような仕事をすることがわかりました。(これはコンピューターサイエンスの一般的な観察であり、ML / DMに関するものではありませんでした)。 キャリアを始めて1〜2年で大金を稼ぐことができれば、おそらく自分の会社を始めることができます。 まだ明確ではないもの: 最後に私の最終目標が何であるかはまだわかりません。それは有名な小さな会社を持つことですか?それとも有名な科学者になることですか?まだこの質問に対する答えがありません。 決断を下すために、次の2つのことを知りたいと思います。 業界で修士号を取得したデータサイエンティスト/機械学習者として働くことはどのようなものですか?どんな仕事をしていますか?特に、機械学習の科学者としてアマゾンでそれらの広告を読んだとき、私はいつも彼らが何をするのだろうと思います。 前と同じ質問ですが、博士号があります。マスターと何か違うことや同じことをしていますか? 挑戦的な興味深い問題に対処するつもりですか?または退屈なものですか? ちょっとした注意として:私は機械学習の博士号を持つ男(ドイツ)を見て、機械学習ソフトウェアを宣伝する会社で働いています。私が理解したように、彼の仕事のほとんどは、人々に方法とソフトウェア(意思決定ツリーなど)を使用するように訓練することです。 いくつかの有名な良い会社でドイツ/スイスに関連した経験の答えを得ることができれば素晴らしいと思います。

6
ニューラルネットワークはどのように画像を認識しますか?
この質問は、相互検証で回答できるため、Stack Overflowから移行されました。 7年前に移行され ました。 Neural Networkが画像認識でどのように機能するかを学習しようとしています。私はいくつかの例を見て、さらに混乱しました。20x20画像の文字認識の例では、各ピクセルの値が入力レイヤーになります。だから400ニューロン。次に、ニューロンの隠れ層と26個の出力ニューロン。その後、ネットワークをトレーニングすると、完全ではなく機能します。 ニューラルネットワークについて私を混乱させたのは、画像の中にあるものについて学習する方法です。何らかの方法でネットワークが画像の比較と認識を学習するために、しきい値処理、セグメンテーション、または測定を行う必要はありません。今では魔法のようです。ニューラルネットワークの学習を開始する場所

4
モデルの不確実性への対処
CrossValidatedコミュニティのベイジアンがモデルの不確実性の問題をどのように見ているのか、そしてどのようにそれを処理することを好むのかと思いまして。私は2つの部分で質問を投げかけます。 モデルの不確実性に対処することは(あなたの経験/意見において)どのくらい重要ですか?機械学習コミュニティでこの問題を扱った論文を見つけていないので、なぜだろうと思っています。 モデルの不確実性を処理するための一般的なアプローチは何ですか(参照を提供する場合のボーナスポイント)?ベイジアンモデルの平均化について聞いたことがありますが、このアプローチの具体的な手法や制限についてはよく知りません。他に何があり、なぜあなたは別のものよりも1を好むのですか?

3
最初に試す上位5つの分類子
のような明らかな分類器の特徴に加えて 計算コスト 機能/ラベルの期待されるデータタイプと データセットの特定のサイズと次元への適合性、 まだあまり知られていない新しいデータセット(たとえば、セマンティクスと個々の機能の相関)で最初に試す上位5(または10、20?)分類子は何ですか?通常、Naive Bayes、Nearest Neighbor、Decision Tree、SVMを試します。ただし、この選択を行う理由はありません。 最も重要な一般的な分類アプローチをカバーする分類器を選択する必要があると思います。その基準に従って、またはその他の理由で、どの選択をお勧めしますか? 更新:この質問の別の定式化は、「分類に対する一般的なアプローチが存在し、最も重要/人気のある/有望な方法をカバーする特定の方法はどれですか?」です。

3
相互作用用語を含むLASSO-主効果がゼロに縮小されても大丈夫ですか?
LASSO回帰は係数をゼロに向けて縮小するため、効果的にモデルを選択できます。私のデータには、名義共変量と連続共変量の間に意味のある相互作用があると思います。ただし、必ずしも真のモデルの「主効果」が意味がある(ゼロ以外)わけではありません。もちろん、本当のモデルは不明なので、私はこれを知りません。私の目的は、真のモデルを見つけ、可能な限り密接に結果を予測することです。 モデル構築の古典的なアプローチには、相互作用が含まれる前に主効果が常に含まれることがわかった。したがって、同じモデル内に共変量相互作用がある場合、2つの共変量と主効果のないモデルは存在できません。結果として、この関数は 、この規則に従うモデル用語(例えば、後方または前方AICに基づいて)を慎重に選択します。バツバツXZZZバツ* Zバツ∗ZX*ZstepR LASSOの動作は異なるようです。すべてのパラメーターにペナルティが課されるため、主効果がゼロに縮小されるのに対し、最良の(たとえば、相互検証された)モデルの相互作用はゼロではないことは間違いありません。これは、特にRのglmnetパッケージを使用しているときにデータに見られます。 上記の最初のルールに基づいて批判を受けました。つまり、最終的な交差検証されたLassoモデルには、非ゼロ相互作用の対応する主効果項が含まれていません。しかし、この文脈ではこの規則はやや奇妙に思えます。結局のところ、真のモデルのパラメーターがゼロかどうかという問題です。そうだと仮定しますが、相互作用はゼロではないので、LASSOはおそらくこれを識別し、正しいモデルを見つけます。実際、このモデルには実際にはノイズ変数である真のゼロの主効果が含まれていないため、このモデルからの予測はより正確になるようです。 この根拠に基づいて批判に反論することはできますか、それともLASSOには相互作用期間の前に主な効果が含まれることに何らかの注意を払う必要がありますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.