タグ付けされた質問 「machine-learning」

機械学習アルゴリズムは、トレーニングデータのモデルを構築します。「機械学習」という用語は漠然と定義されています。これには、統計学習、強化学習、教師なし学習などとも呼ばれるものが含まれます。常に、より具体的なタグを追加します。

11
線形回帰はいつ「機械学習」と呼ばれるべきですか?
最近のコロキウムでは、講演者の要約は、彼らが機械学習を使用していると主張しました。講演中、機械学習に関連する唯一のことは、データに対して線形回帰を実行することでした。5Dパラメーター空間で最適な係数を計算した後、あるシステムのこれらの係数を他のシステムの最適な係数と比較しました。 線形回帰の機械学習は、単に最適な線を見つけるのではなく、いつ行われますか?(研究者の抽象的な誤解を招くものでしたか?) 最近、機械学習が注目を集めているため、このような区別をすることが重要だと思われます。 私の質問はこれに似ていますが、その質問は「線形回帰」の定義を求めますが、私の質問は線形回帰(多数のアプリケーションを持っています)が適切に「機械学習」と呼ばれる場合を尋ねます。 明確化 線形回帰が機械学習と同じであるかどうかは問いません。一部の人が指摘したように、単一のアルゴリズムは研究分野を構成しません。使用しているアルゴリズムが単なる線形回帰であるときに、機械学習を行っていると言ってもいいのかどうかを尋ねています。 1つは、彼らがされていない場合、あなたの名前にいくつかの金の星を追加するために機械学習を行っていると言うことは非倫理的であるため、わきすべてのジョーク(コメントを参照してください)、私はこれを頼む理由の一つは、実際に機械学習を行います。(多くの科学者は自分の仕事に最適なラインを計算しますが、これは機械学習を行っているという意味ではありません。)一方、機械学習の一部として線形回帰が使用されている状況は明らかにあります。これらの状況を分類するのに役立つ専門家を探しています。;-)


7
leave-one-out対K-foldクロス検証のバイアスと分散
モデルの分散とバイアスの観点から、さまざまな交差検証方法をどのように比較しますか? 私の質問はこのスレッドによって部分的に動機づけられています:最適な折り畳み数-交差検証:leave-one-out CVは常に最良の選択ですか?KKK。そこでの答えは、leave-one-out交差検定で学習したモデルは、通常の倍交差検定で学習したモデルよりも高い分散を持ち、leave-one-out CVがより悪い選択になることを示唆しています。KKK しかし、私の直感では、Leave-one-out CVではフォールドCV よりもモデル間の分散が比較的小さいはずです。なぜなら、フォールド間で1つのデータポイントのみをシフトしているため、フォールド間のトレーニングセットが実質的に重なっているからです。KKK または、逆方向に進むと、がフォールドCVで低い場合、トレーニングセットはフォールド全体で大きく異なり、結果のモデルは異なる可能性が高くなります(したがって、分散が大きくなります)。KKKKKKK 上記の議論が正しければ、leave-one-out CVで学習したモデルの分散が大きくなるのはなぜですか?

2
tanh活性化機能とシグモイド活性化機能
tanhアクティベーション機能は次のとおりです。 tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 ここで、シグモイド関数は、次のように定義される。。σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} 質問: これら2つのアクティベーション関数(tanhとsigma)を使用することは本当に重要ですか? どの場合にどの機能が優れていますか?

5
「クローズドフォームソリューション」とはどういう意味ですか?
「クローズドフォームソリューション」という用語に出くわすことがよくあります。閉じた形式のソリューションとはどういう意味ですか?特定の問題に対して厳密な形式の解決策が存在するかどうかをどのように判断しますか?オンラインで検索すると、いくつかの情報が見つかりましたが、統計的または確率的モデル/ソリューションを開発するという文脈では何も見つかりませんでした。 私は回帰を非常によく理解しているので、だれかが回帰またはモデルのあてはめを参照して概念を説明できるなら、それは使いやすいでしょう。:)


5
ポリシー外学習とポリシー上学習の違いは何ですか?
人工知能の Webサイトでは、ポリシー外学習とポリシー上学習を次のように定義しています。 「ポリシー外の学習者は、エージェントのアクションとは無関係に最適なポリシーの値を学習します。Qラーニングは、ポリシー外の学習者です。ポリシー上の学習者は、探索ステップを含め、エージェントによって実行されるポリシーの値を学習します」 これらは私には何の違いももたらさないようですので、これについてあなたの説明をお願いしたいと思います。どちらの定義も同じように見えます。私が実際に理解したことは、モデルなしの学習とモデルベースの学習であり、それらが問題の学習と関係があるかどうかはわかりません。 エージェントのアクションとは無関係に最適なポリシーを学習することはどのように可能ですか?エージェントがアクションを実行するときにポリシーは学習されませんか?

3
例:バイナリ結果にglmnetを使用したLASSO回帰
私は興味のある結果が二分されglmnetているLASSO回帰の使用に手を出し始めています。以下に小さな模擬データフレームを作成しました。 age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, 2, 2, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

1
サポートベクターマシンの理解を手伝ってください
入力セットをいくつかの異なるクラスに分類するという点で、サポートベクターマシンの目的の基本は理解していますが、理解していないのは本質的な詳細の一部です。まず、Slack Variablesの使用に少し混乱しています。彼らの目的は何ですか? 靴の中敷に置いたセンサーから圧力の測定値を取得する分類問題を行っています。被験者は、圧力データが記録されている間、数分間座り、立ち、歩きます。人が座っているか、立っているか、歩いているかを判断できるように分類器をトレーニングし、将来のテストデータでそれを実行できるようにします。どの分類器タイプを試す必要がありますか?キャプチャしたデータから分類器をトレーニングする最良の方法は何ですか?座ったり、立ったり、歩いたりするためのエントリが1000個あり(合計3x1000 = 3000)、それらはすべて次の特徴ベクトル形式を持っています。(センサー1からの圧力、センサー2からの圧力、センサー3からの圧力、センサー4からの圧力)

6
機械学習で相互検証を実行する際の「最終」モデルの機能選択
機能の選択と機械学習について少し混乱しているので、手伝ってくれないかと思っていました。2つのグループに分類され、1000の機能を持つマイクロアレイデータセットがあります。私の目的は、理論的に他のデータセットに適用してそれらのサンプルを最適に分類できるシグネチャで少数の遺伝子(私の特徴)(10-20)を取得することです。サンプル数が少ないため(<100)、テストとトレーニングセットを使用せず、Leave-one-outクロス検証を使用して堅牢性を判断しています。サンプルの分割ごとに特徴選択を実行する必要があることを読みました。 テストセットとして1つのサンプルを選択します 残りのサンプルで機能選択を実行します 選択した機能を使用して、機械学習アルゴリズムを残りのサンプルに適用します テストセットが正しく分類されているかどうかをテストします 1に進みます。 これを行うと、毎回異なる遺伝子を取得する可能性があります。それでは、「最終的な」最適な遺伝子分類子をどのように取得しますか。すなわち、ステップ6とは何ですか。 最適とは、今後の研究で使用すべき遺伝子のコレクションです。たとえば、癌/正常なデータセットがあり、SVMに従って腫瘍タイプを分類する上位10の遺伝子を見つけたいとします。診断テストとして使用できるかどうかを確認するために、さらなる実験で使用できる遺伝子とSVMパラメータのセットを知りたいです。


3
パブリケーションでランダムフォレストを表示する最良の方法は?
私は、ランダムフォレストアルゴリズムを、1000種類の特徴を持つマイクロアレイ研究の2つのグループの堅牢な分類子として使用しています。 ランダムフォレストを提示して、それを論文で再現可能にするのに十分な情報があるようにする最良の方法は何ですか? フィーチャの数が少ない場合、実際にツリーをプロットするRのプロットメソッドはありますか? エラー率のOOB推定は、引用するのに最適な統計ですか?

6
閉形式の数学ソリューションが利用可能な場合、線形回帰に勾配降下法を使用する理由は何ですか?
私はオンラインで機械学習コースを受講しており、仮説の最適値を計算するための勾配降下について学びました。 h(x) = B0 + B1X 以下の式で値を簡単に見つけることができる場合、なぜ勾配降下を使用する必要があるのですか?これも簡単で簡単です。しかし、GDは値を取得するために複数の反復を必要とします。 B1 = Correlation * (Std. Dev. of y/ Std. Dev. of x) B0 = Mean(Y) – B1 * Mean(X) 注:https : //www.dezyre.com/data-science-in-r-programming-tutorial/linear-regression-tutorialのように撮影 私は以下の質問をチェックしましたが、私にとっては理解するのが明確ではありませんでした。 なぜ勾配降下が必要なのですか? 最適化が分析ソリューションではなく勾配降下で解決されるのはなぜですか? 上記の回答では、GDと派生物の使用を比較しています。

11
博士号なしでデータマイニングの仕事をする
私はしばらくの間、データマイニングと機械学習に非常に興味がありました。その理由の1つは、学校でその分野を専攻していましたが、プログラミングだけでなく、知識とそのソリューションが複数の形式を持つことができます。私には研究者/科学者のバックグラウンドはありません。データ分析に重点を置いたコンピューターサイエンスのバックグラウンドから来ました。博士号ではなく修士号を取得しています。私は現在、データ分析に関連する立場を持っています。たとえそれが私がしていることの主な焦点ではないとしても、少なくともある程度はそれをよく知っています。 数年前にいくつかの企業と仕事をするためにインタビューし、数人のリクルーターと話をするようになったとき、機械学習を行うには博士号が必要だと人々が考える一般的なパターンを見つけました。少し一般化しすぎています(一部の企業は、特に博士号を本当に探していませんでした)。 その分野で博士号を取得するのは良いことだと思いますが、これが絶対に必要だとは思いません。私はほとんどの現実世界の機械学習アルゴリズムについてかなり適切な知識を持ち、それらのほとんどを自分で(学校でも個人プロジェクトでも)実装しており、機械学習/データマイニングおよび統計一般に関する問題に取り組む際にかなり自信を持っています。また、似たようなプロフィールを持っている友人もいますが、これについても非常に精通しているようですが、博士号を取得していない場合、一般的に企業はデータマイニングの採用についてかなり恥ずかしがっていると感じています。 フィードバックをもらいたいのですが、その分野に非常に焦点を当てた仕事をするためには、博士号が絶対に必要だと思いますか? (ここでこの質問を投稿する前に少し迷いましたが、メタに関する許容可能なトピックであると思われるため、私はしばらくの間考えていたこの質問を投稿することにしました。)

4
なぜニューラルネットワークは深くなりつつあるが、広くはならないのか?
近年、畳み込みニューラルネットワーク(または一般的にはディープニューラルネットワーク)はますます深くなり、最先端のネットワークは4層で7層(AlexNet)から1000層(残余ネット)になります年。より深いネットワークからのパフォーマンスの向上の背後にある理由は、より複雑な非線形関数を学習できるからです。十分なトレーニングデータがある場合、これにより、ネットワークは異なるクラスをより簡単に区別できます。 ただし、この傾向は各レイヤーのパラメーターの数では続かないようです。たとえば、畳み込みレイヤーのフィーチャマップの数、または完全に接続されたレイヤーのノードの数は、レイヤー数が大幅に増加したにもかかわらず、ほぼ同じままで、規模は比較的小さいままです。しかし、私の直感からは、レイヤーごとのパラメーターの数を増やすと、各レイヤーに非線形関数を学習するための豊富なデータソースが与えられるように思えます。しかし、この考え方は、それぞれが少数のパラメーターを持つレイヤーを追加するだけで、見過ごされていたようです。 したがって、ネットワークは「より深く」なっていますが、「より広く」はなりません。どうしてこれなの?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.