統計とビッグデータ machine-learning

4

「統計学習入門」を終えました。クロス検証を使用して、さまざまな機械学習手法に最適なチューニングパラメーターを見つけることは、データスヌーピングと異なるのではないかと考えました。チューニングパラメーターのどの値がテストセットで最良の予測結果をもたらすかを繰り返しチェックしています。到達したチューニングパラメーターが偶然この特定のテストセットに適合し、将来のテストセットでうまく機能しない場合はどうでしょうか。機械学習の初心者の理解を許してください。私は教育を受けたいと思っています。編集：「データスヌーピング」の定義に関する@AdamOの回答をご覧ください。私は質問でこの用語を非常に不正確に使用しました。

13 machine-learning cross-validation

3

マルチレベル/階層構造データのランダムフォレスト

私は機械学習やCART技術などは初めてであり、私の素朴さがあまり明白ではないことを願っています。ランダムフォレストは、マルチレベル/階層データ構造をどのように処理しますか（たとえば、クロスレベルの相互作用が重要な場合）。つまり、いくつかの階層レベルでの分析の単位を含むデータセット（たとえば、学生と学校の両方に関するデータを含む、学校内にネストされた学生）。単なる例として、第1レベルの個人（たとえば、投票行動、人口統計などのデータ）が第2レベル（国レベルのデータ、たとえば人口）の国にネストされたマルチレベルデータセットを考えます。 ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 0 67 0 1 53.01 6 1 34 1 2 47.54 7 0 54 1 …

13 machine-learning random-forest multilevel-analysis cart

3

非線形データに可能な限りカーネルトリックを使用する必要がありますか？

私は最近、カーネルトリックの使用について学びました。カーネルトリックは、これらの次元のデータを線形化するために、データを高次元の空間にマップします。このテクニックの使用を避けるべきケースはありますか？適切なカーネル関数を見つけるだけの問題ですか？線形データの場合、これはもちろん有用ではありませんが、非線形データの場合、これは常に有用であると思われます。線形分類器の使用は、トレーニング時間とスケーラビリティの点で非線形よりもはるかに簡単です。

13 machine-learning svm kernel-trick heuristic

2

マルチクラスパーセプトロンはどのように機能しますか？

数学の背景はありませんが、単純なパーセプトロンの仕組みを理解しており、超平面の概念を理解していると思います（幾何学的には、線が分離するように2つの点群を分離する3D空間の平面として想像します） 2D空間の2つの点群）。しかし、1つの平面または1つの線が3D空間または2D空間の3つの異なる点群をどのように分離するかはわかりません。これは幾何学的に不可能です。ウィキペディアの記事の対応するセクションを理解しようとしましたが、「ここでは、入力xと出力yは任意のセットから描画されます」という文で惨めに失敗しました。誰かが私にマルチクラスパーセプトロンを説明し、それが超平面のアイデアとどのように関係するのか、あるいはあまり数学的ではない説明を私に指し示すことができますか？

13 machine-learning classification linear-model multi-class

2

ランダムフォレストモデルを使用するときに変数をログ/検証するタイミング

複数の属性に基づいて価格を予測するために、ランダムフォレストを使用して回帰を行っています。コードは、Scikit-learnを使用してPythonで記述されています。 exp/ logを使用して変数を変換してから回帰モデルに適合させる必要があるかどうかをどのように決定しますか？ランダムフォレストなどのアンサンブルアプローチを使用する場合、必要ですか？

13 regression machine-learning predictive-models python random-forest

2

自習はどこまでできますか？

私は公式または構造化されたデータ分析または機械学習コース（最近のオンラインサービス以外）に参加したことがなく、物事を読んだり試したりして知っていることのほとんどを学びました。私は仕事に就くことができるとは程遠いことを知っています。私の質問は（この質問のように）何が良いかということではなく、むしろ、私は仕事に応募でき、実際に独学でチャンスを得ることができるレベルに達することができますか？また、妥当な時間枠内でこれを行うことは可能ですか（おそらく10年ですか？私は31歳です...）？それとも、ある種の大学/大学に通う方法を見つける必要がありますか？

13 machine-learning data-mining careers

1

機械学習における特徴の構築と正規化

映画Mのロジスティック分類子を作成するとします。私の特徴は、人の年齢、性別、職業、場所などです。したがって、トレーニングセットは次のようになります。年齢性別職業場所好き（1）/嫌い（0） 23 MソフトウェアUS 1 24 Fドクター英国0 など…。今、私の質問は、自分の機能をどのように拡大縮小して表現するかです。私が考えた1つの方法：年齢グループとして年齢を分けるので、18-25、25-35、35-上記、性別をM、F、場所を米国、英国、その他。ここで、これらすべての値に対してバイナリフィーチャを作成します。したがって、年齢にはそれぞれ年齢グループなどに対応する3つのバイナリフィーチャが含まれます。したがって、米国の28歳の男性は010 10 100（010->年齢グループ25-35、10->男性、100->米国）として表されます。ここで機能を表す最良の方法は何でしょうか？また、私はいくつかのe.gsで気づきました。sklearnのすべての機能は何らかの方法でスケーリング/正規化されています。たとえば、性別は、男性と女性の0.0045と-.0.0045の2つの値で表されます。私はこのようなスケーリング/整形を行う方法についての手がかりがありませんか？

13 machine-learning feature-construction

5

テンポラルデータの適切なクラスタリング手法ですか？

活動頻度の一時的なデータがあります。データ内で、類似したアクティビティレベルを持つ異なる期間を示すクラスターを特定したい。理想的には、事前にクラスターの数を指定せずにクラスターを識別したいと思います。適切なクラスタリング手法とは何ですか？質問に答えるのに十分な情報が含まれていない場合、適切なクラスタリング手法を決定するために提供する必要がある情報は何ですか？以下は、私が想像している種類のデータ/クラスタリングの実例です。

13 machine-learning clustering

6

アンサンブルメソッドの実装方法を学習するためのリソース

私はそれらがどのように機能するか（理論的に）は理解していますが、アンサンブル法（投票、加重混合など）を実際に使用する方法はわかりません。アンサンブルメソッドを実装するための優れたリソースは何ですか？ Pythonでの実装に関する特定のリソースはありますか？編集：コメントに関する議論に基づいていくつかを整理するために、randomForestなどのアンサンブルアルゴリズムを探していません。代わりに、異なるアルゴリズムの異なる分類をどのように組み合わせることができるのか疑問に思っています。たとえば、誰かがロジスティック回帰、SVM、およびその他の方法を使用して、特定の観測のクラスを予測するとします。これらの予測に基づいてクラスの最適な推定値を取得するための最善の方法は何ですか？

13 machine-learning python ensemble

3

機械学習の最新の動向を追跡するための優れた無料のジャーナルとは何ですか？

他の有用な知識のポータルを「ジャーナル」に置き換えてください。私は、実用的なアプリケーションの観点から、機械学習の新しい開発に注目することに興味があります。私は自分の作品を出版しようとする学者ではありません（少なくともこの分野ではそうではありません）が、実用的なレベルで役立つ可能性のある新しいアルゴリズムやトリックの可能性を認識したいと思います。唯一の注意点は、定期購読を必要とせずにジャーナル/会議の議事録などを自由に利用できる必要があることです。

13 machine-learning references

4

EMアルゴリズムの高速な代替

潜在変数（特にpLSA）を含むモデルを学習するためのEMアルゴリズムの高速な代替手段はありますか？速度を優先して精度を犠牲にしても大丈夫です。

13 machine-learning optimization expectation-maximization lsa

2

Rの勾配降下vs lm（）関数？

Andrew Ngのスタンフォードでの無料のオンライン機械学習コースのビデオを見ていきます。彼は線形回帰を解決するアルゴリズムとして勾配降下法を議論し、それを実行するためにOctaveで関数を記述します。おそらくこれらの関数をRで書き換えることができますが、私の質問はlm（）関数が線形回帰の出力をすでに与えていないかということです。なぜ独自の勾配降下関数を書きたいのですか？いくつかの利点がありますか、それとも純粋に学習演習としてですか？lm（）は勾配降下を行いますか？

13 r regression machine-learning gradient-descent

4

ベイズ確率理論や例によるグラフィカルモデルに関するチュートリアルはありますか？

Rでベイジアン確率理論を学習することへの参照を見てきましたが、おそらくPythonで特にこのようなものがあるのではないかと思っていましたか？ベイズ確率理論、推論、最尤推定、グラフィカルモデル、およびソートの学習を対象としていますか？

13 machine-learning bayesian python graphical-model

2

機械学習アルゴリズムに必要な確率の基礎を学習する最良の方法は何ですか？

数年前に大学で確率コースを受講しましたが、今は機械学習アルゴリズムをいくつか試しているので、数学の一部が混乱しています。具体的には今、EMアルゴリズム（期待値の最大化）を学んでいますが、必要なものと持っているものとの間に大きな隔たりがあるようです。私は本やウェブサイトを求めているわけではありませんが、これらのトピックを十分に学習して、それらを使用するアルゴリズムを完全に理解する方法は何ですか？本を読んで何百ものエクササイズをする必要がありますか？それとも、この意味でやり過ぎですか？編集：これがこの質問の間違った場所である場合、移行するために投票してください:)

13 probability machine-learning

4

データマイニングについて読み始めるには？

私は、データマイニングについて読み始める初心者です。私はAIと統計の基本的な知識を持っています。機械学習はデータマイニングでも重要な役割を果たすと多くの人が言っているので、データマイニングに進む前に機械学習について読む必要がありますか？

13 machine-learning references data-mining

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」