統計とビッグデータ machine-learning

2

Coursera教材を使用して機械学習を学習しようとしていました。この講義では、Andrew Ngは勾配降下アルゴリズムを使用して、誤差関数（コスト関数）を最小化する線形回帰モデルの係数を見つけます。線形回帰の場合、勾配降下が必要ですか？誤差関数を分析的に微分し、係数を解くためにゼロに設定できるようです。そうですか？

31 regression machine-learning linear-model gradient-descent

2

libsvmデータ形式[終了]

サポートベクターの分類にlibsvm（http://www.csie.ntu.edu.tw/~cjlin/libsvm/）ツールを使用しています。ただし、入力データの形式については混乱しています。 READMEから：トレーニングおよびテストデータファイルの形式は次のとおりです。 <label> <index1>:<value1> <index2>:<value2> ... . . . 各行にはインスタンスが含まれ、「\ n」文字で終了します。分類の場合<label>、クラスラベルを示す整数です（マルチクラスがサポートされます）。回帰の場合<label>は、任意の実数のターゲット値です。1クラスのSVMの場合、使用されないため、任意の数にすることができます。このペア<index>:<value>は、特徴（属性）値を与えます<index>。1から始まる整数<value> で、実数です。唯一の例外は、<index>0から始まる事前計算済みカーネルです。事前に計算されたカーネルのセクションを参照してください。インデックスは昇順でなければなりません。テストファイルのラベルは、精度またはエラーの計算にのみ使用されます。不明な場合は、最初の列に数字を入力します。次の質問があります。の使用は何<index>ですか？どんな目的に役立ちますか？異なるデータインスタンスの同じインデックス値に対応はありますか？間にインデックスが欠落/スキップした場合はどうなりますか？ libsvmのパッケージに含まれるデータファイル* heart_scale *は12行目でインデックスが2から始まる<value>ため、質問します。注：パッケージに付属のtools / checkdata.pyツールには、* heart_scale *ファイルが正しいと記載されています。

31 machine-learning svm python libsvm c++

2

Rのランダムフォレスト分類における一連の予測変数の相対的重要性

randomForestRの分類モデルに対する変数セットの相対的な重要度を決定したいのですが、importance関数はMeanDecreaseGini個々の予測変数のメトリックを提供します。セット内の各予測変数でこれを合計するのと同じくらい簡単ですか？例えば： # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ ., data=df) importance(rf) # To determine whether the "a" predictors are more important than the "b"s, # can I sum the MeanDecreaseGini for a1 and a2 and compare to that of b1+b2?

31 r machine-learning classification random-forest

3

機能エンジニアリングのユーティリティ：既存の機能に基づいて新しい機能を作成する理由

機械学習の問題に関する既存の機能に基づいて、人々が新しい機能を作成することがよくあります。たとえば、ここに：https://triangleinequality.wordpress.com/2013/09/08/basic-feature-engineering-with-the-titanic-data/人はベース、新機能として、人の家族の大きさを考慮しました既存の機能であった兄弟、姉妹、および親の数。しかし、これのポイントは何ですか？相関関係のある新しい機能を作成することが有用な理由がわかりません。それを自分で行うのはアルゴリズムの仕事ではないでしょうか？

30 machine-learning feature-engineering

2

教師あり学習、教師なし学習、強化学習：ワークフローの基本

教師あり学習 1）人間が入力データと出力データに基づいて分類器を構築する 2）その分類器はデータのトレーニングセットでトレーニングされます 3）その分類器はデータのテストセットでテストされます 4）出力が満足できる場合の展開「このデータを分類する方法を知っているので、ソートするためにあなた（分類器）が必要なだけ」の場合に使用します。メソッドのポイント：ラベルをクラス分けするか、実数を生成する教師なし学習 1）人間は入力データに基づいてアルゴリズムを構築します 2）そのアルゴリズムは、データのテストセット（アルゴリズムが分類子を作成する）でテストされます。 3）分類子が満足できる場合の展開「このデータを分類する方法がわからない場合、アルゴリズムを使用して分類子を作成できますか？」方法のポイント：ラベルを分類する、または予測する（PDF）強化学習 1）人間は入力データに基づいてアルゴリズムを構築します 2）そのアルゴリズムは、ユーザーがアルゴリズムが行ったアクションを介してアルゴリズムに報酬を与えるか罰する入力データに依存する状態を提示します。これは時間とともに継続します 3）そのアルゴリズムは報酬/罰から学び、それ自体を更新します、これは続きます 4）常に本番環境にあり、州からのアクションを提示できるように実際のデータを学習する必要があります「このデータを分類する方法がわかりません。このデータを分類してもらえますか。それが正しい場合は報酬を、そうでない場合は罰します。」これはこれらのプラクティスの種類の流れですか、彼らが何をするかについて多くを聞きますが、実用的で模範的な情報は驚くほど少ないです！

30 machine-learning unsupervised-learning supervised-learning reinforcement-learning

7

推論対推定？

機械学習のコンテキストでの「推論」と「推定」の違いは何ですか？初心者として、私はランダム変数を推測し、モデルのパラメーターを推定すると感じています。私のこの理解は正しいですか？そうでない場合、違いは正確に何であり、どれをいつ使用する必要がありますか？また、「学習」の同義語はどれですか？

30 machine-learning inference terminology

2

畳み込みニューラルネットワーク：中央ニューロンは出力で過剰に表現されていませんか？

[この質問はスタックオーバーフローでも発生しました] 要するに質問私は畳み込みニューラルネットワークを研究していますが、これらのネットワークはすべての入力ニューロン（ピクセル/パラメーター）を同等に処理するとは限りません。入力画像に畳み込みを適用する深いネットワーク（多くのレイヤー）があるとします。画像の「中間」にあるニューロンには、多くのより深い層のニューロンへの多くのユニークな経路があります。つまり、中間のニューロンの小さな変動が出力に強い影響を与えます。しかしながら、画像のエッジでのニューロンしか持た（の順序または、正確な実装に応じて、方法1それらの情報はグラフを通って流れる経路）。これらは「過少表示」されているようです。111111 エッジニューロンのこの区別は、ネットワークの深さ（層の数）に応じて指数関数的にスケーリングするため、私はこれを心配しています。最大プーリング層を追加しても指数関数的な増加は止まりません。完全な接続のみがすべてのニューロンを同じ足場にします。しかし、私は自分の推論が正しいと確信していないので、私の質問は次のとおりです。この効果が深い畳み込みネットワークで発生するのは正しいですか？これについて何か理論はありますか、それは文献で言及されたことがありますか？この影響を克服する方法はありますか？これで十分な情報が得られるかどうかわからないので、問題の説明と、これが懸念事項であると考える理由についてもう少し詳しく説明します。より詳細な説明入力として画像を受け取るディープニューラルネットワークがあるとします。画像にピクセルの畳み込みフィルターを適用し、そのたびに畳み込みウィンドウを4ピクセルずつシフトするとします。これは、入力のすべてのニューロンが、活性化をレイヤー2の16 × 16 = 265ニューロンに送信することを意味します。これらのニューロンはそれぞれ、その活性化を別の265に送信し、最上位のニューロンが265 2個の出力ニューロンで表されるようにします。64×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2 ただし、これはエッジのニューロンには当てはまりません。これらは少数の畳み込みウィンドウでのみ表される可能性があり、そのため、次のレイヤーでニューロンのみをアクティブにします。エッジに沿ってミラーリングするなどのトリックを使用しても、これは役に立ちません。投影される第2層ニューロンはまだエッジにあります。エッジニューロンも同様です）。ご覧のように、この不一致は層の数とともに指数関数的に増加します。111 問題を視覚化するために画像を作成しました。これはここにあります（投稿自体に画像を含めることはできません）。このネットワークには、サイズ畳み込みウィンドウがあります。ニューロンの隣の数字は、最深ニューロンまでの経路の数を示しています。画像はパスカルの三角形を連想させます。333 https://www.dropbox.com/s/7rbwv7z14j4h0jr/deep_conv_problem_stackxchange.png?dl=0 なぜこれが問題なのですか？この効果は一見問題ではないようです。原則として、ネットワークが機能するように重みを自動的に調整する必要があります。さらに、画像のエッジは、画像認識ではとにかくそれほど重要ではありません。この効果は、日常の画像認識テストでは目立たないかもしれませんが、次の2つの理由で依然として懸念されます。1。他のアプリケーションへの一般化、 2。非常に深いネットワークの場合に発生する問題。 1.音声認識や音声認識など、真ん中のニューロンが最も重要であるとは言えない他のアプリケーションがあるかもしれません。畳み込みの適用はこの分野でよく行われますが、私が関心を持っている効果について言及している論文を見つけることができませんでした。 2.非常に深いネットワークが気づく指数関数的に中枢ニューロンは、大きさの複数の順序によって過剰に存在することができることを意味する境界ニューロンの識別、の悪い効果を（我々は想像の層を、上記の例では、与えること265の10の方法中枢ニューロンを情報を投影できます）。レイヤーの数を増やすと、重みがこの効果を適切に補正できない限界に到達することになります。1010102651026510265^{10} ここで、すべてのニューロンをわずかに摂動させたとします。中央ニューロンは、エッジニューロンと比較して、出力を数桁大きく変化させます。一般的なアプリケーションや、非常に深いネットワークの場合、問題の回避方法を見つける必要があると思いますか？

30 machine-learning neural-networks convolution

3

マルチクラス分類器の品質を判断する方法

与えられたインスタンスを持つデータセットはと一緒にすべてのインスタンスクラス 1つのクラスに正確に属しバツ私バツ私x_iNNNバツ私バツ私x_iy私y私y_i マルチクラス分類器トレーニングとテストの後、基本的に、テストセット内のすべてのインスタンスについて、真のクラスと予測クラスを含むテーブルを作成しました。したがって、すべてのインスタンスについて、一致（）またはミス（）があります。y私y私y_ia私a私a_iバツ私バツ私x_iy私= a私y私=a私y_i= a_iy私≠ a私y私≠a私y_i\neq a_i 試合の質をどのように評価できますか？問題は、いくつかのクラスが多くのメンバーを持つことができる、つまり多くのインスタンスがそれに属するということです。すべてのデータポイントの50％が1つのクラスに属し、最終的な分類子が全体で50％正しい場合、明らかに何も得られません。入力が何であれ、その最大クラスを出力する単純な分類器を作成することもできました。各クラスの既知のテストセットの一致とヒットの結果に基づいて分類子の品質を推定する標準的な方法はありますか？特定のクラスごとに一致率を区別することも重要かもしれません。私が考えることができる最も単純なアプローチは、最大クラスの正しい一致を除外することです。ほかに何か？

30 machine-learning classification multi-class

8

データマイニングと機械学習の準備として、どのような数学の科目を提案しますか？

私は、データマイニングと機械学習の学習に備えるために、自主的な数学のカリキュラムをまとめようとしています。これは、Andrew Ngの機械学習クラスをCourseraで開始し、先に進む前に数学のスキルを向上させる必要があると感じたことがきっかけです。私は少し前に大学を卒業したので、私の代数と統計（特に政治学/心理学のクラスから）はさびています。スレッドの回答数学の強力なバックグラウンドはMLの必須条件ですか？機械学習に直接関連する書籍またはクラスのみを提案します。私はすでにそれらのクラスと本のいくつかを調べましたが、どの数学の研究対象かを正確に知りません（たとえば：数学のどの分野が「コスト関数を最小化する」方程式を導き出しますか？）。提案されているもう1つのスレッド（スキルとコースワークはデータアナリストである必要があります）は、データの分析に必要なスキルの幅広いカテゴリのみに言及しています。私はまだ数学の学位を持っていないので、スレッド「数学者のための統計入門」は当てはまりません。同様のスレッド数学者は、同等の知識を質の高い統計学の程度に望んでいます統計書の信じられないほどのリストを持っていますが、再び、私は代数のさびた思い出から数学を始めて、そこから上に向かっているのを見ています。それで、機械学習とデータマイニングで働く人にとって、仕事をするために数学のどの分野が不可欠だと思いますか？データマイニングと機械学習の準備として、どのような数学科目を、どのような順序で提案しますか？ここに私がこれまでに持っているリストと順序があります：代数事前計算微積分線形代数確率統計（ここには多くの異なるサブフィールドがありますが、それらをどのように分割するかわかりません）データマイニングと機械学習については、現在の仕事を通じて、ウェブサイト/アプリのアクティビティ、顧客/サブスクリプショントランザクション、および不動産データ（静的および時系列の両方）の記録にアクセスできます。これらのデータセットにデータマイニングと機械学習を適用したいと考えています。ありがとうございました！編集：後世のために、Geoffrey Gordon / Alex Smolaの機械学習入門で役立つ数学の自己評価を共有したかった CMUのクラスでです。

30 machine-learning references data-mining

4

文字列を解析するための機械学習技術？

私はたくさんのアドレス文字列を持っています： 1600 Pennsylvania Ave, Washington, DC 20500 USA それらをコンポーネントに解析したい： street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA しかし、もちろんデータは汚れています。さまざまな方法で書かれたさまざまな言語の多くの国から来たもので、つづりの間違い、欠品、余分なジャンクなどが含まれています。現時点では、ファジーガゼッターマッチングと組み合わせたルールを使用するのがアプローチですが、機械学習の手法を探求したいと考えています。教師あり学習用のトレーニングデータにラベルを付けました。問題は、これはどのような機械学習の問題ですか？クラスタリング、分類、回帰のようには見えません。私が思いつく最も近い方法は、各トークンを分類することですが、実際には、それらをすべて同時に分類し、「最大で1つの国が存在する必要があります」などの制約を満たします。本当に文字列をトークン化する方法はたくさんあり、それぞれを試して最高のものを選択したいのですが...統計解析と呼ばれるものがあることは知っていますが、それについては何も知りません。それで、アドレスを解析するためにどんな機械学習技術を探求できますか？

30 machine-learning text-mining

4

クラスの不均衡の下でのPrecision-Recall曲線の最適化

私はいくつかの予測子を持っている分類タスクを持っています（そのうちの1つが最も有益です）、私は分類器を構築するためにMARSモデルを使用していますも元気）。これで、トレーニングデータに大きなクラスの不均衡があります（各ポジティブサンプルに対して約2700のネガティブサンプル）。情報検索タスクと同様に、私は、上位の肯定的なテストサンプルの予測をより懸念しています。このため、Precision Recall曲線のパフォーマンスは私にとって重要です。まず、トレーニングデータでモデルをトレーニングし、クラスの不均衡をそのまま維持しました。トレーニング済みのモデルを赤で表示し、最も重要な入力を青で表示します。不均衡データのトレーニング、不均衡データの評価：クラスの不均衡がモデルをスローしていると考えて、上位のポジティブサンプルの学習はデータセット全体のごく一部であるため、バランスの取れたトレーニングデータセットを取得するためにポジティブトレーニングポイントをアップサンプリングしました。バランスの取れたトレーニングセットでパフォーマンスをプロットすると、良いパフォーマンスが得られます。PR曲線とROC曲線の両方で、訓練されたモデルは入力よりも優れています。（アップサンプリング）バランスデータのトレーニング、（アップサンプリング）バランスデータの評価：ただし、バランスの取れたデータでトレーニングされたこのモデルを使用して、元のバランスの取れていないトレーニングセットを予測すると、PRカーブのパフォーマンスが低下します。（アップサンプリングされた）バランスデータのトレーニング、元のアンバランスデータの評価：だから私の質問は： PR曲線の視覚化が訓練されたモデル（赤）のパフォーマンスの低下を示し、ROC曲線がクラスの不均衡のために改善を示すのはなぜですか？リサンプリング/アップサンプリング/ダウンサンプリングのアプローチはこれを解決して、トレーニングを高精度/低リコール領域に集中させることができますか？高精度/低リコール領域にトレーニングを集中する他の方法はありますか？

30 machine-learning roc precision-recall unbalanced-classes data-visualization

3

Rはテキスト分類タスクにどれだけうまく対応できますか？[閉まっている]

私はRの速度を上げようとしています。最終的にはテキストの分類にRライブラリを使用したいと思います。テキストの分類を行う際に、Rの拡張性に関して人々の経験はどうなっているかと思っていました。高次元のデータ（〜30万次元）に遭遇する可能性があります。特に分類アルゴリズムとしてSVMとランダムフォレストを使用することを検討しています。 Rライブラリは問題のサイズに合わせて拡張できますか？ありがとう。編集1：明確にするために、私のデータセットには1000〜3000行（おそらくもう少し）と10のクラスがありそうです。編集2：私はRに非常に新しいので、可能な限りより具体的になるようにポスターを要求します。たとえば、ワークフロー/パイプラインを提案している場合は、可能であれば各ステップに関係するRライブラリを必ず言及してください。いくつかの追加のポインター（例、サンプルコードなど）がケーキに着氷します。編集3：まず、あなたのコメントをありがとう。第二に、私は謝罪します。おそらく、この問題についてもっと多くの文脈を与えたはずです。私はRには慣れていませんが、テキストの分類にはそれほど慣れていません。物事の感触をつかむために、tmパッケージを使用して、データの一部で前処理（ステミング、ストップワードの削除、tf-idf変換など）を既に実行しています。tmは約200のドキュメントでも非常に遅いため、スケーラビリティについて心配しました。それから私はFSelectorで遊び始めましたが、それでも本当に遅かったです。そして、それが私がOPを作ったポイントです。編集4：10個のクラスとクラスごとに約300個のトレーニングドキュメントがあり、実際にはトレーニングセット全体からtermXdocマトリックスを構築しているため、非常に高い次元が発生しました。しかし、すべての1-out-of-k分類問題を一連のバイナリ分類問題に減らすのはどうでしょうか？これにより、k-1の各ステップでトレーニングドキュメントの数（したがって次元数）が大幅に削減されます。このアプローチは良いものですか？精度の点で、通常のマルチクラス実装とどのように比較されますか？

30 r machine-learning svm text-mining random-forest

6

ベイズネットワーク、ニューラルネットワーク、決定木、ペトリネットの違い

ニューラルネットワーク、ベイジアンネットワーク、ディシジョンツリー、ペトリネットの違いは何ですか？それらはすべてグラフィカルモデルであり、因果関係を視覚的に示していますが。

30 machine-learning neural-networks bayesian-network fuzzy

6

ロジスティック回帰とパーセプトロンの違いは何ですか？

Andrew Ngの機械学習に関する講義ノートを読んでいます。このノートでは、ロジスティック回帰とパーセプトロンを紹介しています。パーセプトロンについて説明している間、注記では、ロジスティック回帰に使用されるしきい値関数の定義を変更するだけであると述べています。その後、パーセプトロンモデルを分類に使用できます。したがって、私の質問は-これを指定する必要があり、パーセプトロンを分類手法と見なす場合、ロジスティック回帰とは正確には何ですか？クラスの1つに属するデータポイントの確率を取得するためだけに使用されますか？

30 regression machine-learning self-study logistic perceptron

5

相互作用の深さはGBMで何を意味しますか？

Rのgbmの相互作用の深さパラメーターについて質問がありました。これはnoobの質問かもしれませんが、謝罪しますが、ツリーの末端ノードの数を示すと思われるパラメーターは、基本的にX-wayを示します予測子間の相互作用？仕組みを理解しようとしています。さらに、2つの異なる変数が単一の因子に結合されている場合を除き、同じデータセットに対して2つの異なる因子変数を含むデータセットがある場合、かなり異なるモデルが得られます（たとえば、因子1のXレベル、因子2のYレベルX * Y係数）。後者は前者よりもかなり予測可能です。相互作用の深さが増すとこの関係が生まれると考えていました。

30 r machine-learning boosting gbm

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」