統計とビッグデータ machine-learning

1

私は機械学習の学習に少し時間を費やしています（再帰はごめんなさい:)、多変量線形回帰の場合、回帰係数を計算するための直接方程式の解法よりも勾配降下法を選択するという経験則に興味をそそられることはありませんでした。経験則：特徴の数は、（係数/独立変数を読み取る）の間にある場合又は百万を超えると、勾配降下で行く、計算逆他の行列は汎用ハードウェア上でかなり扱いであり、したがって、コンピューティング係数は直接十分に機能するはずです。10 、000 - 1 、000 、00010、000−1、000、00010,000 - 1,000,000 計算上言えば、トレードオフ/制限があります。しかし、統計的な観点から、これほど多くの係数を持つモデルを実際に計算できますか？大学院の多変量線形回帰クラスを覚えている場合、独立変数は従属変数に非常に無視できる影響を与えるか、その分布がデータについての仮定に従わない可能性があるため、あまり多くの独立変数を使用しないように注意しました。「多くのIV」を考えるように心を広げたとしても、何百万も考えたことはありませんでした。質問：これは本当に起こりますか、それとも理論的な問題ですか？ 100万個のIVを分析する意味は何ですか？情報を無視するのではなく、得られる情報の価値を大幅に高めることができますか？それとも、最初は何が役に立つのかわからないので、いまいましい回帰を実行して何が役に立つかを確認し、そこから行ってIVのセットをプルーニングするだけでしょうか？「すべて」を分析できるからといって、それをソルバーに投げ込む（または実行する）ことを意味するわけではなく、過去の質問のいくつかが同様のPOVを反映しているからです。私はまだコースを終えておらず、すぐに質問をするかもしれませんが、この「なぜ」思考を頭から外すことができず、私の能力を最大限に理解しようとしています。

18 machine-learning multiple-regression large-data

2

PCA、LASSO、エラスティックネットの速度、計算費用

Hastie et al。で区別されている線形回帰の3つのグループの方法の計算の複雑さ/推定速度を比較しようとしています。「統計学習の要素」（第2版）、第3章：サブセット選択収縮方法導出された入力方向を使用する方法（PCR、PLS）比較は非常に大雑把なものであり、単に考えを与えるだけです。答えは問題の次元とそれがコンピューターアーキテクチャにどのように適合するかに依存する可能性があるため、具体的な例としては、500および50の候補回帰子のサンプルサイズを考慮することができます。私は主に、計算の複雑さ/推定速度の背後にある動機付けに興味がありますが、特定の例で特定のプロセッサにかかる時間には興味がありません。

18 machine-learning estimation feature-selection algorithms time-complexity

4

データをトレーニングセットとテストセットに分割するだけでは不十分な理由

分類器のパフォーマンスにアクセスするには、データをトレーニング/テストセットに分割する必要があることを知っています。しかし、これを読んで： SVM用に手動で設定する必要があるC設定など、推定器のさまざまな設定（「ハイパーパラメーター」）を評価する場合、推定器が最適に実行されるまでパラメーターを微調整できるため、テストセットでオーバーフィットするリスクが依然としてあります。この方法では、テストセットに関する知識がモデルに「漏れ」、評価メトリックが一般化パフォーマンスについてレポートしなくなります。この問題を解決するために、データセットのさらに別の部分をいわゆる「検証セット」として保持することができます。トレーニングはトレーニングセットで進行し、その後検証セットで評価が行われ、実験が成功したと思われる場合、テストセットで最終評価を行うことができます。ハイパーパラメーターの調整中にテストセットをオーバーフィットすることで正当化される、別の（3番目の）検証セットが導入されていることがわかります。問題は、この過剰適合がどのように表示されるかを理解できないため、3番目のセットの正当性を理解できないことです。

18 machine-learning cross-validation

1

K分割交差検証から混同行列はどのように報告されますか？

K = 10倍でK-fold交差検証を行うと仮定します。フォールドごとに1つの混同マトリックスがあります。結果を報告するとき、平均混同マトリックスを計算するべきですか、それとも単に混同マトリックスを合計する必要がありますか？

18 machine-learning cross-validation accuracy

3

明らかに2つあるにもかかわらず、k-meansのギャップ統計が1つのクラスターを示唆するのはなぜですか？

K-meansを使用してデータをクラスター化し、「最適な」クラスター番号を提案する方法を探していました。ギャップ統計は、適切なクラスター番号を見つける一般的な方法のようです。何らかの理由で最適なクラスター番号として1を返しますが、データを見ると2つのクラスターがあることが明らかです。これは私がRのギャップを呼び出す方法です： gap <- clusGap(data, FUN=kmeans, K.max=10, B=500) with(gap, maxSE(Tab[,"gap"], Tab[,"SE.sim"], method="firstSEmax")) 結果セット： > Number of clusters (method 'firstSEmax', SE.factor=1): 1 logW E.logW gap SE.sim [1,] 5.185578 5.085414 -0.1001632148 0.1102734 [2,] 4.438812 4.342562 -0.0962498606 0.1141643 [3,] 3.924028 3.884438 -0.0395891064 0.1231152 [4,] 3.564816 3.563931 -0.0008853886 0.1387907 [5,] 3.356504 3.327964 -0.0285393917 …

18 r machine-learning clustering k-means

2

隠れマルコフモデルとマルコフ遷移モデルと状態空間モデル…？

修士論文では、血清学的状態によって定義される異なる状態間の遷移の統計モデルの開発に取り組んでいます。私の質問はより一般的/理論的であるため、今のところ、このコンテキストにあまり多くの詳細を説明しません。とにかく、私の直感では、隠れマルコフモデル（HMM）を使用する必要があります。モデルを作成するために必要な文献やその他の背景研究を経て遭遇する問題は、用語と、さまざまなタイプの隠れたプロセスモデル間の正確な違いに関する混乱です。私はそれらを区別するもの（今後の例）を非常に漠然としか認識していません。さらに、少なくとも私が文献で見たものから、このタイプのモデリングの周りに構築された非常に非標準的な語彙があるように思えます。だから、私は人々が私のためにこれらの用語のいくつかを明確にするのを手伝ってくれることを望んでいた。いくつか質問がありますが、1つまたは2つの回答が満足のいくものになると、残りは結果として解き明かされると思います。これが長すぎないことを願っています。モデレーターがこれを複数の投稿に分割することを望んでいる場合、私はそうします。いずれにせよ、質問を太字で示し、続いて文献検索中に明らかにした質問の詳細を記載しました。したがって、順不同で： 1）「非表示プロセスモデル」とは正確には何ですか？私は、「隠されたプロセスモデル」はいくつかの異なるタイプの統計モデルを記述するために使用できる一種の包括的な用語であり、すべてが「オーバーラップのシステムによって生成された時系列データ潜在的に隠された線形加算プロセス」（[1]）。実際、[2]は「隠れたプロセスモデル」を「状態空間モデルまたは隠れマルコフモデルのいずれかを指す一般用語」として定義しています。[1]は、隠れマルコフモデルが、バイナリ状態の推論に特化した隠れプロセスモデルのサブタイプであると推測しているようです。基本的な意味は、隠れたプロセスモデルは隠れたマルコフモデルの一般化であると思われます。「隠れたプロセスモデル」と「私のこの直感は正しいですか？そうでない場合、これらの方法をより明確に説明するリファレンスがありますか？ 2）隠れマルコフモデルと状態空間モデルの違いは何ですか？再び[2]に戻ります（紙自体が特に信頼できるように見えるためではなく、紙に明確な用語集が付いている場合だけです;それは一文の定義の便利な情報源にすぎません）、違いはそうです隠れマルコフモデルは、状態がマルコフである特定のタイプの状態空間モデルです（マルコフプロセスの順序に明確な制限はないようです。つまり、1次、...、k次）。ここで、状態空間モデルは、「2つの時系列を並行して実行するモデルであり、1つは真の状態（潜在）のダイナミクスをキャプチャし、もう1つはこれらの基礎となる可能性のある未知の状態から行われる観測で構成される」と定義されます。それらの状態がマルコフ特性も示す場合、それは隠れマルコフモデルです。ただし、[3]は、状態空間モデルと隠れマルコフモデルの違いを、潜在状態の特性に関連するものとして定義しています。ここで、隠れマルコフモデルは離散状態を扱い、状態空間モデルは連続状態を扱います。それ以外の場合、概念的には同じです。これらは非常に異なる2つの定義のように思えます。一方では、隠れマルコフモデルは状態空間モデルのサブタイプであり、他方では、両方とも、より広範なクラスの隠れプロセスモデルの異なるインスタンス化です。これらのうち正しいものはどれですか？私の直感では、[2]とは対照的に[3]に従うように指摘していますが、これをサポートする信頼できる情報源は見つかりません。 3）「マルコフ遷移モデル」とは何ですか？多くのソースで出てきた別の用語は、「Markov遷移モデル」です。私はどの教科書にもこのフレーズを見つけることができませんでしたが、ジャーナルの記事には多く見られます（単に確認のためにGoogleに接続するだけです）。私はこの用語の厳密な定義を見つけることができませんでした（私が見つけたすべての論文は別の論文を引用し、他の論文を引用するなど、どこにも正気をもたらさないPubMedウサギの穴を送ります）。コンテキストからの私の印象は、推論の対象がマルコフ過程に従う状態間の遷移であるモデルを指す非常に一般的な用語であり、隠れマルコフモデルはマルコフ遷移モデルの特定のタイプと見なされる可能性があるということです。[4]しかし、遷移モデル、隠れマルコフモデル、およびいくつかの同様の用語を互換的に使用しているようです。一方、[5]はマルコフ遷移モデルと隠れマルコフモデルについて少し異なった話をしています。著者は、「遷移モデルは、より複雑な隠れマルコフモデルからの結果を解釈するのに役立つ回答者のダイナミクスを要約する方法を提供します」と述べています。私はこのフレーズが何を意味するのか完全には理解しておらず、論文の他の場所でそれを正当化するものを見つけることができません。しかし、彼らはマルコフ遷移モデルは時間を連続変数として使用し、隠れマルコフモデルは時間を離散変数として使用することを暗示しているようです（彼らはこれを直接言わず、彼らはマルコフ遷移に適合するためにRパッケージ 'msm'を使用すると言います）モデル、および「msm」は、HMMのRパッケージとは対照的に、継続的に時間を処理するものとして説明されています）。 4）他の概念、たとえば動的ベイジアンネットワークはどこに収まりますか？ウィキペディアによると、動的ベイジアンネットワークは「隠れマルコフモデルとカルマンフィルターの一般化」です。他の場所では、「世界の全状態が単一の隠れ状態変数によって表される」動的ベイジアンネットワークの特別なケースとして定義された隠れマルコフモデルを見ました（動的ベイジアンシステムの定義とHMMとの関係？）。私は一般にこの関係を理解しており、[6]で十分に説明されています。しかし、私はこの関係が物事のより広い視野にどのように適合するかを理解するのに苦労しています。つまり、HMMとDBNの間のこの関係を考えると、状態空間モデルと隠れたプロセスモデルはどのように2つに関連していますか？隠れマルコフモデルの複数の「一般化」があるように思われる場合、これらの異なるタイプの方法はすべてどのように相互に関係しますか？参照： [1]トム・M・ミッチェル、レベッカ・ハッチンソン、インドラヤナ・ルスタンディ。「非表示プロセスモデル」。2006. CMU-CALD-05-116。カーネギーメロン大学。 [2]オリバー・ギミネス、ジャン・ドミニク・レブルトン、ジャン・ミシェル・ガイヤール、レミ・ショケ、ロジャー・プラデル。「隠れたプロセスの動的モデルを使用した人口統計パラメーターの推定」。理論人口生物学。2012. 82（4）：307-316。 [3]バーバラエンゲルハルト。「隠れマルコフモデルと状態空間モデル」。STA561：確率的機械学習。デューク大学。http://www.genome.duke.edu/labs/engelhardt/courses/scribe/lec_09_25_2013.pdf [4] Jeroen K. Vermunt。「歩行気分評価データの分析への応用による連続時間でのマルチレベル潜在マルコフモデリング」。社会統計ワークショップ。2012.ティルブルフ大学。http://www.lse.ac.uk/statistics/events/SpecialEventsandConferences/LSE2013-Vermunt.pdf [5]ケン・リチャードソン、デビッド・ハート、クリスティー・カーター。「健康と労働力の移行を理解する：マルコフモデルをSoFIE縦断データに適用する」。公式統計調査シリーズ。2012年。 [6]ゾウビン・ガラマーニ。「隠れマルコフモデルとベイジアンネットワークの紹介」。Journal of Pattern Recognition and Artificial Intelligence。2001. 15（1）：9-42。

18 machine-learning self-study hidden-markov-model

2

ガウス混合の最適化が直接計算的に難しいのはなぜですか？

混合ガウス分布の対数尤度を考慮します。 l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} その方程式を直接最大化することが計算上困難なのはなぜだろうか？私は、なぜそれが難しいことを明らかにする必要があるかについての明確で堅実な直観、またはおそらくその難しい理由についてのより厳密な説明を探していました。この問題はNP完全ですか、それとも解決方法がまだわかりませんか？これが、EM（期待値最大化）アルゴリズムを使用することに頼る理由ですか？表記法： =トレーニングデータ。SnSnS_n =データポイント。x(t)x(t)x^{(t)} =ガウス、それらの平均、標準偏差、および各クラスター/クラス/ガウスからポイントを生成する確率を指定するパラメーターのセット。θθ\theta =クラスター/クラス/ガウスiからポイントを生成する確率。pipip_i

18 machine-learning gaussian-mixture expectation-maximization

1

極端なランダムフォレストとランダムフォレストの違いは何ですか？

ERはより効率的な実装ですか（Extreme Gradient Boosting勾配ブースティングに似ています）-実際の観点からの違いは重要ですか？それらを実装するRパッケージがあります。それは、効率の点だけでなく、他のいくつかの分野でも「一般的な」実装（RのRandomForestパッケージ）を克服する新しいアルゴリズムですか？エクストリームランダムフォレストhttp://link.springer.com/article/10.1007%2Fs10994-006-6226-1

18 r machine-learning algorithms random-forest

2

自然言語処理が機械学習ドメインに分類されないのはなぜですか？[閉まっている]

現在のところ、この質問はQ＆A形式には適していません。回答は、事実、参考文献、または専門知識によってサポートされると予想されますが、この質問は、議論、議論、世論調査、または広範な議論を求める可能性があります。この質問を改善し、おそらく再開できると思われる場合は、ヘルプセンターをご覧ください。 7年前に閉鎖されました。私は多くの本やウェブでそれと出会います。自然言語処理と機械学習は、人工知能の異なるサブセットであると言われています。それはなぜです？機械学習アルゴリズムにサウンドパターンを供給することで、自然言語処理の結果を達成できます。それでは、違いは何ですか？

18 machine-learning text-mining natural-language

2

線形判別分析はどのように寸法を縮小しますか？

91ページの「統計学習の要素」には次のような言葉があります。 p次元入力空間のK重心は最大でK-1次元の部分空間にまたがり、pがKよりもはるかに大きい場合、これは次元の大幅な低下になります。 2つの質問があります。なぜp次元入力空間のK重心が最大K-1次元の部分空間にまたがるのですか？ K重心はどのように配置されますか？この本には説明がなく、関連する論文から答えが見つかりませんでした。

18 machine-learning discriminant-analysis

2

ディープラーニングとデシジョンツリーおよびブースティング手法

（経験的または理論的に）比較して議論する論文またはテキストを探しています。 Random ForestsやAdaBoost、およびGentleBoost などのブースティングおよび決定木アルゴリズムが決定木に適用されます。と以下のような深い学習法制限付きボルツマンマシン、階層一時記憶、畳み込みニューラルネットワークなど、より具体的には、MLメソッドのこれら2つのブロックを速度、精度、または収束の観点から議論または比較するテキストを知っている人はいますか？また、2番目のブロックのモデルまたはメソッドの違い（長所と短所など）を説明または要約するテキストを探しています。このような比較に直接対処するポインタまたは回答をいただければ幸いです。

18 machine-learning deep-learning cart rbm adaboost

5

大規模なテキスト分類

テキストデータの分類を検討しています。私が持っている300 classes、クラスごとに200件のトレーニング文書を（そう60000 documents in total）、これはおそらくもたらすことがある非常に高い次元データ（私たちはを超えて見てすることができる100万の寸法）。パイプラインで次の手順を実行します（私の要件が何であるかを把握するためです）。各ドキュメントを特徴ベクトルに変換（tf-idfまたはvector space model） Feature selection（Mutual Informationできればベース、または他の標準的なもの）（分類器をトレーニングSVM、Naive Bayes、Logistic RegressionまたはRandom Forest）訓練された分類子モデルに基づいて、見えないデータを予測します。質問は、このような高次元のデータを処理するためにどのツール/フレームワークを使用するのですか？私はいつもの容疑者（R、WEKA ...）を知っていますが、私の知る限り（間違っているかもしれません）、おそらく誰もこの大規模なデータを処理できません。私が見ることができる他の市販のツールはありますか？並列化する必要がある場合、Apache Mahoutを検討する必要がありますか？必要な機能をまだ提供していないようです。事前にすべてに感謝します。更新：このWebサイト、Rメーリングリスト、およびインターネット全般を調べました。私の状況では、次の問題が発生する可能性があります。（1）R（特にtmパッケージ）を使用したデータの前処理は、非常に遅いため、実用的ではありませんtm。（2）Rパッケージ（前処理、スパース行列、分類子など）のアンサンブルを使用する必要があるため、パッケージ間の相互運用性が問題になる可能性があり、データをある形式から別の形式に変換する際に追加のオーバーヘッドが発生する可能性があります。たとえば、tm（またはWEKAなどの外部ツール）を使用して前処理を行う場合、このデータをRのHPCライブラリが読み取れる形式に変換する方法を見つける必要があります。繰り返しになりますが、分類器パッケージがHPCライブラリによって提供されるデータを直接取り込むかどうかは明確ではありません。私は正しい軌道に乗っていますか？そしてもっと重要なことは、私は理にかなっていますか？

18 machine-learning classification text-mining

3

0-1損失関数の説明

損失関数の目的を把握しようとしていますが、理解できません。したがって、損失関数は、誤った決定の「コスト」を測定できるある種のメトリックを導入するためのものです。だから、30個のオブジェクトのデータセットがあり、20/10のようなトレーニング/テストセットに分割したとしましょう。0-1損失関数を使用するので、クラスラベルのセットはMで、関数は次のようになります： L （i 、j ）= { 0i = j1i ≠ jI 、J ∈ ML（私、j）={0私=j1私≠j私、j∈M L(i, j) = \begin{cases} 0 \qquad i = j \\ 1 \qquad i \ne j \end{cases} \qquad i,j \in M そこで、トレーニングデータに基づいてモデルを作成し、Naive Bayes分類器を使用しているとしましょう。このモデルでは、7つのオブジェクトが正しく分類され（正しいクラスラベルが割り当てられ）、3つのオブジェクトが誤って分類されました。したがって、損失関数は「0」を7回、「1」を3回返します。これからどのような情報を取得できますか？私のモデルがオブジェクトの30％を誤って分類したということですか？それとももっとありますか？私の考え方に間違いがある場合、非常に申し訳ありませんが、ただ学習しようとしています。もし私が提供した例が「抽象的すぎる」なら、私に知らせてください、私はもっと具体的にしようとします。別の例を使用して概念を説明しようとする場合は、0-1損失関数を使用してください。

18 machine-learning loss-functions

1

ニューラルネットワークでの日の特徴の最適な構築

回帰問題に取り組んで、「曜日」機能の表現について考え始めました。私はどちらのアプローチがより良くなるのだろうか： 1つの機能。月曜日の値は1/7。火曜日は2/7 7つの機能：（1、0、0、0、0、0、0）月曜日; （0、1、0、0、0、0、0）火曜日... ネットワーク構成の違いにより、測定が困難です。（追加の6つの機能は、私が信じる隠れノードの数に反映されるはずです。）すべての機能の数は約20です。単純なbackpropを使用して、通常のフィードフォワードニューラルネットワークを学習します。

18 machine-learning neural-networks feature-construction

3

確率的勾配降下法はどのようにして局所的最小値の問題を回避できますか

確率的勾配降下にはランダムな動作があることは知っていますが、その理由はわかりません。これについて何か説明はありますか？

18 machine-learning random-variable gradient-descent

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」