統計とビッグデータ machine-learning

10

なぜニューラルネットワークとディープラーニングをダンプしないのですか？[閉まっている]

閉じた。この質問は意見に基づいています。現在、回答を受け付けていません。この質問を改善したいですか？この投稿を編集して事実と引用で答えられるように質問を更新してください。 2年前に閉店。一般的なディープラーニングとニューラルネットワークの基本的な問題。トレーニングデータに適合するソリューションは無限です。単一の方程式だけで満たされ、最も一般化できると言える正確な数学方程式はありません。単純に言えば、どれが最も一般化するのかわかりません。重みの最適化は凸面の問題ではないため、グローバルミニマムまたはローカルミニマムになることは決してありません。それでは、なぜニューラルネットワークをダンプして、代わりにより良いMLモデルを検索しないのですか？私たちが理解していること、そして一連の数学的な方程式と一致する何か？線形およびSVMにはこの数学的な欠点はなく、一連の数学方程式と完全に一致しています。同じラインで考えて（線形である必要はありません）、線形およびSVMおよびニューラルネットワークとディープラーニングよりも優れた新しいMLモデルを考え出すのはなぜですか？

25 machine-learning neural-networks svm deep-learning

5

欠落データを処理する機械学習アルゴリズム

私は、検査値を含む高次元の臨床データを使用して予測モデルを開発しようとしています。データ空間は、5kサンプルと200変数でまばらです。アイデアは、機能選択方法（IG、RFなど）を使用して変数をランク付けし、予測モデルの開発にトップランクの機能を使用することです。素朴なベイズのアプローチでは機能の選択はうまくいきますが、変数空間のデータが欠落している（NA）ために予測モデルの実装で問題に直面しています。欠落データのあるサンプルを慎重に処理できる機械学習アルゴリズムはありますか？

25 machine-learning missing-data

2

ロジスティック回帰の背後にある直感

最近、機械学習の勉強を始めましたが、ロジスティック回帰の背後にある直感を理解することができませんでした。以下は、私が理解しているロジスティック回帰についての事実です。仮説の基礎として、シグモイド関数を使用します。なぜそれが正しい選択なのか理解していますが、なぜそれが私が理解できない唯一の選択なのかを理解しています。仮説は、適切な出力である確率を表す111、それゆえ私たちの関数のドメインがあるべき[ 0 、1 ][0、1][0,1]、これはシグモイド関数の唯一の財産である私が有用であることが判明し、ここで適切な、しかし、多くの機能は、この特性を満たします。さらに、シグモイド関数には、この形式の導関数f(x)(1−f(x))f(x)(1−f(x))f(x)(1-f(x))、しかし、ロジスティック回帰ではこの特別な形式のユーティリティは見当たりません。質問：どのようなシグモイド関数についてとても特別な、なぜ私たちは、ドメインと他の機能を使用することはできません？[0,1][0,1][0,1] コスト関数は、2つのパラメータで構成さであれば、Y = 1 、C O S T（時間θ（X ）、Y ）= - ログ（1 - 時間θ（X ））であれば、Y =をCost(hθ(x),y)=−log(hθ(x))Cost(hθ(x),y)=−log⁡(hθ(x)){\rm Cost}(h_{\theta}(x),y)=-\log(h_{\theta}(x))y=1,Cost(hθ(x),y)=−log(1−hθ(x))y=1,Cost(hθ(x),y)=−log⁡(1−hθ(x))y=1, {\rm Cost}(h_{\theta}(x),y)=-\log(1-h_{\theta}(x))。上記と同じように、なぜそれが正しいのか理解していますが、なぜそれが唯一の形式なのですか？例えば、なぜできませんでした | 時間θ （X ） - Y | コスト関数の良い選択ですか？y=0y=0y=0|hθ(x)−y||hθ(x)−y||h_{\theta(x)}-y| 質問：上記の形式の費用関数について何が特別なのか。なぜ別のフォームを使用できないのですか？ロジスティック回帰の理解を共有していただければ幸いです。

25 regression machine-learning logistic

5

バイナリ変数を標準化する必要がありますか？

一連の機能を備えたデータセットがあります。それらのいくつかはバイナリアクティブまたは起動、(1=(1=(1=0=0=0=非アクティブまたは休止）であり、残りはなどの実際の値。4564.3424564.3424564.342 私は私、機械学習アルゴリズムには、このデータを送りたいのすべての実数値の特徴-score。私はそれらを範囲と間で取得します。現在、バイナリ値もスコア化されているため、ゼロはなり、1はなり。zzz333−2−2-2zzz−0.222−0.222-0.2220.55550.55550.5555 このようなバイナリ変数の標準化は意味がありますか？

25 machine-learning normalization binary-data

3

マルチラベルデータの精度の尺度は何ですか？

KnownLabel MatrixおよびPredictedLabelマトリックスが提供されているシナリオを考えます。KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定したいと思います。ただし、ここでの課題は、KnownLabel Matrixに含まれる行の数が1のみであり、他の少数の行に1が多いことです（これらのインスタンスには複数のラベルが付けられます）。KnownLabel Matrixの例を以下に示します。 A =[1 0 0 0 0 1 0 0 0 1 1 0 0 0 1 1 0 1 1 1] 上記のマトリックスでは、データインスタンス1と2は単一のラベルデータ、データインスタンス3と4は2つのラベルデータ、データインスタンス5は3つのラベルデータです。これで、アルゴリズムを使用したデータインスタンスのPredictedLabel Matrixができました。 KnownLabelマトリックスに対するPredictedLabelマトリックスの良さを測定するために使用できるさまざまな測定値を知りたいです。私は、それらの間のフロベヌスのノルムの違いを尺度の一つと考えることができます。しかし、精度などの指標を探してい（= Correctly_predicted_instancetotal_instance）（=Correctly_predicted_instancetotal_instance）(= \frac{\text{Correctly_predicted_instance}}{\text{total_instance}}) ここで、複数のデータインスタンスに対してをどのように定義できますか？C O R 、R 、E 、C 、T 、LのY _ P R E D I C T E …

25 machine-learning data-mining multilabel

5

各クラスターのポイント数が等しいクラスタリング手順？

にいくつかのポイントがあり、ポイントをクラスター化して次のようにします。X={x1,...,xn}X={x1,...,xn}X=\{x_1,...,x_n\}RpRpR^p 各クラスターには、等しい数のの要素が含まれます。（クラスターの数が分割すると仮定します。）XXXnnn 各クラスターは、平均のクラスターのように、ある意味で「空間的に凝集」しています。kkk これらのいずれかを満たす多くのクラスタリング手順を考えるのは簡単ですが、誰もが両方を一度に取得する方法を知っていますか？

25 machine-learning clustering k-means unsupervised-learning

2

10倍の交差検証とleave-one-outの交差検証

ネストされた相互検証を行っています。leave-one-out交差検証はバイアスされる可能性があることを読みました（理由を覚えていない）。 leave-one-outクロス検証の実行時間を長くすることとは別に、10倍のクロス検証またはleave-one-outクロス検証を使用する方が良いでしょうか？

25 machine-learning cross-validation

1

経験的ベイズはどのように有効ですか？

だから私はちょうど素晴らしい本入門の経験的ベイズを読み終えました。この本は素晴らしいと思いましたが、データからの事前作成は間違っていると感じました。分析計画を立て、データを収集し、分析計画で以前に決定した仮説をテストするように訓練されました。すでに収集したデータを分析すると、選択後の推論が行われ、「重要」と呼ばれるものをより厳しくする必要があります。こちらを参照してください。機械学習には、テストとトレーニングセットを設定する前に予測子を選択することを意味する「チェリーピッキング」と呼ばれる類似したものがあると思います（統計学習の概要）。私が以前に学んだことを考えると、経験的なベイズは弱い基盤に基づいているように思えます。データが受動的に生成された設定でのみ使用されますか？もしそうなら、これは正当かもしれませんが、厳密な実験計画を行うときにそれを使用するのは正しくないようですが、ブラッド・エフロンは一般に非常にNHST分野である生物統計学のために経験的ベイズを使用することを知っています。私の質問は：経験的ベイズはどのように有効ですか？どのような状況で使用されますか？どのような状況で経験的ベイズアプローチの使用を避ける必要がありますか？その理由は？人々は生物統計学以外の分野でそれを使用していますか？もしそうなら、どのような状況でそれを使用していますか？

24 machine-learning hypothesis-testing bayesian empirical-bayes

1

変分オートエンコーダーとは何ですか？また、どの学習タスクに使用されますか？

ごとに、このと、この答えは、オートエンコーダは、次元削減のためのニューラルネットワークを使用する技術であるように見えます。さらに、変分オートエンコーダー（「従来の」オートエンコーダーとの主な違い/利点）、およびこれらのアルゴリズムが使用される主な学習タスクも知りたいと思います。

24 machine-learning bayesian deep-learning autoencoders variational-bayes

1

MCMCサンプルからの限界尤度の計算

これは、定期的な質問（参照で、この記事、この記事とこの記事を）が、私は別のスピンを持っています。一般的なMCMCサンプラーからのサンプルがたくさんあるとします。各サンプルについて、対数尤度および前の対数の値を知っています。役立つ場合は、データポイントごとの対数尤度の値も知っています（この情報は、WAICやPSIS-LOOなどの特定の方法で役立ちます）。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 私が持っているサンプルと、場合によっては他のいくつかの関数評価を使用して（ただし、アドホック MCMC を再実行せずに）限界尤度の（粗）推定値を取得したい。まず、テーブルをクリアしましょう。私たちは皆、高調波推定器が史上最悪の推定器であることを知っています。次へ移りましょう。事前形式と事後条件を閉じた形式でギブスサンプリングを行う場合は、Chibの方法を使用できます。しかし、これらのケース以外で一般化する方法がわかりません。サンプリング手順を変更する必要がある方法もあります（後回しなど）が、ここでは興味がありません。私が考えているアプローチは、基礎となる分布をパラメトリック（またはノンパラメトリック）形状で近似し、正規化定数を1次元最適化問題（つまり、誤差を最小にする間及びのサンプルで評価）。最も単純な場合、後部がほぼ多変量正規であると仮定すると、を多変量正規として近似し、ラプラス近似に似たものを得ることができます（いくつかの追加の関数評価を使用して、モード）。ただし、として使用できますg(θ)g(θ)g(\theta)ZZZZZZZg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)g(θ)g(θ)g(\theta)g(θ)g(θ)g(\theta)多変量分布の変分混合など、より柔軟なファミリ。ttt 私は、このメソッドは場合にのみ機能することを認めるへの合理的な近似である、それはに非常に賢明だろう理由のいずれかの理由や訓話しますか？お勧めの読書はありますか？Zg(θ)Zg(θ)Z g(\theta)f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta) 完全なノンパラメトリックアプローチでは、ガウスプロセス（GP）などのノンパラメトリックファミリを使用して、（またはそのような他の非線形変換など）を近似し平方根として）、およびベイジアン求積法で潜在的なターゲットを暗黙的に統合します（こちらとこちらをご覧ください）。これは興味深い代替アプローチのように見えますが、精神的には類似しています（また、私の場合、GPは扱いにくいことに注意してください）。logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)

24 machine-learning bayesian sampling mcmc likelihood

2

テキスト分類のための単語の袋：TFIDFの代わりに単語の頻度を使用しないのはなぜですか？

テキスト分類の一般的なアプローチは、「単語の袋」から分類器をトレーニングすることです。ユーザーは分類するテキストを取得し、各オブジェクト内の単語の頻度をカウントします。その後、結果のマトリックスを管理可能なサイズに維持するために何らかのトリミングを行います。多くの場合、ユーザーはTFIDFを使用して特徴ベクトルを構築します。言い換えれば、上記のテキストの頻度は、コーパス内の単語の頻度によって低くされています。TFIDFが、たとえば、人間のアナリストに表示するために、特定のドキュメントの「最も顕著な」単語を選択するのに役立つのはなぜでしょう。しかし、標準の教師付きML手法を使用したテキストの分類の場合、コーパス内のドキュメントの頻度によるダウンウェイトが必要なのはなぜですか？学習者自身が各単語/単語の組み合わせに割り当てる重要性を決定しませんか？もしあれば、IDFがどのような価値を追加するかについてのあなたの考えに感謝します。

24 machine-learning classification text-mining

3

機械学習でパワー変換またはログ変換があまり教えられないのはなぜですか？

機械学習（ML）は、線形およびロジスティック回帰手法を多用しています。また、機能の工学的手法（に依存しているfeature transform、kernelなど）。なぜ何も程度variable transformation（例えばpower transformation）MLに言及していませんか？（たとえば、ルートの取得やフィーチャへのログについて聞いたことはありません。通常は単に多項式またはRBFを使用します。）同様に、MLの専門家が従属変数のフィーチャ変換を気にしないのはなぜですか？（たとえば、yの対数変換を行うことについて聞いたことはありません。yを変換しません。）編集：たぶん質問は間違いではないかもしれませんが、私の本当の質問は「MLへの変数への累乗変換は重要ではないのですか？」

24 regression machine-learning data-transformation

4

人工ニューラルネットワークから人間の脳について何を学ぶことができますか？

私の質問/タイトルはあまり具体的ではないことを知っているので、それを明確にしようとします：人工ニューラルネットワークの設計は比較的厳密です。もちろん、一般的に、それらは生物学の影響を受け、実際のニューラルネットワークの数学的モデルを構築しようとしますが、実際のニューラルネットワークの理解は正確なモデルの構築には不十分です。したがって、正確なモデルや、実際のニューラルネットワークに「近い」ものは考えられません。私の知る限り、すべての人工ニューラルネットワークは実際のニューラルネットワークからはかけ離れています。生物学には、標準の古典的な完全に接続されたMLPは存在しません。リカレントニューラルネットワークには実際の神経可塑性がないため、RNNの各ニューロンには同じ「フィードバックアーキテクチャ」がありますが、実際のニューロンは情報を個別に保存および共有します。畳み込みニューラルネットワークは効果的で人気がありますが、（たとえば）人間の脳の画像処理はごく少数の畳み込み層で構成されていますが、最新のソリューション（GoogLeNetなど）はすでに数十層を使用しています... 、彼らは人間のパフォーマンスにも近くありません。特に、実際のニューラルネットワークと比較して、かなりの量のレイヤーとデータ削減が必要なため、「レイヤーごとのパフォーマンス」を考える場合。さらに、私の知る限り、モジュール式の自己拡張/自己再構築人工ニューラルネットワークでさえ、実際のニューラルネットワークの巨大な適応性と比較してかなり「固定的かつ静的」です。生物学的ニューロンには通常、ニューロンを非常に多様な異なる領域や他のニューロンに接続する数千の樹状突起があります。人工ニューラルネットワークは、はるかに「単純」です。それでは、人間の脳/実際のニューラルネットワークについて、人工ニューラルネットワークから学べることはありますか？それとも、古典的な静的アルゴリズムよりも優れたパフォーマンスを発揮するソフトウェアを作成しようとするだけなのでしょうか（あるいは、そのようなアルゴリズムが失敗するようなことをするのでしょうか）。誰かがこのトピックに関する（できれば科学的な）情報源を提供できますか？編集：より多くの回答が高く評価されています（：

24 machine-learning neural-networks bioinformatics artificial-intelligence neuroscience

2

ベイジアン投げ縄vs通常の投げ縄

lassoにはさまざまな実装ソフトウェアが用意されています。さまざまなフォーラムで、ベイジアンアプローチと頻度主義的アプローチについて多くのことを話し合っています。私の質問はなげなわ特有のものです - ベイジアンなげなわと通常のなげなわの違いや利点は何ですか？パッケージ内の実装の2つの例を次に示します。 # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) それで、いつ私は1つまたは他の方法に行くべきですか？それとも同じですか？

24 r machine-learning linear-model lasso

2

オートエンコーダーは意味のある機能を学習できません

次の2つのような50,000個の画像があります。データのグラフを表します。これらの画像から特徴を抽出したかったので、Theano（deeplearning.net）が提供するオートエンコーダコードを使用しました。問題は、これらのオートエンコーダーが機能を学習していないようです。私はRBMを試しましたが、それは同じです。 MNISTデータセットは素晴らしい機能を提供しますが、私のデータは何ももたらさないようです。以下に例を示します。 MNISTで作成されたフィルター：データをトレーニングして作成したフィルター：隠れ層サイズとトレーニングエポックのさまざまな組み合わせを使用しましたが、結果は常に同じです。なぜ機能しないのですか？自動エンコーダーがこれらの画像から特徴を抽出できないのはなぜですか？編集：同様の問題を抱えている人のために。解決策は本当にシンプルで、原因は本当に馬鹿げていました。RGBエンコーディングのピクセル値を0〜1の範囲の浮動小数点数に再スケーリングするのを忘れました。値を再スケーリングすることで問題が解決しました。

24 machine-learning neural-networks feature-construction rbm autoencoders

タグ付けされた質問 「machine-learning」

タグ付けされた質問「machine-learning」