統計とビッグデータ supervised-learning

2

私は線形回帰を研究しており、以下のセット{（x、y）}で試してみました。xは平方フィートで家の面積を指定し、yはドルで価格を指定しました。これはAndrew Ng Notesの最初の例です。 2104,400 1600,330 2400,369 1416,232 3000,540 サンプルコードを開発しましたが、実行すると、コストは各ステップで増加しますが、各ステップで減少するはずです。以下に示すコードと出力。biasはW 0 X 0で、X 0 = 1です。featureWeightsは[X 1、X 2、...、X N ]の配列ですまた、ここで利用可能なオンラインpythonソリューションを試し、ここで説明しました。しかし、この例でも同じ出力が得られます。概念を理解する際のギャップはどこにありますか？コード： package com.practice.cnn; import java.util.Arrays; public class LinearRegressionExample { private float ALPHA = 0.0001f; private int featureCount = 0; private int rowCount = 0; private float bias = 1.0f; …

12 regression least-squares gradient-descent supervised-learning

1

自動キーワード抽出：余弦の類似性を特徴として使用

ドキュメント用語マトリックスを取得しました。次に、教師付き学習方法（SVM、Naive Bayesなど）を使用して、各ドキュメントのキーワードを抽出したいと思います。このモデルでは、すでにTf-idf、Posタグなどを使用しています...MMM しかし、今私は次のことを考えています。項間のコサインの類似性を持つ行列があります。CCC この類似性をモデルの機能として使用する可能性はありますか？私の考えは、言葉のためだったの文書にドキュメント内のすべての用語のコサイン類似点の平均値を使用するように、用語で。これは便利ですか？dはD Iを私私idddddd私私i

12 text-mining feature-construction supervised-learning cosine-distance cosine-similarity

1

フィッシャーの厳密検定と超幾何分布

私はフィッシャーの正確なテストをよりよく理解したかったので、次のおもちゃの例を考案しました。ここで、fとmは男性と女性に対応し、nとyは次のように「ソーダ消費」に対応します。 > soda_gender f m n 0 5 y 5 0 明らかに、これは大幅な簡略化ですが、コンテキストが邪魔になりたくありませんでした。ここで私は男性がソーダを飲まず、女性がソーダを飲まないと仮定し、統計手順が同じ結論になるかどうかを確認したかっただけです。 Rでフィッシャーの正確検定を実行すると、次の結果が得られます。 > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 ここでは、p値が0.007937であるため、性別とソーダ消費が関連付けられていると結論付けます。フィッシャーの正確な検定が超幾何分布に関連していることを知っています。だから私はそれを使って同様の結果を得たいと思った。つまり、この問題は次のように表示できます。10個のボールがあり、5個が「男性」、5個が「女性」とラベル付けされており、交換せずに5つのボールをランダムに描画すると、0個の男性ボールが表示されます。。この観察の可能性は何ですか？この質問に答えるために、次のコマンドを使用しました。 …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

2

不確かなデータによる教師あり学習？

教師あり学習モデルを不確実なデータセットに適用するための既存の方法論はありますか？たとえば、クラスAおよびBのデータセットがあるとします。 +----------+----------+-------+-----------+ | FeatureA | FeatureB | Label | Certainty | +----------+----------+-------+-----------+ | 2 | 3 | A | 50% | | 3 | 1 | B | 80% | | 1 | 1 | A | 100% | +----------+----------+-------+-----------+ これで機械学習モデルをどのようにトレーニングできますか？ありがとう。

11 machine-learning supervised-learning

2

Rの分類モデルの増分学習

以下のコードを使用して不正を検出するための分類器（デシジョンツリー、ランダムフォレスト、ロジスティック回帰などの標準的な分類器のいずれか）があると仮定します。 library(randomForest) rfFit = randomForest(Y ~ ., data = myData, ntree = 400) # A very basic classifier Say, Y is a binary outcome - Fraud/Not-Fraud 今、私は目に見えないデータセットを予測しました。 pred = predict(rfFit, newData) 次に、分類に関する調査チームからフィードバックを取得しましたが、不正を非詐欺（つまり、1つの偽陰性）に分類するのを間違えたことがわかりました。とにかく、アルゴリズムに間違いがあることをアルゴリズムに理解させることができますか？つまり、アルゴリズムにフィードバックループを追加して、間違いを修正できるようにする方法はありますか。私の頭の上から考えることができる1つのオプションはadaboost classifier、新しい分類器が古い分類器の間違いを修正するようにを構築することです。または私はの何かを聞いたことがありますIncremental LearningかOnline learning。に既存の実装（パッケージ）はありRますか？それは正しいアプローチですか？または、モデルを最初から構築する代わりに微調整する他の方法はありますか？

11 classification supervised-learning

2

文字列パターンを学習するための機械学習手法

自分で定義したさまざまなカテゴリに属する単語のリストがあります。各カテゴリには独自のパターンがあります（たとえば、1つは特殊文字を含む固定長で、もう1つはこの「単語」のカテゴリでのみ発生する文字の存在です...）。例えば： "ABC" -> type1 "ACC" -> type1 "a8 219" -> type2 "c 827" -> type2 "ASDF 123" -> type2 "123123" -> type3 ... 私は、トレーニングデータに基づいて、これらのパターンを独自に学習するための機械学習手法を探しています。私はすでに自分でいくつかの予測変数（たとえば、語長、特殊文字の数など）を定義しようとし、ニューラルネットワークを使用してカテゴリを学習および予測しました。しかし、それは実際には私が望むものではありません。各カテゴリーのパターンを自分で習得するテクニック、つまり、私が考えたこともないパターンを習得するテクニックも必要です。したがって、アルゴリズム学習データ（単語カテゴリの例からなる）を指定し、各カテゴリのパターンを学習して、後で類似または等しい単語からカテゴリを予測するようにします。それを行うための最先端の方法はありますか？ご協力いただきありがとうございます

11 machine-learning classification similarities supervised-learning

5

ほとんどの解釈可能な分類モデル

決定木とロジスティック回帰を除いて、他のどの分類モデルが適切な解釈を提供しますか？精度やその他のパラメータには関心がなく、結果の解釈のみが重要です。

10 interpretation supervised-learning

2

教師あり学習データセットの自己相関は問題ですか？

次の問題を想像してみてください。Kアイテムの価格データと、さまざまな機能/予測子のスナップショットを毎週持っています。2年後の価格がどのくらい変わるか予測したい。次のようにデータセットを組み立てます。各行は各週の各アイテムの機能で構成され、出力変数は2年間の価格リターンです。観測の日付がデータセットにない-私はそれをデータセットをトレーニングと検証セットに分離するためにのみ使用します。つまり、相互検証（検証期間の前後2年間のデータを破棄します） 1年）データの盗聴を防止するため）。明らかに、同じ項目（および異なる項目の場合も）の2週間連続のサンプルは、機能と応答変数の両方の点で高度に相関します（今後2年間は大部分が重複するため、リターンを意味します）非常に似ています）。ランダムフォレストや勾配ブーストツリーなど、教師付き学習アプローチにどのような潜在的な問題が発生する可能性がありますか？私の考えは：データセットの有効サイズは、予想よりも小さくなります。つまり、たとえば100,000の観測のデータセットは、100'000 /（52 * 2）〜= 1000の観測のデータセットのように動作します。これは、応答に自己相関がないサンプルの数だからです。これは、データに適合できるモデルの複雑さに大きく影響します。つまり、過剰適合問題が発生し、予想よりもはるかに悪い結果になります。フィーチャスペース内の各アイテムの連続した週にフィーチャが互いに非常に接近しているため、私のデータセットはフィーチャスペースを予想よりもかなりカバーし、データセットの「有効」サイズが減少します。クロスバリデーションの検証に1年分のデータのみを使用すると、クロスバリデーションの結果の分散が大きくなります。これも、検証セットのサンプルの有効数が52 * Kではなく〜Kになるためです。これらは有効な懸念事項ですか？はいの場合、K〜= 100の場合、ランダムフォレストや勾配ブーストツリーを使用するなど、数百の機能から合理的に複雑な非線形モデルをトレーニングするには、数千年ではなくても数百のデータが必要になるということですか？それとも、私は過度に悲観的で、上記の「有効なデータセットのサイズ」に関する私の議論は無意味ですか？

10 time-series random-forest autocorrelation supervised-learning nonlinear

2

非類似度メジャーの重みを見つける方法

クラスタリングに使用できる非類似度メジャーの属性の重みを学習（推定）したいと思います。「類似」するオブジェクトのペアのいくつかの例（同じクラスター内にある必要があります）、および「類似していない」オブジェクトのペアのいくつかの例（c i、d i）があります。 "（同じクラスター内にあってはなりません）。各オブジェクトにはいくつかの属性があります。必要に応じて、各オブジェクトをd次元の特徴ベクトルと考えることができます。ここで、各特徴は非負の整数です。そのような類似/非類似オブジェクトの例を使用して、非類似度測定値の最適な特徴の重みをそれらから推定する手法はありますか？(ai,bi)(ai,bi)(a_i,b_i)(ci,di)(ci,di)(c_i,d_i)ddd それが役立つ場合、私のアプリケーションでは、重み付けされたL2ノルムである非類似度の測定に集中することはおそらく妥当でしょう。 d(x,y)=∑jαj(x[j]−y[j])2.d(x,y)=∑jαj(x[j]−y[j])2.d(x,y) = \sum_j \alpha_j (x[j] - y[j])^2. どこの重み知られていないと学習されるべきです。（または、重み付きコサイン類似性尺度のいくつかの種類があまりにも合理的であるかもしれない。）の重みを学習することが良いアルゴリズムですα Jを例与えられ、そのような措置のために？または、私が考慮すべき類似性測定値/非類似性測定値を学習する他の方法はありますか？αjαj\alpha_jαjαj\alpha_j ディメンションの数は残念ながら非常に多くなっています（数千以上。バッグオブワード機能から派生しています）。しかし、私は何万もの例を持っています。次に、クラスタ化したいオブジェクトが数十万あるので、優れた非類似度メトリックを学習するには、例から一般化することが重要です。私はこれが半教師ありクラスタリングのルーブリックに該当することを収集します。これは「類似性適応」の傾向のように聞こえますが、この目的に使用するアルゴリズムの明確な説明を見つけることができませんでした。

9 clustering similarities supervised-learning semi-supervised

1

どのように見つけ、と連続変数のための最適な離散化を評価するために、

連続変数とバイナリターゲット変数（0と1）を含むデータセットがあります。（ロジスティック回帰の）連続変数をターゲット変数に関して離散化する必要があります。また、各区間での観測頻度のバランスをとるように制約されています。Chi Mergeのような機械学習アルゴリズム、決定木を試しました。Chiマージにより、各間隔で非常に不均衡な数の間隔が得られました（3つの観測値を持つ間隔と1000の別の間隔）。決定木は解釈が困難でした。最適な離散化では、離散化された変数とターゲット変数の間の統計が最大化され、ほぼ同じ量の観測を含む間隔が必要であるという結論に達しました。χ2χ2\chi^2 これを解決するためのアルゴリズムはありますか？これはRでは次のようになります（defはターゲット変数、xは離散化される変数です）。私はTschuprowの計算ので、変換され、ターゲット変数間の「相関性」を評価するために、χ 2統計は間隔の数に伴って増加する傾向にあります。これが正しい方法かどうかはわかりません。TTTχ2χ2\chi^2 TTT chitest <- function(x){ interv <- cut(x, c(0, 1.6,1.9, 2.3, 2.9, max(x)), include.lowest = TRUE) X2 <- chisq.test(df.train$def,as.numeric(interv))$statistic #Tschuprow Tschup <- sqrt((X2)/(nrow(df.train)*sqrt((6-1)*(2-1)))) print(list(Chi2=X2,freq=table(interv),def=sum.def,Tschuprow=Tschup)) }

9 r machine-learning chi-squared discrete-data supervised-learning

3

LDA対パーセプトロン

LDAが他の教師あり学習手法にどのように「適合する」かを感じ取ろうとしています。LDAに関するLDA風の投稿のいくつかをここで読みました。私はすでにパーセプトロンに精通していますが、今はLDAを学習しています。 LDAは教師あり学習アルゴリズムのファミリーにどのように「適合」しますか？これらの他の方法と比べてその欠点は何ですか？それは何のためによりよく使用されるでしょうか？たとえばパーセプトロンを使用するだけでよいのに、なぜLDAを使用するのでしょうか。

9 machine-learning classification discriminant-analysis supervised-learning

2

分類器がデータを誤って分類するのはなぜですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 2年前休業。データ自体からのものでしょうか？それとも、モデルがデータ間の類似性を効率的に検出できないためですか、それとも誤分類の原因は他にありますか？

9 classification supervised-learning

2

ランダムフォレストは、不均衡なデータ分類に適したオプションですか？[閉まっている]

休業。この質問には、より焦点を当てる必要があります。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新して、この投稿を編集するだけで1つの問題に焦点を当てます。 3年前休業。データの変動性に似たアプローチやその他のアプローチの増加にもかかわらず、「アルゴリズムとしての」ランダムフォレストは、不均衡なデータ分類の優れたオプションと見なすことができますか？

9 machine-learning classification data-mining supervised-learning statistical-learning

1

過剰適合はどのくらいですか？

概念的に、オーバーフィットモデルと適切にフィットしたモデルの間にどこで線を引きますか？モデルがテストセットよりもトレーニングセットで数パーセント優れている場合、過適合であることは明らかです。しかし、理論的には、トレーニングセットでモデルをトレーニングし、テストセットで検証したところ、トレーニングセットの精度がテストセットよりも0.2％高いことがわかりました。これは過度に適合していませんか？

9 machine-learning model overfitting supervised-learning

2

K = 1の場合のKNN分類器のトレーニングエラー

クイズでこの質問を受けました。K= 1の場合、KNN分類器のトレーニングエラーはどうなるのかと尋ねられました。KNN分類器にとってトレーニングは何を意味しますか？KNN分類器についての私の理解は、データセット全体を考慮し、新しい観測値に最も近いK近傍の大部分の値を割り当てることでした。トレーニングはどこにありますか？また、このために提供された正解は、データセットに関係なくトレーニングエラーがゼロになることでした。これはどのようにして可能ですか？

8 classification supervised-learning k-nearest-neighbour

タグ付けされた質問 「supervised-learning」

タグ付けされた質問「supervised-learning」