タグ付けされた質問 「classification」

統計的分類は、サブ母集団が既知である観測を含むデータのトレーニングセットに基づいて、サブ母集団のアイデンティティが不明な場合に、新しい観測が属するサブ母集団を識別する問題です。したがって、これらの分類は、統計学によって研究することができる変数の動作を示します。

2
精度= 1-テストエラー率
これが非常に明白な質問であればおApびしますが、私はさまざまな投稿を読んでおり、良い確認を見つけることができないようです。分類の場合、分類器の精度= 1-テストエラー率ですか?精度はですが、私の質問は、精度とテストエラー率がどの程度正確に関連しているかです。 TP+ TNP+ NTP+TNP+N\frac{TP+TN}{P+N}

4
精度の向上が重要かどうかを確認する
物事を2つのカテゴリに分類するアルゴリズムがあるとします。たとえば、1000個のテスト項目でアルゴリズムの精度を測定できます。80%が正しく分類されていると仮定します。 どうにかしてアルゴリズムを変更して、物事の81%が正しく分類されると仮定しましょう。 統計は、アルゴリズムの改善が統計的に有意であるかどうかを教えてくれますか?この状況で統計的有意性の概念は関連していますか?関連する可能性のあるリソースの方向を教えてください。 どうもありがとう。


2
Naive Bayesは連続変数をどのように処理しますか?
私の(非常に基本的な)理解では、Naive Bayesはトレーニングデータの各特徴のクラス頻度に基づいて確率を推定します。しかし、連続変数の頻度をどのように計算するのでしょうか?また、予測を行う場合、トレーニングセットのどの観測値とも同じ値でない可能性がある新しい観測値をどのように分類しますか?ある種の距離測定を使用していますか、それとも1NNを見つけていますか?

1
ROC曲線が互いに交差するときの2つのモデルの比較
2つ以上の分類モデルを比較するために使用される一般的な尺度の1つは、ROC曲線下面積(AUC)を間接的にパフォーマンスを評価する方法として使用することです。この場合、通常、AUCが大きいモデルは、AUCが小さいモデルよりもパフォーマンスが高いと解釈されます。しかし、Vihinen、2012(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/)によると、両方の曲線が交差すると、そのような比較はもはや有効ではなくなります。なぜそうですか? たとえば、ROC曲線と以下のAUCに基づいてモデルA、B、Cについて確認できるものは何ですか?

4
非線形モデルを使用する場合、多重共線性について心配する必要がありますか?
ほとんどがカテゴリカルな特徴を持つバイナリ分類問題があるとします。学習には非線形モデル(XGBoostやランダムフォレストなど)を使用します。 それでも多重共線性を心配する必要がありますか?どうして? 上記の答えが正しい場合、これらのタイプの非線形モデルを使用していることを考慮して、どのように戦うべきですか?

3
機械学習モデル(GBM、NNなど)を生存分析に使用するにはどうすればよいですか?
Cox Proportional Hazards回帰やいくつかのKaplan-Meierモデルなどの従来の統計モデルを使用して、障害などのイベントの次の発生までの日数を予測できることを知っています。つまり、生存分析 ご質問 GBMやニューラルネットワークなどの機械学習モデルの回帰バージョンを使用して、イベントが発生するまでの日数を予測するにはどうすればよいですか? 発生までの日数をターゲット変数として使用し、単に回帰モデルを実行するだけでは機能しないと思いますか?なぜ機能しないのか、どうすれば修正できますか? 生存分析問題を分類に変換してから、生存確率を取得できますか?その後、バイナリターゲット変数を作成する方法は? 機械学習アプローチとコックス比例ハザード回帰およびカプラン・マイヤーモデルなどの長所と短所は何ですか? サンプル入力データが以下の形式であることを想像してください 注意: センサーは10分間隔でデータをpingしますが、NAの行で表されるように、ネットワークの問題などによりデータが欠落する場合があります。 var1、var2、var3は予測変数、説明変数です。 failure_flagは、マシンが失敗したかどうかを示します。 マシンIDごとに10分間隔で6か月分のデータがあります 編集: 予想される出力予測は以下の形式である必要があります 注:毎日のレベルで、今後30日間の各マシンの障害の可能性を予測します。

1
ディープネットワークのLSTMレイヤーをトレーニングする方法
テキストを分類するために、lstmおよびフィードフォワードネットワークを使用しています。 テキストをワンホットベクトルに変換し、それぞれをlstmにフィードして、単一の表現として要約できるようにします。次に、他のネットワークにフィードします。 しかし、LSTMをトレーニングするにはどうすればよいですか?テキストを順番に分類したいだけです。トレーニングせずにフィードする必要がありますか?分類子の入力レイヤーにフィードできる単一のアイテムとしてパッセージを表したいだけです。 これに関するアドバイスをいただければ幸いです! 更新: lstmと分類子があります。lstmのすべての出力を取得し、それらを平均プールしてから、その平均値を分類器に送ります。 私の問題は、lstmまたは分類子をトレーニングする方法がわからないことです。入力がlstmに対して何であり、分類器の出力がその入力に対して何であるかを知っています。これらは順番にアクティブ化される2つの独立したネットワークであるため、lstmの理想的な出力が何であるかを知る必要があります。これは分類子の入力にもなります。これを行う方法はありますか?

2
キャレットパッケージを使用すると、特定のしきい値の混同マトリックスを取得できますか?
trainバイナリ応答のロジスティック回帰モデル(を介して)を取得し、confusionMatrixin を介してロジスティック混同行列を取得しましたcaret。ロジスティックモデルの混同マトリックスが得られますが、それを取得するためにどのしきい値が使用されているのかはわかりません。confusionMatrixin を使用して特定のしきい値の混同マトリックスを取得するにはどうすればよいcaretですか?

2
マルチクラスパーセプトロンはどのように機能しますか?
数学の背景はありませんが、単純なパーセプトロンの仕組みを理解しており、超平面の概念を理解していると思います(幾何学的には、線が分離するように2つの点群を分離する3D空間の平面として想像します) 2D空間の2つの点群)。 しかし、1つの平面または1つの線が3D空間または2D空間の3つの異なる点群をどのように分離するかはわかりません。これは幾何学的に不可能です。 ウィキペディアの記事の対応するセクションを理解しようとしましたが、「ここでは、入力xと出力yは任意のセットから描画されます」という文で惨めに失敗しました。誰かが私にマルチクラスパーセプトロンを説明し、それが超平面のアイデアとどのように関係するのか、あるいはあまり数学的ではない説明を私に指し示すことができますか?

3
ランダムな森林分類の前の高次元テキストデータのPCA?
ランダムフォレスト分類を実行する前にPCAを行うことは理にかなっていますか? 高次元のテキストデータを扱っており、次元の呪いを回避するために機能の削減を行いたいのですが、ランダムフォレストは既に何らかの次元の削減を行っていませんか?

2
分類および回帰木の背後にある数学
誰でもCARTの分類の背後にある数学のいくつかを説明できますか?2つの主要な段階がどのように発生するかを理解したいと思っています。たとえば、データセットでCART分類器をトレーニングし、テストデータセットを使用してその予測パフォーマンスをマークしましたが、 ツリーの初期ルートはどのように選択されますか? 各ブランチはなぜ、どのように形成されますか? 15列23クラスの40万件のレコードであるデータセットは、混同マトリックスから100%の精度を達成します。データセットで10倍の交差検証を使用します。誰かがCART分類の段階を説明するのを手伝ってもらえたら本当にうれしいです。

1
「統計学習の要素」から表18.1を再現
統計学習の要素の表18.1は、14クラスのデータセットでのいくつかの分類器のパフォーマンスをまとめたものです。このようなマルチクラス分類問題について、新しいアルゴリズムを投げ縄およびエラスティックネットと比較しています。 glmnetバージョン1.5.3(R 2.13.0)を使用すると、テーブル内のポイント7(ペナルティ化された多項式)を再現できません。表では、使用される遺伝子の数は269で、テストエラーは13 54.使用されるデータは、この14癌マイクロアレイデータセットです。私が試したものは何でも、170-180遺伝子の近傍で使用し、54のうち16のテストエラーで最高のパフォーマンスモデルを取得します。L1L1L_1 セクション18.3の654ページの冒頭で、データの前処理について説明していることに注意してください。 私は著者に連絡しましたが、これまでのところ返答はありませんでしたが、誰かがテーブルの再現に問題があることを確認できるか、テーブルの再現方法に関する解決策を提供できるかどうかを尋ねました。

4
ROC曲線の解釈方法は?
SASのデータにロジスティック回帰を適用しました。これがROC曲線と分類表です。 私は分類表の数値に満足していますが、roc曲線とその下の領域が何を示すのか正確にはわかりません。どんな説明でも大歓迎です。

3
回帰の制限付きボルツマンマシン?
RBMに関して以前に尋ねた質問をフォローしています。それらについて記述している多くの文献がありますが、実際に回帰について言及しているものはありません(ラベル付きデータによる分類でさえも)。ラベルのないデータのみに使用されているように感じます。回帰を処理するためのリソースはありますか?または、隠しレイヤーの上に別のレイヤーを追加し、CDアルゴリズムを上下に実行するのと同じくらい簡単ですか?事前に感謝します。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.