統計とビッグデータ classification

1

私はオーディオ分類のニューラルネットワークをトレーニングしています。 UrbanSound8Kデータセット（Model1）でトレーニングした後、入力に追加されたノイズの異なるレベルが予測精度にどのように影響したかを評価したいと思いました。ベースライン精度モデル1 = 65％予想通り、ノイズのレベルが高くなると精度が低下しました。次に、ノイズを使用したデータ拡張（Model2）を実行することにしました。それで、データセットを取り、同じファイルで複製しましたが、ピンクノイズ（+0 dB SNR）を追加しています。（私が）予想したように、全体的な精度が向上し（非常にわずかですが、0.5％）、ネットワークは入力のノイズ破損に対してより堅牢になりました。しかしながら！私が予期していなかったことの1つは、ノイズのある破損のない入力（検証入力）のみを予測すると、ネットワークの精度が低下することでした。どういうわけか、それはクリーンな入力に適合しすぎているため、これらのオーディオの予測精度が低下しています。したがって、Model2は数値で予測すると、ノイズの多い入力では69％の精度（必ずしも訓練されたのと同じノイズではない）で予測し、クリーンな入力では47％の精度で予測します。この結果について何か説明や直感はありますか？ネットワークは、ますます多様なトレーニングデータを持っているため、より有意義な機能を学習するだろうと期待していました。ノイズの多い入力にオーバーフィットする方が難しいと思いますが、それでも主にクリーンな入力にオーバーフィットした理由がわかりません。 -------------------------------------------------編集1 ------------------------------------------------- --------------- 役立つかもしれない別の情報：ノイズがほとんどないノイズの多い入力でModel2を評価する場合でも、ネットワークはクリーンな入力（耳へのノイズがほとんどない入力とほとんど同じ）の場合よりもパフォーマンスが優れています。

8 classification neural-networks dataset overfitting

2

クラスター数の選択-クラスター検証の基準とドメインの理論的な考慮事項

クラスターの数を選択する必要があるという問題によく直面します。私が最終的に選択するパーティションは、多くの場合、品質基準ではなく視覚的および理論的な懸念に基づいています。主な質問が2つあります。 1つ目は、クラスターの品質に関する一般的な考え方です。「エルボ」などの基準が理解できることから、コスト関数を参照して最適な値を提案しています。このフレームワークで私が抱えている問題は、最適な基準が理論的な検討に影響されないため、最終的なグループ/クラスターに常に必要となるある程度の複雑さ（研究分野に関連）があることです。また、のように説明し、ここで最適値はまた、あなたがしているかを考慮して、（例えば経済的制約など）、「下流の目的」制約に関連している何をするつもりクラスタリング事項と。明らかに、1つの面が意味のある/解釈可能なクラスターを見つけることであり、クラスターが多くなるほど、それらを解釈することが難しくなります。しかし、常にそうであるとは限りません。8、10、または12個のクラスターが、分析で必要なクラスターの最小の「興味深い」数であることがよくあります。ただし、肘などの基準では、クラスターがはるかに少ないことが示唆されることが多く、通常は2、3または4です。 Q1。私が知りたいのは、特定の基準（エルボなど）によって提案されたソリューションではなく、より多くのクラスターを選択することを決定した場合の最良の議論の行です。直観的には、制約がない場合（取得したグループの了解度や、非常に多額の場合のコースラの例など）は常に優れているはずです。これを科学雑誌の記事でどのように議論しますか？別の言い方をすれば、（これらの基準を使用して）クラスターの最小数を特定したら、それよりも多くのクラスターを選択した理由を正当化する必要さえあるということです。意味のある最小限のクラスターを選択する場合にのみ、正当化が行われるべきではありませんか？ Q2。これに関連して、クラスターの数が増えるにつれて、シルエットなどの特定の品質指標が実際にどのように減少するかはわかりません。シルエットにクラスター数のペナルティが表示されないので、どうすればよいですか？理論的には、クラスターが多いほど、クラスターの品質は高くなりますか？ # R code library(factoextra) data("iris") ir = iris[,-5] # Hierarchical Clustering, Ward.D # 5 clusters ec5 = eclust(ir, FUNcluster = 'hclust', hc_metric = 'euclidean', hc_method = 'ward.D', graph = T, k = 5) # 20 clusters ec20 = eclust(ir, FUNcluster …

8 r machine-learning classification clustering hierarchical-clustering

2

製品を分類するための機械学習アルゴリズムに関するアイデア

製品のリスト（領収書に記載されている製品名など）や、製品を購入した販売者などの変数が含まれています。私はそれらの多くを手動でカテゴリの固定グループに分類しています（たとえば、アルコール飲料、野菜、肉など）。データはいつものようにノイズが多いです。この場合、スキャンされた領収書から取得されるため特にノイズが多く、あまり良くないスキャンのOCRは通常非常にノイズが多くなります。上記の2つの変数を使用して、新しいデータを分類するアルゴリズムを試してみたい。ここには、いくつかの主要なバリエーションのソースがあります。 OCRは、製品（例：鶏肉）が多くの異なるが比較的類似したスペル（例：チキン、ヒッケン、チキンなど）で見つかることを意味します。同じ商品でも、商品を販売した販売者によって名前が異なる場合があります。この場合、名前はマーチャント間で類似しているか完全に異なっている可能性がありますが、すべてのマーチャント内では類似しています。同じ商品は、同じ商人の中で非常に異なる名前を持つことができます（たとえば、レシートの名前がブランド名であるブランド製品と一般名、ソフトドリンクとコカコーラ）。（文字列間の距離（主に上記のバリエーションの最初の主要なソースに取り組む）など）を使用して、いくつかの（素朴な）分類器を試してみましたが、結果に満足していません。そこで、私はこの問題に取り組む方法についてのアイデアを求めるために、ここに手を差し伸べたかったのです。多くの人がこの種の問題で私がしたよりも（数時間）「解決」したか、少なくともずっと長く働いたと思いますので、ここでのガイダンスを本当に感謝します。ちなみに、私は主にRを使用しているので、Rベースのソリューションをいただければ幸いです。

7 machine-learning classification

1

最も重要な機能を推測する

インスタンスのセットが与えられます。インスタンスごとに、（数値）特徴（、、...、）、n >> mで構成される特徴ベクトルがあります。さらに、インスタンスごとに数値スコア（観測可能）があります。私はしたいと思います：んんnメートルメートルmバツ1バツ1x_1バツ2バツ2x_2バツメートルバツメートルx_myyy 特徴のどのサブセットまたはその線形結合がスコアを最もよく説明しているかを調べます。このための素晴らしい視覚化を作成します。主成分分析（PCA）を指摘されました。PCAの問題は、特徴ベクトルのみが考慮されることです。PCAは、特徴を数値スコア関連付けません。yyy 実用的なアプリケーション：多数の問題インスタンス（巡回セールスマンの問題など）と、問題を解決するためのいくつかのアルゴリズムがある場合。インスタンスを解決するたびに、インスタンスの解決にかかった合計時間（=スコア）を測定できます。さらに、インスタンスごとに、インスタンスのサイズ、グラフの直径など、いくつかの機能を取得できます。これらの機能のどれが計算時間を最もよく説明しますか？

7 machine-learning classification supervised-learning

3

MLを使用して、非常に不均衡なクラスのデータセットで人間のラベル付けを支援する

人間の注釈を支援するためにMLを使用することには科学的な問題がありますか？ 3つのクラスのラベルなしデータセットがあり、500要素のうち1つだけが対象の2つのクラスに属しています。ラベルは、大多数のクラスのほとんどの要素は、しかしとして、非標識のデータのすべての要素の自明識別できるarn't あり、それは大多数のクラスのほとんどの要素うちのフィルタに使用することができ、簡単なNNで簡単にdectableまでの番号をもたらします100分の1になり、アノテーターの時間を50倍に増やします。ラベル付けされたデータセットは、分類子のトレーニング、テスト、および検証に使用されます。ただし、これが特に学術的な観点から問題を引き起こす可能性がある理由を予測できます。人間の注釈の前に使用されたMLのバイアスのために注釈付きデータが代表的でない場合、分類子は一般化するのに苦労する可能性があります人間が提供する正当なルールに基づいていないMLデータクリーナーを使用すると、データ分析プロセスの最初にブラックボックスが表示されます非常に普及しているクラスのごく一部に注釈を付けるだけで、データセットが非常に選択的になります。これは、このバイアスの誤用（つまり、望ましい仮説の操作）に対する批判を招くでしょう。すべての考えを感謝

7 classification unbalanced-classes data-cleaning active-learning

1

分類子を高いバイアスまたは高い分散であるとどのように決定しますか？

分類子のバイアスと分散により、分類子がデータをそれぞれ過小および過大に適合できる程度が決まります。高バイアスまたは高分散として特徴付けられる分類子をどのように決定できますか？バイアス分散のトレードオフとその分解とは何か、トレーニングデータとモデルにどのように依存する可能性があるかについては、かなり明確です。たとえば、データにターゲット関数に関連する十分な情報が含まれていない場合（単純に言えば、サンプルがないため）、分類子は誤った仮定を行う可能性があるため、高いバイアスを経験します。逆に、分類子が所定のトレーニングデータ（たとえば、複数のエポックを実行する多数のノードを含むANN、または深さが高い決定木）にぴったりと適合している場合、見えないものを予測するために一般化できないため、分散が大きくなります。サンプル。ただし、高バイアス低分散分類器、または低バイアス高分散分類器の選択についての講義を見る場合があります。たとえば、ナイーブベイズは高バイアス低分散分類器と見なされます（条件付き独立性の仮定によるものと思われます）。これをどのように決定しますか？では、SVM、ID3、ランダムフォレスト、および NNをどのように特徴付けるのでしょうか。それらは高いバイアスまたは高い分散ですか？ kkk

7 machine-learning classification bias-variance-tradeoff

1

テストポイントから各クラスのポイントまでの平均距離に基づく分類アルゴリズム

平均距離が最小のポイントのクラスターに新しいテストベクトルを割り当てる分類アルゴリズムはありますか？もっと上手に書いてみましょう：それぞれにポイントの個のクラスターがあるとしましょう。各クラスターkについて、x（0）とx（i）の間のすべての距離の平均を計算します。ここで、x（i）はクラスターk内の点です。KKKTkTkT_kx(0)x(0)x(0)x(i)x(i)x(i)x(i)x(i)x(i)kkk テストポイントは、このような距離が最小のクラスターに割り当てられます。これは有効な分類アルゴリズムだと思いますか？理論的には、クラスターが線形フィッシング判別マッピング後のように「整形式」である場合、良好な分類精度が得られるはずです。このアルゴをどう思いますか？私は試しましたが、その結果、分類は要素数が最大のクラスターに強く偏っています。 def classify_avg_y_space(logging, y_train, y_tests, labels_indices): my_labels=[] distances=dict() avg_dist=dict() for key, value in labels_indices.items(): distances[key] = sk.metrics.pairwise.euclidean_distances(y_tests, y_train[value]) avg_dist[key]=np.average(distances[key], axis=1) for index, value in enumerate(y_tests): average_distances_test_cluster = { key : avg_dist[key][index] for key in labels_indices.keys() } my_labels.append(min(average_distances_test_cluster, key=average_distances_test_cluster.get)) return my_labels

7 classification scikit-learn algorithms

2

ガウスプロセスのバイナリ分類で、なぜシグモイド関数がガウス関数よりも好ましいのですか？

私は現在「機械学習のためのガウス過程」を研究しており、第3章では後p(y∗|X,y,x∗)p(y∗|X,y,x∗)p(y_*|X,\mathbf{y},\mathbf{x}_*) （eq。3.10）と潜在変数事後 p(f∗|X,y,x∗)p(f∗|X,y,x∗)p(f_*|X,\mathbf{y},\mathbf{x}_*)（eq。3.9）（3.9）のシグモイド尤度と（3.10）のシグモイド関数により、一般に解析的に解くことができません。方程式を調べなくても済むように、次のようにします。 p(y∗=+1|X,y,x∗)p(f∗|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗=∫p(f∗|X,x∗,f)p(f|X,y)df(3.10)(3.9)p(y∗=+1|X,y,x∗)=∫σ(f∗)p(f∗|X,y,x∗)df∗(3.10)p(f∗|X,y,x∗)=∫p(f∗|X,x∗,f)p(f|X,y)df(3.9) \begin{align} p(y_*=+1|X,\mathbf{y},\mathbf{x}_*) &= \int\sigma(f_*)\,p(f_*|X,\mathbf{y},\mathbf{x}_*)\,df_*\quad\quad&\mbox{(3.10)} \\ p(f_*|X,\mathbf{y},\mathbf{x}_*) &= \int p(f_*|X,\mathbf{x}_*,\mathbf{f})\,p(\mathbf{f}|X,\mathbf{y})\,d\mathbf{f}&\mbox{(3.9)} \end{align} 私の主な質問は次のとおりです： fff ガウス過程としてモデル化された、ガウス関数の代わりにシグモイド関数を（どちらの方程式でも）使用する理由 p(y=+1|f(x))=g(f(x))≜exp{−f2(x)2}?p(y=+1|f(x))=g(f(x))≜exp⁡{−f2(x)2}? p(y=+1\,|\,f(\mathbf{x}))=g(f(\mathbf{x}))\triangleq\exp\left\{-\frac{f^2(\mathbf{x})}{2}\right\} \enspace? これは、両方の積分に対する閉じた形のソリューションにつながります。ガウス関数はシグモイド関数のように単調ではありませんが、GPは複数のターニングポイントを持つ関数を生成できるため、単調性は不要のようです。がトレーニングデータから離れているときに（3.10）がに確実に収束するようにするには、おそらく前のに平均を与えることで十分でしょう。：ここで、はのベクトルであり、はトレーニングサンプルの数です。 1212\frac{1}{2}x∗x∗\mathbf{x_*}p(f|X)p(f|X)p(\mathbf{f}|X)E[f|X]ω=ω1n=−2ln12−−−−−−√,E[f|X]=ω1nω=−2ln⁡12, \begin{align} \mathbb{E}[\mathbf{f}|X] &= \omega\mathbf{1}_n \\ \omega&=\sqrt{-2\ln\frac{1}{2}} \enspace, \end{align} 1n1n\mathbf{1}_nnnn 111nnng(ω)=12.g(ω)=12. g\left(\omega\right)=\frac{1}{2}\enspace. シグモイド尤度の動作とは対照的に、ガウス尤度は、負のラベルの付いた入力ポイントに対して大きな（正または負の）エントリを優先し、正のラベルの付いたポイント小さなエントリを優先します。ff\mathbf{f}ff\mathbf{f} ガウス関数は、シグモイドでは発生しない問題を引き起こしますか？シグモイドの代わりにガウス関数がバイナリGP分類で使用された論文はありますか？ 2017年5月25日更新さらに考察すると、上記で提案されたゼロ以外の事前平均は、の符号がどうあるべきかについてのあいまいさを解決するのにも役立ちます（はどちらの符号も優先しません;）。以前の平均がゼロの場合、の平均がゼロであるため、このあいまいさを解決することは重要であると思われます事前確率と尤度はどちらも偶関数であるため、で定義された尤度の下でもゼロになります。すなわち： fffgggg(f(x))=g(−f(x))g(f(x))=g(−f(x))g(f(\mathbf{x}))=g(-f(\mathbf{x}))p(f|X)p(f|X)p(\mathbf{f}|X)p(f|X,y)p(f|X,y)p(\mathbf{f}|X,\mathbf{y})gggff\mathbf{f}p(y|f)p(yi|fi)∴E[f|X]=0→p(−f|X,y)=∏i=1np(yi|fi)={g(fi)1−g(fi),yi=+1,yi=−1=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y).p(y|f)=∏i=1np(yi|fi)p(yi|fi)={g(fi),yi=+11−g(fi),yi=−1∴E[f|X]=0→p(−f|X,y)=p(y|−f)p(−f|X))p(y|X)=p(y|f)p(f|X))p(y|X)=p(f|X,y). \begin{align} p(\mathbf{y}|\mathbf{f})&=\prod_{i=1}^n p(\mathbf{y}_i|\mathbf{f}_i) \\ p(\mathbf{y}_i|\mathbf{f}_i) &= \begin{cases} g(\mathbf{f}_i) & ,\;\mathbf{y}_i=+1 \\ …

7 machine-learning classification bayesian gaussian-process

1

PCAで、2つの母集団の分離を最大化するために変数を削除する体系的な方法はありますか？

私は主成分分析を使用して、新しいデータポイントがどの母集団（ "Aurignacian"または "Gravettian"）からのものであるかを確信を持って推測できるかどうかを調査しています。データポイントは28の変数で記述され、そのほとんどは考古学上の人工物の相対的な頻度です。残りの変数は、他の変数の比率として計算されます。すべての変数を使用して、母集団は部分的に分離されます（サブプロット（a））が、それらの分布にはまだ重複があります（90％のt分布予測楕円、母集団の正規分布を想定できるかどうかはわかりません）。したがって、新しいデータポイントの起源を確信を持って予測することは不可能だと思いました。 1つの変数（r-BE）を削除すると、対になったPCAプロットで母集団が分離されないため、オーバーラップがはるかに重要になります（サブプロット（d）、（e）、および（f））。1-2、3- 4、...、25-26、および1-27。これは、2つの母集団を分離するためにr-BEが不可欠であることを意味します。これらをまとめると、これらのPCAプロットはデータセット内の「情報」（分散）の100％を表すと考えたからです。したがって、私は、ほんの一握りの変数を除いてすべてを削除した場合、母集団が実際にはほぼ完全に分離したことに気づいて、非常に驚きました。すべての変数に対してPCAを実行すると、このパターンが表示されないのはなぜですか？28個の変数を使用すると、268,435,427通りの方法で変数をドロップできます。人口分離を最大化し、新しいデータポイントの起源の人口を推測するのに最適なものをどのように見つけることができますか？より一般的には、このような「隠された」パターンを見つける体系的な方法はありますか？編集：アメーバのリクエストに従って、PCをスケーリングしたときのプロットを以下に示します。パターンはより明確です。（私は変数をノックアウトし続けることでいたずらであることを認識していますが、今回のパターンはr-BEのノックアウトに抵抗し、「非表示」パターンがスケーリングによってピックアップされることを意味します）：

7 classification pca multivariate-analysis feature-selection archaeology

4

勾配ブースティング-極端な予測と0.5に近い予測

2つの異なるデータセットで2つの異なるGradient Boosting Classifierモデルをトレーニングするとします。あなたは、one-one-out交差検証を使用し、2つのモデルが出力する予測のヒストグラムをプロットします。ヒストグラムは次のようになります。この：したがって、1つのケースでは、予測（サンプル外/検証セット）はほとんどが極端（0と1に近い）であり、他のケースでは、予測は0.5に近いです。それぞれのグラフから何が推測できますか？どのように違いを説明できますか？データセット/機能/モデルについて何か言えることはありますか？私の直感は、最初のケースでは、機能はデータをよりよく説明するので、モデルはデータによりよく適合します（そして、おそらくデータに適合しますが、必ずしもそうではありませんが、検証/テストセットのパフォーマンスは、機能は実際にデータをよく説明しています）。2番目のケースでは、機能がデータを適切に説明しないため、モデルがデータに近すぎません。ただし、2つのモデルのパフォーマンスは、精度と再現率の点で同じである可能性があります。それは正しいでしょうか？

7 classification cart boosting xgboost

1

出力の離散化によって回帰モデルを分類モデルに削減すると、モデルが改善されるのはなぜですか？

回帰問題では、出力がビン/カテゴリ/クラスターに離散化され、ラベルとして使用される場合、モデルは分類モデルに縮小されます。私の質問は、この削減を行うことの背後にある理論的または応用的な動機は何ですか？テキストから位置を予測する私の特定の実験では、回帰ではなく分類として問題をモデル化すると、改善が見られます。私の特定のケースでは、出力は2dですが、これについてのより一般的な説明を探しています。更新：入力がBoWテキストで、出力が座標であると想定します（ジオタグ付きTwitterデータの場合など）。回帰では、二乗誤差損失を使用して、与えられたテキストの緯度/経度を予測します。トレーニングの緯度/経度のポイントをクラスター化し、各クラスターをクラスと仮定すると、分類モデルのクロスエントロピー損失を最適化することでクラスを予測できます。評価：回帰の場合、予測された場所と金の場所の間の平均距離。分類のために、予測されたクラスターの中央のトレーニングポイントとゴールドの場所の間の平均距離。

7 regression classification categorical-data continuous-data

1

スパースカテゴリカルクロスエントロピー多分類モデルへの入力用にデータを準備する方法[終了]

閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。この質問を改善してみませんか？質問を更新することがありますので、話題のクロス検証済みのため。 2年前休業。だから私は日付やツイート自体などのいくつかの列を含むツイートのセットをいくつか持っていますが、2つの列を使用してモデルを構築したいです（感情＆株価）感情分析は各ツイートで実行され、株式私のDBではそれらの隣にそのような価格： +--------------------+-------------+ | sentiment | stock_price | +--------------------+-------------+ | 0.0454545454545455 | 299.82 | | 0.0588235294117647 | 299.83 | | 0.0434782608695652 | 299.83 | | -0.0625 | 299.69 | | 0.0454545454545455 | 299.7 | +--------------------+-------------+ sparse_categorical_crossentropyの入力用にこのデータを準備するにはどうすればよいですか？私はつぶやきの感情を取得し、それらと株価の相関関係を見つけることができるようにしたいと考えています。出力ラベルを高、低、低にしたいのですが、方法がわかりません。これまでのところ、モデルを作成しましたが、入力データを正しくフォーマットしたかどうかわかりませんしかし、モデルをトレーニングすると、これが出力として得られます。入力データについて、精度と検証精度が変わらないのは何ですか？これは過剰適合の兆候のようです。ドロップアウトレイヤーを追加しようとしましたが、機能しません。どうすれば修正できますか？どこが間違っているのですか？株価のデータは、自分の1つのホットエンコーディングのように1/0 / -1を使用して、株価がまだ上がっているか下がっているのかを示すようにしました。 Name: pct_chg, dtype: float64 0 0.0 …

7 classification python data-preprocessing keras

3

整数データ：カテゴリーまたは連続？

整数予測子データをカテゴリカル（したがってエンコードが必要）または連続として扱う必要があるかどうか疑問に思っています。たとえば、特定の予測子の範囲Xがすべて1〜230の整数である場合、それを連続変数として扱うことができますか、それをエンコードして、230（またはおそらく229）の新しいダミー変数を取得する必要がありますか？分析の最終目標は、回帰または分類を実行することです。

7 regression classification categorical-data continuous-data

1

アルゴリズムをカーネル化するとき、切片項を考慮する必要がありますか？

学習アルゴリズム（分類、回帰、クラスタリング、次元削減など）がデータポイント間のドット積のみを使用する場合カーネルトリックを介して、より高い次元のマッピングを暗黙的に使用できます。ドット積は、カーネルによって生じるすべてのインスタンス交換。xxTxxT\mathbf {x x^T}ϕ(x)ϕ(x)\phi(\mathbf x)K=ϕ(x)ϕ(x)TK=ϕ(x)ϕ(x)T\mathbf K = \phi(\mathbf x) \phi(\mathbf x) ^ \mathbf T SVMなどの線形モデルでは、データポイントに定数列を追加する切片を考慮することができます。線形カーネルを使用する場合、その列を一定に保つことは私にとって非常に理にかなっています。カーネル係数からまでの列係数取得できます。と解は、カーネルを使用するかどうかにかかわらず、同一でなければなりません。K=xxTK=xxT\mathbf K = \mathbf {x x^T}ww\mathbf wuu\mathbf uw=xTuw=xTu\mathbf{w=x^T u} しかし、カーネルが線形でない場合、列係数がで表すことができないように無限次元でマッピングする場合はどうなりますか？インターセプト用語？w=ϕ(x)Tuw=ϕ(x)Tu\mathbf{w=\phi(\mathbf x)^T u}

7 regression machine-learning classification kernel-trick

3

ニューラルネットワークで分類する前に画像データセットでPCAを使用する

画像データマトリックスがありますバツ∈RN x p X∈ℜN x pX \in \Re^{N \ \text{x}\ p} どこ N= 50000N=50000N=50000 画像の例の数であり、 p = 3072p=3072p=3072 画像のピクセル数です。 p = 3072 = 32 × 32 × 3p=3072=32×32×3p = 3072 = 32 \times 32 \times 3、各画像は3チャンネルであるため 32 × 3232×3232 \times 32画像。さらに、50000の画像のそれぞれは、10の可能なクラスの1つに属しています。つまり、クラス ' car'の5000個の画像、クラス ' 'の5000個の画像birdなどがあり、合計10個のクラスがあります。これはCIFAR-10データセットの一部です。ここでの最終的な目標は、このデータセットで分類を実行することです。この目的のために、教授はこれについてPCAを試し、それらの機能を分類子に配置することを述べました。私の分類子として、1つの非表示レイヤーとsoftmax出力を持つ完全に接続されたニューラルネットワークを使用しています。私の問題は、私がPCAを正しい方法で実行したと信じていることですが、私の方法が誤って適用されている可能性があると思います。これは私がやったことです：私のデータのPCAを計算するために、これは私がこれまでに行ったことです： …

7 machine-learning classification neural-networks pca image-processing

タグ付けされた質問 「classification」

タグ付けされた質問「classification」