タグ付けされた質問 「algorithms」

問題のクラスに対する解決策を見つけることに関与する計算ステップの明確なリスト。

1
テストポイントから各クラスのポイントまでの平均距離に基づく分類アルゴリズム
平均距離が最小のポイントのクラスターに新しいテストベクトルを割り当てる分類アルゴリズムはありますか? もっと上手に書いてみましょう:それぞれにポイントの個のクラスターがあるとしましょう。各クラスターkについて、x(0)とx(i)の間のすべての距離の平均を計算します。ここで、x(i)はクラスターk内の点です。KKKTkTkT_kx(0)x(0)x(0)x(i)x(i)x(i)x(i)x(i)x(i)kkk テストポイントは、このような距離が最小のクラスターに割り当てられます。 これは有効な分類アルゴリズムだと思いますか?理論的には、クラスターが線形フィッシング判別マッピング後のように「整形式」である場合、良好な分類精度が得られるはずです。 このアルゴをどう思いますか?私は試しましたが、その結果、分類は要素数が最大のクラスターに強く偏っています。 def classify_avg_y_space(logging, y_train, y_tests, labels_indices): my_labels=[] distances=dict() avg_dist=dict() for key, value in labels_indices.items(): distances[key] = sk.metrics.pairwise.euclidean_distances(y_tests, y_train[value]) avg_dist[key]=np.average(distances[key], axis=1) for index, value in enumerate(y_tests): average_distances_test_cluster = { key : avg_dist[key][index] for key in labels_indices.keys() } my_labels.append(min(average_distances_test_cluster, key=average_distances_test_cluster.get)) return my_labels

2
大規模なデータで不正な変数をすばやく検出するにはどうすればよいですか?
数百万行、数千列のデータセットがあり、タスクはバイナリ分類であるとします。ロジスティック回帰モデルを実行すると、パフォーマンスは予想よりもはるかに優れています(たとえば、ほぼ完全な分類)。 データに不正な変数があると思われますが、どうすればすばやく検出できますか? ここで不正な変数とは、応答を非常に示す変数であり、使用すべきではありません。たとえば、ユーザーがカスタマーサービスに電話をかけた場合に使用して、その人が製品を購入したかどうかを予測します。

1
ランダムサンプリングによる最適化
インターネットの周りで、目的関数を再スケーリングし、それを最適化の目的でPDFとして使用するアイデアへの言及が散らばっています。(このサイトの例:最適化手法はサンプリング手法に対応していますか?)この手法について詳しく知ることができる場所を誰かに教えてもらえますか?(論文、ブログ投稿、講義など) 私が見てきたように、目的は目的関数を取り、新しい関数。ここで、は最大化問題の非常に大きな数ですまたは最小化問題の非常に大きな負の数。その場合、新しい関数は、他のどこよりも大域的最適点ではるかに高くなります。場合は次いで、非正規化確率密度関数として扱われ、その分布から引き出されたほとんどのサンプルは、その最適の周りであろう。f(x)f(x)f(x)g(x)=ekf(x)g(x)=ekf(x)g(x) = e^{kf(x)}kkkg(x)g(x)g(x)g(x)g(x)g(x) 知りたいことは次のとおりですが、これらに限定されません。 これらの確率関数にはどのサンプリングアルゴリズムが有効ですか? この方法が頻繁に使用されないのはなぜですか?(それはそれがとても効果的であるように思えます)。つまり、それに反対する議論はありますか? 効率やパフォーマンスを向上させるこの方法の変形はありますか?
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.