統計とビッグデータ outliers

3

サポートベクター回帰を使用して、かなり歪んだデータ（尖度が高い）をモデル化しています。データを直接モデル化しようとしましたが、主にデータの分布が原因であると誤った予測を取得しています。いくつかの外れ値（これは正当なデータポイントです）がSVRトレーニングに影響を及ぼしていると確信しています。また、おそらくクロスバリデーションでも影響があり、現時点では平均二乗誤差を最小限に抑えることでハイパーパラメーターを最適化しています。 SVRを適用する前にデータをスケーリング（たとえば、sqrt関数を使用して外れ値を減らす）したり、別のハイパーパラメーター最小化関数（たとえば、絶対誤差）を使用したりしましたが、より良い結果が得られるようですが、それでもあまり良くありません。誰かが同様の問題に遭遇したかどうか、そして彼らがそれにどのように取り組みましたか？どんな提案や代替方法でも大歓迎です。

8 machine-learning svm cross-validation predictive-models outliers

3

サーバー稼働時間パフォーマンスデータの外れ値を特定する方法

サーバーの稼働時間とパフォーマンスデータのリストのリストを作成するpythonスクリプトがあり、各サブリスト（または「行」）には特定のクラスターの統計が含まれています。たとえば、適切にフォーマットされた次のようになります。 ------- ------------- ------------ ---------- ------------------- Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization ------- ------------- ------------ ---------- ------------------- ams-a 98.099 1012 678 91 bos-a 98.099 1111 12 91 bos-b 55.123 1513 576 22 lax-a 99.110 988 10 89 pdx-a 98.123 1121 11 90 ord-b 75.005 1301 123 100 sjc-a 99.020 1000 10 …

8 outliers quantiles

1

一変量外れ値テスト（または：Dixon QとGrubbs）

分析化学の文献（ほとんど）では、一変量データ（たとえば、いくつかのパラメーターの一連の測定値）の外れ値を検出するための標準テストは、ディクソンのQテストです。常に、教科書に記載されているすべての手順では、表の値と比較するデータから数量を計算します。手作業では、これはそれほど問題ではありません。しかし、私はDixon Qのコンピュータープログラムを書くつもりであり、値をキャッシュするだけでは洗練されていません。これが最初の質問です。 Dixon Qの表形式の値はどのように生成されますか？さて、すでにこの記事を調べましたが、著者がDixonによって生成された表形式の値を通過するスプラインを作成するだけであるという点で、これは少しの不正行為だと感じています。特別な関数（エラー関数や不完全なベータ/ガンマなど）がどこかで必要になると思いますが、少なくともそれらのアルゴリズムがあります。さて、私の2番目の質問です。ISOは、最近のDixon Qに対するGrubbsのテストをゆっくりと推奨しているようですが、まだ理解していない教科書から判断すると、一方、スチューデントtのCDFの逆数を計算するだけなので、実装は比較的簡単です。さて、私の2番目の質問です。 Dixonの代わりにGrubbsを使用したいのはなぜですか？私の場合、明白な面では、アルゴリズムは「よりきれい」ですが、もっと深い理由があると思います。誰かが私を啓発する気にできますか？

8 outliers hypothesis-testing

2

外れ値の検出におけるクックの距離

私の理解によると、クックの距離は、モデルをフィッティングするときにポイントを除外することにより、各観測の影響を測定します。だから私はそれが異常値検出のための合理的なアプローチであると思いますか？私の質問、データがグループに分類されていると仮定すると、異常値ポイントの代わりに「異常値」グループの検出にクックの距離を使用することは可能ですか？クックの距離は、グループの影響を測定するための良い選択です。

7 mixed-model outliers group-differences cooks-distance

タグ付けされた質問 「outliers」

タグ付けされた質問「outliers」