統計とビッグデータ

2

生存分析において、なぜ完全なパラメトリックモデルの代わりにセミパラメトリックモデル（Cox比例ハザード）を使用するのですか？

この質問は、相互検証で回答できるため、Mathematics Stack Exchangeから移行されました。 6年前に移行されました。 Cox Proportional Hazardsモデルを研究してきましたが、この質問はほとんどのテキストで取り上げられています。コックスは、部分尤度法を使用してハザード関数の係数を適合させることを提案しましたが、最大尤度法と線形モデルを使用してパラメトリック生存関数の係数を適合させるだけではどうですか？データを打ち切った場合は、曲線の下の領域を見つけることができます。たとえば、推定値が80の標準偏差で380であり、サンプルが300以上を打ち切られている場合、正規誤差を仮定した尤度計算でそのサンプルの確率は84％です。

24 survival cox-model

4

真陽性、偽陰性の割合を考えて、偽陽性、真陰性を計算できますか？

私は、の値を持っているTrue Positive (TP)し、False Negative (FN)次の通り： TP = 0.25 FN = 0.75 これらの値から、False Positive (FP)とを計算できTrue Negative (TN)ますか？

24 roc confusion-matrix sensitivity-specificity

3

分類性能を評価するための相互検証またはブートストラップ？

特定のデータセットで分類器のパフォーマンスを評価し、他の分類器と比較するための最も適切なサンプリング方法は何ですか？クロスバリデーションは標準的なプラクティスのようですが、.632ブートストラップなどの方法の方が良い選択だと読みました。フォローアップとして：パフォーマンスメトリックの選択は回答に影響しますか（精度ではなくAUCを使用する場合）？私の最終的な目標は、特定のデータセットについて、ある機械学習法が別の機械学習法よりも優れているとある程度自信を持って言えるようにすることです。

24 machine-learning classification predictive-models cross-validation bootstrap

3

ベイジアンは分布をどのように比較しますか？

ですから、私は、頻度論的確率と統計分析の基本を十分に理解していると思います（そして、それがどれほどひどく使用できるのか）。頻度論の世界では、「この分布はその分布とは異なる」というような質問をするのは理にかなっています。なぜなら、分布は現実的で客観的で不変（少なくとも特定の状況では）であると想定されているからです。 1つのサンプルが別のサンプルのような形状の分布から引き出される可能性を確認します。ベイジアンの世界観では、過去の経験を考えると、私たちが見ることを期待するだけです（この部分についてはまだ少しあいまいですが、ベイジアン更新の概念は理解しています）。もしそうなら、ベイジアンは「このデータのセットはそのデータのセットとは異なる」とどのように言えますか？この質問の目的のために、私は統計的有意性、または同様の違いを気にかけません。パラメトリック分布とノンパラメトリック分布にも等しく興味があります。

24 distributions bayesian

2

回帰用の非対称損失関数を設計および実装する方法は？

問題回帰では、通常、サンプルの平均二乗誤差（MSE）を計算しますMSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 予測の品質を測定します。現在、私は回帰の問題に取り組んでおり、その目的は、多くの数値的特徴が与えられた場合に顧客が製品に対して支払う価格を予測することです。予測価格が高すぎる場合、顧客は製品を購入しませんが、価格を単純に引き下げることができるため、金銭的損失は低くなります。もちろん、製品が長期間購入されない可能性があるため、高すぎてはいけません。一方、予測価格が低すぎる場合、製品は価格を調整する機会なしに迅速に購入されます。言い換えれば、学習アルゴリズムは、すぐに金銭的損失をもたらす真の価格を過小評価するのではなく、必要に応じて減少させることができるわずかに高い価格を予測する必要があります。質問このコストの非対称性を組み込んだエラーメトリックをどのように設計しますか？可能な解決策非対称損失関数を定義する方法は、単純に重みを掛けることです： 1n∑i=1n∣∣α−1(g(xi)−gˆ(xi))<0∣∣⋅(g(xi)−gˆ(xi))21n∑i=1n|α−1(g(xi)−g^(xi))<0|⋅(g(xi)−g^(xi))2 \frac{1}{n} \sum_{i=1}^n \left| \alpha - \mathbb{1}_{(g(x_i) - \widehat{g}(x_i)) < 0} \right|\cdot \left(g(x_i) - \widehat{g}(x_i)\right)^2 を有するα∈(0,1)α∈(0,1)\alpha \in (0,1)我々は、非対称の程度を変更するために調整することができるパラメータです。ここで見つけた。これは、二次損失を維持しながら行うべき最も簡単なことのように思えます。

24 regression error loss-functions

2

トレーニングセットはどれくらい必要ですか？

最小しきい値一般化精度を得るために分類器（この場合はLDA）をトレーニングするために必要なトレーニングサンプル数を決定するために使用される一般的な方法はありますか？ブレインとコンピューターのインターフェイスで通常必要なキャリブレーション時間を最小限にしたいので、私は尋ねています。

24 classification

1

ビニングされた観測値の標準偏差

サンプル観測値のデータセットがあり、範囲ビン内のカウントとして保存されています。例えば： min/max count 40/44 1 45/49 2 50/54 3 55/59 4 70/74 1 さて、これから平均の推定値を見つけることは非常に簡単です。各範囲ビンの平均（または中央値）を観測値として使用し、カウントを重みとして使用して、加重平均を見つけます。 x¯∗=1∑Ni=1wi∑i=1Nwixix¯∗=1∑i=1Nwi∑i=1Nwixi\bar{x}^* = \frac{1}{\sum_{i=1}^N w_i} \sum_{i=1}^N w_ix_i 私のテストケースでは、53.82になります。私の質問は、標準偏差（または分散）を見つける正しい方法は何ですか？検索を通じていくつかの答えを見つけましたが、どれが実際にデータセットに適切かはわかりません。ここでの別の質問とランダムなNISTドキュメントの両方で次の公式を見つけることができました。 s2∗=∑Ni=1wi(xi−x¯∗)2(M−1)M∑Ni=1wis2∗=∑i=1Nwi(xi−x¯∗)2(M−1)M∑i=1Nwis^{2*} = \frac{ \sum_{i=1}^N w_i (x_i - \bar{x}^*)^2 }{ \frac{(M-1)}{M} \sum_{i=1}^N w_i } テストケースの標準偏差は8.35です。ただし、加重平均に関するウィキペディアの記事には、両方の式が記載されています。 s2∗=∑Ni=1wi(∑Ni=1wi)2−∑Ni=1w2i∑i=1Nwi(xi−x¯∗)2s2∗=∑i=1Nwi(∑i=1Nwi)2−∑i=1Nwi2∑i=1Nwi(xi−x¯∗)2s^{2*} = \frac{ \sum_{i=1}^N w_i}{(\sum_{i=1}^N w_i)^2 - \sum_{i=1}^N w_i^2} \sum_{i=1}^N w_i(x_i-\bar{x}^*)^2 そして s2 …

24 variance standard-deviation weighted-sampling

3

データベースから1Dデータの異なるクラスターを決定する

異なるノード間のデータ転送のデータベーステーブルがあります。これは巨大なデータベースです（約4,000万回の転送）。属性の1つは、0バイトから2テラバイトの範囲のバイト数（nbytes）転送です。n個のクラスターを、k個のクラスターの一部のx1転送がk1クラスターに属し、x2トランスファーがk2に属するようにクラスター化したいと思います。私が使用した用語から、あなたは私が何をしようとしていたかを推測したかもしれません：K-means。nbytesが私が気にする唯一の機能なので、これは1dデータです。これとは異なる方法を探していたとき、EMが非クラスタリングアプローチとともに数回言及されているのを見ました。この問題にアプローチする方法についてのあなたの見解を知りたい（具体的にはクラスター化するかしないか）。ありがとう！

24 clustering k-means

5

サンプルの分布が非正規の場合、独立したサンプルのt検定はどの程度堅牢ですか？

サンプルの分布が正規性から外れている場合、t検定は「合理的に堅牢」であると読みました。もちろん、重要なのは差異のサンプリング分布です。2つのグループのデータがあります。グループの1つは、従属変数に大きく偏っています。サンプルサイズは両方のグループで非常に小さくなっています（一方のグループではn = 33、もう一方のグループでは45）。これらの条件下で、t検定は正規性の仮定の違反に対してロバストになると仮定する必要がありますか？

24 t-test assumptions normality-assumption robust

2

線形回帰診断はどの順序で行う必要がありますか？

線形回帰分析では、外れ値を分析し、多重共線性を調査し、不均一分散性をテストします。問題は、これらを適用する順序はありますか？つまり、まず異常値を分析してから、多重共線性を調べる必要がありますか？または逆ですか？これについての経験則はありますか？

24 regression multiple-regression outliers

1

勾配降下の終了条件を定義する方法は？

実際、勾配降下の終了条件をどのように定義できるかを尋ねたいと思いました。繰り返しの数に基づいて、たとえば100回の繰り返しのパラメーター値を考慮して停止できますか？または、2つのパラメーター値「new」と「old」の違いがように非常に小さくなるまで待つ必要がありますか？これには間違いなく時間がかかります。10− 610−610^{-6} 最善の方法は何ですか？私の場合、1回の反復でもかなりの時間がかかります。この状況では、2番目の条件を待つと、数週間かかることもあります。したがって、どのアプローチを使用する必要があります。このシナリオに取り組む方法は？

24 algorithms optimization gradient-descent

1

巨大なスパース分割表を視覚化する方法は？

私には2つの変数があります：薬物名（DN）と対応する有害事象（AE）は、多対多の関係にあります。33,556の薬名と9,516の有害事象があります。サンプルサイズは約580万回の観測です。 DNとAEの関連/関係を研究し、理解したい。写真を見たほうが良いので、このセットをRで視覚化する方法を考えています。どうすればいいのかわかりません...

24 r categorical-data data-visualization large-data association-measure

4

数学的統計と統計の違いは何ですか？

数学的統計と統計の違いは何ですか？私が読んだ本を：統計は、データの収集、編成、分析、および解釈の研究です。調査と実験の設計に関するデータ収集の計画を含む、このすべての側面を扱います。そしてこれ：数学統計学は、確率論だけでなく、線形代数や分析などの数学の他の分野を使用した、数学的な観点からの統計の研究です。それで、それらの間の違いは何でしょうか？収集のプロセスは数学的ではないかもしれないことは理解できますが、組織、分析、解釈は何か不足していると思いますか？

24 mathematical-statistics terminology

1

線形回帰予測間隔

データポイントの最適な線形近似（最小二乗を使用）がラインy=mx+by=mx+by=mx+b場合、近似誤差を計算するにはどうすればよいですか？観測値と予測値の差の標準偏差を計算するei=real(xi)−(mxi+b)ei=real(xi)−(mxi+b)e_i=real(x_i)-(mx_i+b)と、実際の（観測されていない）値yr=real(x0)yr=real(x0)y_r=real(x_0)は区間に属します[yp−σ,yp+σ][yp−σ,yp+σ][y_p-\sigma, y_p+\sigma]（）確率が約68％で、正規分布を仮定していますか？yp=mx0+byp=mx0+by_p=mx_0+b 明確にするために：関数をいくつかの点評価することで観察しました。これらの観測値を線に適合させます。私が観察しなかったについては、大きさを知りたいと思います。上記の方法を使用して、prob でと言うのは正しいですか。〜68％？X I L （X ）= M X + B 、X 0、F （X 0）- L （X 0）、F （X 0）∈ [ L （X 0）- σ 、L （X 0）+ σ ]f(x)f(x)f(x)xixix_il(x)=mx+bl(x)=mx+bl(x)=mx+bx0x0x_0f(x0)−l(x0)f(x0)−l(x0)f(x_0)-l(x_0)f(x0)∈[l(x0)−σ,l(x0)+σ]f(x0)∈[l(x0)−σ,l(x0)+σ]f(x_0) \in [l(x_0)-\sigma, l(x_0)+\sigma]

24 regression normal-distribution least-squares prediction-interval

4

L1回帰推定値の中央値とL2回帰推定値の平均

そこで私は、L1（つまり投げ縄）とL2（つまり尾根回帰）のどの中心的な測定値が推定されたのかという質問をされました。答えは、L1 =中央値およびL2 =平均です。これには直感的な推論のタイプがありますか？または、代数的に決定する必要がありますか？もしそうなら、どうすればそれを行うことができますか？

24 lasso regularization loss-functions ridge-regression