統計とビッグデータ

統計、機械学習、データ分析、データマイニング、およびデータの視覚化に興味がある人のためのQ&A

4
ブートストラップは、小さなサンプルサイズの「治療」と見なすことができますか?
この質問は、私がこの大学院レベルの統計教科書で読んだものによって引き起こされ、統計セミナーでのこのプレゼンテーション中に(独立して)聞いたこともあります。どちらの場合も、ステートメントは「サンプルサイズがかなり小さいため、このパラメトリックメソッド代わりに(またはそれに沿って)ブートストラップを介して推定を実行する」という行に沿っていました。XXX 彼らは詳細には触れませんでしたが、おそらくその理由は次のとおりでした。メソッドは、データが特定のパラメトリック分布従うと仮定します。実際には、分布は正確にはではありませんが、サンプルサイズが十分に大きければ問題ありません。この場合、サンプルサイズが小さすぎるため、分布を仮定しない(ノンパラメトリック)ブートストラップに切り替えましょう。問題が解決しました!XXXDDDDDD 私の意見では、それはブートストラップの目的ではありません。私がそれを見る方法は次のとおりです:十分なデータがあることが多かれ少なかれ明らかな場合、ブートストラップは1つにエッジを与えることができますが、標準エラー、p値および同様の統計を取得するための閉じた形式のソリューションはありません。古典的な例は、2変量正規分布からサンプルを与えられた相関係数のCIを取得することです。閉形式の解は存在しますが、ブートストラップがより複雑になるほど複雑です。ただし、ブートストラップが小さなサンプルサイズで逃げるのに何らかの形で役立つことを意味するものは何もありません。 私の知覚は正しいですか? この質問がおもしろい場合は、別のより具体的なブートストラップの質問があります。 ブートストラップ:オーバーフィットの問題 PS「ブートストラップアプローチ」のひどい例の1つを共有することはできません。著者の名前は公開していませんが、2004年にクオンティティブファイナンスに関する本を書いた古い世代の「クオンツ」の1人です。例はそこから引用しています。 次の問題を考えてみましょう。4つの資産と、それぞれ120の月次リターン観測値があるとします。目標は、年間収益の結合4次元累積分布関数を構築することです。1つの資産であっても、4次元cdfの推定はもちろんのこと、年10回の観測だけではタスクはほとんど達成できないように見えます。しかし、心配する必要はありません。「ブートストラップ」が役立ちます。利用可能な4次元の観測値をすべて取得し、12を置換でリサンプリングし、それらを組み合わせて、年間収益の単一の「ブートストラップ」4次元ベクトルを構築します。それを1000回繰り返して、見よ、あなたは自分自身に1000年の年次リターンの「ブートストラップサンプル」を得た。これをcdf推定、または1000年の歴史から導き出せるその他の推論のために、サイズ1000のiidサンプルとして使用します。

10
t検定を有効にするために必要な最小サンプルサイズはありますか?
現在、準実験的な研究論文に取り組んでいます。選択したエリア内の人口が少ないため、サンプルサイズは15のみで、基準に適合するのは15のみです。15は、t検定とF検定で計算する最小サンプルサイズですか?もしそうなら、この小さなサンプルサイズをサポートする記事や本はどこで入手できますか? この論文は先週の月曜日にすでに弁護されており、パネルの1人は、私のサンプルサイズが小さすぎるため、支持する参考文献を求めました。彼は、少なくとも40人の回答者がいるべきだったと言った。

8
既存の変数と定義された相関関係を持つランダム変数を生成します
シミュレーション研究のために、既存の変数に対する事前定義された(母集団)相関を示すランダム変数を生成する必要があります。YYY 私は、に見えたRパッケージcopulaとCDVine特定の依存構造を持つランダムな多変量分布を生成することができました。ただし、結果の変数の1つを既存の変数に修正することはできません。 アイデアや既存の機能へのリンクを歓迎します! 結論: さまざまなソリューションで、2つの有効な答えが出ました。 カラカルによるR スクリプト。事前定義された変数との正確な(サンプル)相関を持つランダム変数を計算します 事前定義された変数に対する定義された母集団相関を持つランダム変数を計算するR 関数 [@ttnphnsの追加:質問のタイトルを単一の固定変数の場合から任意の数の固定変数に拡大するために自由を取りました。すなわち、いくつかの固定された既存の変数と事前定義された相関を持つ変数を生成する方法]

12
線形回帰に関する最も一般的な誤解は何ですか?
他の研究者と協力して幅広い経験をお持ちの方にとって、あなたが遭遇する線形回帰についての最も一般的な誤解は何ですか? よくある誤解を事前に考えて、 人々の間違いを予測し、いくつかの誤解が間違っている理由を明確に説明できる 自分でいくつかの誤解を抱いているかどうかを理解してください! 私が考えることができるいくつかの基本的なもの: 独立/従属変数は正規分布する必要があります 正確な解釈のために変数を標準化する必要があります 他のもの? すべての回答は大歓迎です。

4
正準相関分析の機能を視覚化する方法(主成分分析の機能と比較して)
正準相関分析(CCA)は、主成分分析(PCA)に関連する手法です。散布図を使用してPCAまたは線形回帰を教えるのは簡単ですが(Googleの画像検索に関する数千の例を参照)、CCAの同様の直感的な2次元の例を見たことはありません。線形CCAの機能を視覚的に説明する方法

5
時系列モデルの選択にk分割交差検証を使用する
質問: 何かを確認したいのですが、時系列でk分割交差検証を使用するのは簡単ですか、それとも使用する前に特別な注意を払う必要がありますか? 背景: 5年ごとにデータサンプルを使用して、6年の時系列(セミマルコフチェーン)をモデリングしています。複数のモデルを比較するために、6年でデータを分離することにより6倍の交差検証を使用しているため、(パラメーターを計算するための)トレーニングセットの長さは5年、テストセットの長さは1です年。私は時間の順序を考慮していないので、私の異なるセットは次のとおりです。 フォールド1:トレーニング[1 2 3 4 5]、テスト[6] フォールド2:トレーニング[1 2 3 4 6]、テスト[5] フォールド3:トレーニング[1 2 3 5 6]、テスト[4] フォールド4:トレーニング[1 2 4 5 6]、テスト[3] フォールド5:トレーニング[1 3 4 5 6]、テスト[2] フォールド6:トレーニング[2 3 4 5 6]、テスト[1]。 毎年独立しているという仮説を立てています。どうすればそれを確認できますか?時系列とのk分割交差検証の適用性を示す参考文献はありますか。

9
計量経済学と他の統計分野との間の主要な哲学的、方法論的、および用語的な違いは何ですか?
計量経済学は、従来の統計とかなり重複していますが、多くの場合、さまざまなトピック(「識別」、「外生」など)について独自の専門用語を使用します。私はかつて、用語は異なるが概念は同じであるという別のフィールドのコメントで応用統計の教授を聞いたことがあります。しかし、独自の方法と哲学的区別もあります(ヘックマンの有名なエッセイが思い浮かびます)。 計量経済学と主流の統計学との間にはどのような用語の違いがありますか?また、用語は単なる用語ではなく、どこに分かれて異なるようになりますか?

9
有意なF統計量(p <.001)であるが有意ではないリグレッサーt検定を取得できるのはなぜですか?
多重線形回帰では、非常に有意なF統計量(p &lt;.001)があり、すべてのリグレッサーのt検定で非常に高いp値を持つことができるのはなぜですか? 私のモデルでは、10個の回帰変数があります。1つのp値は0.1で、残りは0.9を超えています この問題に対処するには、次の質問を参照してください。

15
説明的モデリングと予測的モデリングに関する実際的な考え
4月に戻って、私はUMD数学部門統計グループセミナーシリーズ「説明するか予測するか?」に参加しました。この講演は、UMDのスミスビジネススクールで教えているGalit Shmueli教授によって行われました。彼女の講演は、「IS Researchでの予測と説明のモデリング」というタイトルの論文と、「説明するか予測するか」というタイトルのフォローアップワーキングペーパーで行った研究に基づいています。。 シュムエリ博士の議論は、統計モデリングの文脈における予測と説明の用語が混同されており、統計文献には違いの徹底的な議論が欠けているということです。論文では、彼女は両方を対比し、それらの実際的な意味について話しています。論文を読むことをお勧めします。 開業医コミュニティに提起したい質問は次のとおりです。 予測エクササイズと説明/記述エクササイズをどのように定義しますか?特定のアプリケーションについて話すことができれば便利です。 他を使用する意味があるときに、一方を使用するというtrapに陥ったことはありますか?確かにあります。どちらを使用するかをどのように知っていますか?

1
相互検証、学習曲線、最終評価のためにデータセットを分割する方法は?
データセットを分割するための適切な戦略は何ですか? 私は、次のアプローチにフィードバックを求める(ないような個々のパラメータのtest_sizeかn_iter、私が使用している場合X、y、X_train、y_train、X_test、およびy_test適切かつシーケンスは理にかなっている場合): (scikit-learnドキュメントからこの例を拡張) 1.データセットをロードする from sklearn.datasets import load_digits digits = load_digits() X, y = digits.data, digits.target 2.トレーニングとテストセットに分割(例:80/20) from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) 3.推定量を選択 from sklearn.svm import SVC estimator = SVC(kernel='linear') 4.相互検証イテレーターを選択します from sklearn.cross_validation import ShuffleSplit cv = ShuffleSplit(X_train.shape[0], n_iter=10, test_size=0.2, random_state=0) 5.ハイパーパラメーターの調整 …

4
R関数prcompとprincompの違いは何ですか?
QモードとRモードの主成分分析(PCA)について比較?prcompし?princompてみました。しかし正直なところ、私はそれを理解していません。誰でも違いを説明できますか?
70 r  pca 

9
時系列の異常を検出するには、どのアルゴリズムを使用する必要がありますか?
バックグラウンド 私はネットワークオペレーションセンターで働いており、コンピューターシステムとそのパフォーマンスを監視しています。監視する重要な指標の1つは、現在サーバーに接続している訪問者数と顧客数です。それを可視化するために、Opsチームは時系列データなどのメトリックを収集し、グラフを描画します。Graphiteはそれを可能にします。突然のドロップ(大部分)やその他の変更が発生した場合にチームに通知するアラートシステムを構築するために使用する非常に豊富なAPIを備えています。ここでは、平均値に基づいて静的なしきい値を設定しましたが、日中と週中の負荷が異なるため(季節性要因)、あまりうまく機能しません(多くの誤検知があります)。 次のようになります。 実際のデータ(1つのメトリックの例、15分の時間範囲。最初の数字はユーザー数、2番目はタイムスタンプ): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, 1431803940], [175245.0, 1431804000], [175217.0, 1431804060], [175629.0, 1431804120], [175104.0, 1431804180], [175104.0, 1431804240], [175505.0, 1431804300]]}] 私が達成しようとしていること 最近のデータポイントを受信し、それらを過去の平均値と比較し、突然の変更またはドロップがあった場合にアラートを送信するPythonスクリプトを作成しました。季節性のため、「静的」しきい値はうまく機能せず、スクリプトは誤検知アラートを生成します。アラートアルゴリズムをより正確に改善し、アラートのしきい値を絶えず調整することなく機能するようにしたいと考えています。 必要なアドバイスと発見したこと グーグルで私は、異常検出のための機械学習アルゴリズム(監視なしアルゴリズム)を探していると考えました。さらに調査を行った結果、それらは非常に多く、どれが私の場合に当てはまるかを理解することは非常に困難です。数学の知識が限られているため、洗練された学術論文を読むことができず、この分野の初心者にとって簡単なものを探しています。 私はPythonが好きで、Rに少し精通しているので、これらの言語の例を見て喜んでいます。問題を解決するのに役立つ良い本や記事をお勧めします。あなたの時間をありがとう、そのような長い説明のために私を許します 便利なリンク 同様の質問: 時系列と異常検出 Pythonを使用した時系列異常検出 時系列異常 時系列異常検出のアルゴリズム 時系列ベースの異常検出アルゴリズムへのウェーブレットの適用 どのアルゴリズムを使用すればよいですか? …

2
Keras「埋め込み」レイヤーはどのように機能しますか?
Kerasライブラリの「埋め込み」レイヤーの動作を理解する必要があります。Pythonで次のコードを実行します import numpy as np from keras.models import Sequential from keras.layers import Embedding model = Sequential() model.add(Embedding(5, 2, input_length=5)) input_array = np.random.randint(5, size=(1, 5)) model.compile('rmsprop', 'mse') output_array = model.predict(input_array) 次の出力が得られます input_array = [[4 1 3 3 3]] output_array = [[[ 0.03126476 0.00527241] [-0.02369716 -0.02856163] [ 0.0055749 0.01492429] [ 0.0055749 0.01492429] …

3
ニューラルネットワークの研究者がエポックに関心があるのはなぜですか?
確率的勾配降下のエポックは、データの単一パスとして定義されます。SGDミニバッチごとに、kkkサンプルが描画され、勾配が計算され、パラメーターが更新されます。エポック設定では、サンプルは置換なしで描画されます。 しかし、これは不要なようです。各反復でデータセット全体からランダムに描画されるので、各SGDミニバッチを描画しないのはなぜkkkですか?多数のエポックで、サンプルが多少の頻度で見られる小さな偏差は重要ではないように思われます。


弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.