タグ付けされた質問 「time-series」

時系列は、(連続時間または離散時間のいずれかで)経時的に観測されたデータです。

3
Python用のすぐに使える優れた言語モデルはありますか?
私はアプリケーションのプロトタイプを作成していますが、生成されたいくつかの文の複雑さを計算するための言語モデルが必要です。 すぐに使用できるPythonのトレーニング済み言語モデルはありますか?のような単純なもの model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 一部のフレームワークを確認しましたが、必要なものが見つかりませんでした。私は次のようなものを使用できることを知っています: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) これはブラウンコーパスの優れたチューリング確率分布を使用していますが、1bワードデータセットなどの大きなデータセットで巧妙に作成されたモデルを探していました。一般的なドメイン(ニュースだけでなく)の結果を実際に信頼できるもの
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

5
月次、日次、週次のデータをマージする方法は?
Googleトレンドは週次データを返すため、日次/月次データとそれらをマージする方法を見つける必要があります。 これまでに行ったことは、たとえば、各セリエを日次データに分割することです。 から: 2013-03-03-2013-03-09 37 に: 2013-03-03 37 2013-03-04 37 2013-03-05 37 2013-03-06 37 2013-03-07 37 2013-03-08 37 2013-03-09 37 しかし、これは私の問題に多くの複雑さを加えています。私は過去6か月の値、または月次データの6つの値からGoogle検索を予測しようとしていました。日次データは、180の過去の値に対する作業を意味します。(私は10年のデータを持っているので、月次データで120ポイント/週次データで500+ /日次データで3500+) もう1つのアプローチは、日次データを週次/月次データに「マージ」することです。しかし、このプロセスからいくつかの疑問が生じます。合計が何かを表すため、一部のデータは平均化できます。たとえば、降雨量は、特定の週の雨量は、週を構成する各日の量の合計になります。 私の場合、私は価格、金融レートなどを扱っています。価格については、私の分野では交換された量を考慮することが一般的であるため、週次データは加重平均になります。財務レートの場合は少し複雑ですが、日次レートから週次レートを作成するためのいくつかの式が含まれています。その他については、基になるプロパティがわかりません。これらの特性は、無意味な指標を回避するために重要だと思います(たとえば、フィアンシャルレートの平均は意味をなさないでしょう)。 したがって、3つの質問: 既知のプロパティと不明なプロパティの場合、日次から週次/月次のデータにどのように進むべきですか? 実生活では意味のない量を導入しているため、毎週/毎月のデータをこれまでのように毎日のデータに分割するのは少し間違っているように感じます。だからほとんど同じ質問: 既知および未知のプロパティについて、毎週/毎月のデータから毎日のデータにどのように進むべきですか? 最後に重要なことですが、タイムステップが異なる2つの時系列が与えられた場合、何が良いですか:最小または最大のタイムステップを使用しますか?これはデータの数とモデルの複雑さの間の妥協点だと思いますが、これらのオプションから選択する強い議論はありません。 編集:簡単に実行できるツール(R PythonではExcelでも)を知っている場合は、大変助かります。

4
特徴抽出手法-データシーケンスの要約
シーケンスであるいくつかの予測変数があるモデル(分類または回帰)を構築することがよくあり、モデルに予測子として含めるために可能な限り最良の方法でそれらを要約するための手法の推奨事項を見つけようとしています。 具体的な例として、顧客が次の90日間(tからt + 90の間のいつでも、したがってバイナリの結果)に会社を去るかどうかを予測するモデルが構築されているとします。利用可能な予測子の1つは、期間t_0からt-1までの顧客の財政収支のレベルです。たぶん、これは過去12か月間の毎月の観測値(つまり、12の測定値)を表します。 このシリーズから機能を構築する方法を探しています。平均、高、低、標準偏差などの各顧客シリーズの説明を使用し、OLS回帰を当てはめて傾向を取得します。彼らの特徴を計算する他の方法はありますか?変化または変動性の他の測定? 追加: 以下の応答で述べたように、動的タイムワーピング(DTW)を使用して、結果の距離行列で階層的クラスタリングを行うことも検討しました(ただし、ここに追加するのを忘れました)。いくつかのクラスターを作成し、機能としてクラスターメンバーシップを使用します。スコアリングテストデータは、新しいケースとクラスターの重心でDTWが実行されたプロセスに従う必要があります-新しいデータシリーズを最も近い重心に一致させる...

3
ソーシャルネットワークの成長をアニメーション化する方法
新しいノード/エッジが追加されたときにソーシャルネットワークがどのように変化するかを視覚化するライブラリ/ツールを探しています。 既存のソリューションの1つは、SoNIA:Social Network Image Animatorです。このような映画を作ってみましょう。 SoNIAのドキュメントには、現時点では壊れていると記載されています。これに加えて、代わりにJavaScriptベースのソリューションを使用することをお勧めします。だから、私の質問は:あなたは任意のツールに精通していますか、またはこのタスクをできるだけ簡単にするいくつかのライブラリを私に示すことができますか? この質問を投稿したらすぐにsigma.jsを掘り下げますので、このライブラリがカバーされていると考えてください。 一般的に、私の入力データは次のようになります。 time_elapsed; node1; node2 1; A; B 2; A; C 3; B; C したがって、ここでは3つの時点(1、2、3)、3つのノード(A、B、C)、および3つのエッジがあり、これらは3つの考慮されたノード間の3つの閉合を表します。 さらに、すべてのノードには2つの属性(年齢と性別)があるため、ノードの形状/色を変更できるようにしたいと思います。 また、新しいノードを追加した後、グラフのレイアウトを調整するためのForceAtlas2または同様のアルゴリズムを用意するのが最適です。

3
科学計算に最適な言語[終了]
閉じた。この質問はより集中する必要があります。現在、回答を受け付けていません。 この質問を改善したいですか?この投稿を編集するだけで1つの問題に焦点を当てるように質問を更新します。 5年前に閉鎖されました。 ほとんどの言語では、いくつかの科学計算ライブラリが利用できるようです。 Pythonは Scipy Rust 持っている SciRust C++持っているなど、いくつかのViennaCLとArmadillo Java持っているJava NumericsとColtだけでなく、他のいくつかの 以下のような言語は言うまでもありませんRし、Julia科学技術計算のために明示的に設計されています。 非常に多くのオプションを使用して、タスクに最適な言語をどのように選択しますか?さらに、どの言語が最もパフォーマンスが高くなりますか?PythonそしてR宇宙の中で最も牽引力を持っているように見えるが、それは、より良い選択となるように、論理的にコンパイルされた言語がそうです。そして、これまでに何よりも優れているFortranでしょうか?さらに、コンパイルされた言語はGPUアクセラレーションを備えている傾向がありますが、インタープリター言語はそうではRありPythonません。言語を選択するときは何を考慮すればよいですか。また、ユーティリティとパフォーマンスのバランスが最も良い言語はどれですか。また、私が見逃した重要な科学計算リソースを持つ言語はありますか?
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Keras LSTMと1D時系列
私はKerasの使用方法を学んでおり、CholletのDeep Learning for Pythonの例を使用して、ラベル付けされたデータセットで妥当な成功を収めました。データセットは、3つの潜在的なクラスを含む長さ3125の〜1000時系列です。 予測率が約70%になる基本的な高密度レイヤーを超えて、LSTMレイヤーとRNNレイヤーについて説明します。 すべての例では、各時系列に複数の機能を持つデータセットを使用しているようであり、結果としてデータを実装する方法を見つけるのに苦労しています。 たとえば、1000x3125の時系列がある場合、それをSimpleRNNやLSTMレイヤーなどにフィードするにはどうすればよいですか?これらのレイヤーの機能に関する基本的な知識が不足していますか? 現在のコード: import pandas as pd import numpy as np import os from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM, Dropout, SimpleRNN, Embedding, Reshape from keras.utils import to_categorical from keras import regularizers from sklearn.model_selection import train_test_split import matplotlib.pyplot as plt …

2
TensorFlowを使用して財務時系列データを予測しようとしています
私はMLとTensorFlowを初めて使用し(数時間前に開始しました)、それを使用して時系列の次のいくつかのデータポイントを予測しようとしています。私は私の入力を受け取り、これを使ってこれを行っています: /----------- x ------------\ .-------------------------------. | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | '-------------------------------' \----------- y ------------/ 私がやっていることは、xを入力データとして使用し、yをその入力の目的の出力として使用して、0〜6を指定すると1〜7(特に7)が得られるようにすることです。ただし、xを入力としてグラフを実行すると、yではなくxに似た予測が得られます。 ここにコードがあります(この投稿とこの投稿に基づいています): import tensorflow as tf import numpy as np import matplotlib.pyplot as plot import pandas as pd import csv def load_data_points(filename): print("Opening CSV …

3
数学の畳み込みとCNNの関係
畳み込みの説明を読んである程度理解しました。誰かがこの操作がたたみ込みニューラルネットのたたみ込みにどのように関連しているかを理解するのを手伝ってくれませんか?gウェイトをかけるフィルターのような機能ですか?
10 machine-learning  neural-network  deep-learning  cnn  convolution  machine-learning  ensemble-modeling  machine-learning  classification  data-mining  clustering  machine-learning  feature-selection  convnet  pandas  graphs  ipython  machine-learning  apache-spark  multiclass-classification  naive-bayes-classifier  multilabel-classification  machine-learning  data-mining  dataset  data-cleaning  data  machine-learning  data-mining  statistics  correlation  machine-learning  data-mining  dataset  data-cleaning  data  beginner  career  python  r  visualization  machine-learning  data-mining  nlp  stanford-nlp  dataset  linear-regression  time-series  correlation  anomaly-detection  ensemble-modeling  data-mining  machine-learning  python  data-mining  recommender-system  machine-learning  cross-validation  model-selection  scoring  prediction  sequential-pattern-mining  categorical-data  python  tensorflow  image-recognition  statistics  machine-learning  data-mining  predictive-modeling  data-cleaning  preprocessing  classification  deep-learning  tensorflow  machine-learning  algorithms  data  keras  categorical-data  reference-request  loss-function  classification  logistic-regression  apache-spark  prediction  naive-bayes-classifier  beginner  nlp  word2vec  vector-space-models  scikit-learn  decision-trees  data  programming 


4
多変量時系列の分類
約40のディメンションを持つ時系列(8ポイント)で構成されるデータのセットがあります(したがって、各時系列は8 x 40です)。対応する出力(カテゴリの可能な結果)は0または1です。 複数の次元を持つ時系列の分類子を設計するための最良のアプローチは何でしょうか? 私の最初の戦略は、それらの時系列から特徴を抽出することでした:平均、標準、各次元の最大変動。RandomTreeForestのトレーニングに使用したデータセットを取得しました。これの全体的な素朴さを認識していて、悪い結果を得た後、私は今、より改善されたモデルを探しています。 私のリードは次のとおりです。各次元のシリーズを(KNNアルゴリズムとDWTを使用して)分類し、PCAで次元を減らし、多次元カテゴリに沿って最終的な分類子を使用します。MLは比較的新しいので、完全に間違っているかどうかはわかりません。

2
オートエンコーダーをクラスタリングにどのように使用できますか?
ラベルのない時間領域信号のセットがあるとします。それらを2つまたは3つのクラスにクラスター化したい。オートエンコーダーは、入力の圧縮を学習する監視なしネットワークです。したがって、入力、重みと、バイアスと、および出力を指定すると、次の関係が見つかります。x(i)x(i)x^{(i)}W1W1W_1W2W2W_2b1b1b_1b2b2b_2x^(i)x^(i)\hat{x}^{(i)} z(i)=W1x(i)+b1z(i)=W1x(i)+b1z^{(i)} =W_1x^{(i)}+b_1 x^(i)=W2z(i)+b2x^(i)=W2z(i)+b2\hat{x}^{(i)} =W_2z^{(i)}+b_2 したがって、は圧縮形式であり、は後者の再構成です。ここまでは順調ですね。z(i)z(i)z^{(i)}x(i)x(i)x^{(i)}x^(i)x^(i)\hat{x}^{(i)} 私が理解していないのは、これをクラスタリングに使用する方法です(それを行う方法がある場合)。たとえば、このペーパーの最初の図には、よくわからないブロック図があります。フィードフォワードネットワークへの入力としてを使用しますが、そのネットワークのトレーニング方法については言及されていません。私が無視しているものがあるのか​​、それとも論文が不完全なのかわかりません。また、最後のこのチュートリアルは、オートエンコーダーによって学習された重みを示しています。これらは、CNNが画像を分類するために学習するカーネルのようです。ですから...オートエンコーダの重みは、フィードフォワードネットワークで分類のためになんらかの方法で使用できると思いますが、その方法はわかりません。z(i)z(i)z^{(i)} 私の疑問は: もし長さの時間領域信号である(すなわち、X ^ {(I)} \で\ mathbb {R} ^ {1 \回N} )、缶Z ^ {(I)}ベクトルだけでも?換言すれば、それはのための理にかなっている^ {(I)} Zことがマトリックスよりもその寸法が大きいのいずれかで1?そうではないと思いますが、確認したいだけです。x(i)x(i)x^{(i)}NNNx(i)∈R1×Nx(i)∈R1×Nx^{(i)}\in\mathbb{R}^{1\times N}z(i)z(i)z^{(i)}z(i)z(i)z^{(i)}111 これらの量のどれが分類器への入力になりますか?たとえば、信号を分類したいクラスと同じ数の出力ユニットを持つ従来のMLPを使用したい場合、この完全に接続されたネットワークの入力(z(i)z(i)z^{(i)}、x^(i)x^(i)\hat{x}^{(i)}、他のもの)? このMLPで学習した重みとバイアスをどのように使用できますか?使用可能なラベルは絶対にないと想定しているため、ネットワークをトレーニングすることは不可能です。学習したとは、完全に接続されたネットワークで何らかの形で役立つはずですが、それらの使用方法はわかりません。WiWiW_ibibib_i 観察:MLPは最も基本的なアーキテクチャであるため、例としてMLPを使用したことに注意してください。ただし、質問は、時間領域信号の分類に使用できる他のすべてのニューラルネットワークに適用されます。

2
多次元時系列から30分前のイベントを予測するモデルをトレーニングする方法
私の分野の専門家は、イベント(黄色のバイナリスパイク)が発生する 30分前に、その可能性を予測できます。ここでの頻度は1秒です。このビューは数時間分のデータを表します。「悪意のある」パターンがあるはずの箇所を黒く囲んでいます。次元間に相互作用が存在するため、次元を個別に調査することはできません(またはそれらを検討できますか?) 私はScikit Learn を使用して監視された MLモデルを構築しようとしています。これは、通常のリズムを学習し、症状がスパイクにつながる可能性がある場合を検出します。私はどちらの方向を取るか迷っています。私は異常検出を試しましたが、それはその場検出でのみ機能し、以前は機能しませんでした。 それらのイベントの前に「悪意のある」パターンを検出するにはどうすればよいですか(ターゲット変数としてそれらを取得します)? どのアルゴリズムまたはデータ処理パイプラインが役立つかについてのアドバイスを歓迎します。ありがとうございました:)

1
時系列データの異なるセットを比較する方法
Pythonとsklearnを使用してtime#seriesの間に異常検出を実行しようとしています(ただし、他のパッケージの提案は大歓迎です!)。 10個の時系列のセットがあります。各時系列は、タイヤのトルク値(合計10タイヤ)から収集されたデータで構成されており、セットには同じ数のデータポイントが含まれていない場合があります(セットサイズが異なります)。各時系列データは、ほとんど、tire_id、タイムスタンプ、およびsig_value(信号またはセンサーからの値)です。1つの時系列のサンプルデータは次のようになります。 tire_id timestamp sig_value tire_1 23:06.1 12.75 tire_1 23:07.5 0 tire_1 23:09.0 -10.5 今、私はそれらの10を持っています、そしてそれらの2は奇妙に振る舞います。これは異常検出の問題であることを理解していますが、オンラインで読んだほとんどの記事は、同じ時系列内の異常ポイントを検出しています(ある時点で、そのタイヤのトルク値が正常でない場合)。 どの2つのタイヤが異常な動作をしているのかを検出するために、クラスタリング手法、基本的にはk-meansクラスタリングを使用してみました(監視されていないため)。 k-meansクラスタリングにフィードするデータを準備するために、各時系列(各タイヤについて)について計算しました。 最大の振幅(差)を持つ隣接する極大と極小の上位3セット トルク値の平均 トルク値の標準偏差 また、クラスターの数を2のみに設定したので、クラスター1または2のいずれかです。 したがって、(クラスターを割り当てた後の)最終結果は次のようになります。 amplitude local maxima local minima sig_value_std \ tire_0 558.50 437.75 -120.75 77.538645 tire_0 532.75 433.75 -99.00 77.538645 tire_0 526.25 438.00 -88.25 77.538645 tire_1 552.50 -116.50 436.00 71.125912 tire_1 …

1
MLのセンサーからの時系列データの使用
小さなサイドプロジェクトについて次のデータがあります。それは、洗濯機/乾燥機の上に座っている加速度計からのものであり、マシンがいつ終了したかを教えてください。 xは入力データ(1つの値としてのx / y / z移動)、yはラベルのオン/オフ y = 1とy = 0のx値は重複しているため、xとローリング3分のウィンドウをSVMの入力として使用することを考えていました。 xyz60=res.xyz.resample("60S").max() X["x"]=xyz60 X["max3"]=xyz60.rolling(window=3, min_periods=1).max() これはこの種の問題に対する良いアプローチですか?より良い結果をもたらす可能性のある代替案はありますか?

1
時系列はシーケンスからシーケンスへの問題をマルチステップで予測していますか?
数値(float)型の単変量時系列のLSTMをトレーニングするために、kerasパッケージを使用しています。1ステップ先の予測を実行するのは簡単ですが、たとえば、10ステップ先の予測を実行する方法がわかりません。2つの質問: 1)シーケンスツーシーケンスNNについて読みましたが、時系列予測のコンテキストではほとんど何も見つかりません。事前に複数のタイムステップを予測することはseq2seqの問題であるという仮定で正しいのでしょうか。それぞれの予測は前任者に依存しているので、それは私には理にかなっています。 2)seq2seqを使用しない直感的なソリューションは、1ステップ先の予測を実行してから、この予測をシリーズに追加し、それを使用して次の予測を取得します。これはseq2seqアプローチとどのように異なりますか?

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.