データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
不等間隔の時系列のモデリング
1年の期間にわたって不規則な間隔でサンプリングされた連続変数があります。1日あたり1回以上の観測がある日もあれば、何日も観測されない日もあります。これにより、時系列のパターンを検出することが特に困難になります。これは、一部の月(たとえば10月)は高度にサンプリングされ、他の月はそうではないためです。 私の質問は、この時系列をモデル化するための最良のアプローチは何でしょうか? ほとんどの時系列分析手法(ARMAなど)には固定周波数が必要だと思います。一定のサンプルを取得したり、非常に詳細なデータのサブセットを選択したりするために、データを集計できます。両方のオプションを使用すると、元のデータセットからいくつかの情報が失われ、異なるパターンが明らかになる可能性があります。 シリーズをサイクルで分解する代わりに、モデルにデータセット全体をフィードして、パターンを取得することを期待できます。たとえば、時間、平日、月をカテゴリー変数に変換し、重回帰を試みて良い結果を出しました(R2 = 0.71) 私はANNなどの機械学習手法でもこれらのパターンを不均一な時系列から選択できると考えていますが、誰かがそれを試したのではないかと思っていました。

2
リーダーボードスコアのストリームのマイニングに役立つオープンソースツール
オンラインゲームでのユーザーのスコアを表すタプル を含むストリームについて考え(user, new_score)ます。ストリームは、毎秒100〜1,000の新しい要素を持つことができます。ゲームには20万人から30万人のユニークプレイヤーがいます。 次のような永続的なクエリが欲しいのですが。 1時間のスライディングウィンドウでxを超えるスコアを投稿したプレーヤー 1時間のスライディングウィンドウでx%のスコアを獲得したプレーヤー 私の質問は、このプロジェクトを迅速に開始するために使用できるオープンソースツールは何ですか?現在、エスパーを検討しています。 注:「マイニングデータストリーム」(大規模データセットのマイニングの第4章)を読み終えたばかりで、データストリームのマイニングはまったく初めてです。

3
巨大なデータベースへのクエリは、無視できるほどの待ち時間でどのように返されますか?
たとえば、Googleで何かを検索すると、結果はすぐに返されます。 Googleがアルゴリズムなどを使用してページをソートおよびインデックス付けすることを理解していますが、考えられるすべてのクエリの結果にインデックスを付けることは不可能だと思います(結果はパーソナライズされ、これによりさらに実行不可能になります)? さらに、Googleのハードウェアのハードウェアレイテンシは巨大ではないでしょうか。GoogleのデータがすべてTB / s SSDに保存されていたとしても、処理するデータの量が膨大であることを考えると、ハードウェアのレイテンシは非常に大きくなると思います。 MapReduceはこの問題の解決に役立ちますか? 編集:さて、私は人気のある検索がメモリにキャッシュできることを理解しています。しかし、不人気な検索はどうですか?私が行った最もあいまいな検索でさえ、検索が5秒を超えると報告されたことはないと思います。これはどのように可能ですか?
12 bigdata  google  search 

2
KerasのEarly Stoppingコールバックで使用されるメトリックを変更する方法はありますか?
KerasトレーニングでEarly Stoppingコールバックを使用すると、一部のメトリック(通常は検証の損失)が増加しないときに停止します。検証損失の代わりに別のメトリック(精度、再現率、fメジャーなど)を使用する方法はありますか?これまでに見たすべての例は、次の例に似ています:callbacks.EarlyStopping(monitor = 'val_loss'、patience = 5、verbose = 0、mode = 'auto')

3
ハイパーキューブのほとんどの点が境界にあると言うとどういう意味ですか?
50次元のハイパーキューブがある場合。そして、その境界をまたはで定義します。ここで、はハイパーキューブの次元です。次に、ハイパーキューブの境界上のポイントの比率を計算すると、ます。どういう意味ですか?それは残りのスペースが空であることを意味しますか?場合はポイントの境界にあるその後、キューブ内のポイントが均一に分布してはいけませんか?0 &lt; xj&lt; 0.050&lt;xj&lt;0.050<x_j<0.05x j 0.995 99 %0.95 &lt; xj&lt; 10.95&lt;xj&lt;10.95<x_j<1バツjxjx_j0.9950.9950.99599 %99%99\%

1
LSTMセルはいくつ使用すればよいですか?
使用する必要があるLSTMセルの最小、最大、および「妥当な」量に関する経験則(または実際の規則)はありますか?具体的には、TensorFlowとプロパティのBasicLSTMCellに関連していnum_unitsます。 私が定義する分類問題があると仮定してください: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples たとえば、トレーニングの例の数は次の数よりも多い必要がありますか? 4*((n+1)*m + m*m)*c cセルの数はどこですか?これに基づいています:LSTMネットワークのパラメーターの数を計算する方法?私が理解しているように、これはパラメータの総数を与えるはずであり、トレーニング例の数よりも少なくなければなりません。
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
画像以外の非NLPタスクのディープラーニング?
これまでのところ、コンピュータビジョンや自然言語処理のディープラーニングには多くの興味深いアプリケーションがあります。 他のより伝統的な分野ではどうですか?たとえば、私は伝統的な社会人口統計学的変数に加えて、おそらく多くの研究室での測定値があり、特定の疾患を予測したいと考えています。多くの観察結果がある場合、これはディープラーニングアプリケーションになりますか?ここでネットワークをどのように構築しますか?すべてのファンシーレイヤー(畳み込みなど)は本当に必要ではないと思いますか?!深くするだけ? 私の特定のデータセットで、ランダムフォレスト、gbmなどの一般的な機械学習アルゴリズムを試しましたが、精度に関する結果はさまざまです。画像認識に関するディープラーニングの経験は限られています。


2
VCディメンションの計算方法は?
機械学習を勉強しています。VCディメンションの計算方法を教えてください。 例えば: h (x )= { 10もし ≤X≤Bそうしないと h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} (、B )∈ R 2、パラメータ。(、B )∈ R2(a,b)∈R2(a,b) ∈ R^2 それのVC次元は何ですか?

4
CSVファイルの内容をpysparkデータフレームにインポートする
.csvファイルをpysparkデータフレームにインポートするにはどうすればよいですか?Pandasでcsvファイルを読み取ってから、createDataFrameを使用してSparkデータフレームに変換しようとしましたが、まだエラーが表示されています。誰かがこれを案内してくれますか?また、xlsxファイルをインポートする方法を教えてください。csvコンテンツをpandasデータフレームにインポートしてから、sparkデータフレームに変換しようとしていますが、エラーが表示されます。 "Py4JJavaError" An error occurred while calling o28.applySchemaToPythonRDD. : java.lang.RuntimeException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 私のコードは: from pyspark import SparkContext from pyspark.sql import SQLContext import pandas as pd sqlc=SQLContext(sc) df=pd.read_csv(r'D:\BestBuy\train.csv') sdf=sqlc.createDataFrame(df)
12 pyspark 

2
Python Pandasで2つのデータフレームをマージするにはどうすればよいですか?
2つのデータフレームdf1とdf2があり、それらを1つのデータフレームにマージしたいと思います。それは、df1とdf2が単一のデータフレームを中央で垂直に分割することによって作成されたかのようです。たとえば、リストが半分含まれている紙を引き裂いて、列の半分を一方の紙に、列の半分を他方の紙に配置します。それらをマージして戻したいと思います。どうすればいいのですか?
12 pandas 

2
頻繁なパターンマイニングでは、FPGrowthはまだ「最先端」と見なされていますか?
私が頻繁にパターンマイニング(FPM)の問題を解決するアルゴリズムの開発を知っている限り、改善の道にはいくつかの主要なチェックポイントがあります。まず、Aprioriアルゴリズムは1993年にAgrawalらによって提案されました。、問題の形式化とともに。アルゴリズムは、ラティスを使用してデータを維持することにより、セット(パワーセット)からいくつかのセットを取り除くことができました2^n - 1。このアプローチの欠点は、拡張された各セットの頻度を計算するためにデータベースを再度読み取る必要があったことです。 その後、1997年にZakiら。はアルゴリズムEclatを提案しました。これは、各セットの結果の周波数をラティス内に挿入しました。これは、ラティスの各ノードで、ルートから参照先ノードへのアイテムを持つトランザクションIDのセットを追加することで行われました。主な貢献は、各セットの頻度を知るためにデータセット全体を再度読み取る必要がないことですが、そのようなデータ構造の構築を維持するために必要なメモリは、データセット自体のサイズを超える可能性があります。 2000年に、ハン等。は、FPTreeという名前のプレフィックスツリーデータ構造とともに、FPGrowthという名前のアルゴリズムを提案しました。このアルゴリズムは、重要なデータ圧縮を提供すると同時に、頻繁なアイテムセットのみが生成されることを許可しました(候補アイテムセットの生成なし)。これは主に、各トランザクションのアイテムを降順でソートすることによって行われたため、最も頻度の高いアイテムは、ツリーデータ構造内の繰り返しが最も少ないアイテムです。頻度はツリーを詳しく調べている間だけ下降するので、アルゴリズムは頻度の低いアイテムセットを取り除くことができます。 編集: 私の知る限り、これは最先端のアルゴリズムと考えることができますが、他の提案されたソリューションについて知りたいのですが。FPMの他のどのようなアルゴリズムが「最先端」と見なされていますか?そのようなアルゴリズムの直感 / 主な貢献は何ですか? 頻繁なパターンマイニングでは、FPGrowthアルゴリズムはまだ「最先端」と見なされていますか?そうでない場合、どのアルゴリズムが大規模なデータセットから頻繁なアイテムセットをより効率的に抽出する可能性がありますか?

2
大規模なデータセットの効率的な次元削減
約100万行と約500Kのスパースフィーチャのデータセットがあります。次元を1K〜5Kの密集したフィーチャのオーダーのどこかに減らしたい。 sklearn.decomposition.PCAスパースデータでは機能しませんsklearn.decomposition.TruncatedSVD。使用しようとしましたが、メモリエラーがすぐに発生します。このスケールで効率的に次元を削減するための私のオプションは何ですか?

3
自然言語からSQLクエリ
私は「自然言語をSQLクエリに変換する」システムの開発に取り組んでいます。 同様の質問の回答を読みましたが、探していた情報を入手できませんでした。 以下は、Garima Singh、Arun SolankiによるリレーショナルデータベースのSQLクエリに自然言語を変換するアルゴリズムから取得したこのようなシステムのフローチャートです。 私は品詞タグ付けステップまで理解しました。しかし、私は残りのステップにどのようにアプローチしますか。 可能なすべてのSQLクエリをトレーニングする必要がありますか? または、品詞のタグ付けが完了したら、単語をいじってSQLクエリを作成する必要がありますか? 編集:「ユーザークエリ」から「品詞タグ付け」までのステップを正常に実装しました。 ありがとうございました。

3
pysparkデータフレーム内のすべての数値を定数値で置き換えます
「null」要素と数値要素で構成されるpysparkデータフレームを考えます。一般に、数値要素には異なる値があります。データフレームのすべての数値を定数の数値(たとえば、値1)に置き換えるにはどうすればよいですか?前もって感謝します! pysparkデータフレームの例: 123c10.04−1nullc21null1.2c31.35−1.2nullc1c2c310.0411.352−1null−1.23null1.2null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ 3 & null & 1.2 & null \end{array} 結果は次のようになります。 123c111nullc21null1c311nullc1c2c3111121null13null1null \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 1 …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.