データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

4
データサイエンスはデータマイニングと同じですか?
このフォーラムで議論されるデータサイエンスには、大規模なデータが分析されるいくつかの同義語または少なくとも関連分野があると確信しています。 私の特定の質問は、データマイニングに関するものです。数年前にデータマイニングの大学院クラスを受講しました。データサイエンスとデータマイニングの違いは何ですか?特に、データマイニングに習熟するためには、さらに何を検討する必要がありますか?

5
PythonでのKL発散の計算
私はこれにかなり慣れていないため、この背後にある理論的概念を完全に理解しているとは言えません。Pythonの複数のポイントリスト間のKL Divergenceを計算しようとしています。私はhttp://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.htmlを使用してこれを試みています。私が遭遇している問題は、返される値が2つの数値リスト(その1.3862943611198906)で同じであることです。私はここで何らかの理論上の間違いを犯していると感じていますが、それを見つけることはできません。 values1 = [1.346112,1.337432,1.246655] values2 = [1.033836,1.082015,1.117323] metrics.mutual_info_score(values1,values2) それは私が実行しているものの例です-2つの入力に対して同じ出力を取得しているだけです。何かアドバイス/助けをいただければ幸いです!

3
職場での期待をどのように管理していますか?
データサイエンス、機械学習、およびすべてのサクセスストーリーに関連するすべての問題により、データサイエンティストとその予測モデルからの正当化された期待と過剰な期待の両方があります。 統計学者、機械学習の専門家、データサイエンティストの実践に対する私の質問は、特にモデルの予測精度に関して、社内のビジネスマンからの期待をどのように管理していますか?簡単に言えば、最高のモデルが90%の精度しか達成できず、上級管理職が99%以上を期待している場合、このような状況をどのように処理しますか?

2
季節性やその他のパタ​​ーンが変化する時系列に対処する方法は?
バックグラウンド 私は、エネルギーメーターの測定値の時系列データセットに取り組んでいます。シリーズの長さはメートルによって異なります-私が数年持っているものもあれば、数ヶ月しかいないものもあります。 私が取り組んできたものの1つは、これらの時系列のクラスタリングです。私の仕事は今のところ学術的であり、データの他の分析も行っていますが、クラスタリングを実行するという特定の目標があります。 さまざまな機能(週末と平日で使用される割合、異なる時間ブロックで使用される割合など)を計算する初期作業を行いました。その後、動的タイムワーピング(DTW)を使用して異なるシリーズ間の距離を取得し、差分値に基づいてクラスタリングを検討することに進み、これに関連するいくつかの論文を見つけました。 質問 特定のシリーズの季節性の変化により、クラスタリングが不正確になりますか?もしそうなら、どのように対処しますか? 私の懸念は、時系列のパターンが変更された場合、DTWによって取得された距離が誤解を招く可能性があることです。これにより、誤ったクラスタリングが発生する可能性があります。 上記が不明な場合は、次の例を検討してください。 例1 メーターの真夜中から午前8時までの測定値が低く、次の1時間は測定値が急激に増加し、午前9時から午後5時まで高値を維持し、次の1時間にわたって急激に減少し、午後6時から深夜まで低値を維持します。メーターは、このパターンを毎日数か月間一貫して継続しますが、読み取り値が1日を通して一貫したレベルにとどまるパターンに変わります。 例2 メーターは、ほぼ毎月消費されるエネルギー量を示します。数年後、夏季のエネルギー使用量が通常の量に戻る前のパターンに変わります。 可能な方向 私は、時系列全体を比較し続けることができるかどうか疑問に思っていましたが、パターンを大幅に変更する場合は、それらを分割し、別のシリーズと見なします。ただし、これを行うには、そのような変更を検出できる必要があります。また、これが適切な方法なのか、データを操作するのかわからないだけです。 また、データを分割し、それを多くの別個の時系列として考慮することも検討しました。たとえば、毎日/メーターの組み合わせを個別のシリーズと考えることができます。ただし、毎週/毎月/毎年のパターンを検討する場合は、同様に行う必要があります。私が考えて、これは動作しますが、それは潜在的にかなり厄介だと私は欠けていることにもっと良い方法があるのなら、私はこの道を行くことを憎みます。 さらなる注記 これらは、コメントに出てきたもの、またはコメントが原因で私が考えたもので、関連性があるかもしれません。関連情報を取得するためにすべてを読み通す必要がないように、ここに配置しています。 私はPythonで作業していますが、Rの方が適している場所にはrpyがあります。私は必ずしもPythonの答えを探しているわけではありません-誰かが実際に何をすべきかについての答えを持っているなら、実装の詳細を自分で理解して幸せです。 私はたくさんの「ラフドラフト」コードを実行しています。DTWをいくつか実行したり、いくつかの異なるタイプのクラスタリングを実行したりしています。本当に探しているのは、距離を見つける前にデータを処理する方法、クラスタリングを実行する方法などに関連しています。 これらの論文は時系列とDTWについて特に有益であり、トピック領域の背景が必要な場合に役立つことがあります:http : //www.cs.ucr.edu/~eamonn/selected_publications.htm


2
PASCAL VOC Challengeの検出タスクのmAPを計算する方法は?
Pascal VOCリーダーボードの検出タスクのmAP(平均精度)の計算方法は?http://host.robots.ox.ac.uk:8080/leaderboard/displaylb.php?challengeid=11&compid=4 そこに-11ページで:http : //homepages.inf.ed.ac.uk/ckiw/postscript/ijcv_voc09.pdf 平均精度(AP)。VOC2007チャレンジでは、分類された検出と検出の両方を評価するために、補間された平均精度(Salton and Mcgill 1986)が使用されました。特定のタスクおよびクラスについて、精度/リコール曲線はメソッドのランク付けされた出力から計算されます。リコールは、特定のランクよりも上位にランク付けされたすべての肯定的な例の割合として定義されます。精度は、そのランクより上のすべての例のうち、ポジティブクラスからの割合です。APは精度/リコール曲線の形状を要約し、11個の等間隔のリコールレベル[0,0.1、...、1]のセットでの平均精度として定義されます。 AP = 1/11 ∑ r∈{0,0.1,...,1} pinterp(r) 各リコールレベルrの精度は、対応するリコールがrを超えるメソッドに対して測定された最大精度を取得することにより補間されますpinterp(r) = max p(r˜)。ここで、p(r〜)はリコール〜rで測定された精度です。 地図について:http://0agr.ru/wiki/index.php/Precision_and_Recall#Average_Precision それは次のことを意味します: PrecisionとRecallを計算します。 A)多くの異なるものIoU について、> {0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1}真/偽の正/負の値を計算します ここでTrue positive = Number_of_detection with IoU > {0, 0.1,..., 1}、https://datascience.stackexchange.com/a/16813/37736で述べたように、次に計算します: Precision = True positive / …


2
パンダの2つの列でグループ化された値を合計する方法
次のようなPandas DataFrameがあります。 df = pd.DataFrame({ 'Date': ['2017-1-1', '2017-1-1', '2017-1-2', '2017-1-2', '2017-1-3'], 'Groups': ['one', 'one', 'one', 'two', 'two'], 'data': range(1, 6)}) Date Groups data 0 2017-1-1 one 1 1 2017-1-1 one 2 2 2017-1-2 one 3 3 2017-1-2 two 4 4 2017-1-3 two 5 このような新しいDataFrameを生成するにはどうすればよいですか: Date one two 0 2017-1-1 3 …

3
PySparkで複数のデータフレームを行ごとにマージする
私は10個のデータフレーム持っているpyspark.sql.dataframe.DataFrameから取得した、randomSplitと(td1, td2, td3, td4, td5, td6, td7, td8, td9, td10) = td.randomSplit([.1, .1, .1, .1, .1, .1, .1, .1, .1, .1], seed = 100)今私は9に参加したいtd、私はそれを行うべきか、単一のデータフレームにS」を? 私はすでにを試しましたunionAllが、この関数は2つの引数のみを受け入れます。 td1_2 = td1.unionAll(td2) # this is working fine td1_2_3 = td1.unionAll(td2, td3) # error TypeError: unionAll() takes exactly 2 arguments (3 given) 3つ以上のデータフレームを行ごとに結合する方法はありますか? これを行う目的はCrossValidator、PySpark メソッドを使用せずに手動で10倍のクロス検証を実行することです。したがって、9をトレーニングに、1をテストデータに、それから他の組み合わせで繰り返します。

3
周期的順序属性を変換する良い方法は何ですか?
属性として「時間」フィールドがありますが、周期的な値を取ります。「23」や「0」時間などの情報を保持するように機能を変換するにはどうすればよいでしょうか。 私が考えることができる1つの方法は、変換を行うことです: min(h, 23-h) Input: [0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23] Output: [0 1 2 3 4 5 6 7 8 9 10 11 11 10 9 8 7 6 5 4 …

3
GensimでFastText事前学習済みモデルを読み込むにはどうすればよいですか?
ここでFasttextモデルからfastText事前学習済みモデルをロードしようとしました。私はwiki.simple.enを使用しています from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) ただし、次のエラーが表示されます Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = utils.to_unicode(fin.readline(), encoding=encoding) File "P:\major_project\venv\lib\site-packages\gensim\utils.py", line 235, in any2unicode return unicode(text, encoding, errors=errors) UnicodeDecodeError: 'utf-8' codec can't decode byte …
21 nlp  gensim 

1
ミニバッチのサイズを選択するためのルールはありますか?
ニューラルネットワークをトレーニングする場合、1つのハイパーパラメーターはミニバッチのサイズです。一般的な選択肢は、ミニバッチあたり32、64、128個の要素です。 ミニバッチの大きさのルール/ガイドラインはありますか?トレーニングへの影響を調査する出版物はありますか?

3
多重出力回帰のためのニューラルネットワーク
34の入力列と8つの出力列を含むデータセットがあります。 この問題を解決する1つの方法は、34の入力を取得し、各出力列に対して個別の回帰モデルを構築することです。 特にニューラルネットワークを使用して、この問題を1つのモデルだけで解決できるかどうか疑問に思っています。 多層パーセプトロンを使用しましたが、線形回帰のように複数のモデルが必要です。Sequence to Sequenceは実行可能なオプションですか? TensorFlowを使用しています。コードはありますが、多層パーセプトロン理論の観点から見落としていることを理解することがより重要だと思います。 MLPでは、1つの出力ノードがある場合、1つの出力を提供することを理解しています。10個の出力ノードがある場合、それはマルチクラスの問題です。10個の出力の中から最も確率の高いクラスを選択します。しかし、私の場合、同じ入力に対して8つの出力があることは確かです。 たとえば、入力のセットに対して、何か(X、Y、Z)の3D座標を取得するとしましょう。同様に、入力= {1,10,5,7}出力= {1,2,1}。したがって、同じ入力{1,10,5,7}に対して、X値Y値とZのモデルを作成する必要があります。1つの解決策は、MLPを使用して3つの異なるモデルを作成することです。しかし、私は1つのモデルを持つことができるかどうかを見たいです。そこで、seq2seqの使用を考えました。エンコーダは一連の入力を受け取り、デコーダは一連の出力を提供するためです。しかし、テンソルフローのseq2seqはfloat値を処理できないようです。私はこれについて間違っている可能性があります。

5
決定木アルゴリズムは線形または非線形ですか
最近、私の友人に、ディシジョンツリーアルゴリズムが線形アルゴリズムであるか非線形アルゴリズムであるかがインタビューで尋ねられました。この質問への回答を探しましたが、満足のいく説明が見つかりませんでした。誰でもこの質問の解決策に答えて説明できますか?また、非線形機械学習アルゴリズムの他の例は何ですか?

2
train_test_split()エラー:サンプル数が一致しない入力変数が見つかりました
Pythonはかなり新しいですが、いくつかの分類データに基づいて最初のRFモデルを構築します。すべてのラベルをint64数値データに変換し、numpy配列としてXおよびYにロードしましたが、モデルをトレーニングしようとするとエラーが発生します。 配列は次のようになります。 >>> X = np.array([[df.tran_cityname, df.tran_signupos, df.tran_signupchannel, df.tran_vmake, df.tran_vmodel, df.tran_vyear]]) >>> Y = np.array(df['completed_trip_status'].values.tolist()) >>> X array([[[ 1, 1, 2, 3, 1, 1, 1, 1, 1, 3, 1, 3, 1, 1, 1, 1, 2, 1, 3, 1, 3, 3, 2, 3, 3, 1, 1, 1, 1], [ 0, 5, …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.