データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

2
チェスの時間差を実装する
私は、アルファベータ剪定アルゴリズムと、次の機能を使用して位置を評価する評価関数を使用するチェスプログラムを開発しています。つまり、材料、王の安全、移動性、ポーン構造、トラップされた駒などです。私の評価関数はから派生 f(p )= w1⋅ 素材+ w2⋅ 王の安全+ w3⋅ 移動度+ w4⋅ ポーン構造+ w5⋅ 閉じ込められた破片f(p)=w1⋅素材+w2⋅王の安全+w3⋅可動性+w4⋅ポーン構造+w5⋅閉じ込められた部分f(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot \text{mobility} + w_4 \cdot \text{pawn-structure} + w_5 \cdot \text{trapped pieces} ここで、は各フィーチャに割り当てられた重みです。この時点で、時間差を使用して評価関数の重みを調整します。エージェントはそれ自体に対してプレーし、その過程でその環境からトレーニングデータを収集します(強化学習の形式です)。これをJavaで実装する方法についての洞察を得るために、いくつかの本や記事を読みましたが、それらは実用的ではなく理論的なようです。以前のゲームに基づいて評価関数の重みを自動的に調整する方法の詳細な説明と疑似コードが必要です。www

4
大規模なデータセットを理解するには、どの初期ステップを使用する必要がありますか、またどのツールを使用する必要がありますか?
警告:機械学習に関しては、私は完全な初心者ですが、学びたいと思っています。 大規模なデータセットがあり、そのパターンを見つけようとしています。既知の変数、またはデータに含まれているが実際には変数/関連があるとまだ認識していない変数のいずれかと、データ全体に相関がある場合とそうでない場合があります。 これはデータ分析の世界ではおなじみの問題になると思いますので、いくつか質問があります。 「銀の弾丸」は、このすべてのデータを統計/データ分析プログラムに投入し、関係を見つけようとする既知/未知のパターンを探してデータを処理することです。SPSSは適切ですか、それとも他のアプリケーションが適している可能性がありますか。 Rのような言語を学び、手動でデータを処理する方法を理解する必要があります。何をどのようにデータを分析するかを手動で指定する必要があるので、この関係を見つけるのは簡単ではありませんか? プロのデータマイナーはこの問題にどのように取り組み、どのような手順を実行しますか?

4
いくつかのタイプのモデルがほとんど同じ結果をもたらすのはなぜですか?
約40万件のレコードと9つの変数のデータセットを分析しています。従属変数はバイナリです。私はロジスティック回帰、回帰木、ランダムフォレスト、および勾配ブースト木を取り付けました。別のデータセットで検証すると、それらすべてがほぼ同じ適合度の数値を与えます。 これはなぜですか?変数比に対する私の観察が非常に高いためだと思います。これが正しい場合、どのモデルの変数比に対して、異なるモデルが異なる結果を出し始めますか?

3
さまざまな統計手法(回帰、PCAなど)は、サンプルのサイズと次元にどのように対応していますか?
サンプルサイズと次元に応じてスケーリングする方法を説明する統計手法の既知の一般的な表はありますか?たとえば、ある友人が先日、サイズnの1次元データを単純にクイックソートする計算時間はn * log(n)になると教えてくれました。 したがって、たとえば、Xがd次元の変数であるXに対してyを回帰すると、O(n ^ 2 * d)になりますか?正確なガウスマルコフ解とニュートン法による数値最小二乗法で解を求めたい場合、どのようにスケーリングしますか?または、単純に解を取得するか、有意差検定を使用するか? 私はここでの良い答えよりも良い答えの源(様々な統計的手法のスケーリングをまとめた論文のような)が欲しいと思います。たとえば、重回帰、ロジスティック回帰、PCA、Cox比例ハザード回帰、K平均クラスタリングなどのスケーリングを含むリストのように。

3
統計+コンピュータサイエンス=データサイエンス?[閉まっている]
閉まっている。この質問はトピックから外れています。現在、回答を受け付けていません。 この質問を改善してみませんか? 質問を更新して、 Data Science Stack Exchangeのトピックとなるようにします。 5年前休業。 私はデータサイエンティストになりたいです。私は応用統計学(アクチュアリーサイエンス)を研究していたので、素晴らしい統計的背景(回帰、確率過程、時系列、ほんの数例を挙げます)を持っています。しかし、今、私はインテリジェントシステムのコンピューターサイエンスに重点を置いて修士号を取得します。 これが私の研究計画です: 機械学習 高度な機械学習 データマイニング ファジーロジック 推奨システム 分散データシステム クラウドコンピューティング 知識発見 ビジネス・インテリジェンス 情報検索 テキストマイニング 最後に、すべての統計およびコンピュータサイエンスの知識があれば、自分をデータサイエンティストと呼ぶことができますか?、または私は間違っていますか? 答えてくれてありがとう。

1
非アトミック機能を使用した予測
予測機能として、非原子データを利用したい。これらの機能を備えたテーブルがあるとします。 - Column 1: Categorical - House - Column 2: Numerical - 23.22 - Column 3: A Vector - [ 12, 22, 32 ] - Column 4: A Tree - [ [ 2323, 2323 ],[2323, 2323] , [ Boolean, Categorical ] ] - Column 5: A List [ 122, Boolean …

2
ニューラルネットワークを使用した外国為替市場の予測
ANNを使用して取引通貨を自動化したいと思います。できればUSD / EURまたはUSD / GBPです。これは難しく、簡単ではないかもしれません。私はすでにいくつかの論文を読み、いくつかの実験を行いましたが、あまり運がありませんでした。これを機能させるためにエキスパートからアドバイスをもらいたいのですが。 これが私がこれまでに行ったことです: 2013年7月のティックデータでティックを取得しました。ビッド/アスク/ビッドボリューム/アスクボリュームがあります。 すべての日の12PMから14PMまでの時間枠のすべてのティックを抽出しました。 このデータから、各エントリが順番にn個の入札値で構成されるデータセットを作成しました。 そのデータを使用して、n-1個の入力でANNをトレーニングし、出力は予測されるn番目の入札値です。 ANNには、n-1個の入力ニューロン、(n-1)* 2 + 1個の非表示ニューロン、および1個の出力ニューロンがありました。入力層には線形TF、非表示には対数TF、出力には線形TFがありました。 最初にn-125、次に10のバックプロパゲーションでネットワークをトレーニングしました。 両方のnについて、MSEは0.5を下回ることはなく、完全なトレーニング中にその値のままでした。これは時系列が完全にランダムであることが原因である可能性があると想定して、Rパッケージを使用してデータセット(pacf)の部分的な自己相関を検出しました。これにより、2ラグと3ラグに対してのみゼロ以外の値が得られました。 質問1:これは正確にはどういう意味ですか? 次に、ハースト指数を使用してランダム性を評価しました。Rでは、hurst(values)が0.9を超える値を示しました。 質問2:ほぼランダムであると想定されています。0.5に近い値にする必要がありますか? ANNのトレーニングをn = 3で繰り返しました。ANNは訓練を受け、MSEのかなり低い値を取得することができました。ただし、このANNから計算された出力は、(n-1)番目の入札値と大差ありません。ANNは最後の入札を次の入札と見なしているようです!さまざまなネットワーク構造(すべての多層知覚)、さまざまなトレーニングパラメーターなどを試しましたが、結果は同じです。 質問3:精度を向上させるにはどうすればよいですか?バックプロパゲーション以外のトレーニング方法はありますか?

3
定期的に増加する機能セットの処理
私は詐欺検出システムに取り組んでいます。この分野では、新しい詐欺が定期的に発生するため、新しい機能をモデルに継続的に追加する必要があります。 (開発プロセスの観点から)それを処理する最良の方法は何ですか?新しい特徴を特徴ベクトルに追加して分類器を再トレーニングするだけでは、古い特徴の再学習に時間がかかりすぎるため、単純なアプローチのように見えます。 私は、各機能(またはいくつかの関連機能)の分類子をトレーニングし、それらの分類子の結果を全体的な分類子と組み合わせる方法について考えています。このアプローチの欠点はありますか?分類子全体のアルゴリズムを選択するにはどうすればよいですか?

1
サブセットを通常のオイラー線図にプロットできるかどうかはどうすればわかりますか?
場合によっては、オーバーラップするすべてのサブセットを正しい比率で表すために、オーバーラップする円を含むオイラー図を描くことができない場合があります。このタイプのデータでは、各セットを表すためにポリゴンまたは他の図形を使用する必要があります。重複するサブセットを説明するデータを処理する場合、単純なオイラー線図が可能かどうかをどのようにして理解できますか?

4
ガス消費異常値の検出-ニューラルネットワークプロジェクト。悪い結果
いくつかのオランダの建物のエネルギーガス消費量の異常値を検出して、ニューラルネットワークモデルを構築しようとしました。結果は非常に悪いですが、理由がわかりません。 私は専門家ではないので、改善できる点と間違っている点をお伺いします。これは完全な説明です:https : //github.com/denadai2/Gas-consumption-outliers。 ニューラルネットワークは、バックプロパゲーションを備えたFeedFowardネットワークです。ここで説明するように、データセットを41'000行、9つのフィーチャの「小さな」データセットに分割し、さらにフィーチャを追加しようとしました。 ネットワークをトレーニングしましたが、結果は14.14 RMSEであるため、ガス消費量を予測できず、連続して優れた異常値検出メカニズムを実行できません。一部の論文では、電力の毎日または毎時の消費を予測しても、MSE = 0.01のようなエラーがあることがわかります。 何を改善できますか?何が悪いのですか?私の説明を見ていただけますか?

4
Rで順序回帰を学習しますか?
私はプロジェクトに取り組んでおり、スピードを上げるためのリソースが必要です。 データセットは、30程度の変数で約35000観測です。変数の約半分はカテゴリ型であり、いくつかはさまざまな可能な値を持っています。つまり、カテゴリ型変数をダミー変数に分割すると、30を超える変数になります。しかし、おそらく最大で数百程度です。(n> p)。 私たちが予測したい応答は、5つのレベル(1,2,3,4,5)の序数です。予測子は、連続型とカテゴリー型の混合であり、それぞれの約半分です。これらは、これまでの私の考え/計画です。1.応答を連続として扱い、バニラ線形回帰を実行します。2.ノミナルおよびオーディナルロジスティックおよびプロビット回帰を実行する3. MARSおよび/または別の種類の非線形回帰を使用する 私は線形回帰に精通しています。MARSはHastieとTibshiraniによって十分に説明されています。しかし、序数のロジット/プロビットに関しては、特に非常に多くの変数と大きなデータセットに関して、私は途方に暮れています。 これまでのところ、rパッケージglmnetcrが私の最善の策であるようですが、ドキュメントでは、必要な場所に移動するのに十分ではありません。 詳細はどこで確認できますか?

5
博士課程プログラムの資格
Yann LeCunは、彼のAMAで、博士号を取得することは、トップ企業に就職するために非常に重要であると考えていると述べました。 私には統計学の修士号があり、学部生は経済学と応用数学を専攻していましたが、現在はML PhDプログラムを調べています。ほとんどのプログラムでは、絶対に必要なCSコースはないという。しかし、私はほとんどの受け入れられた学生が少なくとも非常に強いCSのバックグラウンドを持っていると思う傾向があります。私は現在データサイエンティスト/統計学者として働いていますが、私の会社はコースの費用を負担します。自分自身をより強力な候補者にするために、地元の大学でソフトウェアエンジニアリングの入門コースを受講する必要がありますか?CS分野以外から博士課程プログラムに応募する場合、他にどのようなアドバイスがありますか? 編集:私はいくつかのMOOC(Machine Learning、Recommender Systems、NLP)を取り、毎日R / pythonをコーディングしています。私は統計言語で多くのコーディング経験があり、MLアルゴリズムを毎日実装しています。自分が応募できるものにもっと関心があります。
10 education 

1
最も効率的なデータインデックス付け手法は何ですか
誰もが知っているように、Lucene(Javaの場合)またはLucene.NET(.NETの場合)、MurMurHash、B + Treeなど、よく知られたインデックス作成アプリを使用したいくつかのデータインデックス作成手法があります。No-Sql/オブジェクトの場合指向データベース(私はC#で少し書いたり遊んだりしようとしています)、どの手法を提案しますか? MurMurhash-2について読み、特にv3のコメントでMurmurは非常に高速であると述べています。Lucene.Netにも良いコメントがあります。しかし、一般的に彼らのメモリフットプリントはどうですか?LuceneやMurmurよりもフットプリントが少ない(そしてもちろん高速の方が望ましい場合)効率的なソリューションはありますか?または、最良の結果を得るために特別なインデックス構造を作成する必要がありますか? 私が自分で書き込もうとすると、データノードの1%やデータノードの5%など、適切なインデックス付けに受け入れられるスケールはありますか?任意の有用なヒントをいただければ幸いです。

3
Rのメモリ制約とは何ですか?
「Applied Predictive Modeling」のレビューでは、レビュー担当者は次のように述べています。 統計学習(SL)の教育学について私が批判している点の1つは、さまざまなモデリング手法の評価において計算パフォーマンスを考慮していないことです。SLは、ブートストラップと、モデルの調整/テストのための相互検証に重点を置いているため、非常に計算集約的です。それに加えて、バギングやブースティングなどの手法に組み込まれているリサンプリングには、大規模なデータセットの教師あり学習のための計算の地獄があります。実際、Rのメモリの制約により、ランダムフォレストなどのパフォーマンスの高い方法で適合できるモデルのサイズにかなり厳しい制限が課されます。SLは小さなデータセットに対してモデルのパフォーマンスを調整するのに適していますが、より大きなデータのパフォーマンスと計算コストを理解することは確かです。 Rのメモリの制約とは何ですか。また、ランダムフォレストのようなトップパフォーマンスの方法で適合できるモデルのサイズに厳しい制限がありますか?
10 apache-hadoop  r 

2
このNeo4jとRDBMS実行時間の比較は正しいですか?
背景:以下は、本 『Neo4j in Action』で言及されているパフォーマンステストをカバーする本「Graph Databases」からの抜粋です。 グラフの関係は自然にパスを形成します。グラフのクエリまたはトラバースには、次のパスが含まれます。データモデルには基本的にパス指向の性質があるため、パスベースのグラフデータベース操作の大部分は、データのレイアウト方法と高度に連携しており、非常に効率的です。彼らの著書「Neo4j in Action」では、PartnerとVukoticがリレーショナルストアとNeo4jを使用して実験を行っています。 比較は、グラフデータベースがリレーショナルストアよりも接続されたデータの方が大幅に高速であることを示しています。パートナーとVukoticの実験では、最大5つの深さまで、ソーシャルネットワークで友達の友達を見つけようとしています。ランダムに選択された2人の人物がいる場合、それらを結ぶパスは最大で5つの関係です 表2-1に示すように、それぞれが約50人の友達がいる1,000,000人のソーシャルネットワークの場合、結果はグラフデータベースが接続されたデータに最適であることを強く示唆しています。 表2-1。リレーショナルデータベースでの拡張友達の検索とNeo4jでの効率的な検索の比較 Depth RDBMS Execution time (s) Neo4j Execution time (s) Records returned 2 0.016 0.01 ~2500 3 30.267 0.168 ~110,000 4 1543.505 1.359 ~600,000 5 Unfinished 2.132 ~800,000 深さ2(友人同士)では、リレーショナルデータベースとグラフデータベースの両方が十分に機能し、オンラインシステムでの使用を検討できます。Neo4jクエリはリレーショナルクエリの3分の2の時間で実行されますが、エンドユーザーは2つのクエリのミリ秒単位の違いにほとんど気付かないでしょう。ただし、深さ3(友達同士)に到達するまでに、リレーショナルデータベースが適切な時間枠でクエリを処理できなくなっていることは明らかです。完了するまでにかかる30秒は完全に許容できません。オンラインシステムの場合。これとは対照的に、Neo4jの応答時間は比較的フラットなままです。クエリを実行するのに必要な時間はほんの一瞬で、オンラインシステムに十分高速です。 深さ4では、リレーショナルデータベースはレイテンシが損なわれ、オンラインシステムでは実質的に役に立たなくなります。Neo4jのタイミングも少し低下しましたが、ここでの待ち時間は、応答性の高いオンラインシステムで許容できる範囲にあります。最後に、深さ5では、リレーショナルデータベースはクエリを完了するのに時間がかかりすぎます。対照的に、Neo4jは約2秒で結果を返します。深さ5では、ネットワーク全体が私たちの友人です。多くの実際の使用例では、結果とタイミングを整える可能性があります。 質問は: これは、ソーシャルネットワークで見つける以外に何をエミュレートするための合理的なテストですか?(実際のソーシャルネットワークには通常、たとえば約50人の友達がいるノードがあることを意味します。「リッチゲットリッチ」モデルはソーシャルネットワークにとってより自然なようですが、間違っている可能性があります。) エミュレーションの自然さに関わらず、結果がずれている、または再現できないと考える理由はありますか?
10 databases  nosql  neo4j 

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.