データサイエンス

データサイエンスの専門家、機械学習の専門家、およびこの分野に関する知識が豊富な方へ

1
AutoEncodersの変換
オートエンコーダの変換に関するGeoff Hintonの論文を読んだところです Hinton、Krizhevsky、Wang:Transforming Auto- encoders 。人工ニューラルネットワークと機械学習、2011年。 そして、このようなもので遊んでみたいと思います。しかし、それを読んでも、実際にそれを実装する方法についての紙から十分な詳細を得ることができませんでした。 入力ピクセルとカプセルのマッピングがどのように機能するかを知っている人はいますか? 認識ユニットで正確に何が起こっているべきですか? どのように訓練する必要がありますか?すべての接続間の標準のバックプロップですか? さらに良いのは、これまたは同様の何かのソースコードへのリンクです。

2
協調強化学習
収益を最大化することを目的とした動的な価格設定問題に取り組んでいる単一のエージェントに対して、機能している実装がすでにあります。ただし、私が取り組んでいる問題には、相互に置き換えられるいくつかの異なる製品が含まれるため、一方の価格が他方の報酬に影響を与えるため、独立した学習者によるすべての製品の動的な価格設定は正しくないようです。目標は、個々の収益の合計を最大化するように、動的に価格を設定することです。Q(λ)Q(λ)Q(\lambda) 私はこのように強化学習を適用するものを見つけるためにいくつかの研究を行ってきましたが、私が見つけた多くのマルチエージェントの実装は、協調よりも競争ゲームに焦点を当てているか、他のエージェントの不完全な知識を想定していますこのシナリオの各エージェントの知識)。このように共同学習の十分に研究され、文書化されたアプリケーションはありますか?

5
LSTMまたはR用の他のRNNパッケージ
シェイクスピアのようなテキストを生成するLSTMモデルからの印象的な結果を見ました。LSTMパッケージがRに存在するかどうか疑問に思っていました。Googleでググってみましたが、PythonとJuliaのパッケージしか見つかりませんでした。(おそらく、これらのプログラムがRよりも優先される理由を説明するパフォーマンスの問題があるかもしれません)RのLSTM(または少なくともRNN)パッケージについて知っていますか?存在する場合、それらを使用するためのチュートリアルはありますか?
10 r  neural-network  rnn 

2
パンダデータフレームの行を反復して新しい列を作成する
私はこのようなパンダデータフレーム(X11)を持っています:実際には私は99列までdx99まで持っています dx1 dx2 dx3 dx4 0 25041 40391 5856 0 1 25041 40391 25081 5856 2 25041 40391 42822 0 3 25061 40391 0 0 4 25041 40391 0 5856 5 40391 25002 5856 3569 25041、40391、5856などのセル値用に追加の列を作成したいので、25041が任意のdxs列の特定の行にある場合、値が1または0の列25041があります。私はこのコードを使用していますが、行数が少ない場合に機能します。 mat = X11.as_matrix(columns=None) values, counts = np.unique(mat.astype(str), return_counts=True) for x in values: X11[x] = …


3
類似ドキュメントを見つけるためのベクトル空間モデルコサインtf-idf
100万を超えるドキュメントのコーパスを持っている 特定のドキュメントについて、ベクトル空間モデルのように余弦を使用して類似のドキュメントを検索したい d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) このtf-idfのように、より長いドキュメントへのバイアスを防ぐために、すべてのtfは拡張周波数を使用して正規化されています。 tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in d\}} すべて事前計算済み 分母の値が事前に計算されている ので、特定のd 1に対して100万を超えるスコアが必要d 2 類似性の0.6コサインのしきい値がある ||d||||d||||d||d1d1d1d2d2d2 特定の状況でそれを観察できます|の範囲はかなり狭いです | d 2 | | 余弦のための≥ 0.6 の余弦のための同様のためのつの検索で例えば≥ 0.6と| | d 1 | | の7.7631 | | d 2 | | 7.0867から8.8339の範囲 コサイン0.6のしきい値の外側| | d 2 | | …

3
大規模なJSONデータセットでのPostgreSQLとMongoDBのどちらが速いですか?
9mのJSONオブジェクトがそれぞれ約300バイトの大きなデータセットがあります。それらはリンクアグリゲーターからの投稿です。基本的にはリンク(URL、タイトル、著者ID)とコメント(テキストと著者ID)+メタデータです。 子レコードを指すIDを持つ配列フィールドが1つあるという事実を除いて、それらはテーブルのリレーショナルレコードである可能性が非常に高いです。 どの実装がより堅固に見えますか? PostgreSQLデータベース上のJSONオブジェクト(1つの列を持つ1つの大きなテーブル、つまりJSONオブジェクト) MongoDB上のJSONオブジェクト JSONオブジェクトを列に分解し、PostgreSQLで配列を使用する 結合のパフォーマンスを最大化したいので、データをマッサージして、興味深い分析が見つかるまで調査できます。その時点で、データを各分析に固有の形式に変換する方が良いと思います。

1
Spark、単一のRDDを2つに最適に分割
特定のパラメーターに従ってグループに分割する必要がある大きなデータセットがあります。ジョブをできるだけ効率的に処理したい。そうするための2つの方法を想像することができます オプション1-元のRDDからマップを作成してフィルターする def customMapper(record): if passesSomeTest(record): return (1,record) else: return (0,record) mappedRdd = rddIn.map(lambda x: customMapper(x)) rdd0 = mappedRdd.filter(lambda x: x[0]==0).cache() rdd1 = mappedRdd.filter(lambda x: x[1]==1).cache() オプション2-元のRDDを直接フィルターする def customFilter(record): return passesSomeTest(record) rdd0 = rddIn.filter(lambda x: customFilter(x)==False).cache() rdd1 = rddIn.filter(customFilter).cache() fistメソッドは、元のデータセットのすべてのレコードを3回テストする必要がありますが、2番目は通常の状況では2回のみ行う必要がありますが、sparkはシーンのグラフ作成の背後でいくらか実行するので、効果的に同じ方法で行われます。私の質問は次のとおりです:a。)1つの方法が他の方法より効率的であるか、またはスパークグラフの構築によってそれらが同等になるかb。)この分割を単一のパスで実行することは可能ですか

1
教師あり学習アルゴリズムの複数のラベル
対応するトピックを含むテキストのコーパスがあります。たとえば、"A rapper Tupac was shot in LA"とラベル付けされました["celebrity", "murder"]。したがって、基本的に各特徴ベクトルには多くのラベルを付けることができます(同じ量ではありません。最初の特徴ベクトルには3つのラベル、2番目に1番目、3番目に5番目のラベルを付けることができます)。 各テキストに対応するラベルが1つしかない場合は、単純ベイズ分類器を試してみますが、ラベルが多数ある場合にどうすればよいかわかりません。 ナイーブベイズをマルチラベル分類問題に変換する方法はありますか(より良いアプローチがある場合-私に知らせてください)? PS私が持っているデータについていくつかのこと。 データセット内の約10.000要素 テキストは約2〜3文 テキストあたり最大7つのラベル

4
IMDB Webページをこする方法は?
データ分析の学習の一環として、Pythonを使用してWebスクレイピングを自分で学習しようとしています。次のURLのimdb Webページをスクレイピングしようとしています:http : //www.imdb.com/search/title? sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 BeautifulSoupモジュールを使用しています。以下は私が使用しているコードです: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, genres,runtime, rating, year 次の出力が得られます。 The Shawshank …

3
ログファイル分析:値部分から情報部分を抽出
ある製品のいくつかのログファイルにデータセットを構築しようとしています。 異なるログファイルには、独自のレイアウトとコンテンツがあります。私はそれらを一緒にグループ化することに成功しました、あと1ステップだけ... 確かに、ログ「メッセージ」は最良の情報です。私はそれらすべてのメッセージの包括的なリストを持っているわけではありません。そのリストは毎日変更される可能性があるため、それらに基づいてハードコードすることは悪い考えです。 私がやりたいのは、識別テキストを値テキストから分離することです(たとえば、「ロードされたファイルXXX」は(識別:「ロードされたファイル」、値:「XXX」)になります)。残念ながら、この例は単純であり、実際にはさまざまなレイアウトがあり、場合によっては複数の値があります。 文字列カーネルを使用することを考えていましたが、クラスタリングを目的としています...そしてクラウティングはここでは適用されません(メッセージのさまざまなタイプの数はわかりませんが、多すぎます)。 何か考えはありますか? ご協力いただきありがとうございます。 PS:プログラミングをしている人にとっては、これは理解しやすいかもしれません。コードにログが含まれているとしましょうprintf( "blabla%s"、 "xxx")-> "blabla"と "xxx"を分離させたい

1
Rのグラフ用の(ラベル伝播アルゴリズム/頻繁なサブグラフマイニング)のライブラリ
問題の一般的な説明 いくつかの頂点が3つまたは4つの可能な値を持つタイプでラベル付けされているグラフがあります。他の頂点については、タイプは不明です。私の目標は、グラフを使用して、ラベル付けされていない頂点のタイプを予測することです。 可能なフレームワーク 私はこれを、私の文献を読んだことに基づいて、ラベル伝播問題の一般的なフレームワークに適合していると思います(たとえば、この論文とこの論文を参照してください)。 しばしば言及されているもう一つの方法は、あるFrequent Subgraph Miningアルゴリズムが好き含む、SUBDUE、SLEUTH、とgSpan。 Rで見つかりました 私は見つけることができた唯一のラベル伝播実装がRあるlabel.propagation.community()からigraphライブラリ。ただし、その名前が示すように、ほとんどの場合、ラベルなしの頂点を分類するためではなく、コミュニティを見つけるために使用されます。 subgraphMiningライブラリへの参照(ここでは例)もいくつかあるようですが、CRANにないようです。 質問 説明されているタスクのライブラリまたはフレームワークを知っていますか?

2
オンライン機械学習用のライブラリ
株式データを予測するオンライン学習を実行するためのパッケージ(python、R、またはスタンドアロンパッケージ)を探しています。 私はVowpal Wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki)を見つけて読みました。これは非常に有望であるようですが、他にパッケージがあるかどうか疑問に思っています。 前もって感謝します。

2
スケーラブルな外れ値/異常検出
Hadoop、Hive、Elastic Search(その他)を使用してビッグデータインフラストラクチャをセットアップしようとしています。特定のデータセットに対していくつかのアルゴリズムを実行したいと思います。アルゴリズム自体をスケーラブルにしたいので、Weka、R、RHadoopなどのツールの使用は除外されます。ApacheのMahoutの図書館は良い選択肢であるように思われ、それが特徴回帰およびクラスタリングのタスクのためのアルゴリズムを。 私が見つけるのに苦労しているのは、異常または異常値の検出のためのソリューションです。 Mahoutには隠しマルコフモデルとさまざまなクラスタリング手法(K-Meansを含む)が備わっているため、これを使用して時系列で外れ値を検出するモデルを構築できるかどうか疑問に思っていました。これを経験した誰かが私に助言してくれるなら私は感謝しています 可能であれば、可能であれば それを行う方法に加えて 関与する努力の推定と このアプローチの精度/問題。

2
ノイズの多い文字列のリストから正規の文字列を抽出する
何千もの文字列のリストがあり、各リストには約10個の文字列があります。特定のリストのほとんどの文字列は非常によく似ていますが、一部の文字列は他の文字列と(ほとんど)まったく無関係であり、一部の文字列には無関係な単語が含まれています。これらは、標準的な文字列のノイズの多いバリエーションと見なすことができます。各リストをこの正規の文字列に変換するアルゴリズムまたはライブラリを探しています。 以下はそのようなリストの1つです。 スター・ウォーズ:エピソードIV新しい希望| StarWars.com スターウォーズエピソードIV-新しい希望(1977) スター・ウォーズ:エピソードIV-新しい希望-腐ったトマト スター・ウォーズ:エピソードIV-新しい希望をオンラインで無料で見る スター・ウォーズ(1977)-グレイテスト・フィルム [REC] 4つのポスターが船外機による死を約束-SciFiNow このリストでは、正規表現に一致する任意の文字列^Star Wars:? Episode IV (- )?A New Hope$が受け入れられます。 私は、Courseraでの機械学習に関するAndrew Ngのコースを見ましたが、同様の問題を見つけることができませんでした。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.