タグ付けされた質問 「machine-learning」

機械学習アルゴリズムに関する実装の質問。機械学習に関する一般的な質問は、特定のコミュニティに投稿する必要があります。

12
PythonでのTwitterの感情分析[終了]
閉まっている。この質問はスタックオーバーフローのガイドラインを満たしていません。現在、回答を受け付けていません。 この質問を改善してみませんか?Stack Overflowのトピックとなるように質問を更新します。 5年前に閉鎖。 この質問を改善する Textual Sentiment Analysis(http://en.wikipedia.org/wiki/Sentiment_analysis)のオープンソース実装(できればpython)を探しています。私が使用できるそのようなオープンソースの実装に詳しい人はいますか? Twitterで「youtube」などの検索語を検索し、「ハッピー」ツイートと「悲しい」ツイートを比較するアプリケーションを書いています。私はGoogleのappengineを使用しているので、それはpythonです。Twitterから返された検索結果を分類できるようにしたいのですが、Pythonで分類したいと思います。これまでのところ、このような感情分析ツールを見つけることはできません。具体的には、Pythonではできません。私が使用できるそのようなオープンソース実装に精通していますか?できれば、これは既にpythonに含まれていることが望ましいですが、そうでない場合は、pythonに変換できれば幸いです。 注、私が分析しているテキストは非常に短く、ツイートです。したがって、理想的には、この分類子はそのような短いテキストに最適化されています。 ところで、Twitterは検索で ":)"および ":("演算子をサポートしていますが、これはまさにこれを行うことを目的としていますが、残念ながら、それらによって提供される分類はそれほど大きくないので、私はこれを試してみるかもしれないと思いました。 ありがとう! ところで、初期のデモはあり、ここで、私がこれまで持っているコードがあり、ここで、私はどんな興味を持って開発者と、それをオープンソースが大好きです。

9
Pythonスクリプトのエラー「2D配列が必要です。代わりに1D配列を取得しました:」?
このチュートリアルに従って、このML予測を行います。 import numpy as np import matplotlib.pyplot as plt from matplotlib import style style.use("ggplot") from sklearn import svm x = [1, 5, 1.5, 8, 1, 9] y = [2, 8, 1.8, 8, 0.6, 11] plt.scatter(x,y) plt.show() X = np.array([[1,2], [5,8], [1.5,1.8], [8,8], [1,0.6], [9,11]]) y = [0,1,0,1,0,1] X.reshape(1, -1) clf …

2
Keras:カーネルとアクティビティの正規化機能の違い
私は、weight_regularizerがKerasで利用できなくなり、代わりにアクティビティとカーネル正則化が存在することに気づきました。私が知りたいのですが: カーネルとアクティビティレギュラライザーの主な違いは何ですか? 私は使用することができactivity_regularizerの代わりにweight_regularizer?

5
トレーニング中のnansの一般的な原因
トレーニング中に頻繁に発生することNANが導入されていることに気づきました。 多くの場合、内積/完全に接続された層または畳み込み層の重みが爆発することによって導入されるようです。 これは、勾配計算が爆発しているために発生していますか?それとも、重みの初期化が原因ですか(もしそうなら、なぜ重みの初期化がこの効果をもたらすのですか)?それとも、入力データの性質が原因である可能性がありますか? ここでの最も重要な質問は単純です。トレーニング中にNANが発生する最も一般的な理由は何ですか。そして第二に、これと戦うためのいくつかの方法は何ですか(そしてなぜそれらは機能しますか)?

13
Apple(Inc。)に関するツイートとApple(fruit)に関するツイートを区別するモデルを作成するにはどうすればよいですか?
「アップル」に関する50のツイートについては、以下を参照してください。私はAppleIncについてのポジティブマッチに手作業でラベルを付けました。それらは以下の1としてマークされています。 ここにいくつかの行があります: 1|“@chrisgilmer: Apple targets big business with new iOS 7 features http://bit.ly/15F9JeF ”. Finally.. A corp iTunes account! 0|“@Zach_Paull: When did green skittles change from lime to green apple? #notafan” @Skittles 1|@dtfcdvEric: @MaroneyFan11 apple inc is searching for people to help and tryout all their upcoming tablet within our …

6
Pythonでウォーリーを見つけるにはどうすればよいですか?
恥知らずに時流に乗る:-) Mathematicaでウォーリーを見つける方法とフォローアップRでウォーリーを見つける方法に触発されました。新しいPythonユーザーとして、これがどのように行われるかを知りたいです。PythonはRよりもこれに適しているようで、MathematicaやMatlabのようにライセンスについて心配する必要はありません。 以下のような例では、明らかに単にストライプを使用するだけでは機能しません。このような難しい例で、単純なルールベースのアプローチを機能させることができれば興味深いでしょう。 正解は、元のスレッドでGregoryKlopperが提唱した制限付きボルツマンマシン(RBM)アプローチなど、ML手法を使用する必要があると思われるため、[machine-learning]タグを追加しました。Pythonで利用できるRBMコードがいくつかあり、開始するのに適している可能性がありますが、そのアプローチには明らかにトレーニングデータが必要です。 で、機械学習のための信号処理(MLSP 2009)2009 IEEE国際ワークショップ彼らは走ったのウォーリー:データ解析コンペの?。トレーニングデータはmatlab形式で提供されます。そのWebサイトのリンクは無効になっていますが、データ(Sean McLooneと同僚が採用したアプローチのソースはここにあります(SCMリンクを参照)に注意してください)。

4
get_dummies(パンダ)とOneHotEncoder(Scikit-learn)の長所と短所は何ですか?
機械学習分類器のカテゴリ変数を数値に変換するさまざまな方法を学習しています。私はそのpd.get_dummies方法に出くわし、sklearn.preprocessing.OneHotEncoder()パフォーマンスと使用法の点でそれらがどのように異なるかを見たかったのです。 私が使用する方法についてのチュートリアル見つかっOneHotEncoder()にhttps://xgdgsc.wordpress.com/2015/03/20/note-on-using-onehotencoder-in-scikit-learn-to-work-on-categorical-features/をするのでsklearnドキュメントには、この機能のあまり有用ではなかったです。正しくやっていない気がします…でも いくつかの使用の長所と短所を説明することができpd.dummies超えるsklearn.preprocessing.OneHotEncoder()と、その逆の?私はそれOneHotEncoder()があなたにスパース行列を与えることを知っていますが、それ以外はそれがどのように使われるか、そしてそのpandas方法にどのような利点があるのか​​わかりません。非効率的に使用していますか? import pandas as pd import numpy as np from sklearn.datasets import load_iris sns.set() %matplotlib inline #Iris Plot iris = load_iris() n_samples, m_features = iris.data.shape #Load Data X, y = iris.data, iris.target D_target_dummy = dict(zip(np.arange(iris.target_names.shape[0]), iris.target_names)) DF_data = pd.DataFrame(X,columns=iris.feature_names) DF_data["target"] = pd.Series(y).map(D_target_dummy) #sepal length (cm) sepal width (cm) …

2
OpenAIで新しいジム環境を作成するにはどうすればよいですか?
MLを使用してビデオゲームをプレイする方法を学習するAIエージェントを作成する割り当てがあります。既存の環境を使いたくないので、OpenAIGymを使って新しい環境を作りたいです。新しいカスタム環境を作成するにはどうすればよいですか? また、OpenAIジムの助けを借りずに特定のビデオゲームをプレイするためのAIエージェントの開発を開始できる他の方法はありますか?

1
KerasでのTimeDistributedレイヤーの役割は何ですか?
TimeDistributedラッパーがKerasで何をするのかを把握しようとしています。 TimeDistributedは「入力のすべての時間スライスにレイヤーを適用する」と思います。 しかし、私はいくつかの実験をして、私が理解できない結果を得ました。 つまり、LSTMレイヤーに関連して、TimeDistributedレイヤーとDenseレイヤーだけで同じ結果が得られます。 model = Sequential() model.add(LSTM(5, input_shape = (10, 20), return_sequences = True)) model.add(TimeDistributed(Dense(1))) print(model.output_shape) model = Sequential() model.add(LSTM(5, input_shape = (10, 20), return_sequences = True)) model.add((Dense(1))) print(model.output_shape) どちらのモデルでも、(なし、10、1)の出力形状が得られました。 RNNレイヤーの後のTimeDistributedレイヤーとDenseレイヤーの違いを誰かが説明できますか?

7
損失値に基づいてKerasにトレーニングを停止するように指示するにはどうすればよいですか?
現在、私は次のコードを使用しています。 callbacks = [ EarlyStopping(monitor='val_loss', patience=2, verbose=0), ModelCheckpoint(kfold_weights_path, monitor='val_loss', save_best_only=True, verbose=0), ] model.fit(X_train.astype('float32'), Y_train, batch_size=batch_size, nb_epoch=nb_epoch, shuffle=True, verbose=1, validation_data=(X_valid, Y_valid), callbacks=callbacks) 2エポックの間損失が改善されなかったときにトレーニングを停止するようにKerasに指示します。しかし、損失が一定の「THR」よりも小さくなった後、トレーニングを停止したいと思います。 if val_loss < THR: break ドキュメントで、独自のコールバックを作成する可能性があることを確認し ました:http: //keras.io/callbacks/しかし、トレーニングプロセスを停止する方法は見つかりませんでした。アドバイスが必要です。

1
勾配ポリシー導出について
元のリソースであるAndrej Karpathyブログから、ポリシーグラデーションの非常に単純な例を再現しようとしています。その記事には、カートポールとポリシーグラディエントの例と、ウェイトとソフトマックスのアクティブ化のリストがあります。これは、完璧に機能する CartPoleポリシーグラディエントの非常に単純な再作成例です。 import gym import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures import copy NUM_EPISODES = 4000 LEARNING_RATE = 0.000025 GAMMA = 0.99 # noinspection PyMethodMayBeStatic class Agent: def __init__(self): self.poly = PolynomialFeatures(1) self.w = np.random.rand(5, 2) def policy(self, state): z = state.dot(self.w) exp = …

9
ニューラルネットワークが独自のトレーニングデータで誤った予測をする理由
この賞金は終了しました。この質問への回答は、+ 150の評判バウンティの対象となります。バウンティの猶予期間は23時間で終了します。 サージェイは評判の良い情報源からの回答を探しています。 LSTM(RNN)ニューラルネットワークを作成し、データストック予測のための教師あり学習を行いました。問題は、それが独自のトレーニングデータで間違っていると予測する理由です。(注:以下の再現可能な例) 次の5日間の株価を予測する簡単なモデルを作成しました。 model = Sequential() model.add(LSTM(32, activation='sigmoid', input_shape=(x_train.shape[1], x_train.shape[2]))) model.add(Dense(y_train.shape[1])) model.compile(optimizer='adam', loss='mse') es = EarlyStopping(monitor='val_loss', patience=3, restore_best_weights=True) model.fit(x_train, y_train, batch_size=64, epochs=25, validation_data=(x_test, y_test), callbacks=[es]) 正しい結果はy_test(5つの値)にあるので、トレーニングをモデル化し、90日前を振り返って、次のようにして最良(val_loss=0.0030)の結果から重みを復元しますpatience=3。 Train on 396 samples, validate on 1 samples Epoch 1/25 396/396 [==============================] - 1s 2ms/step - loss: 0.1322 - val_loss: 0.0299 Epoch …

3
YOLOまたはその他の画像認識技術を使用して、画像内に存在するすべての英数字テキストを識別する
複数の画像の図があり、そのすべてにテキストラベル自体の代わりに英数字のラベルが含まれています。自分のYOLOモデルに含まれているすべての数字と英数字を識別できるようにしたい。 同じようにYOLOモデルをトレーニングするにはどうすればよいですか。データセットはここにあります。https://drive.google.com/open?id=1iEkGcreFaBIJqUdAADDXJbUrSj99bvoi たとえば、境界ボックスを参照してください。YOLOにテキストが存在する場所を検出してほしい。ただし、現在はその中のテキストを識別する必要はありません。 また、これらのタイプの画像についても同じことが必要です 画像はこちらからダウンロードできます これは私がopencvを使用して試したものですが、データセット内のすべての画像に対しては機能しません。 import cv2 import numpy as np import pytesseract pytesseract.pytesseract.tesseract_cmd = r"C:\Users\HPO2KOR\AppData\Local\Tesseract-OCR\tesseract.exe" image = cv2.imread(r'C:\Users\HPO2KOR\Desktop\Work\venv\Patent\PARTICULATE DETECTOR\PD4.png') gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) thresh = cv2.threshold(gray, 0, 255, cv2.THRESH_BINARY_INV + cv2.THRESH_OTSU)[1] clean = thresh.copy() horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (15,1)) detect_horizontal = cv2.morphologyEx(thresh, cv2.MORPH_OPEN, horizontal_kernel, iterations=2) cnts = cv2.findContours(detect_horizontal, cv2.RETR_EXTERNAL, …

1
3か月のデータセットによる多変量時系列予測
3か月分のデータ(各行は毎日に対応)を生成し、同じものに対して多変量時系列分析を実行したいと思います。 利用可能な列は- Date Capacity_booked Total_Bookings Total_Searches %Variation 各日付のデータセットには1つのエントリがあり、3か月分のデータがあります。他の変数も予測するために、多変量時系列モデルを適合させたいと思います。 これまでのところ、これは私の試みであり、私は記事を読んで同じことを達成しようとしました。 私も同じことをした- df['Date'] = pd.to_datetime(Date , format = '%d/%m/%Y') data = df.drop(['Date'], axis=1) data.index = df.Date from statsmodels.tsa.vector_ar.vecm import coint_johansen johan_test_temp = data coint_johansen(johan_test_temp,-1,1).eig #creating the train and validation set train = data[:int(0.8*(len(data)))] valid = data[int(0.8*(len(data))):] freq=train.index.inferred_freq from statsmodels.tsa.vector_ar.var_model import VAR model …

4
MNISTでトレーニングされたモデルの数字認識を改善するにはどうすればよいですか?
私は手書きの多桁認識に取り組んでいます JavaOpenCV、前処理とセグメンテーションのためのライブラリ、およびKeras認識のためにMNIST(精度0.98)でトレーニングされたモデルを使用、ます。 認識は、1つの点を除けば、かなりうまく機能しているようです。ネットワークでは、1(番号「1」)を認識できないことがよくあります。セグメンテーションの前処理/不適切な実装が原因で発生したのか、標準のMNISTでトレーニングされたネットワークが、テストケースのように見える一番のものが見当たらないのかわかりません。 以下は、前処理とセグメンテーション後の問題のある数字の様子です。 になり、として分類され4ます。 になり、として分類され7ます。 となり、次のように分類されます4ます。等々... これは、セグメンテーションプロセスを改善することで修正できるものですか?それとも、トレーニングセットを強化することによってですか。 編集:トレーニングセット(データ拡張)を強化することは間違いなく役立ちます。これは既にテストしていますが、正しい前処理の問題はまだ残っています。 私の前処理は、サイズ変更、グレースケールへの変換、2値化、反転、および膨張で構成されています。これがコードです: Mat resized = new Mat(); Imgproc.resize(image, resized, new Size(), 8, 8, Imgproc.INTER_CUBIC); Mat grayscale = new Mat(); Imgproc.cvtColor(resized, grayscale, Imgproc.COLOR_BGR2GRAY); Mat binImg = new Mat(grayscale.size(), CvType.CV_8U); Imgproc.threshold(grayscale, binImg, 0, 255, Imgproc.THRESH_OTSU); Mat inverted = new Mat(); Core.bitwise_not(binImg, inverted); Mat dilated …

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.