タグ付けされた質問 「machine-learning」

機械学習アルゴリズムに関する実装の質問。機械学習に関する一般的な質問は、特定のコミュニティに投稿する必要があります。

3
opencvを使用して画像に存在するすべてのテキストの場所を取得する
テキスト(数字とアルファベット)を含むこの画像があります。この画像に存在するすべてのテキストと数字の場所を取得したい。また、すべてのテキストも抽出したいと思います。 画像の座標とすべてのテキスト(数字とアルファベット)を取得するにはどうすればよいですか。たとえば10B、44、16、38、22Bなど

4
ModuleNotFoundError:「numpy.testing.nosetester」という名前のモジュールはありません
ディシジョンツリーを使用していて、このエラーが発生しました。逆伝播を使用したときにも同じ状況が発生しました。どうすれば解決できますか?(英語が下手でごめんなさい) import pandas as pd import numpy as np a = np.test() f = open('E:/lgdata.csv') data = pd.read_csv(f,index_col = 'id') x = data.iloc[:,10:12].as_matrix().astype(int) y = data.iloc[:,9].as_matrix().astype(int) from sklearn.tree import DecisionTreeClassifier as DTC dtc = DTC(criterion='entropy') dtc.fit(x,y) x=pd.DataFrame(x) from sklearn.tree import export_graphviz with open('tree.dot','w') as f1: f1 = export_graphviz(dtc, feature_names = …

7
「UserWarning:入力を取得できませんでした。労働者が亡くなった可能性があります。紛失したサンプルに関する情報はありません。」
モデルのトレーニング中に、「UserWarning:入力を取得できませんでした。ワーカーが死亡したことが原因である可能性があります。失われたサンプルに関する情報はありません。)」という警告が表示された後、モデルはトレーニングを開始します。この警告はどういう意味ですか?それは私のトレーニングに影響を与えるものであり、私は心配する必要がありますか?

1
R:独自の勾配ブースティングアルゴリズムを実装する
独自の勾配ブースティングアルゴリズムを記述しようとしています。私はそこのような既存のパッケージがあり理解gbmし、xgboost,しかし、私はしているアルゴリズムは、独自に書き込むことによって、どのように動作するかを理解したかったです。 irisデータセットを使用していますが、結果はSepal.Length(継続的)です。私の損失関数はmean(1/2*(y-yhat)^2)(基本的には前に1/2の平均二乗誤差)であるため、対応する勾配はただの残差y - yhatです。予測を0に初期化しています。 library(rpart) data(iris) #Define gradient grad.fun <- function(y, yhat) {return(y - yhat)} mod <- list() grad_boost <- function(data, learning.rate, M, grad.fun) { # Initialize fit to be 0 fit <- rep(0, nrow(data)) grad <- grad.fun(y = data$Sepal.Length, yhat = fit) # Initialize model mod[[1]] <- fit # …

2
pytorchモデルのパラメーターがリーフではなく、計算グラフにあるのはなぜですか?
ニューラルネットモデルのパラメーターを更新/変更し、更新されたニューラルネットのフォワードパスを計算グラフに含めようとしています(変更/更新の数に関係なく)。 私はこのアイデアを試しましたが、行うたびに、pytorchは更新されたテンソル(モデル内)をリーフに設定します。これにより、グラデーションを受け取りたいネットワークへのグラデーションのフローが強制終了されます。葉のノードは計算グラフの一部ではないため、グラデーションのフローが停止します(真に葉ではないため)。 私は複数のことを試しましたが、何も機能しないようです。グラデーションが必要なネットワークのグラデーションを出力する自己完結型のダミーコードを作成しました。 import torch import torch.nn as nn import copy from collections import OrderedDict # img = torch.randn([8,3,32,32]) # targets = torch.LongTensor([1, 2, 0, 6, 2, 9, 4, 9]) # img = torch.randn([1,3,32,32]) # targets = torch.LongTensor([1]) x = torch.randn(1) target = 12.0*x**2 criterion = nn.CrossEntropyLoss() #loss_net = nn.Sequential(OrderedDict([('conv0',nn.Conv2d(in_channels=3,out_channels=10,kernel_size=32))])) …

1
RuntimeError:入力タイプ(torch.FloatTensor)と重みタイプ(torch.cuda.FloatTensor)は同じである必要があります
次のように次のCNNをトレーニングしようとしていますが、.cuda()に関して同じエラーが発生し続け、それを修正する方法がわかりません。ここに私のコードのチャンクがあります。 import matplotlib.pyplot as plt import numpy as np import torch from torch import nn from torch import optim import torch.nn.functional as F import torchvision from torchvision import datasets, transforms, models from torch.utils.data.sampler import SubsetRandomSampler data_dir = "/home/ubuntu/ML2/ExamII/train2/" valid_size = .2 # Normalize the test and train sets with torchvision …

3
Keras / Tensorflowでトレーニング可能な一般化されたバンプ関数レイヤーを実装する
コンポーネントごとに適用されるバンプ関数の次のバリアントをコーディングしようとしています: 、 ここで、σはトレーニング可能です。しかし、機能していません(エラーは以下に報告されています)。 私の試み: これが私がこれまでにコーディングしたものです(役立つ場合)。(たとえば)2つの関数があるとします。 def f_True(x): # Compute Bump Function bump_value = 1-tf.math.pow(x,2) bump_value = -tf.math.pow(bump_value,-1) bump_value = tf.math.exp(bump_value) return(bump_value) def f_False(x): # Compute Bump Function x_out = 0*x return(x_out) class trainable_bump_layer(tf.keras.layers.Layer): def __init__(self, *args, **kwargs): super(trainable_bump_layer, self).__init__(*args, **kwargs) def build(self, input_shape): self.threshold_level = self.add_weight(name='threshlevel', shape=[1], initializer='GlorotUniform', trainable=True) def …

2
レイアウトが異なるPDFファイルからテキスト情報を抽出する-機械学習
現在作成しようとしているMLプロジェクトについてサポートが必要です。 多くの異なるサプライヤーから大量の請求書を受け取ります-すべて独自のレイアウトで。請求書から3つの重要な要素を抽出する必要があります。これらの3つの要素はすべて、すべての請求書のテーブル/ラインアイテムにあります。 3要素は次のとおりです。 1:関税番号(桁) 2:数量(常に数字) 3:合計明細金額(金額) 以下のスクリーンショットを参照してください。サンプルの請求書でこれらのフィールドにマークを付けています。 このプロジェクトは、正規表現に基づいたテンプレートアプローチから始めました。しかし、これはまったくスケーラブルではなく、大量の異なるルールになってしまいました。 ここで機械学習が役立つことを願っています-あるいは、ハイブリッドソリューションですか? 一般的な分母 では、すべての私の請求書の、異なるレイアウトのにもかかわらず、各ライン項目がします常に 1つので構成されて関税番号。この関税番号は常​​に8桁で、常に次のような方法でフォーマットされます。 xxxxxxxx xxxx.xxxx xx.xx.xx.xx (「x」は0から9までの数字です)。 さらに、請求書で確認できるように、1行あたりの単価と合計金額の両方があります。私が必要とする量は常に各行で最高です。 出力 上記のような各請求書について、各行の出力が必要です。これは、たとえば次のようなものになります。 { "line":"0", "tariff":"85444290", "quantity":"3", "amount":"258.93" }, { "line":"1", "tariff":"85444290", "quantity":"4", "amount":"548.32" }, { "line":"2", "tariff":"76109090", "quantity":"5", "amount":"412.30" } ここからどこへ行く? 私が何をしようとしているのかが機械学習に該当するかどうか、また該当する場合はどのカテゴリに該当するかわかりません。コンピュータビジョンですか?NLP?名前付きエンティティの認識? 私の最初の考えは: 請求書をテキストに変換します。(請求書はすべてpdftotextテキスト化可能なPDFであるため、正確なテキスト値を取得するようなものを使用できます) カスタム作成名前付きエンティティのためにquantity、tariffそしてamount 見つかったエンティティをエクスポートします。 でも、足りないものがあるようです。 誰かが正しい方向に私を助けることができますか? 編集: 請求書テーブルセクションがどのように表示されるかを示す他の例については、以下をご覧ください。 請求書の例2 請求書の例3 編集2: …
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.