OpenCV-Pythonのシンプルな数字認識OCR


380

OpenCV-Python(cv2)で「数字認識OCR」を実装しようとしています。それは単に学習目的のためです。OpenCVのKNearest機能とSVM機能の両方について学びたいと思います。

各桁のサンプル(画像)が100個あります。一緒にトレーニングしたいです。

letter_recog.pyOpenCVサンプルに付属するサンプルがあります。しかし、それをどうやって使うのかまだ分かりませんでした。サンプルやレスポンスなどがわかりません。また、最初はtxtファイルが読み込まれましたが、最初はわかりませんでした。

後で少し検索すると、cppサンプルにletter_recognition.dataが見つかりました。私はそれを使用し、letter_recog.pyのモデルでcv2.KNearestのコードを作成しました(テスト用のみ):

import numpy as np
import cv2

fn = 'letter-recognition.data'
a = np.loadtxt(fn, np.float32, delimiter=',', converters={ 0 : lambda ch : ord(ch)-ord('A') })
samples, responses = a[:,1:], a[:,0]

model = cv2.KNearest()
retval = model.train(samples,responses)
retval, results, neigh_resp, dists = model.find_nearest(samples, k = 10)
print results.ravel()

それは私にサイズ20000の配列を与えました、私はそれが何であるかわかりません。

質問:

1)letter_recognition.dataファイルとは何ですか?自分のデータセットからそのファイルを構築するにはどうすればよいですか?

2)何を意味しresults.reval()ますか?

3)letter_recognition.dataファイル(KNearestまたはSVM)を使用して、単純な数字認識ツールをどのように作成できますか?

回答:


527

さて、私は上記の問題を解決するために私の質問に自分でワークアウトすることを決めました。私が欲しかったのは、OpenCVでKNearestまたはSVM機能を使用して簡単なOCRを実装することです。そして以下は私がしたこととその方法です。(これは、単純なOCRの目的でKNearestを使用する方法を学ぶためだけのものです)。

1)最初の質問は、OpenCVサンプルに付属するletter_recognition.dataファイルに関するものでした。そのファイルの内容を知りたかったのです。

手紙とその手紙の16の特徴が含まれています。

そしてthis SOFそれを見つけるのを助けてくれました。これらの16の機能については、ペーパーで説明しLetter Recognition Using Holland-Style Adaptive Classifiersます。(私は最後にいくつかの機能を理解していませんでしたが)

2)これらの機能をすべて理解せずに知っていたので、その方法を実行することは困難です。他の論文も試しましたが、初心者には少し難しかったです。

So I just decided to take all the pixel values as my features. (私は正確さやパフォーマンスについて心配していませんでした、少なくとも最低限の正確さでそれが機能することを望んでいました)

以下の画像をトレーニングデータに使用しました。

ここに画像の説明を入力してください

(トレーニングデータの量は少なくなっています。しかし、すべての文字が同じフォントとサイズであるため、これを試すことにしました)。

トレーニング用のデータを準備するために、OpenCVで小さなコードを作成しました。次のことを行います。

  1. 画像を読み込みます。
  2. 数字を選択します(明らかに、輪郭の検出と文字の面積と高さに制約を適用して、誤検出を回避します)。
  3. 1文字の周りに外接する長方形を描画し、を待ちkey press manuallyます。今回は、ボックス内の文字に対応する数字キーを自分で押します。
  4. 対応する数字キーが押されると、このボックスのサイズが10x10に変更され、100ピクセル値が配列(ここではサンプル)に保存され、対応する手動で入力された数字が別の配列(ここでは応答)に保存されます。
  5. 次に、両方の配列を別々のtxtファイルに保存します。

数字の手動分類の最後に、trainデータ(train.png)のすべての数字に手動でラベルが付けられ、画像は次のようになります。

ここに画像の説明を入力してください

以下は上記の目的で使用したコードです(もちろん、それほどクリーンではありません)。

import sys

import numpy as np
import cv2

im = cv2.imread('pitrain.png')
im3 = im.copy()

gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray,(5,5),0)
thresh = cv2.adaptiveThreshold(blur,255,1,1,11,2)

#################      Now finding Contours         ###################

contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

samples =  np.empty((0,100))
responses = []
keys = [i for i in range(48,58)]

for cnt in contours:
    if cv2.contourArea(cnt)>50:
        [x,y,w,h] = cv2.boundingRect(cnt)

        if  h>28:
            cv2.rectangle(im,(x,y),(x+w,y+h),(0,0,255),2)
            roi = thresh[y:y+h,x:x+w]
            roismall = cv2.resize(roi,(10,10))
            cv2.imshow('norm',im)
            key = cv2.waitKey(0)

            if key == 27:  # (escape to quit)
                sys.exit()
            elif key in keys:
                responses.append(int(chr(key)))
                sample = roismall.reshape((1,100))
                samples = np.append(samples,sample,0)

responses = np.array(responses,np.float32)
responses = responses.reshape((responses.size,1))
print "training complete"

np.savetxt('generalsamples.data',samples)
np.savetxt('generalresponses.data',responses)

次に、トレーニングとテストの部分に入ります。

パーツをテストするために、下の画像を使用しました。これは、トレーニングに使用した文字と同じタイプの文字です。

ここに画像の説明を入力してください

トレーニングは次のように行います

  1. 以前に保存したtxtファイルをロードします
  2. 使用している分類子のインスタンスを作成します(ここでは、KNearestです)。
  3. 次に、KNearest.train関数を使用してデータをトレーニングします

テストのために、次のようにします。

  1. テストに使用する画像を読み込みます
  2. 以前のように画像を処理し、等高線法を使用して各桁を抽出します
  3. そのための境界ボックスを描画し、10x10にサイズ変更し、そのピクセル値を前述のように配列に格納します。
  4. 次に、KNearest.find_nearest()関数を使用して、指定したアイテムに最も近いアイテムを見つけます。(運が良ければ、正しい数字を認識します。)

以下の1つのコードに最後の2つのステップ(トレーニングとテスト)を含めました。

import cv2
import numpy as np

#######   training part    ############### 
samples = np.loadtxt('generalsamples.data',np.float32)
responses = np.loadtxt('generalresponses.data',np.float32)
responses = responses.reshape((responses.size,1))

model = cv2.KNearest()
model.train(samples,responses)

############################# testing part  #########################

im = cv2.imread('pi.png')
out = np.zeros(im.shape,np.uint8)
gray = cv2.cvtColor(im,cv2.COLOR_BGR2GRAY)
thresh = cv2.adaptiveThreshold(gray,255,1,1,11,2)

contours,hierarchy = cv2.findContours(thresh,cv2.RETR_LIST,cv2.CHAIN_APPROX_SIMPLE)

for cnt in contours:
    if cv2.contourArea(cnt)>50:
        [x,y,w,h] = cv2.boundingRect(cnt)
        if  h>28:
            cv2.rectangle(im,(x,y),(x+w,y+h),(0,255,0),2)
            roi = thresh[y:y+h,x:x+w]
            roismall = cv2.resize(roi,(10,10))
            roismall = roismall.reshape((1,100))
            roismall = np.float32(roismall)
            retval, results, neigh_resp, dists = model.find_nearest(roismall, k = 1)
            string = str(int((results[0][0])))
            cv2.putText(out,string,(x,y+h),0,1,(0,255,0))

cv2.imshow('im',im)
cv2.imshow('out',out)
cv2.waitKey(0)

そしてそれはうまくいきました、以下は私が得た結果です:

ここに画像の説明を入力してください


ここでは100%の精度で動作しました。これは、すべての桁が同じ種類で同じサイズであるためと考えられます。

しかし、いずれにしても、これは初心者にとって良い出発点です(そう思います)。


67
+1長い投稿ですが、非常に教育的です。これは
opencv

12
誰かが興味を持っている場合に備えて、私はこのコードから適切なOOエンジンを作りました:github.com/goncalopp/simple-ocr-opencv
goncalopp

10
明確に定義された完璧なフォントがある場合は、SVMとKNNを使用する必要がないことに注意してください。たとえば、数字の0、4、6、9は1つのグループを形成し、数字の1、2、3、5、7は別のグループを形成し、8は別のグループを形成します。このグループはオイラー数によって与えられます。次に、「0」には端点がなく、「4」には2つあり、「6」と「9」は重心位置によって区別されます。「3」は、3つのエンドポイントを持つ他のグループの唯一のグループです。「1」と「7」はスケルトンの長さで区別されます。凸包と指を合わせて考えると、「5」と「2」には2つの穴があり、最大の穴の重心で区別できます。
mmgp 2013年

4
問題が発生しました。ありがとうございます。それは素晴らしいチュートリアルでした。私は小さな間違いをしていました。私と@rashのような他の誰かがこの問題で同じ問題に直面している場合は、間違ったキーを押しているためです。ボックス内の番号ごとに、その番号を入力して、トレーニングを受けるようにする必要があります。お役に立てば幸いです。
shalki 2013年

19
優れたチュートリアル。ありがとうございました!これをOpenCVの最新(3.1)バージョンで動作させるには、いくつかの変更が必要です。 (thresh、cv2.RETR_LIST、cv2.CHAIN_APPROX_SIMPLE)、モデル= cv2.KNearest()=>モデル= cv2.ml.KNearest_create()、model.train(samples、responses)=> model.train(samples、cv2.ml .ROW_SAMPLE、responses)、retval、results、neigh_resp、dists = model.find_nearest(roismall、k = 1)=> retval、results、neigh_resp、dists = model.find_nearest(roismall、k = 1)
Johannes Brodwall

53

C ++コードに興味のある方は、以下のコードを参照してください。素晴らしい説明をしてくれたAbid Rahmanに感謝します。


手順は上記と同じですが、輪郭の検出では最初の階層レベルの輪郭のみが使用されるため、アルゴリズムは各桁で外側の輪郭のみを使用します。

サンプルおよびラベルデータを作成するためのコード

//Process image to extract contour
Mat thr,gray,con;
Mat src=imread("digit.png",1);
cvtColor(src,gray,CV_BGR2GRAY);
threshold(gray,thr,200,255,THRESH_BINARY_INV); //Threshold to find contour
thr.copyTo(con);

// Create sample and label data
vector< vector <Point> > contours; // Vector for storing contour
vector< Vec4i > hierarchy;
Mat sample;
Mat response_array;  
findContours( con, contours, hierarchy,CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE ); //Find contour

for( int i = 0; i< contours.size(); i=hierarchy[i][0] ) // iterate through first hierarchy level contours
{
    Rect r= boundingRect(contours[i]); //Find bounding rect for each contour
    rectangle(src,Point(r.x,r.y), Point(r.x+r.width,r.y+r.height), Scalar(0,0,255),2,8,0);
    Mat ROI = thr(r); //Crop the image
    Mat tmp1, tmp2;
    resize(ROI,tmp1, Size(10,10), 0,0,INTER_LINEAR ); //resize to 10X10
    tmp1.convertTo(tmp2,CV_32FC1); //convert to float
    sample.push_back(tmp2.reshape(1,1)); // Store  sample data
    imshow("src",src);
    int c=waitKey(0); // Read corresponding label for contour from keyoard
    c-=0x30;     // Convert ascii to intiger value
    response_array.push_back(c); // Store label to a mat
    rectangle(src,Point(r.x,r.y), Point(r.x+r.width,r.y+r.height), Scalar(0,255,0),2,8,0);    
}

// Store the data to file
Mat response,tmp;
tmp=response_array.reshape(1,1); //make continuous
tmp.convertTo(response,CV_32FC1); // Convert  to float

FileStorage Data("TrainingData.yml",FileStorage::WRITE); // Store the sample data in a file
Data << "data" << sample;
Data.release();

FileStorage Label("LabelData.yml",FileStorage::WRITE); // Store the label data in a file
Label << "label" << response;
Label.release();
cout<<"Training and Label data created successfully....!! "<<endl;

imshow("src",src);
waitKey();

トレーニングとテストのコード

Mat thr,gray,con;
Mat src=imread("dig.png",1);
cvtColor(src,gray,CV_BGR2GRAY);
threshold(gray,thr,200,255,THRESH_BINARY_INV); // Threshold to create input
thr.copyTo(con);


// Read stored sample and label for training
Mat sample;
Mat response,tmp;
FileStorage Data("TrainingData.yml",FileStorage::READ); // Read traing data to a Mat
Data["data"] >> sample;
Data.release();

FileStorage Label("LabelData.yml",FileStorage::READ); // Read label data to a Mat
Label["label"] >> response;
Label.release();


KNearest knn;
knn.train(sample,response); // Train with sample and responses
cout<<"Training compleated.....!!"<<endl;

vector< vector <Point> > contours; // Vector for storing contour
vector< Vec4i > hierarchy;

//Create input sample by contour finding and cropping
findContours( con, contours, hierarchy,CV_RETR_CCOMP, CV_CHAIN_APPROX_SIMPLE );
Mat dst(src.rows,src.cols,CV_8UC3,Scalar::all(0));

for( int i = 0; i< contours.size(); i=hierarchy[i][0] ) // iterate through each contour for first hierarchy level .
{
    Rect r= boundingRect(contours[i]);
    Mat ROI = thr(r);
    Mat tmp1, tmp2;
    resize(ROI,tmp1, Size(10,10), 0,0,INTER_LINEAR );
    tmp1.convertTo(tmp2,CV_32FC1);
    float p=knn.find_nearest(tmp2.reshape(1,1), 1);
    char name[4];
    sprintf(name,"%d",(int)p);
    putText( dst,name,Point(r.x,r.y+r.height) ,0,1, Scalar(0, 255, 0), 2, 8 );
}

imshow("src",src);
imshow("dst",dst);
imwrite("dest.jpg",dst);
waitKey();

結果

結果では、最初の行のドットが8として検出され、ドットのトレーニングが行われていません。また、最初の階層レベルのすべての等高線をサンプル入力として検討しています。ユーザーは面積を計算することでそれを回避できます。

結果


1
このコードを実行するのに疲れました。サンプルとラベルのデータを作成することができました。しかし、テストトレーニングファイルを実行すると、エラーが発生*** stack smashing detected ***:して実行されるため、上に行くにつれて最終的な適切な画像が得られません(数字は緑色)
skm

1
char name[4];はあなたのコードをに変更しましたchar name[7];が、スタック関連のエラーを受け取りませんでしたが、それでも正しい結果が得られません。次のような画像が表示されます< i.imgur.com/qRkV2B4.jpg >
skm

@skm輪郭の数が画像の桁数と同じであることを確認し、結果をコンソールに出力してみてください。
ハリス

1
こんにちは、訓練されたネットを読み込んで使用できますか?
ヨーデ

14

機械学習の最先端技術に興味がある場合は、ディープラーニングを検討する必要があります。CUDAをサポートするGPUを使用するか、Amazon WebサービスでGPUを使用する必要があります。

Google Udacityには、Tensor Flowを使用したこれに関する素晴らしいチュートリアルがあります。このチュートリアルでは、手書きの数字で独自の分類子をトレーニングする方法について説明します。たたみ込みネットワークを使用したテストセットで97%を超える精度が得られました。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.