Я пытаюсь решить базовые капчи, которые немного шумят, но это оказывается сложно.
Это образец изображения одной из капч:
Это код, который я использую:
import cv2
from pytesseract import image_to_string
img = cv2.imread("sample.png")
gry = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
(h, w) = gry.shape[:2]
gry = cv2.resize(gry, (w*2, h*2))
cls = cv2.morphologyEx(gry, cv2.MORPH_CLOSE, None)
thr = cv2.threshold(cls, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
txt = image_to_string(thr)
print(txt)
Результат, который я получаю, используя этот код: "_JHB9TPR
Это явно не правильно. Я думаю, что нужно проделать больше работы, чтобы сделать изображение более четким, чтобы буквы выделялись, но не помогает то, что буквы имеют те же цвета, что и некоторые фоновые шумы, что приводит к неправильному распознаванию некоторых букв.
Есть ли какой-либо другой метод (с образцом кода), который я должен использовать?
@doneforaiur Ну, он может правильно понять некоторые буквы. Я думаю, проблема в том, что он борется с определенными буквами, когда фоновый шум смешивается с
это капча. предполагается, что он не пускает людей, пытающихся автоматизировать обход CAPTCHA. Я считаю, что цель этой меры безопасности — дать вам решение. - Я думаю, что пороговое значение здесь неправильно. OCR делает это самостоятельно, если это требуется. современный OCR ненавидит пороговый ввод и лучше работает с необработанным вводом. люди обычно не знают, какую фильтрацию применять, и просто уничтожают информацию (пороговое определение — один из таких популярных способов уничтожения информации). вы можете попробовать медианный фильтр. если вы поместите его в неправильное положение конвейера, вы узнаете.






Для вашего конкретного образца:
img = cv2.imread("./sample.png")
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
blur = cv2.GaussianBlur(gray, (5,5), sigmaX=1, sigmaY=1)
kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2,2))
morph = cv2.morphologyEx(blur, cv2.MORPH_CLOSE, kernel)
txt = image_to_string(morph)
print(txt)
Выходы:
JH69TPR
Который выполняет OCR на этом изображении;
Редактировать; как предложил Кристоф Раквитц в комментариях, я удалил пороговое значение.
Это два прохода медианного фильтра 3x3 с последующим растяжением гистограммы, затем Otsu.
Это капча. Это мера безопасности. Если вы можете обойти это самостоятельно, вы это заслужили. Я ничего не выиграю от его обхода.
Любые проблемы, которые могут возникнуть у вашего OCR, можно исправить, пройдя дополнительное обучение. Если ваш OCR не может пройти обучение, возможно, он слишком устарел, и вам следует поискать что-то более интеллектуальное. Фактический OCR на основе ИИ можно просто научить выдерживать шум в таких входных данных. Все, что основано на технологиях прошлого века, даже с «привинченным» ИИ, всегда будет иметь проблемы. Любой OCR, который требует порогового значения или выполняет собственное пороговое значение, неисправен.
Я думаю, что вы находитесь в правильном направлении с порогом. Хотя я сомневаюсь, что
pytesseractсправится с наклонным текстом, возможно, я ошибаюсь. Этот ответ должен быть полезен для вашего конкретного вопроса. Не могли бы вы подтвердить, чтоpytesseractможет извлекать текст под углом, создавая тот же текст вручную без какого-либо шума?