Python — решение основной шумной капчи

Я пытаюсь решить базовые капчи, которые немного шумят, но это оказывается сложно.

Это образец изображения одной из капч:

Это код, который я использую:

import cv2
from pytesseract import image_to_string

img = cv2.imread("sample.png")
gry = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
(h, w) = gry.shape[:2]
gry = cv2.resize(gry, (w*2, h*2))
cls = cv2.morphologyEx(gry, cv2.MORPH_CLOSE, None)
thr = cv2.threshold(cls, 0, 255, cv2.THRESH_BINARY | cv2.THRESH_OTSU)[1]
txt = image_to_string(thr)
print(txt)

Результат, который я получаю, используя этот код: "_JHB9TPR

Это явно не правильно. Я думаю, что нужно проделать больше работы, чтобы сделать изображение более четким, чтобы буквы выделялись, но не помогает то, что буквы имеют те же цвета, что и некоторые фоновые шумы, что приводит к неправильному распознаванию некоторых букв.

Есть ли какой-либо другой метод (с образцом кода), который я должен использовать?

Я думаю, что вы находитесь в правильном направлении с порогом. Хотя я сомневаюсь, что pytesseract справится с наклонным текстом, возможно, я ошибаюсь. Этот ответ должен быть полезен для вашего конкретного вопроса. Не могли бы вы подтвердить, что pytesseract может извлекать текст под углом, создавая тот же текст вручную без какого-либо шума?

— 09.08.2023 19:34

@doneforaiur Ну, он может правильно понять некоторые буквы. Я думаю, проблема в том, что он борется с определенными буквами, когда фоновый шум смешивается с

— 10.08.2023 11:13

это капча. предполагается, что он не пускает людей, пытающихся автоматизировать обход CAPTCHA. Я считаю, что цель этой меры безопасности — дать вам решение. - Я думаю, что пороговое значение здесь неправильно. OCR делает это самостоятельно, если это требуется. современный OCR ненавидит пороговый ввод и лучше работает с необработанным вводом. люди обычно не знают, какую фильтрацию применять, и просто уничтожают информацию (пороговое определение — один из таких популярных способов уничтожения информации). вы можете попробовать медианный фильтр. если вы поместите его в неправильное положение конвейера, вы узнаете.

— 10.08.2023 12:25

python ocr tesseract captcha python-tesseract

09.08.2023 17:59

Почему в Python есть оператор "pass"?

Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.

Некоторые методы, о которых вы не знали, что они существуют в Python

Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...

Основы Python Часть I

Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?

LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа

Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:

Оптимизация кода с помощью тернарного оператора Python

И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это

Советы по эффективной веб-разработке с помощью Python

Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.

Перейти к ответу Данный вопрос помечен как решенный

Ответы 2

Ответ принят как подходящий

Для вашего конкретного образца:

img = cv2.imread("./sample.png")

gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

blur = cv2.GaussianBlur(gray, (5,5), sigmaX=1, sigmaY=1)


kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (2,2))
morph = cv2.morphologyEx(blur, cv2.MORPH_CLOSE, kernel)

txt = image_to_string(morph)
print(txt)

Выходы:

JH69TPR

Который выполняет OCR на этом изображении;

Редактировать; как предложил Кристоф Раквитц в комментариях, я удалил пороговое значение.

10.08.2023 12:25

Это два прохода медианного фильтра 3x3 с последующим растяжением гистограммы, затем Otsu.

Это капча. Это мера безопасности. Если вы можете обойти это самостоятельно, вы это заслужили. Я ничего не выиграю от его обхода.

Любые проблемы, которые могут возникнуть у вашего OCR, можно исправить, пройдя дополнительное обучение. Если ваш OCR не может пройти обучение, возможно, он слишком устарел, и вам следует поискать что-то более интеллектуальное. Фактический OCR на основе ИИ можно просто научить выдерживать шум в таких входных данных. Все, что основано на технологиях прошлого века, даже с «привинченным» ИИ, всегда будет иметь проблемы. Любой OCR, который требует порогового значения или выполняет собственное пороговое значение, неисправен.

10.08.2023 12:35

Другие вопросы по теме

Как обнаружить несмежные символы с помощью CV2?

Извлечение арабского числа из текстового файла

Google DocumentAI не выводится в правильном порядке блоков

Как узнать номер модели в изображении, сгенерированном OCR?

Как определить цифры с изображения с помощью Tesseract 5?

OCR Чтение столбца из таблицы PDF в Google AppScript

Что я могу сделать, чтобы улучшить результат распознавания с помощью pytesseract?

Обнаружение всех прямоугольников и контуров из jpg отсканированной структурированной бумажной формы с использованием OpenCV

Почему pytesseract.image_to_string не сохраняет межсловные пробелы?

Python — решение основной шумной капчи

Ответы 2

Другие вопросы по теме

Похожие вопросы