Преобразование графиков из отсканированного документа в данные

В настоящее время я пытаюсь написать что-то, что может извлекать данные из некоторых необычных графиков в книге. Я просмотрел страницы книги, и с помощью opencv я хотел бы обнаружить некоторые функции на графиках, чтобы преобразовать их в полезные данные. На левом графике я ищу высоту «треугольников», а на правом графике расстояние от центра до точек, где пунктирные линии пересекаются с серой областью. В обоих случаях я хотел бы преобразовать эти значения в числовые данные для дальнейшего использования.

Преобразование графиков из отсканированного документа в данные

Первое, о чем я подумал, это обнаружить линии графиков в надежде, что смогу как-то измерить их длину или положение. Для этого я использую преобразование линии Хафа. Следующий фрагмент кода показывает, как далеко я уже продвинулся.

import numpy as np
import cv2

# Reading the image
img = cv2.imread('test2.jpg')
# Convert the image to grayscale
gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)
# Apply edge detection
edges = cv2.Canny(gray,50,150,apertureSize = 3)

# Line detection
lines = cv2.HoughLinesP(edges,1,np.pi/180,100,minLineLength=50,maxLineGap=20)

for line in lines:
    x1,y1,x2,y2 = line[0]
    cv2.line(img,(x1,y1),(x2,y2),(0,0,255),2)

cv2.imwrite('linesDetected.jpg',img)

Единственная проблема заключается в том, что этот алгоритм обнаружения совсем не точен. По крайней мере не для меня. А для того, чтобы извлечь какие-то данные из графиков, определение линий должно быть достаточно точным. Могу ли я каким-либо образом сделать это? Или моя стратегия обнаружения линий изначально неверна? Может быть, мне начать с обнаружения чего-то еще, например, кругов, размеров объектов, контуров или цветов?

Графики круговые, так что, может быть, сначала ищите этот круг, а не линии? Различные сегменты круга имеют разный оттенок, поэтому используйте оттенок, чтобы разделить их? Спроецируйте линию посередине каждого сегмента и найдите, где меняется насыщенность. | Вторая диаграмма, кажется, отсканирована с очень плохим разрешением — можете ли вы получить изображение получше?

Dan Mašek 28.05.2019 17:55
Почему в Python есть оператор "pass"?
Почему в Python есть оператор "pass"?
Оператор pass в Python - это простая концепция, которую могут быстро освоить даже новички без опыта программирования.
Некоторые методы, о которых вы не знали, что они существуют в Python
Некоторые методы, о которых вы не знали, что они существуют в Python
Python - самый известный и самый простой в изучении язык в наши дни. Имея широкий спектр применения в области машинного обучения, Data Science,...
Основы Python Часть I
Основы Python Часть I
Вы когда-нибудь задумывались, почему в программах на Python вы видите приведенный ниже код?
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
LeetCode - 1579. Удаление максимального числа ребер для сохранения полной проходимости графа
Алиса и Боб имеют неориентированный граф из n узлов и трех типов ребер:
Оптимизация кода с помощью тернарного оператора Python
Оптимизация кода с помощью тернарного оператора Python
И последнее, что мы хотели бы показать вам, прежде чем двигаться дальше, это
Советы по эффективной веб-разработке с помощью Python
Советы по эффективной веб-разработке с помощью Python
Как веб-разработчик, Python может стать мощным инструментом для создания эффективных и масштабируемых веб-приложений.
1
1
566
1
Перейти к ответу Данный вопрос помечен как решенный

Ответы 1

Ответ принят как подходящий

Использование цветовой сегментации — простой способ преобразовать этот график в данные. Этот метод требует некоторой ручной аннотации. После сегментации графика подсчитайте пиксели для каждого цвета. Посмотрите демонстрацию «водораздела» в демонстрационных файлах, которые включены в библиотеку OpenCV:

segmenting

import numpy as np
import cv2 as cv
from common import Sketcher

class App:
    def __init__(self, fn):
        self.img = cv.imread(fn)
        self.img = cv.resize(self.img, (654,654))
        h, w = self.img.shape[:2]
        self.markers = np.zeros((h, w), np.int32)
        self.markers_vis = self.img.copy()
        self.cur_marker = 1
        self.colors = np.int32( list(np.ndindex(2, 2, 3)) ) * 123
        self.auto_update = True
        self.sketch = Sketcher('img', [self.markers_vis, self.markers], self.get_colors)

    def get_colors(self):
        return list(map(int, self.colors[self.cur_marker])), self.cur_marker

    def watershed(self):
        m = self.markers.copy()
        cv.watershed(self.img, m)
        cv.imshow('img', self.img)        
        overlay = self.colors[np.maximum(m, 0)]
        vis = cv.addWeighted(self.img, 0.5, overlay, 0.5, 0.0, dtype=cv.CV_8UC3)
        cv.imshow('overlay', np.array(overlay, np.uint8))
        cv.imwrite('/home/stephen/Desktop/overlay.png', np.array(overlay, np.uint8))
        cv.imshow('watershed', vis)

    def run(self):
        while cv.getWindowProperty('img', 0) != -1 or cv.getWindowProperty('watershed', 0) != -1:
            ch = cv.waitKey(50)
            if ch >= ord('1') and ch <= ord('9'):
                self.cur_marker = ch - ord('0')
                print('marker: ', self.cur_marker)
            if self.sketch.dirty and self.auto_update:
                self.watershed()
                self.sketch.dirty = False
            if ch == 27: break
        cv.destroyAllWindows()


fn = '/home/stephen/Desktop/test.png'
App(cv.samples.findFile(fn)).run() 

На выходе будет такое изображение:

segmentation output

Вы можете подсчитать пиксели для каждого цвета, используя этот код:

# Extract the values from the image
vals = []
img = cv.imread('/home/stephen/Desktop/overlay.png')
# Get the colors in the image
flat = img.reshape(-1, img.shape[-1])
colors = np.unique(flat, axis=0)
# Iterate through the colors (ignore the first and last colors)
for color in colors[1:-1]:
    a,b,c = color
    lower = a-1, b-1, c-1
    upper = a+1,b+1,c+1
    lower = np.array(lower)
    upper = np.array(upper)
    mask = cv.inRange(img, lower, upper)
    vals.append(sum(sum(mask)))
    cv.imshow('mask', mask)
    cv.waitKey(0)
cv.destroyAllWindows()

И распечатайте выходные данные, используя этот код:

names = ['alcohol', 'esters', 'biter', 'hoppy', 'acid', 'zoetheid', 'mout']
print(list(zip(names, vals)))

Результат:

[('alcohol', 22118), ('esters', 26000), ('biter', 16245), ('hoppy', 21170), ('acid', 19156), ('zoetheid', 11090), ('mout', 7167)]

Это похоже на шаг в правильном направлении. Единственная проблема в том, что у меня есть книга, полная этих графиков, поэтому мне нужно найти способ автоматизировать этот процесс.

Frederik Vanclooster 29.05.2019 00:11

@FrederikVanclooster Если вы хотите автоматизировать извлечение данных, было бы полезно, если бы вы могли доказать сканирование нескольких графиков с высоким разрешением.

Stephen Meschke 29.05.2019 00:26

Сейчас нет под рукой. Намерение состояло в том, чтобы найти стратегию, используя «тестовое сканирование», представленное на рисунке выше. Чтобы, найдя рабочий метод, отсканировать всю книгу в хорошем разрешении. Проблема в том, что мой принтер дома выдает сканы еще худшего разрешения, чем скан выше, так что мне придется в один из следующих дней ехать в какой-то копи-центр...

Frederik Vanclooster 30.05.2019 01:23

Кстати, а что означает строка "из общих импортных эскизов"? Где я могу найти этот класс Sketcher?

Frederik Vanclooster 02.06.2019 15:09

Вы можете найти класс Sketcher в примерах OpenCV (/opencv/samples/python/common.py). У него есть такие вещи, как код обратного вызова мыши.

Stephen Meschke 02.06.2019 19:04

Другие вопросы по теме