Распознание картинок (не капча)

если нужен лишь контроль ответного текста
получаеш картинку, делаеш её md5 и набиваеш базу

md5 = текст

такой вариант будет работать даже на php ))

файнридер должен распознавать, вырезай предварительно нужную тебе область картинки + ЧБ + повышение контраста + делай так чтобы буквы были чёрными (если нужно делай инверт)
 
Finereader если указать облость текста и поставить дпи 50 распознает но это тормоз ещё тот.
Изначально именно так и делал скринил только страницу с аука далее вырезал названия колличество цену и дату и уже эти кусочки распознавать пробывал.
Так как игра eng языка то названия проблем не вызвали дата при изменении размера картинки и видимо подгонки под размер какогото шрифта тоже распознается но вот количество и цена стали проблемой, после шаманства с контрастом и монохромом ресайзом и размытия подобрался к варианту в котором все кроме 4 распозноется её за . принемает и хоть убей проверил на 150 картинках итог равный заменил тупо на 4.
И добрался до цены с ней хоть раком... Не пробивается и все.
В итоге картинка была увеличена в 4 раза от оригинала и tesseract был обучен. Самая большая проблема и ошибка была в том что мне просто нужно было обучить прогу. Но я немогу потому как получал ошибку решение которой небыло. Как в итоге выяснилось нехрен ставить 100500 версий 1 проги и работать хрен пойми на какой должна стоять 1 или работать на последней установленой там что то с какойто переменной происходит она переписывается при инстайле и лезет ошибка которая по гоше ведет в другую сторону...

MD5 непрокатит как минимум там есть слабо изменяемы фон... Этот вариант конечно был бы очень быстрым (не считая подготовки) но это не вариант в итоге.

Итак вердикт, Если распознаете скрины .
1) Используем Tesseract от 3.02 версии.
2) Скрины нарезаем на составные части с минимумом лишнего.
3) Обучаем прогу распозновать (на компе должна стоять только 1 версия этой троги)
4) В статье которую я приведу ниже процес обучения расписан подробно но читать можно между строк.
5) Для распознания нужно взять оригинал увеличить в 2 раза (если шрифт не достигает 11-12 px в высоту если есть неувеличиваем)
6) Обучить на итоговых картинках. Если шрифт одинаковый то можно взять по 1 примеру символа но нужно четко указать размер прямоугольника символа. Если берете не все что предлогает база обучения удалите лишнее и сохраните далее в язык перегоните
7) После обучения картинки нужно увеличивать в 4 раза перед распознанием (соответственно если вы не увеличивали на обучении то в 2)
8) Смотрим радуемся или правим язык.

Как то так. В итоге я добился 100% распознания... Но это по анализу 7*9*4 картинок
Статья которая мне помогла.
Для просмотра ссылки Войди или Зарегистрируйся


PS. Едрить.... че за мошки на нулледе и какого хрена у меня все размыто и криво...
1 апреля нихрена не оправдание ))

Всем спасибо тему можно закрывать.
 
Назад
Сверху