Извлечение и анализ конкретной информации о макете из механизма распознавания текста

Question

Извлечение и анализ конкретной информации о макете из механизма распознавания текста

Я пытаюсь проанализировать информацию о макете из движков распознавания текста с помощью PHP, за исключением того, что они не предоставляют никаких подробностей.

У меня установлены как Тессеракт (с Лептоникой), так и клинопись. Предположительно, клинопись отлично распознает расположение (т. Е. Что такое текст, что такое картинка и т.д.) Входными данными являются файлы PNG как с текстом, так и с изображениями (очевидно, что текст является частью изображения.)

Все они, похоже, думают, что я хочу выводить данные в формате txt, html или hocr... когда то, что я хочу, - это координаты того, что он считает текстом, и того, что он считает изображением.

У клинописи есть "собственный" вариант вывода, который представляет собой формат клинописи 2000, открывая его в Notepad++, я вижу, что он сжат. Я пытался извлечь его с помощью zip и gzip, но ни один из них не распознает его. В Google также нет информации о родном клинописном формате.

У кого-нибудь есть идеи, как извлечь информацию о макете из Тессеракта или клинописи... или у кого-нибудь есть идеи получше, чтобы выяснить расположение изображение, содержащее текстовые блоки и картинки?

3

php layout ocr tesseract

Author: Alasdair, 2011-12-03

Source

1 answers

score 3 · Accepted Answer

Взгляните на Движок ABBYY FineReader. Он имеет очень умный API, который предоставляет максимальную информацию о распознанном тексте, включая его координаты. Это не бесплатно, но когда дело доходит до бизнес–программного обеспечения - технологии распознавания текста ABBYY могут серьезно повысить ценность вашего продукта.

Поскольку вы работаете над веб-приложением на PHP, вы можете использовать веб-API ABBYY OCR Engine по адресу www.ocrsdk.com . Сейчас он находится в закрытой бета-версии, так что пока им можно пользоваться бесплатно.