Извлечение и анализ конкретной информации о макете из механизма распознавания текста
Я пытаюсь проанализировать информацию о макете из движков распознавания текста с помощью PHP, за исключением того, что они не предоставляют никаких подробностей.
У меня установлены как Тессеракт (с Лептоникой), так и клинопись. Предположительно, клинопись отлично распознает расположение (т. Е. Что такое текст, что такое картинка и т.д.) Входными данными являются файлы PNG как с текстом, так и с изображениями (очевидно, что текст является частью изображения.)
Все они, похоже, думают, что я хочу выводить данные в формате txt, html или hocr... когда то, что я хочу, - это координаты того, что он считает текстом, и того, что он считает изображением.
У клинописи есть "собственный" вариант вывода, который представляет собой формат клинописи 2000, открывая его в Notepad++, я вижу, что он сжат. Я пытался извлечь его с помощью zip и gzip, но ни один из них не распознает его. В Google также нет информации о родном клинописном формате.
У кого-нибудь есть идеи, как извлечь информацию о макете из Тессеракта или клинописи... или у кого-нибудь есть идеи получше, чтобы выяснить расположение изображение, содержащее текстовые блоки и картинки?
1 answers
Взгляните на Движок ABBYY FineReader. Он имеет очень умный API, который предоставляет максимальную информацию о распознанном тексте, включая его координаты. Это не бесплатно, но когда дело доходит до бизнес–программного обеспечения - технологии распознавания текста ABBYY могут серьезно повысить ценность вашего продукта.
Поскольку вы работаете над веб-приложением на PHP, вы можете использовать веб-API ABBYY OCR Engine по адресу www.ocrsdk.com . Сейчас он находится в закрытой бета-версии, так что пока им можно пользоваться бесплатно.