Php - Загрузка doc, docx, pdf - извлечение всего содержимого [закрыто]

Question

Php - Загрузка doc, docx, pdf - извлечение всего содержимого [закрыто]

Есть ли возможность выполнить распознавание текста при загрузке документа?
Можем ли мы проиндексировать весь документ?
Может ли поисковая система индексировать весь документ целиком? Даже несмотря на то, что пользователи должны платить за просмотр полного документа?
Может ли документ отображаться в виде предварительного просмотра, когда виден только выбранный отрывок, а остальные размыты, при этом формат документа все еще доступен для просмотра?

Я пытался найти легкий решения этих вопросов с использованием простых функций php или чего-то такого, что не похоже на ракетостроение. Но куда бы я ни посмотрел, я вижу, как люди говорят об ApachePOI и Solr Cell и обо всех этих командах сервера, о которых я понятия не имею. Что касается последнего вопроса, я мог только понять, что мы можем использовать PHPGD и генерировать изображения с размытым содержимым, но я не был уверен, как это сделать, если в документе есть форматированный текст, изображения, таблицы и т. Д.

Так что, если кто-то имеет простые решения или даже сложные решения, но с ПРОСТЫМИ инструкциями, они подойдут. Что-то вроде "извлечение содержимого php-документа для нубов", которое будет начинаться с букв "а" и "в".

Заранее благодарю вас!

3

php pdf extract docx doc

Author: hakre, 2012-01-29

Source

3 answers

есть ли возможность выполнить распознавание текста при загрузке документа?

Конечно, распознавание работает с любыми данными изображения. Компоненты распознавания текста действительно существуют, просто используйте один из них.

можем ли мы проиндексировать весь документ?

Я не могу сказать вам, можем ли "мы", но я могу индексировать документы. Вам просто нужен документ, индекс и процедура для индексации документа.

может ли поисковая система индексировать весь документ целиком? Даже несмотря на то, что пользователи требуется заплатить, чтобы просмотреть полный документ?

Это зависит от формата документа. Если документ защищен и индексатор не может получить к нему полный доступ, то он не может индексировать его полностью. С другой стороны, если индекс способен обойти защиту, он может индексировать его в любом случае, но это может быть юридически сомнительно в некоторых областях права. Технически это не должно быть проблемой.

можно ли отобразить документ в виде предварительного просмотра только с выбранный отрывок виден, а остальные размыты, при этом формат документа все еще доступен для просмотра?

Почему бы и нет? Я имею в виду, если у вас есть такая рутина отображения, в чем дело?

Если ваша проблема в том, что вы не знакомы с используемыми технологиями, я предлагаю вам связаться с кем-нибудь, кто знаком и может вам это объяснить. Для некоторых задач компоненты должны существовать, однако именно вам необходимо объединить их. Ваш вопрос охватывает слишком многое, поэтому что есть решение из коробки.

0

Author: hakre, 2012-01-29 10:38:06

Многочлен правильный. Вы не найдете все это в одном месте. Даже распознавание текста потребует нескольких модулей для правильной работы, и ни один из них не будет полностью бесплатным. Если вы хотите разумное распознавание текста, вам нужно будет использовать коммерческий движок.

Вам понадобится конвертер Word DOC/DOCX в TIFF вместе с конвертером PDF в TIFF, или вам нужно будет купить что-то вроде ABBYY FineReader SDK для выполнения распознавания текста, что не будет дешевым, но, безусловно, будет делайте гораздо лучшую работу, чем распознавание текста Tesseract.

Индексирование и поиск, вероятно, проще всего выполнить с помощью ячеек ApachePOI и Solr, но для размытого предварительного просмотра потребуется некоторое пользовательское кодирование.

Этот проект не будет легким или дешевым.

0

Author: Andrew Cash, 2012-01-29 11:18:54

score 1 · Accepted Answer

Zend_Search_Lucene содержит некоторый код для чтения файла docx, который будет выполняться только на PHP.

Для PDF и doc вы можете использовать утилиты командной строки для извлечения обычного текстового содержимого, такого как catdoc или pdftotext. Вы можете найти такие утилиты для большинства форматов файлов, если поищете вокруг. Они обычно упаковываются большинством дистрибутивов.

Из необработанного текстового формата вы можете отправить его в любую полнотекстовую поисковую систему.