Как извлечь текст из PDF-документа? [закрыто]

Question

Как извлечь текст из PDF-документа? [закрыто]

Как извлечь текст из PDF-документа с помощью PHP?

(Я не могу использовать другие инструменты, у меня нет корневого доступа)

Я нашел некоторые функции, работающие с обычным текстом, но они плохо обрабатывают символы Юникода:

Http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

46

php pdf unicode text

Author: Sfisioza, 2011-08-09

Source

2 answers

Я знаю, что эта тема довольно старая, но эта потребность все еще жива. Я прочитал много документов, форумов и сценариев и создал новый расширенный, который поддерживает сжатый и несжатый pdf:

Https://gist.github.com/smalot/6183152

Надеюсь, это поможет всем

10

Author: Sebastien Malot, 2013-08-08 09:39:37

score 44 · Accepted Answer

Загрузите class.pdf2text.php @ https://pastebin.com/dvwySU1a (Обновлено 5 апреля 2014 года) или http://www.phpclasses.org/browse/file/31030.html (Требуется регистрация)

Код:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output();

Класс не работает со всеми PDF-файлами, которые я тестировал, попробуйте, и вам может повезти:)

Если вышесказанное не работает, попробуйте http://pdfparser.org/