- Back to Home »
- Mint , Ubuntu 5 , Ubuntu/Linux , данных , из , Извлечение , тема , файлов »
- Извлечение данных из PDF файлов в Ubuntu/Linux Mint тема
Posted by : ubuntu
Monday, February 10, 2014
Для извлечения изображений и текста из PDF файлов в Ubuntu/Linux Mint, во-первых надо установить необходимую утилиту.
Откройте терминал (Ctrl+Alt+T), скопируйте и выполните эту команду:
sudo apt-get install poppler-utils
Следующая команда извлечет все изображения из "pdffile.pdf" и сохранит их в каталоге /home/<username>/pdfimages
pdfimages -j pdffile.pdf ~/pdfimages/
JPEG файлы будут сохранены с расширением PPM в pdfimages, если не указан параметр "-j" (для JPEG).
Эта команда извлечет сам текст и поместит файл с тем же именем, что и PDF, но с расширением TXT (pdffile.txt) в том же каталоге, что и исходный файл:
pdftotext pdffile.pdf
pdffile.pdf надо заменить на сам файл.
Следует обратить внимание на тот факт, что эта команда pdftotext pdffile.pdf будет извлекать только реальный текст. Если PDF содержит изображения с текстом, напечатанными на них, то эти текстовые подписи не сохраняются данной командой.
Вот и всё.
Удачи.
