Занимался сегодня задачей pdf2text (вытаскивания текста из PDF-файла для индексации). По возможности, хотелось решить без внешних приложений и библиотек, на чистом PHP.

В результате, что-то похожее на решение было найдено на PHP.NET, но из "коробки" оно не работало. Пришлось думать...

В общем, моими усилиями на php.net теперь в комментах доступно работающее решение этой задачи: http://nl3.php.net/manual/en/ref.pdf.php#92770
Тестировалось на PDF-1.4, PDF-1.3, PDF-1.2, правда, только на английских текстах.



Авг 08, 2009 - 18:01
Интересы: Web 2.0, Flex, AIR, психология, мифологическое мышление, ИТ, искусственный интеллект

Наблюдает, что делают:
Vartha Dar Мария Николаевна Dash Line Soul Deaf Людмила Гультяева
Галина Склемина Елена Малахова Диана Дерёмова Elena Y Маргарита Ф
Мар Ина Илья М Wall Runner Геша Синеокий Колян Зубенко
Аня Елишева Олег Радик Black Angel Helen Kovalyova Эльфийко Алатиэль
Serg Piter Галкина Юлия Максим Кузьмин Serge Victore Olli Ka
Джейн Бур Наталья Викторовна Айгуль Бердыева Елена Башинская Засон Я
Mirokow Wasilij Gloopo St Влад Башинский Anatoly Parinov Каканов Константин
Занятные Шутки Ir Sirin Вова Мефодичев Дима Михайлович Владимир Гавриленко
Миногина Тамара Рома Сноу Оля Иванова Алексей Татузов Fluffy Ezhick
Ольга Фролова Андрей Фролов Ramosian Glider Галина Членова Катя Шикунова
Олег Бобок Максим Павлов Екатерина Чепурнова Михаил Демидов Вика Ткаченко
Глотова Аня Artyom Glotov Ольга Жур Иринка Володина Ku Ki
Анастасия Малкова

Посмотреть, что делают:
 
cпонсорский блок: