WatchOCR — LiveCD Linux для распознавания текста в PDF
2Иллюстрация с сайта Watchocr.Com
Неизвестный читатель Slashdot представил общественности обнаруженный им проект LiveCD Linux-дистрибутива WatchOCR, предназначенного для быстрого и простого распознавания текста в PDF-файлах.
WatchOCR позиционируется как «свободный OCR-сервер для PDF». Он основан на LiveCD-дистрибутиве Knoppix и использует Open Source-средства CuneiForm и ExactImage для выполнения работы по распознаванию текста. В WatchOCR доступен простой веб-интерфейс, позволяющий удаленно настроить слежение за каталогом на факт поступления новых отсканированных PDF-файлов. При появлении таких файлов (PDF с изображениями) WatchOCR преобразует их в PDF с распознанным текстом.
Подробности о WatchOCR, статьи по его установке и настройке, а также форум доступны на сайте проекта.
Постоянная ссылка к новости: http://www.nixp.ru/news/10581.html. Дмитрий Шурупов по материалам Linux.Slashdot.org.
Linux-дистрибутивы Ubuntu*Pack (OEMPack) обновились до версии 20.04
Вышел CentOS Linux 8.2 — он основан на RHEL 8.2 2 2
Бен Коттон из Red Hat предложил маркировать и удалять пакеты-пенсионеры при обновлении Fedora 1 3
KNOPPIX 7.4.0 — новая версия LiveCD Linux-дистрибутива на основе Debian 2 4
Открывается исходный код OCR-системы CuneiForm
KNOPPIX 4.0.2: на LiveCD и LiveDVD
Последние комментарии
- OlegL, 17 декабря в 15:00 → Перекличка 21
- REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
- fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
- Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
- Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1
Проект полезный, но почему бы его наработками не воспользоваться в других дистрибутивах? А то запускать отдельную систему для распознавания… как-то странноватенько.
Как говорит один известный подкастер «Блеск и нищета OpenSource»
Хорошая фраза :) Что за подкастер такой?
Да почему не использовать-то? ExactImage не знаю, а CuneiForm не так давно дошел до релиза и сейчас включается в разные дистрибутивы. Например у нас, в Федоре он на ревью, то есть скоро появится для пользователей в репозиториях. Более того, сборку из исходников никто никому никогда не запрещал, уж если на то пошло. А дистрибутив создали, как часто бывает, именно чтобы «загрузился и посмотрел». Не слышал чтобы кто-то всерьез работал на стандартных, некастомизированных Лайв-дистрибутивах.
/>/>