Apache Software Foundation отметила важную роль, которую сыграли Open Source-инструменты для «панамских документов»
Иллюстрация с сайта En.Wikipedia.Org
Некоммерческая организация Apache Software Foundation (ASF) заявила, что продукты с открытым исходным кодом, в частности и в особенности развиваемые под её крылом, сделали возможной расследование по крупной утечке конфиденциальных данных, о которой стало известно в прошлом году как о Панамских документах (Panama Papers).
В 2015 году немецкая газета Süddeutsche Zeitung получила от анонимного источника огромный архив данных — 11,5 миллионов файлов общим объёмом в 2,6 терабайта, в которых упоминалось множество мировых лидеров и высокопоставленных чиновников. После продолжительного анализа данных, проводимого 400 журналистами с 6 континентов на протяжении более года, некоторые данные из этого архива начали публиковаться для широкой общественности, что стало огромным событием для мира журналистики и политики. Недавно эта работа была удостоена Пулитцеровской премии 2017 года в категории журналистики (Explanatory Reporting).
Как сообщает ASF, обработка информации в 214 888 документах стала возможной благодаря использованию ряда Open Source-утилит, поддерживаемых в этом фонде:
- Tika — для обработки документов (извлечения метаданных и структурированного текста);
- Solr — для поиска и индексации текста;
- PDFBox — для распознавания текста в PDF-документах;
- POI — для извлечения и управления документами в форматах Excel, Word и PowerPoint;
- Commons — для ускорения разработки инструментов, предназначенных для работы с документами.
Называя эти проекты интегральной частью расследования, ASF уточняет, что в проекте работы с «панамскими документами» были задействованы и другие Open Source-приложения включая Tesseract-ocr для распознавания текста (в изображениях), Project Blacklight и Jackcess (для чтения и записи баз данных в формате MS Access).
Постоянная ссылка к новости: http://www.nixp.ru/news/13998.html. Дмитрий Шурупов по материалам Blogs.Apache.org, En.Wikipedia.Org.
Вышла документалка про Apache Software Foundation — она уже есть на YouTube 1
Компания-разработчик СУБД с открытым кодом MongoDB выходит на IPO 1 1
ASF рассказала о росте популярности фреймворка для распределённых программ Apache Hadoop 2.8
Microsoft разрабатывает Windows в Open Source-системе Git, и это крупнейший в мире Git-репозиторий 1 1
Apache Software Foundation исполняется 18 лет: статистика по Open Source-проектам организации
Open Source-проекты Apache Software Foundation достигли отметки в 2 миллиона коммитов 2 1
Последние комментарии
- OlegL, 17 декабря в 15:00 → Перекличка 21
- REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
- fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
- Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
- Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1