Компания «Яндекс» открыла код своей библиотеки для машинного обучения — CatBoost
Иллюстрация с сайта GitHub
Вчера российская интернет-компания «Яндекс» представила новый метод машинного обучения CatBoost, реализация которого доступна как Open Source-проект.
Прежняя подобная технология в «Яндексе» — это Матрикснет, созданный в 2009 году и основанный на механизме градиентного бустинга, который хорошо подходит для работы с разнородными данными и способен давать точные результаты даже для случаев с относительно небольшим количеством данных. Матрикснет использовался в таких онлайн-сервисах «Яндекса», как Почта (фильтрация спама), Карты и Навигатор (расчёт времени в пути), Директ (подбор релевантных рекламных объявлений).
Новый метод — CatBoost — тоже основан на градиентном бустинге, однако, как утверждают разработчики, превосходит своего предшественника по точности предсказаний, а также способен учитывать категориальные признаки (т.е. такие, что принимают одно из конечного количества значений). CatBoost уже прошёл боевую проверку в сервисах Яндекса: ⋄в Дзене его задействовали для ранжирования ленты рекомендаций, а в Погоде — для расчёта прогноза (с помощью технологии Метеум)».
Что особенно примечательно, в «Яндексе» решили опубликовать свою библиотеку машинного обучения CatBoost как Open Source-проект, реализованный на языках программирования Python и R. Её уже можно найти в GitHub под свободной лицензией Apahce License 2.0. Кроме того, в GitHub на тех же условиях опубликована и программа визуализации CatBoost Viewer, позволяющая наблюдать за процессом обучения на графиках.
Наконец, авторы отмечают, что их метод CatBoost уже опробовали за пределами компании-разработчика — причём не где-нибудь, а в Европейском центре ядерных исследований (ЦЕРН). CatBoost там используется для обработки данных эксперимента LHCb, осуществляемого на одноименном детекторе Большого адронного коллайдера.
Постоянная ссылка к новости: http://www.nixp.ru/news/14117.html. Дмитрий Шурупов по материалам Yand.
Rosa Desktop Fresh R10 — обновлённый Linux-дистрибутив из России с KDE 4 и Plasma 5 1
Loghouse — Open Source-решение компании «Флант» для работы с логами контейнеров в Kubernetes 1
Puppet Bolt, Tasks, Discovery, Pipelines… — крупнейшее обновление продуктов для сисадминов от Puppet
Веб-офис ONLYOFFICE с Document Editors 4.0 получил совместное редактирование, чат и другие возможности 1 2
Яндекс представила три Open Source-проекта: PIRE, Xiva, NwSMTP 10
NASA обновляет открытую библиотеку OSAL
Последние комментарии
- OlegL, 17 декабря 2023 года в 15:00 → Перекличка 21
- REDkiy, 8 июня 2023 года в 9:09 → Как «замокать» файл для юниттеста в Python? 2
- fhunter, 29 ноября 2022 года в 2:09 → Проблема с NO_PUBKEY: как получить GPG-ключ и добавить его в базу apt? 6
- Иванн, 9 апреля 2022 года в 8:31 → Ассоциация РАСПО провела первое учредительное собрание 1
- Kiri11.ADV1, 7 марта 2021 года в 12:01 → Логи catalina.out в TomCat 9 в формате JSON 1