Новости машинного обучения

Разработка систем ML для реального бизнеса — это постоянный процесс обучения. Делимся опытом внедрения, решением технических задач и наблюдениями из практики работы с данными.

Главное

Процесс разработки системы распознавания

12 марта 2026 Техническая разработка

Как мы отлаживали систему распознавания документов три месяца

Казалось бы, банальная задача — сканировать паспорта и извлекать данные. На практике столкнулись с таким количеством нюансов, что пришлось переписывать подход дважды. Освещение в офисах у всех разное, качество сканов — от телефонных снимков до профессиональных сканеров. А еще есть потёртые документы, выцветшие печати и рукописные пометки.

Первую версию запустили на стандартной OCR-библиотеке. Точность оказалась 78% — вроде неплохо, но для работы с документами недостаточно. Каждая пятая запись требовала ручной проверки, что сводило автоматизацию на нет. Тогда начали дообучать модель на реальных данных клиента — собрали около 4000 документов с разметкой.

Читать полностью

Анализ данных в производственной системе

Интеграция

Интеграция ML в старую CRM без полной переделки

У клиента работала система на 1С уже лет восемь. Менять её полностью никто не хотел — слишком много процессов завязано, сотрудники привыкли. Задача была добавить предиктивную аналитику для прогноза продаж, но сделать это так, чтобы минимально затронуть существующую архитектуру.

28 февраля 2026 Подробнее

Оптимизация

Когда модель работает медленно: наш опыт ускорения

Разработали классификатор для анализа обращений клиентов. В тестовой среде всё было хорошо — обработка запроса занимала 1.2 секунды. Перенесли на продакшн, где поток данных в 15 раз больше, и система начала задыхаться. Очередь росла, пользователи жаловались на задержки.

14 февраля 2026 Подробнее

Данные

Почему чистые данные важнее сложной модели

Заказчик пришёл с задачей прогнозирования спроса. Предоставили базу за три года — больше миллиона записей. Выглядело солидно, пока не начали разбираться. Оказалось, что треть данных содержит дубли, в другой трети пропущены критически важные поля, а часть записей вообще из тестовой среды попала.

3 февраля 2026 Подробнее

Что мы узнали за последние месяцы

Работа с машинным обучением в бизнесе — это не только код и модели. Это понимание процессов, умение объяснить техническое простым языком и готовность искать компромиссы.

Данные решают почти всё

Самая продвинутая модель не спасёт ситуацию, если данные собраны кое-как. Лучше потратить время на качественную подготовку датасета, чем потом пытаться вытянуть результат сложными алгоритмами.

️

Тестируйте на реальных условиях

Лабораторные показатели и продакшн — это две большие разницы. То, что отлично работает на тестовой выборке, может давать сбои при реальной нагрузке и разнообразии входящих данных.

ML-системы требуют поддержки

Запустить модель — это полдела. Нужно следить за её работой, обновлять данные для обучения, корректировать параметры. Система живая, она меняется вместе с бизнес-процессами.