12 марта 2026 Техническая разработка
Как мы отлаживали систему распознавания документов три месяца
Казалось бы, банальная задача — сканировать паспорта и извлекать данные. На практике столкнулись с таким количеством нюансов, что пришлось переписывать подход дважды. Освещение в офисах у всех разное, качество сканов — от телефонных снимков до профессиональных сканеров. А еще есть потёртые документы, выцветшие печати и рукописные пометки.
Первую версию запустили на стандартной OCR-библиотеке. Точность оказалась 78% — вроде неплохо, но для работы с документами недостаточно. Каждая пятая запись требовала ручной проверки, что сводило автоматизацию на нет. Тогда начали дообучать модель на реальных данных клиента — собрали около 4000 документов с разметкой.
Читать полностью