Разработка OCR-системы для распознавания паспортных данных в FinTech(NDA)
ФинансыКейс разработки кастомного AI-решения для автоматического распознавания паспортов: ML-модели, компьютерное зрение и REST API для интеграции в KYC и FinTech-процессы.

О проекте
FinTech • Web / API • OCR / Машинное обучение
Проект стал частью программы оптимизации внутренних процессов финансовой организации.
Ранее клиент использовал внешние OCR-сервисы для распознавания паспортных данных, что приводило к высоким регулярным затратам, ограниченной гибкости и зависимости от сторонних провайдеров.
Наша команда разработала собственный OCR-модуль, адаптированный под реальные сценарии использования: фотографии паспортов с мобильных устройств, разное освещение, повороты, искажения и шумы.
Цели проекта
- Снизить операционные расходы на сторонние OCR-сервисы
- Повысить точность и стабильность распознавания
- Получить полный контроль над обработкой конфиденциальных данных
- Адаптировать OCR под требования внутренних FinTech-процессов
Команда проекта
Со стороны 2people IT:
Руководитель проекта
Управление сроками и коммуникацией
ML-разработчик
Модели, обучение, оптимизация и inference
Инженер по тестированию (QA)
Проверка точности и устойчивости
Функциональные возможности
OCR-модуль позволяет:
Обрабатывать изображения паспортов различного качества
Корректно работать с повернутыми и искаженными изображениями
Локализовать и классифицировать ключевые поля документа
Извлекать структурированные данные, включая имя, фамилию, дату рождения и другие идентификационные поля
Передавать результаты распознавания через API
Обрабатывать данные без сохранения изображений на сервере
ML-подход и архитектура
Предобработка изображений
Для повышения качества входных данных использовались методы компьютерного зрения:
- •Коррекция поворота и перспективы
- •Нормализация освещения
- •Подавление шумов
- •Выделение текстовых областей
Инструменты: OpenCV
Детекция и распознавание
Для обработки документов применялась комбинация:
- •Классических ML-алгоритмов
- •Нейросетевых моделей для детекции и OCR
Такой подход позволил добиться баланса между точностью распознавания, скоростью обработки и устойчивостью к некачественным изображениям.
Инструменты: PyTorch, Scikit-learn
Постобработка и валидация
Распознанные данные проходят:
- •Очистку и нормализацию
- •Проверку форматов (даты, структура ФИО)
- •Подготовку к использованию во внутренних системах
Инструменты: Pandas
Inference и API
OCR-модуль реализован как сервис:
- •Stateless-архитектура
- •REST API
- •Высокая пропускная способность
- •Отсутствие хранения изображений и персональных данных
Инструменты: FastAPI
Ключевые вызовы и решения
Разнообразие входных данных
Паспорта поступали в виде фотографий с: разным освещением, поворотами, артефактами съёмки.
Решение: Комбинация CV-предобработки и ML-моделей позволила стабилизировать качество распознавания.
Разметка и обучение
Разметка данных и подбор моделей стали одним из самых ресурсоёмких этапов проекта.
Решение: Пошаговое тестирование различных архитектур и настройка пайплайна под конкретный формат документов.
Производительность и безопасность
OCR должен был работать быстро и соответствовать требованиям по защите данных.
Решение: Оптимизация inference, отказ от хранения изображений, изоляция сервиса и контроль доступа.
Результат и эффект для бизнеса
OCR-модуль разработан
За 2 месяца
Значительно снижены затраты
На сторонние сервисы
Повышена точность и стабильность
Распознавания
Увеличена скорость обработки
Документов
Обеспечен полный контроль
Над чувствительными данными
Решение легко масштабируется
И дорабатывается под новые требования
Дальнейшее развитие
Поддержка других типов документов
Улучшение работы со сложными и нестандартными изображениями
Распознавание рукописных элементов
Дообучение моделей под новые форматы
Технологический стек
Backend / ML
Итог
Мы разработали прикладную OCR-систему на базе ML, которая стала полноценной частью FinTech-инфраструктуры клиента.
Проект показал, как кастомное ML-решение может одновременно снизить издержки, повысить контроль над данными и улучшить качество бизнес-процессов.
Отзыв клиента
Благодаря профессиональной работе 2PEOPLE IT мы снизили количество ошибок на основной веб-платформе, эффективно разработали новый функционал сервиса, создали систему распознавания паспортов на базе алгоритмов машинного обучения, внедрили чат-бота на базе генеративного искусственного интеллекта для автоматизации первой линии поддержки, а также разработали отдельный веб-сервис для автоматизации процессов службы взыскания долгов.
Хотите обсудить ваш проект?
Свяжитесь с нами, и мы расскажем, как можем помочь реализовать вашу задачу
Подписывайтесь на наш Telegram канал
Свежие статьи, кейсы и полезные материалы о разработке, технологиях и IT-трендах
Подписаться на канал