Юрлица

ИИ

Korp&Co visual

Инженеры ИТМО создали библиотеку для перевода PDF в базу знаний

#36113 · 19.05.2026

Юрлица

Инженеры ИТМО создали библиотеку для перевода PDF в базу знаний

19 мая, 17:32 1 109 0

Свыше 98% точности при распознавании структуры PDF-файлов достигли разработчики Института ИИ ИТМО. Новая библиотека DocuMentor превращает сложные документы в машиночитаемые JSON-файлы, позволяя корпоративным системам поиска и ИИ-ассистентам безопасно работать с внутренними архивами без риска утечки конфиденциальных данных в облачные сервисы.

Традиционные инструменты часто пасуют перед спецификой корпоративного документооборота: Tesseract не распознает иерархию страниц, а облачные модели OpenAI требуют передачи данных на внешние серверы, что неприемлемо для бизнеса. Решение от ИТМО объединяет языковую модель vlm dots OCR с собственными алгоритмами коррекции, которые распознают заголовки, формулы и таблицы. В результате частота ошибок при анализе слов снизилась до 2,5%, что в несколько раз эффективнее существующих аналогов.

Первым масштабным кейсом станет интеграция технологии в проекты Минстроя России для автоматизации работы с нормативной базой. Разработчики также планируют внедрить библиотеку в мультиагентную систему ProAGI. Инженер Института ИИ ИТМО Михаил Ковальчук подчеркнул, что алгоритм обеспечивает поэтапное извлечение метаданных при минимальном вмешательстве человека. Инструмент уже опубликован под открытой лицензией BSD-3, что позволяет компаниям развертывать его во внутреннем контуре инфраструктуры.

Комментарии (0)

Пока нет комментариев. Будьте первым!

Инженеры ИТМО создали библиотеку для перевода PDF в базу знаний

Читайте также

Boeing 737 MAX 7 сертифицируют летом 2026 года

Ученые из Юты научились печатать микродетали одним лазерным импульсом

Искусственный интеллект впервые управляет ядерным реактором в США

Комментарии (0)

Оставить комментарий