Наши спецпроекты 5
11:55, Cегодня
Вопрос — за секунду: учёные ЮФУ ускорили поиск потерянных грузов в десятки раз
Фото: ЮФУ
Учёные Южного федерального университета предложили метод, который позволяет обрабатывать запросы, связанные с логистикой, на естественном языке в десятки раз быстрее графового поиска (основанного на связах без понимания смысла) и при этом даёт ответы точнее, чем при векторном поиске (основанном на смысле, без понимания связей). В центре разработки – так называемая архитектура RAG (Retrieval-Augmented Generation), когда языковая модель не генерирует ответ «из головы», а сначала находит релевантные фрагменты во внешней базе знаний.
«Главная проблема связана с тем, что логистические системы работают с большим количеством разнородных и быстро обновляющихся данных: сведениями о складах, маршрутах, транспорте, дорожной обстановке, погоде, заявках и документах. Пользователю часто нужен не просто поиск поключевым словам, а ответ с учётом связей между объектами. Обычные поисковые алгоритмы плохо справляются с такими запросами, потому что они не всегда учитывают структуру логистической сети. Голосовые помощники упрощают взаимодействие, но сами по себе не обеспечивают точный доступ к оперативным данным конкретной системы и связям между ними», — рассказал один из авторов исследования, магистрант Института компьютерных технологий и информационной безопасности ЮФУ Вадим Волощук.
Система работает так. Если пользователь прямо называет конкретный объект (например, «склад номер пять»), программа мгновенно выдаёт всю связанную с ним информацию. Если же запрос сформулирован в свободной форме, компьютер находит несколько самых близких по смыслу опорных узлов, от каждого из них запускает обход графа на заданную глубину, собирает все связанные объекты и ранжирует их по комбинированному правилу.
«Векторное представление помогает находить объекты, близкие к запросу по смыслу, даже если пользователь формулирует вопрос иначе, чем это записано в базе данных. Графовая часть сохраняет связи между объектами: складами, магазинами, дорогами, транспортом, погодными условиями и другими элементами логистики. Их объединение позволяет сначала найти смыслово близкие объекты, а затем уточнить результат с учётом реальных зависимостей в системе. Риск "галлюцинаций" снижается за счёт того, что языковая модель получает не большой набор разрозненных текстов, а компактный и связанный», — добавил магистрант ЮФУ Ярослав Мельник.
Разработчики испытали метод на синтетических данных, моделирующих логистические сети разного масштаба – от относительно небольших (порядка пятисот ключевых объектов и десятков тысяч связей) до крупных (свыше двух тысяч объектов и сотен тысяч связей). Сравнивали три подхода: графовый, векторный и гибридный поиск. Точность оценивали по доле правильных ответов среди трёх лучших результатов. Гибридный поиск оказался в два раза точнее графового и в полтора раза точнее векторного.
«Параметры вклада семантической близости к запросу и вклада близости в графе являются самыми значимыми. Также существуют вспомогательные параметры, которые помогают учитывать локальную и общую значимость узла в сети. Метод чувствителен к этим настройкам, но не критически: их нужно подбирать под тип задачи. Для более текстовых запросов важнее семантика, для маршрутов и зависимостей – графовая часть», — сообщил Вадим Волощук.
Практическая ценность разработки очевидна для любого бизнеса, связанного с перевозками и складской логистикой. Оператор колл-центра может спросить у системы: «На каких доставках на прошлой неделе были задержки из-за погоды?» – и получить точный ответ, не тратя часы на ручной разбор отчётов. Диспетчер, увидев сообщение об аварии на трассе, мгновенно узнает, какие рейсы и в какие магазины попадают под удар. Система может сама предупредить: «Поставка молочной продукции в магазин 12 будет задержана из-за дождя на участке М-4».
«В первую очередь он может быть полезен как интеллектуальный поисковый или консультационный слой поверх систем управления складом (WMS), систем управления транспортом (TMS) и аналитических систем. Для практического внедрения нужно адаптировать модель данных под конкретную систему, подключить реальные источники данных, настроить параметры поиска и провести оценку качества ответов вместе со специалистами предметной области. На первом этапе метод разумно рассматривать не как замену существующих систем, а как дополнительный модуль для более удобного доступа к связанным данным», — отметил Ярослав Мельник.
Статья опубликована в международном рецензируемом журнале Big Data and Cognitive Computing, а авторами выступили сотрудники Института компьютерных технологий и информационной безопасности, НИИ робототехники и систем управления и НИИ умных материалов Южного федерального университета.
Последние новости
Спецтема