УДК 004.75
DOI: 10.36871/2618-9976.2026.05.011
Авторы
Александр Олегович Ануров,
Аспирант кафедры «Информатики», Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Геннадий Геннадьевич Булгаков,
Аспирант кафедры «Информатики», Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Иван Николаевич Петров,
Аспирант кафедры «Информатики», Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Сергей Александрович Ярушев,
Кандидат технических наук, директор центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Аннотация
В статье систематизирована задача маршрутизации пользовательских запросов между гетерогенными большими языковыми моделями (LLM) в архитектуре единого шлюза – multimodel gateway. Рассмотрены классификация моделей по стоимости вывода, задержке и качеству, типовые подходы к маршрутизации (статический выбор, каскад, классификаторы поверх эмбеддингов, самооценка модели), признаки сложности запроса и сравнение методов классификации. Предложена декомпозиция шлюза на компоненты API, роутер, реестр моделей и валидатор ответов; описаны детерминированные стратегии (пороговая, каскадная) и адаптивная маршрутизация на основе многорукого бандита. Отдельно формализов на проблема мультиязычного трафика и предложена концепция двумерного маршрутного скора с явным языковым сигналом и приоритетом языкового покрытия над семантической сложностью при низком покрытии малыми моделями. Синтез ориентирован на практические требования к промышленным системам, совмещающим экономию ресурсов и управляемое качество ответов.
Ключевые слова
большие языковые модели
маршрутизация запросов
multimodel gateway
стоимость и латентность вывода
классификация сложности запроса
многорукий бандит
мультиязычная маршрутизация
цифровая экономика
Список литературы
[1] Ауэр П., ЦесаБьянки Н., Фишер П. Конечновременной анализ алгоритмов многорукого бандита для задачи о стохастическом бандите // Machine Learning. 2002. Т. 47. № 2– 3. С. 235–256. DOI: https://doi.org/10.1023/A:1013689704352.
[2] Браун Т. и др. Языковые модели как малообразцовые ученики // Advances in Neural Information Processing Systems. 2020. Том 33.
[3] Ву Х., Сяо Л., Сунь Ю., Чжан Дж., Ма Т., Хэ Л. Обзор возможностей человека в процессе машинного обучения // Компьютерные системы будущего поколения. 2022. Т. 135. С. 364–381. DOI: https://doi.org/10.1016/j.future.2022.05.014.
[4] Дэвенпорт Т.Х., Ронанки Р. Искусственный интеллект для реального мира // Harvard Business Review. 2018. Т. 96. № 1. С. 108–116.
[5] Конно О., Лампле Г., Ранель М. и др. Неконтролируемое кросслингвальное представление обучением на языковом моделировании // Transactions of the Association for Computational Linguistics. 2020. Т. 8. С. 841–856. DOI: https://doi.org/10.1162/tacl_a_00330.
[6] Ли Л., Чу В., Лангфорд Дж., Шапир Р. Контекстуальный бандит для персонализированной рекомендации новостных статей // Proceedings of the 19th International Conference on World Wide Web (WWW). 2010. С. 661–670. DOI: https://doi.org/10.1145/ 1772690.1772758.
[7] Табасси Э. Система управления рисками в области искусственного интеллекта (AI RMF 1.0). NIST AI 1001. Национальный институт стандартов и технологий, 2023. DOI: https://doi.org/10.6028/NIST.AI.1001.
[8] Ху Э Дж., Шен Й., Уоллис П. и др. LoRA: низкоранговая адаптация больших языковых моделей // International Conference on Learning Representations (ICLR). 2022.
[9] Чен Л., Захария А., Йонг Дж. и др. FrugalGPT: как использовать большие языковые модели при снижении затрат и повышении качества // arXiv preprint. 2023. arXiv:2305. 05176.
[10] Шазир Н., Мирхосейни А., Мазиар К. и др. Чрезвычайно большие нейронные сети: разреженногейтированные смеси экспертов // Advances in Neural Information Processing Systems. 2017. Том 30.

