УДК 004.75
DOI: 10.36871/2618­-9976.2026.05.011

Авторы

Александр Олегович Ануров,
Аспирант кафедры «Информатики», Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Геннадий Геннадьевич Булгаков,
Аспирант кафедры «Информатики», Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Иван Николаевич Петров,
Аспирант кафедры «Информатики», Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Сергей Александрович Ярушев,
Кандидат технических наук, директор центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова, Москва, Россия

Аннотация

В  статье  систематизирована  задача маршрутизации  пользовательских запросов между гетерогенными большими языковыми моделями (LLM) в архитектуре единого шлюза – multi­model gateway.  Рассмотрены  классификация  моделей  по  стоимости  вывода, задержке и качеству, типовые подходы к маршрутизации  (статический  выбор,  каскад,  классификаторы  поверх  эмбеддингов, самооценка модели), признаки сложности запроса и  сравнение методов классификации. Предложена декомпозиция  шлюза на компоненты API, роутер, реестр моделей и валидатор  ответов;  описаны  детерминированные  стратегии  (пороговая, каскадная) и адаптивная маршрутизация на основе многорукого бандита. Отдельно формализов на проблема мультиязычного трафика и предложена концепция двумерного маршрутного  скора  с  явным  языковым  сигналом и приоритетом  языкового  покрытия над семантической сложностью при низком покрытии малыми моделями. Синтез ориентирован на практические  требования к промышленным системам, совмещающим экономию ресурсов и управляемое качество ответов.

Ключевые слова

большие языковые модели
маршрутизация запросов
multi­model gateway
стоимость и латентность вывода
классификация сложности запроса
многорукий бандит
мультиязычная маршрутизация
цифровая экономика

Список литературы

[1] Ауэр П., Цеса­Бьянки Н., Фишер П. Конечно­временной анализ алгоритмов многорукого  бандита для задачи о стохастическом бандите // Machine Learning. 2002. Т. 47. № 2– 3. С. 235–256. DOI: https://doi.org/10.1023/A:1013689704352.

[2] Браун Т. и др. Языковые модели как малообразцовые ученики // Advances in Neural Information Processing Systems. 2020. Том 33.

[3] Ву Х., Сяо Л., Сунь Ю., Чжан Дж., Ма Т., Хэ Л. Обзор возможностей человека в процессе  машинного обучения // Компьютерные системы будущего поколения. 2022. Т. 135. С. 364–381. DOI: https://doi.org/10.1016/j.future.2022.05.014.

[4] Дэвенпорт Т.Х., Ронанки Р. Искусственный интеллект для реального мира // Harvard Business Review. 2018. Т. 96. № 1. С. 108–116.

[5] Конно О., Лампле Г., Ранель М. и др. Неконтролируемое кросс­лингвальное представление  обучением на языковом моделировании // Transactions of the Association for Computational Linguistics. 2020. Т. 8. С. 841–856. DOI: https://doi.org/10.1162/tacl_a_00330.

[6] Ли Л., Чу В., Лангфорд Дж., Шапир Р. Контекстуальный  бандит  для  персонализированной рекомендации новостных статей // Proceedings of the 19th International Conference on World Wide Web (WWW). 2010. С. 661–670. DOI: https://doi.org/10.1145/ 1772690.1772758.

[7] Табасси Э. Система  управления  рисками  в  области  искусственного  интеллекта (AI RMF 1.0). NIST AI 100­1. Национальный институт стандартов и технологий, 2023. DOI: https://doi.org/10.6028/NIST.AI.100­1.

[8] Ху Э Дж., Шен Й., Уоллис П. и др. LoRA:  низкоранговая адаптация больших языковых моделей // International Conference on Learning Representations (ICLR). 2022.

[9] Чен Л., Захария А., Йонг Дж. и др. FrugalGPT: как использовать большие языковые модели  при  снижении  затрат  и  повышении  качества  // arXiv preprint. 2023. arXiv:2305. 05176.

[10] Шазир Н., Мирхосейни А., Мазиар К. и др. Чрезвычайно большие нейронные сети: разреженно­гейтированные смеси экспертов // Advances in Neural Information Processing Systems. 2017. Том 30.