УДК 004.048
DOI: 10.36871/2618-­9976.2025.12.010

Авторы

Сергей Александрович Ярушев,
Кандидат технических наук, директор центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова
Иван Николаевич Петров,
Аспирант кафедры информатики, Российский экономический университет им. Г.В. Плеханова

Аннотация

В статье рассмотрены современные подходы к дообучению  больших  языковых  моделей (англ. Large Language Models, LLM)  для задач MLOps/AIOps  и DevOps.  Проведён  анализ  методов  параметроэффективной  адаптации  (PEFT, LoRA, QLoRA) и контекстуального расширения знаний на основе Retrieval­Augmented Generation (RAG),  а  также  их  интеграции  в  единую архитектуру  инженерных  систем. Показано, что  сочетание  локальных  адаптеров  и  retrieval­модулей  обеспечивает  высокую  релевантность  и  устойчивость  моделей  при  работе  с  инфраструктурными  данными. Обсуждаются  особенности  подготовки  инженерных  корпусов  данных,  вопросы  безопасности,  интерпретируемости  и  экономической эффективности  внедрения LLM  в корпоративные  экосистемы.  Сформулированы  перспективные  направления  развития:  создание  доменно­специфических  моделей,  агентных  систем,  мультимодальных  решений  и  применение RLHF  для  повышения  надёжности  генераций. Работа  демонстрирует  стратегическую  значимость  дообучения LLM как инструмента цифровой трансформации инженерных процессов.

Ключевые слова

большие языковые модели
LLM
дообучение
PEFT
LoRA
QLoRA
RAG
DevOps
MLOps
LLMOps
инженерные данные
агентные системы
RLHF
цифровая инфраструктура

Список литературы

[1] Belagatti P. (2025) RAG Tutorial: A Beginner’s Guide to Retrieval Augmented Generation. SingleStore blog. URL: https://www.singlestore.com/blog/a­guide­to­retrievalaugmented­generation­rag/.
[2] (2024) Building a RAG system with Llama 3 and Weights & Biases. Weights & Biases blog. URL: https://wandb.ai/mostafaibrahim17/ml­articles/reports/Building­a­RAGsystem­with­Llama­3­and­Weights­Biases­­Vmlldzo4MDI5MzQw.
[3] (2023) Deconstructing RAG. LangChain Blog. URL: https://blog.langchain.dev/deconstructing­rag/.
[4] Dettmers T., Pagnoni A., Holtzman A. et al. (2023) QLoRA: Efficient Finetuning of Quantized LLMs. arXiv preprint, arXiv:2305.14314. URL: https://arxiv.org/abs/2305.14314.
[5] Dhanush K. (2025) RAG with LLaMA Using Ollama: A Deep Dive into Retrieval­Augmented Generation. Medium blog. URL: https://medium.com/@danushidk507/rag­with­llamausing­ollama­a­deep­dive­into­retrieval­augmented­generation­c58b9a1cfcd3.
[6] Guo H., Greengard P., Xing E.P. et al. (2023) LQ­LoRA: Low­rank Plus Quantized Matrix Decomposition for Efficient Fine­Tuning. arXiv preprint, arXiv:2311.12023. URL: https://arxiv.org/abs/2311.12023
[7] Hu E.J. Shen Y., Wallis P. et al. (2021) LoRA: Low­Rank Adaptation of Large Language Models. arXiv preprint, arXiv:2106.09685. URL: https://arxiv.org/abs/2106.09685.
[8] Li X. et al. (2024) LoRA+: Efficient Low Rank Adaptation of Large Models. arXiv preprint, arXiv:2402.12354. URL: https://arxiv.org/abs/2402.12354.
[9] Liu Sh.­Y., Wang Ch.­Y., Yin H. et al. (2024) DoRA: Weight­Decomposed Low­Rank Adaptation. arXiv preprint, arXiv:2402.09353. URL: https://arxiv.org/abs/2402.09353.
[10] Mao Y., Ge Y., Fan Y. et al. (2024) A Survey on LoRA of Large Language Models. arXiv preprint, arXiv:2407.11046. URL: https://arxiv.org/abs/2407.11046.
[11] Merritt R. (2025) «What Is Retrieval­Augmented Generation, aka RAG? NVIDIA Blog. URL: https://blogs.nvidia.com/blog/what­is­retrieval­augmented­generation/.
[12] Newhauser M. (2024) Introduction to Retrieval Augmented Generation (RAG). Weaviate blog. URL: https://weaviate.io/blog/introduction­to­rag.
[13] Preda G. (2023) RAG using Llama 2, Langchain and ChromaDB. Kaggle notebook. URL: https://www.kaggle.com/code/gpreda/rag­using­llama­2­langchain­and­chromadb.
[14] Rajabzadeh H., Valipour M., Zhu T. et al. (2024) QDyLoRA: Quantized Dynamic Low­Rank Adaptation for Efficient Fine­Tuning. arXiv preprint, arXiv:2402.10462. URL: https://arxiv.org/abs/2402.10462.
[15] Tang P., Liu Y., Zhang D. et al. (2025) Low­Rank Adaptation via Null Space for Large Language Models (LoRA­Null). arXiv preprint, arXiv:2503.02659. URL: https://arxiv.org/abs/2503.02659.
[16] Vyborov E., Osypenko O., Sotnyk S. (2024) Exploring Fact Memorization and Style Imitation in LLMs Using QLoRA. arXiv preprint, arXiv:2406.08582. URL: https://arxiv.org/abs/2406.08582.
[17] Wang W., Zhang Y., Zhang Z. et al. (2025) ROMA: a Read­Only­Memory­based Accelerator for QLoRA. arXiv preprint, arXiv:2503.12988. URL: https://arxiv.org/abs/2503.12988.
[18] Xia W., Qin Ch., Hazan E. (2024) Chain of LoRA: Efficient Fine­tuning of Language Models via Iterative Optimization. arXiv preprint, arXiv:2401.04151. URL: https://arxiv.org/abs/2401.04151.
[19] Yao­Chieh Hu J. et al. (2024) Computational Limits of Low­Rank Adaptation (LoRA) for Transformer­Based Models. arXiv preprint, arXiv:2406.03136. URL: https://arxiv.org/ abs/2406.03136.
[20] Zhang L., Zhang L., Shi S. et al. (2023) LoRA­FA: Memory­efficient Low­rank Adaptation for Large Language Models Fine­tuning. arXiv preprint, arXiv:2308.03303. URL: https://arxiv.org/abs/2308.03303.