УДК 004.048
DOI: 10.36871/2618-9976.2025.12.010
Авторы
Сергей Александрович Ярушев,
Кандидат технических наук, директор центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова
Иван Николаевич Петров,
Аспирант кафедры информатики, Российский экономический университет им. Г.В. Плеханова
Аннотация
В статье рассмотрены современные подходы к дообучению больших языковых моделей (англ. Large Language Models, LLM) для задач MLOps/AIOps и DevOps. Проведён анализ методов параметроэффективной адаптации (PEFT, LoRA, QLoRA) и контекстуального расширения знаний на основе RetrievalAugmented Generation (RAG), а также их интеграции в единую архитектуру инженерных систем. Показано, что сочетание локальных адаптеров и retrievalмодулей обеспечивает высокую релевантность и устойчивость моделей при работе с инфраструктурными данными. Обсуждаются особенности подготовки инженерных корпусов данных, вопросы безопасности, интерпретируемости и экономической эффективности внедрения LLM в корпоративные экосистемы. Сформулированы перспективные направления развития: создание доменноспецифических моделей, агентных систем, мультимодальных решений и применение RLHF для повышения надёжности генераций. Работа демонстрирует стратегическую значимость дообучения LLM как инструмента цифровой трансформации инженерных процессов.
Ключевые слова
большие языковые модели
LLM
дообучение
PEFT
LoRA
QLoRA
RAG
DevOps
MLOps
LLMOps
инженерные данные
агентные системы
RLHF
цифровая инфраструктура
Список литературы
[1] Belagatti P. (2025) RAG Tutorial: A Beginner’s Guide to Retrieval Augmented Generation. SingleStore blog. URL: https://www.singlestore.com/blog/aguidetoretrievalaugmentedgenerationrag/.
[2] (2024) Building a RAG system with Llama 3 and Weights & Biases. Weights & Biases blog. URL: https://wandb.ai/mostafaibrahim17/mlarticles/reports/BuildingaRAGsystemwithLlama3andWeightsBiasesVmlldzo4MDI5MzQw.
[3] (2023) Deconstructing RAG. LangChain Blog. URL: https://blog.langchain.dev/deconstructingrag/.
[4] Dettmers T., Pagnoni A., Holtzman A. et al. (2023) QLoRA: Efficient Finetuning of Quantized LLMs. arXiv preprint, arXiv:2305.14314. URL: https://arxiv.org/abs/2305.14314.
[5] Dhanush K. (2025) RAG with LLaMA Using Ollama: A Deep Dive into RetrievalAugmented Generation. Medium blog. URL: https://medium.com/@danushidk507/ragwithllamausingollamaadeepdiveintoretrievalaugmentedgenerationc58b9a1cfcd3.
[6] Guo H., Greengard P., Xing E.P. et al. (2023) LQLoRA: Lowrank Plus Quantized Matrix Decomposition for Efficient FineTuning. arXiv preprint, arXiv:2311.12023. URL: https://arxiv.org/abs/2311.12023
[7] Hu E.J. Shen Y., Wallis P. et al. (2021) LoRA: LowRank Adaptation of Large Language Models. arXiv preprint, arXiv:2106.09685. URL: https://arxiv.org/abs/2106.09685.
[8] Li X. et al. (2024) LoRA+: Efficient Low Rank Adaptation of Large Models. arXiv preprint, arXiv:2402.12354. URL: https://arxiv.org/abs/2402.12354.
[9] Liu Sh.Y., Wang Ch.Y., Yin H. et al. (2024) DoRA: WeightDecomposed LowRank Adaptation. arXiv preprint, arXiv:2402.09353. URL: https://arxiv.org/abs/2402.09353.
[10] Mao Y., Ge Y., Fan Y. et al. (2024) A Survey on LoRA of Large Language Models. arXiv preprint, arXiv:2407.11046. URL: https://arxiv.org/abs/2407.11046.
[11] Merritt R. (2025) «What Is RetrievalAugmented Generation, aka RAG? NVIDIA Blog. URL: https://blogs.nvidia.com/blog/whatisretrievalaugmentedgeneration/.
[12] Newhauser M. (2024) Introduction to Retrieval Augmented Generation (RAG). Weaviate blog. URL: https://weaviate.io/blog/introductiontorag.
[13] Preda G. (2023) RAG using Llama 2, Langchain and ChromaDB. Kaggle notebook. URL: https://www.kaggle.com/code/gpreda/ragusingllama2langchainandchromadb.
[14] Rajabzadeh H., Valipour M., Zhu T. et al. (2024) QDyLoRA: Quantized Dynamic LowRank Adaptation for Efficient FineTuning. arXiv preprint, arXiv:2402.10462. URL: https://arxiv.org/abs/2402.10462.
[15] Tang P., Liu Y., Zhang D. et al. (2025) LowRank Adaptation via Null Space for Large Language Models (LoRANull). arXiv preprint, arXiv:2503.02659. URL: https://arxiv.org/abs/2503.02659.
[16] Vyborov E., Osypenko O., Sotnyk S. (2024) Exploring Fact Memorization and Style Imitation in LLMs Using QLoRA. arXiv preprint, arXiv:2406.08582. URL: https://arxiv.org/abs/2406.08582.
[17] Wang W., Zhang Y., Zhang Z. et al. (2025) ROMA: a ReadOnlyMemorybased Accelerator for QLoRA. arXiv preprint, arXiv:2503.12988. URL: https://arxiv.org/abs/2503.12988.
[18] Xia W., Qin Ch., Hazan E. (2024) Chain of LoRA: Efficient Finetuning of Language Models via Iterative Optimization. arXiv preprint, arXiv:2401.04151. URL: https://arxiv.org/abs/2401.04151.
[19] YaoChieh Hu J. et al. (2024) Computational Limits of LowRank Adaptation (LoRA) for TransformerBased Models. arXiv preprint, arXiv:2406.03136. URL: https://arxiv.org/ abs/2406.03136.
[20] Zhang L., Zhang L., Shi S. et al. (2023) LoRAFA: Memoryefficient Lowrank Adaptation for Large Language Models Finetuning. arXiv preprint, arXiv:2308.03303. URL: https://arxiv.org/abs/2308.03303.

