УДК 311:332.1:004.432
DOI: 10.36871/ek.up. p. r.2026.04.05.016
Авторы
Денис Витальевич Быков,
Российский государственный аграрный университет – МСХА имени К. А. Тимирязева, Москва, Россия
Аннотация
В статье с целью обоснования метода кластеризации для выделения типов личных подсобных хозяйств был проведен сравнительный анализ наиболее популярных и эффективных методов, таких как иерархический кластерный анализ, K-средних, K-медиан, K-медоид, метод K-средних на основе деления пополам (Bisecting K-means), Mean Shift, DBSCAN, HDBSCAN, OPTICS, метод распространения сходства (Affinity Propagation), спектральная кластеризация (Spectral Clustering), модель гауссовой смеси (Gaussian Mixture) на основе EM-алгоритма. Перечисленные методы апробированы по совокупности почти 3000 личных подсобных хозяйств (ЛПХ) одного из районов субъекта Российской Федерации, характеризующихся показателями размера посевных площадей основных сельскохозяйственных культур и наличия поголовья животных по микроданным сельскохозяйственной микропереписи 2021 г. Для оценки эффективности кластеризации был проведен дисперсионный анализ, рассчитаны коэффициент силуэта (Silhouette Coefficient, SC) и внутригрупповой коэффициент вариации на основе средней из внутригрупповых дисперсий по многомерной средней наличия ресурсов. На основе показателей оценки качества кластеризации установлено, что для совокупностей ЛПХ в наибольшей степени снизить уровень вариации позволяют классические методы (иерархический кластерный анализ — в случае изучения совокупности ЛПХ на уровне отдельных поселений региона, и метод K-средних — при изучении совокупности ЛПХ на уровне региона или страны в целом), обеспечивающие статистическую достоверность различий между группами по всем отобранным показателям. Для повышения качества кластеризации ЛПХ после применения классических методов предлагается использовать модель смоорганизующейся карты (SOM), предоставляющей возможность дополнительной визуализации изучаемой совокупности и уточнения состава кластеров.
Ключевые слова
методы кластерного анализа, иерархическая кластеризация, методы K-средних, методы кластеризации на основе оценки плотности, методы кластеризации, представляющие совокупность объектов в виде графовых структур, деревьев и матриц сходства, модель гауссовой смеси на основе EM-алгоритма, личные подсобные хозяйства, сельскохозяйственная микроперепись 2021 г. (СХМП‑2021)
Список литературы
- Гудфеллоу Я. Глубокое обучение / Я. Гудфеллоу, И. Бенджио, А. Курвилль; перевод с английского А. А. Слинкина. — 2‑е изд. — Москва: ДМК Пресс, 2018. — 652 с. — ISBN 978-5-97060-618-6. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/ book/107901. — Режим доступа: для авториз. пользователей.
- Елисеева И. И. Общая теория статистики: Учебник / И. И. Елисеева, М. М. Юзбашев. — Под ред. И. И. Елисеевой. — 5‑е изд., перераб. и доп. — М.: Финансы и статистика, 2004. — 656 с.
- Зинченко А. П. Математическая статистика: учебник / А. П. Зинченко, М. В. Кагирова, Ю. Н. Романцева [и др.]. — Москва: РГАУ-МСХА имени К. А. Тимирязева, 2018. — 199 с.
- Мэрфи К. П. Вероятностное машинное обучение. Введение / К. П. Мэрфи; перевод с английского А. А. Слинкина. — Москва: ДМК Пресс, 2022. — 940 с. — ISBN 978-5- 93700-119-1. — Текст: электронный // Лань: электронно-библиотечная система. — URL: https://e.lanbook.com/book/314891. — Режим доступа: для авториз. пользователей.
- Уколова А. В. Анализ трудовых ресурсов личных подсобных хозяйств по данным похозяйственного учета / А. В. Уколова, Б. Ш. Дашиева // Бухучет в сельском хозяйстве. — 2020. — № 9. — С. 63–72
- Уколова А. В. Типология личных подсобных хозяйств по данным всероссийской сельскохозяйственной переписи 2016 г / А. В. Уколова, Б. Ш. Дашиева // Экономика и управление: проблемы, решения. — 2022. — Т. 2, №
- Ankerst M. OPTICS: Ordering Points to Identify the Clustering Structure / M. Ankerst, M. M. Breunig, H. P. Kriegel and J. Sander. SIGMOD Record, Vol. 28, 1999, pp. 49–60. http://dx.doi.org/10.1145/304181.304187
- Arthur, D. K-Means++: The Advantages of Careful Seeding / Arthur, D., Vassilvitskii, S. // Proceedings of the eighteenth annual ACMSIAM symposium on Discrete algorithms. Society for Industrial and Applied Mathematics, Philadelphia, PA, USA. pp. 1027–1035, 2007
- Campello, R.J., Moulavi, D. and Sander, J. (2013) Density-Based Clustering Based on Hierarchical Density Estimates. In: Pei, J., Tseng, V.S., Cao, L., Motoda, H. and Xu, G., Eds., Pacific-Asia Conference on Knowledge Discovery and Data Mining, Springer, Berlin, Heidelberg, 160–172. https://doi. org/10.1007/978–3–642–37456–2_14
- Cheng, Yizong (August 1995). «Mean Shift, Mode Seeking, and Clustering». IEEE Transactions on Pattern Analysis and Machine Intelligence. 17 (8): 790–799. CiteSeerX 10.1.1.510.1222. doi:10.1109/34.400568
- Clustering. — Текст: электронный // scikitlearn: библиотека машинного обучения для Python: сайт. — URL: https://scikit-learn.org/ stable/modules/clustering.html
- Dorin Comaniciu and Peter Meer. Mean Shift: A robust approach toward feature space analysis // IEEE Transactions on Pattern Analysis and Machine Intelligence. 2002. pp. 603–619.
- Ester, M., H. P. Kriegel, J. Sander, and X. Xu. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise // Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, pp. 226– 231. 1996
- Etumnu, С., Gray A. W. A Clustering Approach to Understanding Farmers Success Strategies. Journal of Agricultural and Applied Economics, Vol. 52, No. 3, 2020, pp. 335–351
- Frey, B.J., & Dueck, D. (2007). Clustering by Passing Messages Between Data Points. Science, 315, 972–976.
- Hellwig, B., Hengstler, J.G., Schmidt, M., Gehrmann, M.C., Schormann, W., & Rahnenführer, J. Comparison of scores for bimodality of gene expression distributions and genome-wide evaluation of the prognostic relevance of high-scoring genes. BMC Bioinformatics, 11, 276–276, 2010
- Hloušková, Z. and Lekešová, M. Farm outcomes based on cluster analysis of compound farm evaluation. Agric. Econ. — Czech, 2020, vol. 66, iss. 10, p. 435–443. doi: 10.17221/273/20 20-AGRICECON
- Jain, A. K. Data clustering: a review / Jain A. K., Murty M. N., Flynn, P. J. // ACM computing surveys (CSUR), 31(3), 264–323, 1999. — URL: https://www.cs.tau.ac.il/~fiat/ DataMine05/p264‑jain.pdf
- Mitchell, T. M. Machine Learning. McGraw Hill, Inc., New York, NY. — 432 P., 1997.
- Phillips, Jeff M. Mathematical Foundations for Data Analysis / Jeff M. Phillips. — Springer Nature Switzerland AG, 2021. — 304 p.
- Rasool A, Abler D. Heterogeneity in US Farms: A New Clustering by Production Potentials. Agriculture, Vol. 13, No. 2(258), 2023.
- Schubert, Erich; Sander, Jörg; Ester, Martin et al. (2017): DBSCAN Revisited, Revisited: Why and How You Should (Still) Use DBSCAN. In: ACM Transactions on Database Systems, Vol. 42, No. 3, 19
- sklearn.cluster.KMeans: K-Means clustering. — Текст: электронный // scikit-learn: библиотека машинного обучения для Python: сайт. — URL: https://scikit-learn.org/stable/modules/ generated/sklearn.cluster.KMeans
- Tan, P., Steinbach, M.S., Karpatne, A., & Kumar, V. (2018). Introduction to Data Mining (2nd Edition).
- Taramuel-Taramuel, J.P., Delgado-López, M.A., Aza-Fuelantala, O.E. et al. Technological and socioeconomic characteristics of smallholder dairy farms in Indigenous Pastos communities of Colombia. Trop Anim Health Prod 57, 363, 2025. — https://doi.org/10.1007/s11250–025– 04576–4
- Todeschini, R., Ballabio, D., Termopoli, V., & Consonni, V. (2024). Extended multivariate comparison of 68 cluster validity indices. A review. Chemometrics and Intelligent Laboratory Systems.
- Van der Laan, Mark J.; Pollard, Katherine S.; and Bryan, Jennifer. A New Partitioning Around Medoids Algorithm (February 2002). U. C. Berkeley Division of Biostatistics Working Paper Series. Working Paper 105. 28. Von Luxburg, U. A tutorial on spectral clustering. Stat Comput 17, 395–416 (2007). https://doi.org/10.1007/s11222–007–9033‑z

