УДК 004.051 …
DOI: 10.36871/2618-9976.2021.02.006
Авторы
Вильданов Тимур Эмильевич
Магистрант, Финансовый университет при Правительстве Российской Федерации, Москва, Россия
Иванов Никита Сергеевич
Магистрант, Финансовый университет при Правительстве Российской Федерации, Москва, Россия
Аннотация
В данной статье исследованы как популярные, так и новоизобретенные инструменты извлечения данных с сайтов и их преобразования в пригодный для анализа вид. В работе проведено сравнение библиотек Python, ключевым критерием сравниваемых инструментов является их быстродействие. Полученные результаты будут сгруппированы по сайтам, применяемым инструментам и количеству итераций, а затем представлены в графическом виде. Научная новизна исследования состоит в области применения инструментов для извлечения данных: мы будем получать и преобразовывать слабоструктурированные данные с сайтов букмекерских контор и бирж ставок. Также в статье описаны новые инструменты, которые на данный момент не пользуются большим спросом в сфере парсинга и веб-скрейпинга. В результате исследования получены количественные метрики по всем использованным инструментам и выбраны библиотеки, наиболее подходящие для быстрого извлечения и обработки информации в больших количествах.
Ключевые слова
парсинг
веб-скрэйпинг
HTML
Python
арбитраж