Парсинг сайтов и приложений

Автоматизированный сбор данных на сайтах, маркетплейсах или в мобильных приложениях

Парсинг — это процесс автоматизированного сбора данных на сайтах, маркетплейсах или в мобильных приложениях, который позволяет выполнить невообразимое множество разнообразных задач. Почему именно невообразимое множество? Потому что хотя большинство реализуемых проектов со стороны производства Metacommerce выглядят похожими друг на друга, по факту они закрывают абсолютно разные клиентские потребности. Ниже представляем несколько примеров.

Пример 1

Международной компании — производителю оборудования потребовалось узнать общее мнение потребителей о ее продукции на рынке России. Для решения этой задачи мы собрали информацию по отзывам (дата отзыва, рейтинг, текст, товар, категория товара) на товары бренда с нескольких крупнейших торговых интернет площадок России. Клиент получил среднюю оценку каждого своего товара по 5 балльной шкале, среднюю оценку своих категорий товаров, отзывы на каждый товар и конечно же всю исходную собранную информацию для последующего анализа на своей стороне.

Пример 2

Компания производитель бытовой техники обратилась с задачей узнавать про появление любых новых товаров у 80+ конкурентов на следующий день после их появления на официальных сайтах. На своей стороне мы ежедневно осуществляем сбор 80+ сайтов сплошным образом, сравниваем собранные товары с товарами, собранными за предыдущие периоды. Понимаем, какие из собранных товаров являются новинками и формируем по ним ежедневный отчет.

Пример 3

Крупный игрок фармацевтического рынка поставил перед собой задачу динамического ценообразования. Для ее решения ему были безусловно необходимы свои внутренние данные, но опираясь только на них ценообразование получилось бы не самым эффективным, поэтому он нашел надежного партнера по сбору внешних данных в лице Metacommerce.

Мы предложили следующий набор услуг: сбор данных онлайн по всем интересующим клиента позициям, сбор данных офлайн из торговых точек по KVI товара, сопоставление собранных и распознанных товаров с ассортиментом клиента. Клиент уже с нами около 3 лет, постоянно увеличивает объемы сборов и сейчас ежедневно получает информацию о 30 млн. товаров.

В этой статье мы расскажем о методах сбора данных и подходах, которые мы используем в работе.

Из каких источников можно собирать данные?

Это любые сайты, маркетплейсы, мобильные приложения и прайс-листы.

Для автоматизации задач мониторинга в онлайне важно понимать определенную специфику: мониторить автоматически можно лишь статичный с точки зрения верстки, структуры, компоновки сайт или источник.

Верстка — это форма представления информации на сайте, то есть некая статичная структура, которая может быть собрана роботом.

Что такое типы сборов?

Типы сборов — это классификация стандартных наборов действий человека на сайте.

Первый тип сбора — это сплошной сбор сайта или категорий. т. е. возможность «втянуть» в систему весь сайт или весь цифровой источник, который нам нужен. Это позволяет нам забрать в систему весь ассортимент с любого сайта.

Второй тип — поисковый сбор. Это эмуляция механики, которая предполагает под собой работу с поисковой строкой на сайте-источнике. На всех сайтах есть поисковая строка, куда можно вбить поисковый запрос и получить результат по нему в виде поисковой выдачи. То есть робот «бежит» по поисковым заранее прописанным в системе словам, подставляет их в нужное место в поисковую строку на сайте, и после этого собирает результаты выдачи.

Ссылочный сбор — это своего рода квинтэссенция всех типов сборов — это сбор, в котором заранее парсеру заданы необходимые точки входа в виде ссылок.

Сбор по артикулам на основе ранее собранных и сопоставленных товаров.

Есть также и иные кейсы. Робот собирает не визуальную информацию, а код сайта. Иногда можно видеть вещи, визуально недоступные, но присутствующие в коде сайта. И в редких кейсах, если есть подобный запрос, такие элементы кода тоже можно собирать.

Какие данные можно собирать?

1

Данные, полученные из категории товаров — выбирается необходимая категория товаров, например, микроволновые печи, и робот собирает доступную информацию из списка, открытого по данной категории. Если этой информации достаточно, то роботу не нужно заходить в карточку товара, тем самым сократив время на сбор данных.
2

Данные из карточки — роботу необходимо зайти в саму карточку товара, чтобы собрать нужную информацию, так как без этого действия нет возможности сбора выбранных параметров.
3

Данные из корзины или получаемые при выполнении определённых действий — в этом случае роботу нужно совершить определённые действия, чтобы «добраться» до нужных данных, например, зайти зайти в раздел отзывов о продукте или посмотреть наличие в конкретных торговых точках. Чем больше действий — тем больше временных затрат на получение информации.

Какие есть ограничения?

Для определения параметров проекта важно учитывать ограничивающие факторы, связанные с возможностью сайтов (источников) передавать информацию.
Эти ограничения скорее зависят от возможностей источников, нежели являются ограничениями платформы МС. Каждый сайт может выдерживать определенный уровень нагрузки по количеству обращений к его серверу в единицу времени. Каждое дополнительное обращение к сайту увеличивает подобную нагрузку. Чем больше пользователей заходит на сайт, тем больше становится нагрузка, тем сложнее движку сайта с ней справляться. Соответственно, если нагнать на сайт ботов путем бездумного и глупого парсинга, то сайт ляжет.

Кроме того, невозможно собирать данные о транзакциях. Информация, которая не воспроизводится через эмуляцию действий человека и не может быть скопирована с сайта, для парсеров будет недоступной.

Раньше для мониторинга сайтов использовались специальные программы-парсеры, в основном написанные индивидуально для разных заказчиков, которые ежедневно заходили на сайты интернет-магазинов и открывали множество страниц с товарами, тем самым создавая значительную нагрузку на сайты, замедляя их работу или даже могли привести к недоступности ресурса. Такое положение дел не устраивало владельцев крупных интернет-магазинов и на рынке стали появляться специальные инструменты для защиты от парсинга — системы защиты от ботов.

Профессиональные решения для мониторинга информации на сайтах подходят к процессу сбора данных ответственно, стараясь максимально сократить количество запросов и не допускать повышенных нагрузок на сервера, чтобы предотвратить их перегрузку.

Система ведёт как полноценный браузер типового пользователя, отправляя идентичные запросы к сайту, как если бы это делал реальный посетитель сайта, вплоть до эмуляции движения мыши. Это делает робота-сборщика неотличимым от обычного покупателя, а блокировать контент для реальных пользователей не станет ни один магазин.

Таким образом даже самые технологичные системы блокировок не могут полноценно определять и препятствовать работе программ для сбора данных.

Сколько запросов к сайту делать допустимо?

Если это сотни или тысячи запросов в час — это ерунда. Надо думать, если это десятки тысяч запросов в час. И практически всегда это непреодолимая проблема, если сотни тысяч запросов в час. А если миллионы запросов в час — то это сразу «‎нет». Десятки тысяч запросов в час, разбитые на параллельные процессы — это самая реальная история.

Почему парсят сайты?

Это желание не выходя из дома (в отличие от офлайн розницы) быстро и гранулярно получить информацию об ассортиментной, ценовой и промо политике конкурентов, чтобы использовать это в собственной сбытовой политике, увеличивать маржу, количество клиентов, транзакций.
Однако в некоторых источниках информация о ценах не детализирована до конкретной торговой точки или не представлена на сайте, в таких случаях применяется технология офлайн мониторинга.

Парсинг сайтов — весьма полезный инструмент для бизнеса, так как он позволяет владельцам бизнеса отслеживать изменения на рынке оперативно и с высокой точностью, тем самым не сдавать свои позиции среди конкурентов и получать новые заказы. Парсинг помогает ускорить процесс получения информации, а также исключить ошибки человеческого фактора, поэтому является популярным способом получения данных о рынке.

Хочу получать новые статьи раз в месяц