Методы сбора данных в интернете, которые мы используем
Рассказываем, что нужно, чтобы выбрать KVI-товары
Анализ ассортимента и цен конкурентов начинается со сбора данных в интернете. Без корректного и эффективного сбора информации о товарах не будет качественного анализа и грамотных управленческих решений.
В интернете информация о товарах собирается с сайтов, маркетплейсов, мобильных приложений и прайс-листов. Затем компания, предоставляющая услуги мониторинга, систематизирует и структурирует собранные данные и передает заказчику в той форме и содержании, которые необходимы для решения его бизнес-задач. Сервисной компании необходимо определить, каким типом сбора будет целесообразней воспользоваться, чтобы решить задачу клиента.

Тип сбора — это механика, эмулирующая действия человека на сайте. Это означает, что робот не может сделать ничего такого, чего не смог бы сделать на сайте человек вручную. Сначала нужно понять, как вручную собирать необходимые данные. После этого можно грамотно поставить задачу для сбора информации из интернета роботом.

Мы выделяем 4 типа сбора данных онлайн:

  1. Сплошной сбор
  2. Поисковый сбор
  3. Ссылочный сбор
  4. Сбор по артикулам из сопоставленного ассортимента

Сплошной сбор

Сплошной сбор — это сбор всех данных, полного ассортимента и всех цен с сайта. Например, весь М. Видео, полностью Ситилинк, целиком Утконос. Возможности Metacommerce позволяют «высосать» в систему сайт или весь цифровой источник, который нужен заказчику. В некоторых кейсах мы собираем все 6−7 млн товаров с Wildberries или с Ozon.

При сплошном сборе ограничений по количеству данных не существует, но есть ограничения по количеству запросов и времени. Это связано с тем, что робот имитирует действия человека, который бежит по страничке, копируя какие-то данные, и заносит их в цифровую таблицу. Ограничения по скорости сбора необходимы для того, чтобы не нарушать работу сайта, на котором собирается информация, и чтобы защитные программы не распознали робота.

Сплошной сбор позволяет спарсить в систему Metacommerce весь ассортимент любого сайта и уже после этого, накладывая автоматизированный алгоритм сопоставления, предоставлять актуальную информацию вплоть до ежедневной основы. Робот может постоянно обновлять связи и принимать решения об идентичности товаров на уровне автоматики системы, не используя мануальный ручной труд для прописывания ссылок по каждому сопоставлению.

Внутри механики сплошного сбора есть 2 подвида:

  1. Сплошной сбор без захода в карточку товара. В этом случае парсер бежит по списку товаров и копирует необходимые параметры: наименование, фото, цену и т. д., не заходя в карточку.
  2. Сбор информации с заходом в карточку. Некоторые данные не доступны в списочной выдаче и требуется кликнуть и зайти в конкретную карточку и собрать там информацию (например, артикул, описание). Каждая итерация предполагает заход в карточку, затем возврат в категорию и продолжение таких манипуляций с каждым товаром в выдаче по списку.

Целесообразность захода в карточку определяет заказчик, в зависимости от того, какие данные ему необходимы для решения его бизнес-задачи.

Сплошной автоматический сбор — это уникальная технология Metacommerce, которая позволяет собирать:

  1. все доступные данные со всего сайта (именно это обычно имеют в виду, когда говорят про сплошной сбор);
  2. отдельную категорию товаров (эта технология используется при ссылочном сборе);
  3. данные по всем товарам, соответствующим определенному запросу (применяется при поисковом сборе).
Поисковый сбор
Поисковый сбор предполагает работу с поисковой строкой на сайте-источнике сбора данных. Сбор происходит с помощью ввода определенных поисковых запросов на сайте, например, «зубная паста-гель», «игровой ноутбук» и подобные.

Создается поисковый реестр, в котором каждому товару ассортимента соответствует конкретный запрос. Это четко детерминированный запрос, который помогает найти через поисковую строку на сайте конкретный товар или список товаров, среди которых может быть искомый. Реестр запросов хранится в платформе Metacommerce и согласовывается с каждым заказчиком индивидуально.

Поисковой сбор позволяет эмулировать работу человека, когда робот «бежит» по поисковым словам из реестра, подставляет их в поисковую строку на сайте и собирает результаты выдачи. Копирование информации в систему Metacommerce в этом случае, как и при сплошном сборе, может происходить либо с заходом в карточку товара, либо без.

Поисковый сбор используется в том случае, когда сплошной сбор избыточен. Нет смысла собирать целую категорию или сайт, если задача — найти конкретный товар.

Поисковый сбор часто используют бренды-производители, которым необходимо отслеживать новинки. У бренда может быть 50−100 товаров, которые ему важно мониторить на сайтах крупных ритейлеров или маркетплейсах. Покупать сплошной сбор всей категории, в которой представлены эти товары, в данном случае нецелесообразно: дорого, долго и неэффективно. Достаточно отслеживать товар по названию.
Ссылочный сбор
Ссылочный сбор проходит по заранее подготовленным ссылкам на категории товаров или на отдельные товары на сайтах.

Такой тип сбора стоит использовать для компаний со специфической отраслевой экспертизой, где алгоритмы автоматизированного и ручного сопоставления сторонних операторов реализуется сложно в силу низкой экспертизы и понимания отраслевой специфики. Например, химические препараты, сталелитейная промышленность. Заказчик самостоятельно подбирает ссылки, сопоставляя свои категории товаров с категориями на сайте-источнике сбора данных и идентифицируя искомые позиции.

Также ссылочный сбор целесообразно использовать небольшим компаниям или малым брендам, у которых ассортимент не велик. Заказчик формирует вручную реестр ссылок, в котором он к каждому своему артикулу привязывает ссылку с конкретного сайта. Затем парсер собирает данные по этим ссылкам. Портфолио из 20−30 товаров можно мониторить, создав ручные привязки. В этом случае нет необходимости автоматизировать процесс сопоставления. При ссылочном сборе клиент администрирует реестр ссылок, меняет привязки, добавляет и убирает ссылки. Система будет выполнять задание сбора, заходя по ссылке из реестра и собирая нужные параметры.

Большинство компаний, которые занимаются парсингом, предлагают сопоставление товаров только через ручной подбор ссылок вне зависимости от количества товаров для мониторинга. Это эффективно и дешево, в случае если товаров для мониторинга крайне мало. Для получения актуальной информации ссылки требуют ручного обновления. Этот метод не подходит для большого объема данных, потому что это долго, трудоемко и не всегда корректно.

С помощью ссылочного сбора Metacommerce можно собирать данные по всей категории товаров, используя механику сплошного сбора, либо по отдельным карточкам товаров, на которые ведет ссылка.
Сбор по артикулам
Сбор по артикулам предполагает сбор данных по списку артикулов из сопоставленного ассортимента.

Возможность сбора по артикулам доступна только после реализации проекта с сопоставлением. Предварительно парсер собирает весь ассортимент или всю категорию сайта с помощью сплошного сбора и автоматически сохраняет ссылки на прямые карточки товаров. Затем происходит автоматизированное сопоставление данных заказчика с данными сайта, который нужно мониторить. Автоматика накладывает матрицу заказчика на ассортимент сайта-источника и сопоставляя их, формирует реестр связанных товаров.

Сбор по артикулам эффективен, когда заказчику важно ежедневно обновлять огромный объем цен, но нет необходимости каждый раз сплошным образом собирать целиком сайты. Клиент может заказать обновление по ранее сопоставленным товарам. Такая механика позволяет исключить «мусор» и обновлять информацию только по нужным позициям. Это называется сбор по артикулам из сопоставленного ассортимента.

Многообразие типов сборов и понимание их различий позволяет подобрать индивидуальный ключ для эффективного решения бизнес-задачи клиента.

Сервис Metacommerce может работать и по механике предварительных связей, как работает большинство компаний, предоставляющих услуги парсинга. Однако при анализе больших данных использовать системы ссылочных сборов и мануального подбора ссылок — бессмысленно, нерентабельно, неэффективно и даже опасно для динамического ценообразования.

Платформа Metacommerce — это профессиональное решение в создании самых нестандартных методов сбора информации. Мы готовы оперировать максимально широким перечнем инструментов при решении сложных кейсов, в которых требуется нетривиальный подход и алгоритмика при сборе данных.

Хочу получать новые статьи раз в месяц