Новые технологии и возможности онлайн мониторинга

Сбор данных в интернете

В 2020—2021 годах при участии Фонда Сколково мы разработали новую технологию распределенного высокопроизводительного сбора данных на сайтах NewMetabus. Это позволило увеличить скорость и объем собираемых данных, а также автоматически обходить блокировки, защищающие содержимое страниц от сбора информации.

В рамках разработки новой технологии была улучшена архитектура решения — сбор данных с сайта вместо одного монолитного процесса заменен на последовательность шагов, каждый шаг — это последовательность атомарных действий. Улучшена производительность бэкэнд части worker node и управляющей master node.

Ключевым элементом системы является информация о состоянии сборов для балансировки запусков по расписанию и нагрузки. Реализована поддержка распределенного запуска по расписанию, которое формируется автоматически на базе настроек клиентов с учетом нагрузки узлов.

Новая технология сбора данных позволяет:
  • легко балансировать нагрузку и скорость сбора за счет выполнения шагов параллельно;
  • перезагружать узел, не прерывая при этом процесс сбора данных;
  • в случае ошибок, повторяется только шаг, на котором произошел сбой, без необходимости запуска всего сбора сначала;
  • высокий уровень надежности, при сбое одного из узлов система переназначит его задачи на другой и процесс продолжает выполняться с того места, где остановилась;
  • динамически, без перезагрузки, масштабировать систему, добавляя при необходимости, новые воркер-узлы.
Результаты сравнительного тестирования старой и новой технологии
Сравнение показателей производительности новой технологии в сравнении со старой версией
Итог тестирования: средняя скорость сбора товаров в старой системе — 3,69 товара в секунду, в новой версии — 15,92 товара в секунду, что на 413% быстрее.

Новая система обходит блокировки без дополнительного кода. При перезагрузке сервера во время выполнения задания процесс не прерывается.

Ввод технологии в эксплуатацию: с 01.07.2021 начат процесс перевода всех заданий клиентов на новую технологию, цель — до конца года полностью отключить старую систему. По состоянию на 08.11.2021 новая версия системы в среднем собирает 200 млн товаров в сутки, а старая версия системы 5 млн. При тесте пиковой нагрузки объем сборов в новой системе достигал 300 млн. товаров в сутки.
Технология сопоставления товаров с матрицей заказчика
Для сопоставления товаров, собранных на рынке, с товарной матрицей заказчика используется собственная технология автоматизированного сопоставления на базе статистической экспертной системы.

Для каждой позиции из ассортимента мы создаем карточку в каталоге Metacommerce с описанием товара. Собранные данные с рынка анализируются системой на предмет идентичности товаров по 12 параметрам от названия и цены до изображения и штрих-кода. На основании этих данных алгоритм автоматически принимает решение о признании двух товаров идентичными.

Параметры для сопоставления: Название, Ссылка, Артикул производителя, Артикул магазина, Штрих-код (EAN), Ключевые слова (термы), Изображение товара, Проверка по цене, Проверка по стоп словам, Проверка по дубликатам, Проверка по артикула производителя.

Система постоянно обучается человеком, который помогает принять решения в спорных ситуациях. Эта технология признана уникальной на российском рынке и позволяет обеспечить высокий уровень точности при работе с большими данными.
Система контроля качества
Также мы разработали собственную технологию постоянной проверки качества собираемых и предоставляемых данных для клиентов — Универсальную проверку качества.

Универсальная проверка качества включает в себя проверку трех ключевых параметров: точность сопоставлений, полноту сопоставлений, а также полноту сбора. Путем ежедневного проведения проверок по клиентам, наш отдел оперативно выявляет и устраняет низкие показатели качества данных.

Кроме того, в компании реализована служба круглосуточной поддержки работоспособности системы, которая контролирует техническую исправность и процесс сбора данных даже 24 часа 7 дней в неделю.

Универсальная проверка качества включает в себя проверку трех ключевых параметров: точность сопоставлений, полноту сопоставлений, а также полноту сбора. Путем ежедневного проведения проверок по клиентам, наш отдел оперативно выявляет и устраняет низкие показатели качества данных.

Кроме того, в компании реализована служба круглосуточной поддержки работоспособности системы, которая контролирует техническую исправность и процесс сбора данных даже 24 часа 7 дней в неделю.
Причины работать с Metacommerce
В современном мире все компании, которые продают товары или оказывают услуги, работают в высококонкурентной среде, где постоянно необходимо предпринимать действия для поддержки спроса. Каждый предприниматель рано или поздно сталкивается с потребностью отслеживать активность конкурентов: что они продают, по каким ценам, как часто меняется их товарная сетка, каковы остатки, какие акции они проводят, часто ли делают скидки на свою продукцию и многое другое.

Многие сначала пытаются проводить анализ конкурентов своими силами, вручную с помощью сотрудников компании или с помощью самописных решений, но зачастую срабатывает человеческий фактор — допускаются ошибки, настройки устаревают, процесс поддержки занимает много времени и ресурсов.

Для бесперебойного процесса анализа конкурентов с гарантированным качеством данных ритейлеры и бренды используют специализированные решения, которые позволяют автоматизировать этот бизнес-процесс и оптимизировать функцию ценообразования. Для этого существуют сервисы мониторинга цен и ассортимента конкурентов, а также другой полезной информации. Платформа сбора данных Metacommerce — надёжный поставщик рыночных данных как для крупнейших компаний, так и для продавцов с небольшим ассортиментом. Вот некоторые причины, по которым выбирают именно нас:

  • 10 лет на рынке, дважды резидент Сколково, ФРИИ
  • 2 из 3 крупнейших федеральных розничных сетей и 10 из 20 крупнейших eCommerce игроков — наши клиенты
  • Мультиканальный мониторинг — собираем любые видимые данные на сайтах, агрегаторах, приложениях, прайс листах и в розничных магазинах
  • Выполняем любые проекты от FMCG до металлургии, большой опыт в электронике, FMCG и фарме
  • Доступ всем сотрудникам компании, бесплатное сопровождение и техническая поддержка
  • Помогаем увеличивать скорость реакции на изменения рынка, вести проактивную ассортиментную и ценовую политику, сократить затраты на мониторинг цен и анализ данных
  • Новая технология сборов и автоматический обход блокировок — собираем 400 млн цен в сутки
  • Автоматизированные сопоставления по 12 параметрам с точностью более 98%, ассортиментный анализ и подбор товаров-аналогов методом параметризации
  • Сервера в Европе и сборы в любой стране мира
  • Мобильное приложение для офлайн мониторинга и собственные аудиторы в разных городах России
  • Сохраняем кэш страниц и фото ценников, проводим регулярный контроль качества данных
  • Кастомные отчеты и передача данных в удобном формате, возможны разовые исследования рынка
  • Проводим перерасчет цен по вашим правилам

Хочу получать новые статьи раз в месяц