Блог Metacommerce

Новые технологии и возможности онлайн мониторинга

Сбор данных в интернете

В 2020–2021 годах при участии Фонда Сколково мы разработали новую технологию распределенного высокопроизводительного сбора данных на сайтах NewMetabus. Это позволило увеличить скорость и объем собираемых данных, а также автоматически обходить блокировки, защищающие содержимое страниц от сбора информации. 

В рамках разработки новой технологии была улучшена архитектура решения — сбор данных с сайта вместо одного монолитного процесса заменен на последовательность шагов, каждый шаг — это последовательность атомарных действий. Улучшена производительность бэкэнд части worker node и управляющей master node. 

Ключевым элементом системы является информация о состоянии сборов для балансировки запусков по расписанию и нагрузки. Реализована поддержка распределенного запуска по расписанию, которое формируется автоматически на базе настроек клиентов с учетом нагрузки узлов.

Новая технология сбора данных позволяет:

  • легко балансировать нагрузку и скорость сбора за счет выполнения шагов параллельно;
  • перезагружать узел, не прерывая при этом процесс сбора данных; 
  • в случае ошибок, повторяется только шаг, на котором произошел сбой, без необходимости запуска всего сбора сначала;
  • высокий уровень надежности, при сбое одного из узлов система переназначит его  задачи на другой и процесс продолжает выполняться с того места, где остановилась;
  • динамически, без перезагрузки, масштабировать систему, добавляя при необходимости, новые воркер-узлы. 

Результаты сравнительного тестирования старой и новой технологии

Домен Старая система сборов Новая система сборов Результат
теста
Объектов
собрано
Время
сбора
Скорость,
тов/сек
Объектов
собрано
Время
сбора
Скорость,
тов/сек
Сайт 1 13 340 00:36:58 6,01 13 340 00:13:30 16,47 274%
Сайт 2 7 772 01:13:28 1,76 7 772 00:10:14 12,66 719%
Сайт 3 24 674 02:03:48 3,32 24 674 00:22:04 18,63 561%
Средняя скорость (тов/сек) 3,69 15,92 413%

Сравнение показателей производительности новой технологии в сравнении со старой версией

Тест/замер Старая система Новая система Ожидаемый результат Вывод
Объем сборов, товаров/час 13 284  157 482 30 000 1185%
Скорость сбора данных, товаров/сек 3.69 15.92 413%
Параллельных сессий 0 120 100-200 +
Деградация времени сбора 4.67% до 25% +
Код обхода блокировки 100+ строк 0 строк до 10 строк +

Итог тестирования: средняя скорость сбора товаров в старой системе — 3,69 товара в секунду, в новой версии — 15,92 товара в секунду, что на 413% быстрее. 

Новая система обходит блокировки без дополнительного кода. При перезагрузке сервера во время выполнения задания процесс не прерывается.

Ввод технологии в эксплуатацию: с 01.07.2021 начат процесс перевода всех заданий клиентов на новую технологию, цель — до конца года полностью отключить старую систему. По состоянию на 08.11.2021 новая версия системы в среднем собирает 200 млн товаров в сутки, а старая версия системы 5 млн. При тесте пиковой нагрузки объем сборов в новой системе достигал 300 млн. товаров в сутки. 

Технология сопоставления товаров с матрицей заказчика

Для сопоставления товаров, собранных на рынке, с товарной матрицей заказчика используется собственная технология автоматизированного сопоставления на базе статистической экспертной системы.

Для каждой позиции из ассортимента мы создаем карточку в каталоге Metacommerce с описанием товара. Собранные данные с рынка анализируются системой на предмет идентичности товаров по 12 параметрам от названия и цены до изображения и штрих-кода. На основании этих данных алгоритм автоматически принимает решение о признании двух товаров идентичными. 

Параметры для сопоставления: Название, Ссылка, Артикул производителя, Артикул магазина, Штрих-код (EAN), Ключевые слова (термы), Изображение товара, Проверка по цене, Проверка по стоп словам, Проверка по дубликатам, Проверка по артикула производителя.

Система постоянно обучается человеком, который помогает принять решения в спорных ситуациях. Эта технология признана уникальной на российском рынке и позволяет обеспечить высокий уровень точности при работе с большими данными.

Система контроля качества

Также мы разработали собственную технологию постоянной проверки качества собираемых и предоставляемых данных для клиентов — Универсальную проверку качества.

Универсальная проверка качества включает в себя проверку трех ключевых параметров: точность сопоставлений, полноту сопоставлений, а также полноту сбора. Путем ежедневного проведения проверок по клиентам, наш отдел оперативно выявляет и устраняет низкие показатели качества данных.

Кроме того, в компании реализована служба круглосуточной поддержки работоспособности системы, которая контролирует техническую исправность и процесс сбора данных даже 24 часа 7 дней в неделю. 

Универсальная проверка качества включает в себя проверку трех ключевых параметров: точность сопоставлений, полноту сопоставлений, а также полноту сбора. Путем ежедневного проведения проверок по клиентам, наш отдел оперативно выявляет и устраняет низкие показатели качества данных.

Кроме того, в компании реализована служба круглосуточной поддержки работоспособности системы, которая контролирует техническую исправность и процесс сбора данных даже 24 часа 7 дней в неделю. 

Схема Универсальной проверки качества:

Причины работать с Metacommerce

В современном мире все компании, которые продают товары или оказывают услуги, работают в высококонкурентной среде, где постоянно необходимо предпринимать действия для поддержки спроса. Каждый предприниматель рано или поздно сталкивается с потребностью отслеживать активность конкурентов: что они продают, по каким ценам, как часто меняется их товарная сетка, каковы остатки, какие акции они проводят, часто ли делают скидки на свою продукцию и многое другое. 

Многие сначала пытаются проводить анализ конкурентов своими силами, вручную с помощью сотрудников компании или с помощью самописных решений, но зачастую срабатывает человеческий фактор — допускаются ошибки, настройки устаревают, процесс поддержки занимает много времени и ресурсов. 

Для бесперебойного процесса анализа конкурентов с гарантированным качеством данных ритейлеры и бренды используют специализированные решения, которые позволяют автоматизировать этот бизнес-процесс и оптимизировать функцию ценообразования. Для этого существуют сервисы мониторинга цен и ассортимента конкурентов, а также другой полезной информации. Платформа сбора данных Metacommerce — надёжный поставщик рыночных данных как для крупнейших компаний, так и для продавцов с небольшим ассортиментом. Вот некоторые причины, по которым выбирают именно нас: 

  • 10 лет на рынке, дважды резидент Сколково, ФРИИ
  • 2 из 3 крупнейших федеральных розничных сетей и 10 из 20 крупнейших eCommerce игроков — наши клиенты
  • Мультиканальный мониторинг — собираем любые видимые данные на сайтах, агрегаторах, приложениях, прайс листах и в розничных магазинах
  • Выполняем любые проекты от FMCG до металлургии, большой опыт в электронике, FMCG и фарме 
  • Доступ всем сотрудникам компании, бесплатное сопровождение и техническая поддержка
  • Помогаем увеличивать скорость реакции на изменения рынка, вести проактивную ассортиментную и ценовую политику, сократить затраты на мониторинг цен и анализ данных
  • Новая технология сборов и автоматический обход блокировок — собираем 400 млн цен в сутки
  • Автоматизированные сопоставления по 12 параметрам с точностью более 98%, ассортиментный анализ и подбор товаров-аналогов методом параметризации
  • Сервера в Европе и сборы в любой стране мира
  • Мобильное приложение для офлайн мониторинга и собственные аудиторы в разных городах России
  • Сохраняем кэш страниц и фото ценников, проводим регулярный контроль качества данных
  • Кастомные отчеты и передача данных в удобном формате, возможны разовые исследования рынка
  • Проводим перерасчет цен по вашим правилам 

Партнёрская программа Metacommerce

Мы запустили партнерскую программу для компаний и физических лиц, которая позволит подключать платформу Metacommerce новым клиентам и получать вознаграждение весь период использования нашего продукта.

Начните получать оперативную, полную и достоверную информацию о рынке

Ошибка заполнения формы. Пожалуйста, проверьте правильность заполнения формы и попробуйте еще раз.

* — обязательные поля для получения демо-доступа.

Спасибо, ваша заявка принята

В течение нескольких минут на вашу почту будет отправлена ссылка для входа в демо-кабинет. Мы свяжемся с вами в течение рабочего дня и поможем познакомиться с платформой.

Не удалось отправить заявку на демо-доступ

Пожалуйста, попробуйте связаться с нами другим способом.

+7 495 374-73-41

8 800 500-22-64