4 мая 2022
Новые технологии и возможности онлайн мониторинга
Сбор данных в интернете
В 2020–2021 годах при участии Фонда Сколково мы разработали новую технологию распределенного высокопроизводительного сбора данных на сайтах NewMetabus. Это позволило увеличить скорость и объем собираемых данных, а также автоматически обходить блокировки, защищающие содержимое страниц от сбора информации.
В рамках разработки новой технологии была улучшена архитектура решения — сбор данных с сайта вместо одного монолитного процесса заменен на последовательность шагов, каждый шаг — это последовательность атомарных действий. Улучшена производительность бэкэнд части worker node и управляющей master node.
Ключевым элементом системы является информация о состоянии сборов для балансировки запусков по расписанию и нагрузки. Реализована поддержка распределенного запуска по расписанию, которое формируется автоматически на базе настроек клиентов с учетом нагрузки узлов.
Новая технология сбора данных позволяет:
- легко балансировать нагрузку и скорость сбора за счет выполнения шагов параллельно;
- перезагружать узел, не прерывая при этом процесс сбора данных;
- в случае ошибок, повторяется только шаг, на котором произошел сбой, без необходимости запуска всего сбора сначала;
- высокий уровень надежности, при сбое одного из узлов система переназначит его задачи на другой и процесс продолжает выполняться с того места, где остановилась;
- динамически, без перезагрузки, масштабировать систему, добавляя при необходимости, новые воркер-узлы.
Результаты сравнительного тестирования старой и новой технологии
Домен | Старая система сборов | Новая система сборов | Результат теста |
||||
Объектов собрано |
Время сбора |
Скорость, тов/сек |
Объектов собрано |
Время сбора |
Скорость, тов/сек |
||
Сайт 1 | 13 340 | 00:36:58 | 6,01 | 13 340 | 00:13:30 | 16,47 | 274% |
Сайт 2 | 7 772 | 01:13:28 | 1,76 | 7 772 | 00:10:14 | 12,66 | 719% |
Сайт 3 | 24 674 | 02:03:48 | 3,32 | 24 674 | 00:22:04 | 18,63 | 561% |
Средняя скорость (тов/сек) | 3,69 | 15,92 | 413% |
Сравнение показателей производительности новой технологии в сравнении со старой версией
Тест/замер | Старая система | Новая система | Ожидаемый результат | Вывод |
Объем сборов, товаров/час | 13 284 | 157 482 | 30 000 | 1185% |
Скорость сбора данных, товаров/сек | 3.69 | 15.92 | 8 | 413% |
Параллельных сессий | 0 | 120 | 100-200 | + |
Деградация времени сбора | — | 4.67% | до 25% | + |
Код обхода блокировки | 100+ строк | 0 строк | до 10 строк | + |
Итог тестирования: средняя скорость сбора товаров в старой системе — 3,69 товара в секунду, в новой версии — 15,92 товара в секунду, что на 413% быстрее.
Новая система обходит блокировки без дополнительного кода. При перезагрузке сервера во время выполнения задания процесс не прерывается.
Ввод технологии в эксплуатацию: с 01.07.2021 начат процесс перевода всех заданий клиентов на новую технологию, цель — до конца года полностью отключить старую систему. По состоянию на 08.11.2021 новая версия системы в среднем собирает 200 млн товаров в сутки, а старая версия системы 5 млн. При тесте пиковой нагрузки объем сборов в новой системе достигал 300 млн. товаров в сутки.
Технология сопоставления товаров с матрицей заказчика
Для сопоставления товаров, собранных на рынке, с товарной матрицей заказчика используется собственная технология автоматизированного сопоставления на базе статистической экспертной системы.
Для каждой позиции из ассортимента мы создаем карточку в каталоге Metacommerce с описанием товара. Собранные данные с рынка анализируются системой на предмет идентичности товаров по 12 параметрам от названия и цены до изображения и штрих-кода. На основании этих данных алгоритм автоматически принимает решение о признании двух товаров идентичными.
Параметры для сопоставления: Название, Ссылка, Артикул производителя, Артикул магазина, Штрих-код (EAN), Ключевые слова (термы), Изображение товара, Проверка по цене, Проверка по стоп словам, Проверка по дубликатам, Проверка по артикула производителя.
Система постоянно обучается человеком, который помогает принять решения в спорных ситуациях. Эта технология признана уникальной на российском рынке и позволяет обеспечить высокий уровень точности при работе с большими данными.
Система контроля качества
Также мы разработали собственную технологию постоянной проверки качества собираемых и предоставляемых данных для клиентов — Универсальную проверку качества.
Универсальная проверка качества включает в себя проверку трех ключевых параметров: точность сопоставлений, полноту сопоставлений, а также полноту сбора. Путем ежедневного проведения проверок по клиентам, наш отдел оперативно выявляет и устраняет низкие показатели качества данных.
Кроме того, в компании реализована служба круглосуточной поддержки работоспособности системы, которая контролирует техническую исправность и процесс сбора данных даже 24 часа 7 дней в неделю.
Универсальная проверка качества включает в себя проверку трех ключевых параметров: точность сопоставлений, полноту сопоставлений, а также полноту сбора. Путем ежедневного проведения проверок по клиентам, наш отдел оперативно выявляет и устраняет низкие показатели качества данных.
Кроме того, в компании реализована служба круглосуточной поддержки работоспособности системы, которая контролирует техническую исправность и процесс сбора данных даже 24 часа 7 дней в неделю.
Схема Универсальной проверки качества:
Причины работать с Metacommerce
В современном мире все компании, которые продают товары или оказывают услуги, работают в высококонкурентной среде, где постоянно необходимо предпринимать действия для поддержки спроса. Каждый предприниматель рано или поздно сталкивается с потребностью отслеживать активность конкурентов: что они продают, по каким ценам, как часто меняется их товарная сетка, каковы остатки, какие акции они проводят, часто ли делают скидки на свою продукцию и многое другое.
Многие сначала пытаются проводить анализ конкурентов своими силами, вручную с помощью сотрудников компании или с помощью самописных решений, но зачастую срабатывает человеческий фактор — допускаются ошибки, настройки устаревают, процесс поддержки занимает много времени и ресурсов.
Для бесперебойного процесса анализа конкурентов с гарантированным качеством данных ритейлеры и бренды используют специализированные решения, которые позволяют автоматизировать этот бизнес-процесс и оптимизировать функцию ценообразования. Для этого существуют сервисы мониторинга цен и ассортимента конкурентов, а также другой полезной информации. Платформа сбора данных Metacommerce — надёжный поставщик рыночных данных как для крупнейших компаний, так и для продавцов с небольшим ассортиментом. Вот некоторые причины, по которым выбирают именно нас:
- 10 лет на рынке, дважды резидент Сколково, ФРИИ
- 2 из 3 крупнейших федеральных розничных сетей и 10 из 20 крупнейших eCommerce игроков — наши клиенты
- Мультиканальный мониторинг — собираем любые видимые данные на сайтах, агрегаторах, приложениях, прайс листах и в розничных магазинах
- Выполняем любые проекты от FMCG до металлургии, большой опыт в электронике, FMCG и фарме
- Доступ всем сотрудникам компании, бесплатное сопровождение и техническая поддержка
- Помогаем увеличивать скорость реакции на изменения рынка, вести проактивную ассортиментную и ценовую политику, сократить затраты на мониторинг цен и анализ данных
- Новая технология сборов и автоматический обход блокировок — собираем 400 млн цен в сутки
- Автоматизированные сопоставления по 12 параметрам с точностью более 98%, ассортиментный анализ и подбор товаров-аналогов методом параметризации
- Сервера в Европе и сборы в любой стране мира
- Мобильное приложение для офлайн мониторинга и собственные аудиторы в разных городах России
- Сохраняем кэш страниц и фото ценников, проводим регулярный контроль качества данных
- Кастомные отчеты и передача данных в удобном формате, возможны разовые исследования рынка
- Проводим перерасчет цен по вашим правилам