Автоматизированный сбор информации, он же парсинг, в сфере интернет-магазинов используется в основном для сбора товаров для интернет-магазина.
Чаще всего парсинг нужен при открытии магазина, а также для регулярного расширения ассортимента. Важно понимать что 30-40 товаров можно завести вручную, но уже от 200-300 штук по деньгам может быть дешевле спарсить, чем оплатить неделю работы штатному или удаленному контентщику. От 1000 штук почти всегда будет выигрывать автоматизированный сбор.
Что еще делать с помощью парсинга
Стандартно:
- улучшение характеристик существующих товаров и добавление фотографий
- загрузка документации, сертификатов и т.п.
Расширенно
- Подгрузка отзывов, оценок, фотографий от покупателей с маркетплейсов.
- Связывание ваших карточек товара с нужными страницами в википедии. Футболку - со спортсменом, бренд - со страницей компании, материал- с его описанием. А далее - подгрузку определенных данных к себе на сайт.
- Создание информационного сайта/раздела смежной тематики для привлечения дополнительного трафика/продвижения основного магазина. Например, вы торгуете посудой для приготовления и кулинарными инструментами. Вы можете создать сайт рецептов, спарсив топового конкурента в этой сфере, и привлекать дополнительный трафик на сайт интернет-магазина, а также продвигать его размещая ссылки на информационном сайте.
Опыт
Присутствует. Впервые начали парсить в 2012 году, и уже давно парсим каждый день. Мы парсили большинство крупнейших магазинов и ресурсов. Полностью спарсили яндекс карты и иногда актуализируем. Судя по собственным готовым пресетам парсинга, задач было больше 1000.
Краткое описание процесса парсинга
Карта сайта sitemap.xml + обход всего сайта специальной программой. (т.к. в карте сайта могут быть не все или несуществующие страницы)
Все полученные ссылки на товары складываются и потом делаем тестовый проход парсером на код ответа страницы (тем самым оставляем только нужные).
У полученных товаров парсим без разбора весь блок характеристик, чтобы получить полный список уникальных характеристик для всех товаров. Также к ним добавится еще около 30 других полей вроде: цвета, размеры, цена, имя, фотки, категория\подкатегория и т.п. Парсим все товары.
Если на сайте ошибки в верстке – парсится не всё. Если ошибки в наименовании характеристик от товара к товару – аналогично ошибки. В нашем случае были проблемы с артикулами, ценой и страной. Также могут быть смысловые дубли значений характеристик, но написанные по разному (приводим к единому значению). Все эти и другие возможные ошибки исправляются.
Проверяем как парсятся фото и какие ошибки со скачанными файлами. Это могут быть разные расширения, капс \не капс и в некоторых случаях чрезмерный размер. Исправление ошибок, а также одинаковый формат фото получаем специальным скриптом с использованием фотошопа. Сжимаем полученные фото без потерь качества специализированной программой (избавляемся от чрезмерного размера).
При необходимости разворачиваем движок магазина. Создаем все характеристики (нужных форматов, чтобы потом не возникло проблем с применением фильтра на странице категории), типы товаров и мета информацию если нужно. Импортируем результаты парсинга.