/ Сайтостроение / Адаптивность / Парсинг контента с различных сайтов

Парсинг контента с различных сайтов

HIT

Парсинг контента — считывание страниц (товаров) с различных сайтов и создание файла таблицы структурированных данных (в формате xls, csv, xml и т.д.).

Программа Datacol 5 (5.54)

Платное решение, однако если поискать в интернете, то можно найти ломаную версию.
internet-magazin-parsing-scheme

Настройка простого парсинга

1. Создаем новую компанию (+ Добавить компанию).

2. Первые две вкладки оставляем без изменений. Включаем третью вкладку Навигация. Здесь мы будем задавать область парсинга.
В блоке Список начальных URL Вставляем ссылки на разделы сайта (категории товаров).
И в этой же вкладке в подменю Сбор ссылок нужно указать какой материал должен парситься. Нужно воспользоватся Помощником (левый верхний угол). В интерфейсе Помощника сверху вставляем ссылку на любой из разделов сайта, и правой кнопкой мыши нажимаем над карточкой товара (записью) — в появившемся окне (слева) копируем кусок кода и вставляем его в область Сбор ссылок XPATH в подменю Сбор ссылок. Также надо сделать с пунктом пэйджинации если она присутствует в разделах (для того чтобы Datacol переходил на следующую страницу).

3. Идем в следующую вкладку Сбор данных и там в подменю Поля данных. Добавляем новое поле (+ Добавить поле), называем его. Включаем Помощника, только теперь в адресной строке пишем путь в карточку товара. Нажимаем на правую кнопку мыши над интересующим элементом: название, описание, цена, изображение и т.д. В появившемся окне (слева) копируем код и вставляем его в область XPATH вырезания. !Нажимаем Применить (сверху справа).

Не всегда получается идеально выделить область для генерации кода, т.к. она может состоять из нескольких компонентов. Например описание, состоящее из дополнительных полей

4. Поля данных для изображений. Все как в предыдущем пункте + во вкладке Загрузка файлов поставить галку и в списке Возвращаемое значение выбрать Возвращать виртуальные пути.

5. Чтобы ограничить область парсинга у нас во втором пункте выставлены разделы, но чтобы он не парсил сами разделы сделаем одно из полей данных обязательным (например, название). Выбираем поле Название из выпадающего списка созданных полей, идем во вкладку Дополнительно, и ставим галку Поле обязательное.

6. В разделе Экспорт выбираем необходимый формат экспорта данных.

7. Нажимаем Сохранить и выйти (справа сверху), после этого выбрав компанию нажимаем Запуск.

По-умолчанию, созданный файл таблицы будет создан в папке Документы, а изображения сохранены в папке Изображения.

Content Downloader X1

По сравнению с предыдущей программой — это намного круче! Здесь все проще, и главное — понятнее!

Этапы типового парсинга:
1. Создаем новый парсинг в CSV в основном меню. Создаем новый шаблон парсинга (правая кнопка — создать новый шаблон).
2. В поле Ссылки вбиваем какую-либо ссылку на страницу с товаром. В левой части жмем на правую кнопку над любым пунктом Граница парсинга 1. Попадаем в окно определения границ парсинга. Здесь создаем поля парсинга: начало, конец, название. Можно задать альтернативные границы парсинга (кнопка + слева от поля). Можно задать Дополнительные настройки границ парсинга (крайняя справа кнопка от названия поля), например если ссылка на изображение абсолютная добавлять название сайта, или убирать тэги (<{skip}>| ). После завершения создания полей жмем Готово в правой части.
3. Определяем область парсинга на сайте. т.е. мы должны создать список страниц источников для парсинга. Идем в закладку Ссылки.
Пример для одной рублики
Вводим ссылку на рублику в поле ссылки. Если у рублики не одна страница, то идем на сайте на вторую страницу, копируем URL и вставляем ссылку в верхнее поле и заменяем номер страницы на {num}, а справа пишем количество «шагов» в зависимости от количества страниц. Жмем кнопку Сгенирировать ссылки и выбираем верхний пункт.
Только надо удалить ссылку с пейджинацией =1, т.к. у исходной (первой) страницы рублики в адресной строке нет пейджинации и мы ее указали в начале.

4. Включаем быстрый Предпросмотр (в верхней панели). Видим все имеющиеся ссылки, нажимаем на фильтр и различными способами (/название из пути/, ?операторы, глубина вложенности ссылок и т.д.). Отфильтровыванные (нужные нам) ссылки находятся в верхней части, в нижней остальные. После того как мы добились нужного результата — жмем Начать парсинг !находясь в закладке Ссылки, получаем нужные ссылки.

На всякий случай их можно куда-нибудь сохранить, т.к. последующий парсинг товаров может потребовать несколько попыток.

5. Идем во вкладку Контент и нажимаем Начать парсинг. Рекомендую ставить количество потоков — 2. Почему-то при выставлении бОльшего числа — не все позиции парсятся. Проверяем лог.

Поделится информацией с друзьями

  • Комментарии
  • Вложения

Добавить комментарий

Пока нет комментариев. Будь первым!

Парсинг контента с различных сайтов Парсинг контента с различных сайтов
Мультиязычность сайта
Рекомендации для васМультиязычность сайтаOpttour.ru
Спасибо! Наш менеджер свяжется с Вами в течении 5 минут.