logo
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aenean feugiat dictum lacus, ut hendrerit mi pulvinar vel. Fusce id nibh

Mobile Marketing

Pay Per Click (PPC) Management

Conversion Rate Optimization

Email Marketing

Online Presence Analysis

Fell Free To contact Us
Lorem ipsum dolor sit amet, consectetur adipiscing elit. Aenean feugiat dictum lacus

1-677-124-44227

info@your business.com

184 Main Collins Street West Victoria 8007

1-677-124-44227

437 S Olive St, Los Angeles

Top

Настройка плагина WPGrabber, пример граббинга html контента

wisebrett / Без рубрики  / Настройка плагина WPGrabber, пример граббинга html контента

Настройка плагина WPGrabber, пример граббинга html контента

Чтобы избежать ошибок в работе с WPgrabber рассмотрим настройку html-импорта лент с сайта.

Для примера рассмотрим раздел статей одного коммерческого сайта.

wpgrabber


  1.  Создаем новую ленту в настройках плагина WPGrabber, либо в разделе компонентов, при использовании версии на движке Joomla. В строке «Наименование ленты» можно записать любое имя нашей настройки импорта, к примеру: «Контент из статей».
  2.  Тип ленты устанавливаем  html.
  3.  URL индексной страницы — вставляем адрес раздела сайта, с котрого будем собирать ссылки на копируемый контент.

1454098418461

У нас это URL: www.trajectus.ru/stati/

4) Обязательно надо установить параметр  Кодировка HTML-страницы.

Кодировку страницы сайта мы смотрим в исходном HTML-коде. Нажимаем сочетание клавиш  Ctrl + U или кликнуть  правой кнопкой мыши и выбрать пункт «Просмотр кода страницы».

1454099418311

Нажимаем кнопку «поиск» и ищем строку:

 <meta http-equiv=»Content-Type» content=»text/html; charset=UTF-8» />

Следовательно устанавливаем в поле «Кодировка HTML-страницы» кодировку  UTF-8.

Чтобы долго не искать пользуйтесь поиском браузера (Ctrl + F) и вводите слово charset. Иногда кодировка указывается в скриптах, на них обращать внимание не стоит.

Ищите в исходном html-коде страницы подобную строку:

<meta http-equiv=»Content-Type» content=»text/html; charset=ЗДЕСЬ КОДИРОВКА» />

Иногда вебмастера кодировку не указывают, следовательно методом перебора меняем на: Исходная или WINDOWS-1251.

Теперь заполним поле «Шаблон ссылок», с помощью которого идет сбор ссылок на статьи для граббинга с целью импорта на свой сайт.

Для верного заполнения параметра «Шаблон ссылок», в WPGrabber необходимо определить вид ссылок в коде страницы.

Копируем часть текста любого заголовка статьи. У нас первый заголовок контента носит название «Тендерные расчеты»

1454100089350

Переходим в исходный код, жмем Ctrl + F и в поле поиска копипастим текст: «Тендерные расчеты».

Ищем ту часть, где находится открытый html-тег ссылки прямо перед искомым нами текстом.

1454100480382

На скриншоте выше видим URL-адрес данной ссылки в теге  A. Мы видим, что страница статьи под заголовком «Тендерные расчеты» расположена по URL: http://www.trajectus.ru/stati/tendernye_raschety/

Рассмотрим структуру этого URL-адреса:

http://www.trajectus.ru/stati/некоторое количество букв и знаков

Важно то, что эта часть URL фиксированная:

http://www.trajectus.ru/stati/

Т.к. эта часть УРЛа остается постоянной для всех других ссылок, идущих на странице.

Рассмотрим остальные ссылки:

http://www.trajectus.ru/stati/dostavka_v_krym/
http://www.trajectus.ru/stati/perevalka_gruzov_v_g_ust_kut_s_zhd_st_lena_na_port_osetrovo/
http://www.trajectus.ru/stati/preimuschestva-aviatsionnogo-transporta/

Все эти ссылки подходят под наше описание шаблона. Для корректного заполнения поля «шаблон ссылок» в WPGrabber необходимо изучить формат описания регулярных выражений PCRE.

Давайте поймем логику описания шаблона ссылок:

  • У нас меняющиеся значения это: dostavka_v_krym/, erevalka_gruzov_v_g_ust_kut_s_zhd_st_lena_na_port_osetrovo/ и preimuschestva-aviatsionnogo-transport
  • У этих значений разное количество символов в длину
  • Они возможно могут включать в себя цифры
  • Не может быть только символа пробела, т.к. в URL они запрещены

В формате PCRE любой непробельный символ обозначается символами \S

Наши URL: dostavka_v_krym, preimuschestva-aviatsionnogo и прочие состоят из многих символов (букв и символов подчеркивания), поэтому пишем в нашем выражении количество символов. С этой целью в WPGrabber используются фигурные скобки.

Например код \S{8} значит 8 идущих подряд символов.

Слово «плагин» описывается регулярным выражением \S{6}, но не попадает под выражение \S{2}, т.к. в слове «плагин» именно 6 букв, а не 2.

Также регулярные выражения позволяют указывать диапазон символов. Например: \S{3,6} это значит все слова длиною от 3 до 6 символов включительно.

Для указания минимального количества символов в строке без указания максимального после запятой ничего не пишет. Например \S{4,} означает, что должны использоваться все слова от 4 символов и больше.

Теперь разберем варианты: dostavka_v_krym/ или perevalka_gruzov_v_g_ust_kut_s_zhd_st_lena_na_port_osetrovo/. Длина слов и символов сильно варьируется. Поэтому переписываем строку шаблона так:

http://www.trajectus.ru/stati/\S{1,}/

Жмем «Тест импорта». Плагин WPgrabber нашел намного больше ссылок, чем нужно. В список ссылок попали ненужные нам тексты ссылок.

1454102969235

К примеру :

http://www.trajectus.ru/stati/mezhdunarodnye-zhd-perevozki/»>Подробнее…

Причина в том, что код \S{1,} собирает все символы, которых не должно быть укзаано в URL-адресе ссылки.

Чтобы правильно работал плагин WPgrabber нам нужны только буквы, цифры и символ «-» и «_» последней части URL-адресов ссылок.

Поэтому мы используем такой код:

[\w\d]{1,}

Он означает, что любая одна буква или цифра или более подобных символов.

К примеру, под выражение вида:

[\w\d]{2,}

попадут строки :

me
zh
du

но, не попадут, строки вида:

e-
-p

Следовательно мы перепишем наше выражение к такому виду:

http://www.trajectus.ru/stati/[\w\d\_\-]{1,}

Таким образом при импорте контента не будет отлавливаться ненужные и некорректные ссылки!

Вставьте этот код в Шаблон ссылок, жмите «Применить» и «Тест импорта» и плагин выдаст на этот раз 14 ссылок!

1454103686187

Заходим на страницу категории статей для граббинка нашего сайта и считаем количество ссылок на копируемые статьи. Так мы проверяем настройки шаблона для ссылок.

Когда при тесте импорта записей в Joomla или WordPress в результате видим сообщение «Найдено ссылок: 0» , то это говорит нам о том, что допущена ошибка в написании шаблона ссылок WPGrabber. Перепроверяйте все настройки заново.

Дли информации ниже указаны управляющие символы выражений формата PCRE.

 ., *, +, ?, |, (, ), [, ], {, }, $, ^

Когда в регулярном выражении нашего синтаксиса стоит символ точки (.)  это значит служебный символ, который значит вхождение любого возможного символа.

Например такое выражение:

http:/wp.graber.ru/[\w\d\_\-]{1,}

значит не только:

http://wp.grabber.ru/blog
http://wp.grabber.ru/123

но также и:

http://wp2grabber-ru/d343

Чтобы поставить точку, необходимо указать обратный слэш( \).

Значит наш шаблон должен быть такого вида:

http://www\.trajectus\.ru/stati/[\w\d\_\-]{1,}

Делаем тестовый импорт ленты и получаем результат со следующей ошибкой:

1454104300100

Как прописать правила для правильного импорта заголовка и текста записей WordPress.

Заголовок при импорте ленты будет заголовком создаваемых в WordPress записей или постов.

Перейдем на сайте на саму страницу контента:

http://www.trajectus.ru/stati/tendernye_raschety/

Открываем ее исходный код и ищем наш заголовок:

1454104545792

Не берем в рассчет содержимое тэга Title:

<title>Тендерные расчеты от ООО «ТРАЕКТОРИЯ»</title>

По правилам SEO Title не должен совпадать с заголовком статьи. Поэтому скорее всего он будет чем-нибудь отличать

Надо найдите чистое вхождение заголовка.

<h1>Тендерные расчеты</h1>

Согласно вышеописанным шаблонам можно было бы написать:

<h1>{1,}</h1>

Однако такое выражение также выдает ошибку сохранения заголовка.

Чтобы обозначить выборку определенной части текста из строки используются символы круглых скобок ( ) и .*?

Этот код будет включать в себя любые символы пока не дойдет до  следующего символа после нее, поэтому делаем шаблон заголовков таким:

<h1>(.*?)</h1>

Вставляем эту настройку в поле «Шаблон заголовка», нажмем кнопку «Применить» и кнопку «Превью».

В результате WPGrabber нашел нужные нам заголовки контента:

1454138827425

Научимся как заполнять поле «Полный текст» в настройках плагина WPGraber

Нужно установить параметры ленты «Начальная точка полного текста» и «Конечная точка полного текста».

  1. Смотрим исходных код копируемого поста.
  2. Находим начальную точку текста:

1454139521372

Перед началом текста расположен тег и ранее он не используется выше по странице.

Следовательно заполняем поле «Начальная точка полного текста» символами:

<p>

Далее находим конец текста статьи в коде:

1454139366788

В строке «Конечная точка полного текста» вставляем такой код:

<p style=»font-weight: bold;»>Поделиться:</p>

В результате мы настроили импорт ленты в настройках плагина WPGrabber. Во время тестового импорта получаем такой результат:

1454139741210

Поздравляю мы настроили ленту для импорта. В случае возникновения вопросов или сложностей в настроках пишите.

Чтобы скачать последнюю версию плагина WPGrabber 2.1 пишите ко мне почту, я объясню как это можно сделать.

No Comments

Post a Comment