7 крутых способов сбора информации для «белого» СЕО и повышения аутрича

Если вы хоть раз попадали на знаменитый Хабрахабр, то точно натыкались на руководства по парсингу данных и web scraping.

Они часто фокусируются различных методах ускоренного сбора информации. Ничего запредельно сложного в используемых приемах и технологиях нет, а само поле оставляет огромное пространство для экспериментов и бесконечных проб и ошибок.

Заострять внимание на технологических аспектах парсинга и Web Scraping мы не будем, а перейдем сразу к основной теме: какую информацию нужно собирать и как ее использовать с максимальной эффективностью. В большинстве случаев нет никакого смысла хватать все тайтлы с первых попавшихся страниц. Процесс сбора данных должен быть акцентированным и нацеленным на определенный результат. Только в этом случае можно добиться отличных результатов.

В обширном информационном обзоре о том, насколько важно использовать белые методы и максимально расширять «аутрич», большое внимание уделяется важности отказа от черного СЕО и перехода на более «цивилизованные» методики продвижения. Сделать это без правильного подхода к оптимизации контента и объективной оценки экосферы сайта почти невозможно. Здесь нам помогут техники web scraping.

В этом обзоре мы постараемся ответить на несколько важных вопросов, касающихся приемов сбора информации:

  1. Как найти преданных «евангелистов» в общей массе комментариев на сайте?
  2. Как определить заинтересованных в потенциальном сотрудничестве экспертов?
  3. Как отделить от контента нерелевантный «мусор» и гостевые посты?
  4. Как правильно анализировать эффективность разных категорий блога?
  5. Как создавать наилучший контент для сайтов типа Хабрахабр/Reddit или социальных сетей?
  6. Как строить длительные отношения между контентом и пользователем?

Ответы на эти вопросы часто приходят к нам в виде частично автоматизированных решений и становятся важной частью планирования операций по сбору данных. Сначала немного о том, что же такое web scraping.

Web Scraping для чайников: руководство для новичка

Представим, что у нас стоит задача быстро собрать тайтлы последних 50 релевантных страничек ваших конкурентов. Это позволило бы вам оценить тренды и эффективность тех или иных материалов. Наличие такой ценной информации сделает планирование наполнения лучше и позволит нацелить усилия на создание качественного контента, который с удовольствием примут к публикации внешние площадки.

Качественный контент будет настоящей «звездой» вашего корпоративного блога. О важности работы с внешними площадками и методах улучшения контента для них есть целый отдельный материал с деталями и практическими советами.

Чтобы максимально результативно их использовать, жизненно необходима дополнительная информация.

Для сбора тайтлов мы могли бы просто скачать html-странички, открыть их в редакторе и найти тайтлы. Можно также просто использовать инструменты разработчика в браузере и выделить необходимые данные. Копируем и вставляем вручную.

Процесс нудный, поглощающий немереное количество времени. Поэтому использование самостоятельно написанных или простых полуавтоматических инструментов (например, приложение для браузера Chrome webscraper). В целом есть два основных способа определить необходимые данные:

  1. Использование предопределенного пути для поиска данных (XPath/CSS).
  2. Использование поисковых алгоритмов типа Regex.

В абсолютном большинстве случаев использование первого метода будет предпочтительным. Представим, что нам нужно извлечь заголовок из данного материала, тэг H1.

Он заключен в тэге BODY. В максимально упрощенном виде путь для поиска будет таким:

  1. XPath: /html/body/h1
  2. CSS selector: html > body > h1

Обратите внимание на то, что в документе только один заголовок с тэгом h1. Никаких дополнительных условий для поиска задавать не нужно. Поэтому можно было бы и упростить условия до элементарных //h1 (XPath) или h1 (CSS). Подобные простые условия далеко не всегда являются главной головной болью оптимизатора. Что делать, если цель более сложная и мы хотим извлечь данные из перечней еды на страничке? Они перечислены в несортированном списке с классом «FOOD».

Можно попробовать задать путь в стиле //ul/li (ul>li). Это будет работать, но нужно также обратить внимание на наличие двух списков с разными классами. Из-за того, что нет специфических указаний для поиска, будут собраны данные с обоих списков, а это нам вовсе не нужно. Поэтому путь надо немного модифицировать. Сделать это можно так:

  1. XPath: //ul[@class=’food’]/li
  2. CSS selector: ul.food > li

Если вы предпочитаете автоматизацию и использование алгоритмов, то можно попробовать Regex. Здесь тоже нет ничего сложного, а использовать его намного результативнее в тех случаях, когда задать путь очень трудно. Здесь нужно обратить внимание на особенности процедуры поиска.

К примеру, мы хотим найти слова с определенным контекстом. Часто это нужно для выявления ключевых выражений, используемых конкурентами. Для этого мы зададим следующий алгоритм поиска: <h1>Как продвигать (.*) в блоге</h1>. Таким образом мы заставим алгоритм искать только слова в этой части фразы и извлекать любое слово, попадающее под описание.

Вообще Regex менее структурирован по сравнению с XPath и CSS. Поэтому мы используем этот метод редко, а большинство вебмастеров прибегают к нему только тогда, когда все остальные опции исчерпаны.

Прием №1. Ищем «контент-евангелистов» среди читателей.

Евангелистами мы часто называем тех, кто заинтересован в вашем контенте и регулярно читает определенные публикации. Определение этой ключевой целевой аудитории жизненно важно для успеха вашего блога в долгосрочной перспективе. Правильный таргетинг обязательно принесет результаты, если вы знаете, кому будет интересна ваша следующая публикация.

Лента комментариев может быть очень длинной, выписывать каждое имя нельзя. Поэтому можно просто пособирать нужные данные за пару кликов. Есть очень удобная надстройка для Chrome – Scraper. Это отличный инструмент разработчика, помогающий быстро собирать данные со страниц, которые вы можете просматривать в текущий момент времени. В нашем случае мы ищем людей, которым будет до щекоток интересно прочитать советы о СЕО-продвижении.

Находим подходящий материал с большим количеством комментариев и собираем данные. Достаточно просто кликнуть правой кнопкой, пункт «scrape similar» появиться там после установки инструмента.

В появившемся окне будут все имена людей, которые оставили свой комментарий. Это читатели, заинтересованные в теме, их мы и будем оповещать о похожих материалах и публикациях для продвижения собственного контента. Все данные можно переместить в таблицу в Google Docs или же скопировать в буфер обмена.

Этот прием необязательно использовать на независимых площадках вроде Хабрахабра. Вы можете искать данные даже на собственном корпоративном блоге. Надоедливо стучаться ко всем подряд не стоит. Попробуйте отправить им пару приглашений почитать новые публикации, но уважайте читателей и не становитесь источником ненавистного всем спама.

Чтобы сделать рассылки более полезными пользователям и увеличить потенциальную конверсию, следуйте нашим советам по улучшению кликбельности e-mail рассылок. Вам удастся использовать собранную информацию с максимальной результативностью.

Прием №2. Ищем экспертов для обзорных статей.

Сейчас большую популярность обрели материалы с мнениями разных экспертов. Далеко не все специалисты будут рады вашим просьбам поучаствовать в создании новой записи в вашем корпоративном блоге, но есть и те, что с готовностью занимаются взаимным продвижением и с удовольствием добавят «увесистости» вашему контенту. Наша задача найти таких людей.

Для этого ищем популярный материал с обзором разных мнений от профильных специалистов. На страничке всегда будут повторяться имена экспертов и ссылки на места их трудоустройства. Этих данных достаточно для подбора круга экспертов, потенциально заинтересованных в сотрудничестве. Просто выбираем весь интересный нам текст и собираем похожие данные на странице.

Выглядеть табличка будет просто. Там есть необходимые данные: имя, пост в компании, название компании. Используем эти данные для того, чтобы сформировать круг профессионалов, чьи мнения будут авторитетными и помогут продвинуть материал в поисковиках. Если нам нужны ссылки на компании и их корпоративные блоги, выделяем соответствующие характеристики и заново задаем поиск.

Все данные можно потом упорядочить вручную или перенести их в Google Docs, где они натурально приобретут более упорядоченный вид. Продолжайте сбор имен и информации, пока не наберете достаточно адресатов. Обращайтесь к ним с заранее утвержденным планом материала и никогда не занимайтесь пустым спамом. Интервью должны быть короткими и по делу.

Прием №3. Убираем RSS мусор.

Часто в RSS лентах остаются блоги, переставшие регулярно публиковать новые материалы давным-давно. При этом среди них часто есть и партнерские сайты, оттягивающие на себя ваши ссылки, теряющими из-за этого эффективность и релевантность. О том, как восстановить эффективность старых ссылок и правильно ими управлять, мы уже говорили в отдельной статье. Сейчас мы поговорим, как избавиться от лишнего мусора из RSS лент.

Сначала необходимо найти блоги, в которых последние посты были месяц и более назад. Обычно такие большие перерывы свидетельствуют о пропаже у владельца интереса к ведению блога. Иногда стоит связаться с человеком, ведущим блог и регулярно поставляющим вам гостевые посты, но, если молчание продолжается несколько недель, о нем можно позабыть.

Вообще этот процесс вполне можно автоматизировать. Сделать это очень легко всего в 2 шага:

  1. Находим RSS ленту блога.
  2. Собираем всю информацию «pubDate».

В некоторых случаях вам придется добавить в scraper параметр /feed/, если RSS лента располагается по адресу blogname.com/feed/. Этот метод работает не для всех. Сегодня блогеры часто используют сервис FeedBurner от Google.
Вернемся к нашим баранам. Собранные данные нужно собрать в единый документ XML (это можно сделать после переноса данных в таблицы Google). Полученный XML файл мы опять парсим на предмет опубликованных недавно постов. Этот процесс потребует множества повторений, но вы можете использовать автоматизацию в самой табличке. Она работает во многом как Excel. Мы не будем заострять внимание, как управлять обычными таблицами.

Упорядочиваем данные, получаем табличку примерно такого содержания:

Эта таблица дает достаточно оснований для категорирования блогов. Если в них уже давно нет публикаций, долой их. Если же в течении месяца была какая-то активность, то стоит проверить, как он работает. Правильное использование гостевых постов и тесное сотрудничество с другими блогами позволит вам удерживать релевантную позицию в результатах выдачи. Для этого можно и нужно использовать все доступные приемы.

Более подробно о таких приемах и важности сохранения топовых позиций смотрите в этом видео:

Если не хотите потерять посетителей и снижать темпы конверсии, нужно стараться «выжимать» максимум из всех аспектов продвижения, включая партнерские блоги.

Прием №4. Определяем контент высокого качества.

Статья статье рознь. Некоторые материалы показывают высокую результативность, а другие могут отставать. Правильное смещение фокуса позволит извлечь максимум пользы из концентрированного внимания по отношению к заинтересованной целевой аудитории. Мы предлагаем большой набор специальных утилит для оптимизации маркетинга и контента, но даже эти инструменты не принесут желаемых результатов, если вы совсем не знаете, что нравится вашей аудитории.

Когда речь идет о контенте корпоративного блога, нужно определить несколько важных показателей:

  1. Какими темами ваши пользователи делятся чаще?
  2. Есть ли какие-то специфические тематики, увеличивающие backlink?
  3. Чьи публикации получают больше внимания читателей?

Эта информация станет краеугольным камнем планирования контента. Примеров сервисов для сбора данных предостаточно. Крутой зарубежный платный сервис Ahrefs продолжает набирать обороты. Есть много альтернативных вариантов, но главной задачей является сбор информации о том, как контент собирает траффик и откуда. Даже стандартные инструменты Google Analytics будут очень полезными, если у вас «тугой» бюджет.

Данные нужно упорядочить в табличке, а потом уже проводить поиск необходимых параметров исходя из того, что конкретно вы ищете. Специалисты компании Ahrefs делают это следующим образом.

Данную страницу «прочесывают» при помощи техник web scraping и выделяют те данные, которые нужны для более подробного анализа. Результаты можно представить в виде информативного графика (это можно сделать и в табличках Google и в Excel). Вот как это получилось у экспертов Ahrefs.

Прием №5. Собираем информацию с сайтов типа Reddit/Хабрахабр.

Сайты, где пользователю определяют, насколько успешным становится определенная тема или определенный тип контента, позволяют быстро раскрутить посты и получить необходимый для повышения популярности толчок. Для выявления тенденций и трендов можно использовать метод сбора и анализа информации. Придется поработать вручную, но результат того стоит.

На Реддите сбор занимает дольше времени и потребует подключения сервисов типа import.io. Без лишней необходимости в продвижении через этот сайт делать этого не стоит. После того, как вы собрали информацию, можете выгрузить ее в Google Docs. Ссылки нужны для быстрого последовательного пропуска их через сервис типа Хаброметр. Это бесплатная утилита специально для изучения постов на Хабре и определения показателей материала.

Вы сможете быстро узнать показатели кармы и популярность определенных тематик. Показатели можно потом сгруппировать в таблицу и опять же пройтись по ней «скрапером».

Прием №6. Строим правильные отношения с пользователями.

Среди ваших читателей в Твиттере, друзей и членов сообществ в социальных сетях вы обязательно найдете тех, кто будет лоялен по отношению к вашему контенту. Вы можете воспользоваться описанными выше приемами сбора информации для анализа ваших аккаунтов в социальных сетях. Для web scraping по соцсетям можно использовать полезную утилиту Data Miner. Она тоже подходит для Chrome.

Нам нужно будет извлечь ссылки на странички пользователей и их имена (второе опционально), чтобы иметь адресную книгу для рассылок о новых постах в блоге. Эту же технику можно использовать для работы в Твиттере и Instagram. Просто находим список читателей и подписчиков, а потом парсим его на предмет нужных нам контактов.

Заключение

Есть немало интересных методик анализа и сбора данных. Web scraping – это простой способ быстро узнать, как сделать контент лучше и повысить конверсию. Используйте эти нехитрые приемы вместе с рекомендуемыми инструментами, утилитами и стратегиями продвижения. Успех не заставит себя долго ждать.

Обязательно расскажите нам в комментариях, как вы собираете разведданные.