Автоматический геотаргетинг российских web-сайтов
Аннотация
В данной статье рассматривается быстрый, простой и точный метод связывания большого числа веб-ресурсов, хранящихся в базе данных поисковой машины, с их географическими положениями. Описанный метод использует информацию об IP адресе, доменных именах и контентозависимые данные: коды почтовых индексов и телефонных номеров. Новшество подхода заключается в построении базы данных, хранящей географическое положение и IP адрес с использованием метода IP блоков. Также сделан упор на анализе доменных имен. Метод использует внутреннюю структуру поисковой машины и позволяет эффективно связывать большое количество данных поисковой машины с их географией. Эксперименты проведены над индексом поисковой системы Яндекс; результаты говорят об эффективности подхода.
Введение
Аспекты географического положения веб-ресурсов и их владельцев становятся все более значимыми в последнее время для большинства Интернет-пользователей. Тенденции отмечены академическим исследованием в этой сфере, а также появлением локальных сервисов онлайн-поиска.
Поисковая система Яндекс индексирует ресурсы в доменах пост-советских стран, а также любые русскоязычные документы. На текущее время, Яндекс проиндексировал более 600 млн. страниц на более 2.5 млн. сайтах; порядка 95% этих сайтов расположены в России. Несмотря на то, что наибольшая активность поиска проявляется в больших городах, таких как Москва или Санкт-Петербург, Интернет в России и других пост-советстких странах развивается, в основном, за счет удаленных областей. Этот факт делает геотаргетинг важным моментом в поиске Яндекса.
Проблема частично решается Яндекс.Каталогом с ручной модерацией. На данный момент каталог состоит из примерно 87 тыс. записей с ручным присваиванием региона; около 48 тыс. из них принадлежат российским городам. Географический атрибут состоит из различных семантических положений:
- местоположение провайдера (физическая принадлежность владельца ресурса);
- география контента (географическое положение, о котором говориться в контенте);
- положение сервера (область, где размещен web-ресурс).
Ручное присваивание значений региона может наследоваться от поддоменов или отдельных страниц сайта. Однако, редакторы не учитывают наследование географии определенного ряда доменов (таких как бесплатные хостинги или публичные домены). Приблизительно 140 тыс. сайтов дополнительно получают атрибут русского города через наследование от специального каталога (EMC, extended manual classification). Однако, на данный момент, региональное покрытие базы данных Яндекса незначительно, что заставляет изучать автоматические методы для множественного присваивания региона уже проиндексированным веб-ресурсам. Мы используем EMC для проверки правильности полученных данных с помощью методов, описанных ниже.
Необходим практический подход: методы должны быть эффективными и качественными, а также должны использовать уже существующие данные. В статье предоставлен отчет о результатах автоматического геотаргетинга российских сайтов на уровне городов.
Данные и методы
В найденной литературе описаны различные методы, использующие данные об IP адресе, доменных именах, а также контент самого сайта (указание местностей, например, городов, телефонных номеров и почтовых индексов) для геотаргетинга. Главная идея нашего подхода в том, чтобы эффективно совместить несколько источников информации о местоположении.
Для определения города, мы разработали два типа методов, работающих с: 1) контентом сайта и 2) данными о домене. Методы совмещены в определенной последовательности (как показано на рисунке 1). Количество сайтов, значения точности (P, precision) и полноты (R, recall), вычисляющиеся с помощью EMC, высчитываются на каждом шаге. Пунктирными стрелками отображено, что результаты классификации объеденены с входными данными для последовательной обработки. Таким образом, результаты классификации накапливаются по мере следования стрелок на рисунке.
1. Классификатор, основанный на контенте (CBC, content-based classifier). Этот метод использует не сами документы, а их представление в индексе. Так как алгоритм не извлекает адреса непосредственно со страниц сайтов, это сильно увеличивает его эффективность. Мы собрали список шестизначных почтовых кодов (ZIP code) для 12 тыс. местностей в России, а также список телефонных кодов для 2 тыс. регионов вместе с их названиями. Были разработаны два шаблона запросов. Цель первого — в поиске веб-страниц с почтовыми индексами и соответствующими названиями местностей. Второй акцентировался на извлечении страниц с кодами телефонов, названиями региона и элементов адреса, например, указатели улицы или телефона и соответствия этих указателей друг другу.
2. Классификатор метки домена (DLC, domain label classifier). Этот метод основан на анализе домена. Во-первых, мы считаем, что доменное имя, эквивалентное названию города в транслитерации, это хороший индикатор аффилирования сайта с городом. Анализ входных данных позволил нам отделить “хорошие” варианты транслитерации: если доменные имена большинства известных сайтов соответсвуют городу, мы полагаем, что все сайты с подобным доменом будут соответствовать этому городу (например, сайты города Тверь: tver.eparhia.ru, tver.marketcenter.ru, www.tver.ru). Во-вторых, мы ищем специфические названия городов в доменных именах, то есть, если большинство известных сайтов с определенной меткой соответствуют одному и тому же городу, тогда метка является “хорошей”. Подобные метки обычно являются псевдонимами или аббревиатурами городов (например, nsk — Новосибирск, dolgopa — Долгопрудный).
3. Классификатор иерархии доменного имени (DNHC, domain name hierarchy classifier). Идея состоит в том, чтобы найти “хорошие” городские домены, поддомены которых, вероятнее всего, будут соответствовать названию города, например, spb.ru и omskcity.com (Санкт-Петербург и Омск соответственно). Заметьте, что DNHC используется дважды на диаграмме (рисунок 1).
4. IP адрес (Loc-by-IP). Мы используем свою базу данных IPREG, ассоциирующую IP адреса с соответствующими регионами. IPREG была собрана из Интернет-записей для других целей. В IPREG сохраняются лишь “хорошие” блоки IP адресов и проверяются на диаграмме.
5. Классификатор IP блоков (IP-blocks). Городские сайты зачастую хостятся у локальных провайдеров, которые могут и не располагаться в IPREG или подобной базе данных. Однако, ресурсы определенного региона часто можно определить из блока в пространстве IP адресов. Метод основан на определении этих “хороших“ непрерывных IP-блоков, другими словами, в этих блоках размещена основная часть некоторых сайтов, регион которых известен.

Рисунок 1 — Диаграмма классификации сайтов
Из рисунка 1 видно, что первое использование DNHC увеличивает важность как показателя точности, так и полноты, в соответствии с EMC. Последующие шаги не ведут к интенсивному увеличению качества результатов, однако, число классифицируемых сайтов выросло существенно (благодаря менее популярным сайтам, не представленных в EMC).
В результате, используя диаграмму, мы можем присвоить примерно 1.3 млн. российских сайтов (из примерно 2 млн. в базе Яндекса) соответствующие российские города.
Оценка результатов
Качество алгоритма, работающего с хорошими и высоко цитируемыми сайтами, может быть проверено благодаря сравнению результатов с данными EMC. Для тестирования производительности алгоритма в горячих условиях, был сгенерирован тестовый набор. Мы собрали список из случайно выбранных 1.2 тыс. веб-сайтов, не более одного на каджый домен второго уровня. Всем сайтам в списке автоматически была присвоена метка города или же тег “без региона” (region zero, то есть город не может вычислиться в результате работы алгоритма). Список был предоставлен редакторам Яндекс.Каталога для ручного таггирования в обычных условиях. Данные, полученные в результате ручного отбора, позволяют поделить тестовый набор на три категории: 1) географически локальные сайты, 2) хорошие, не мусорные сайты (то есть, не дорвеи, пустые сайты или киберсквотеры), и 3) полный набор сайтов.
Результаты работы алгоритма для всех из этих категорий приведены в таблице 1. Первая колонка соответствует подмножеству локальных сайтов (1). Ресурсы с меткой “без региона” в этом множестве отсутствовали — уменьшилась полнота (recall) алгоритма и не было потерь в точности. Во второй и третьей колонке, автоматически присвоенный тег “без региона” интерпретировали как “без географии”. Классификатор не разрабатывался для различия между локальными, глобальными и “мусорными” сайтами, возможно, он означает, что техника определения города прошла безуспешно. В результате, факторы точности и полноты для этих случаев практически одинаковы.
| Локальные сайты | Все (кроме ГС) | Полный набор (+ ГС) | |
|---|---|---|---|
| Кол-во сайтов | 723 | 1048 | 1200 |
| Точность | 0.917 | 0.722 | 0.688 |
| Полнота | 0.751 | 0.696 | 0.667 |
| F1 | 0.826 | 0.709 | 0.677 |
Таблица 1. Результаты вычислений.
Заключение
Статья описывает множество методов, направленных на решение проблемы геотаргетинга. Методы используют различные источники информации, такие как IP адрес и домен, а также контентозависимые данные: прямой поиск почтовых индексов и телефонных номеров на страницах сайта. Методы используют инфраструктуру поисковой системы и позволяют эффективно назначать регионы большому количеству поисковых данных.
Новый подход разрабатывался для связывания IP адресов с их географией и контентом сайта. Методология показала лучшую точность по сравнению с традиционными методами, основанными на анализе записей регистрара. С другой стороны, также сделан вклад в методы, основанные на анализе доменных имен сайтов.
Оценка производительности и качества доказала годность подхода для реальных ситуаций. Однако, результаты показали, что главная проблема — это различить локальные сайты от национальных или глобальных ресурсов. В ближайшем будущем мы планируем разработать классификатор распределения сайтов по регионам без геоконтекста.
|
Аннотация В данной статье рассматривается быстрый, простой и точный метод связывания большого числа веб-ресурсов, хранящихся в базе данных поисковой машины, с их географическими положениями. |
РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
Дайджест новых статей по интернет-маркетингу на ваш email
Новые статьи и публикации
- 2025-12-02 » Когда ошибка молчит: как бессмысленные сообщения ломают пользовательский опыт
- 2025-12-02 » 9 лучших бесплатных фотостоков
- 2025-12-02 » UTM-метки: ключевой инструмент аналитики для маркетолога
- 2025-12-02 » ПромоСтраницы Яндекса: Что такое и для чего служит
- 2025-12-02 » Метатеги для сайта: исчерпывающее руководство по Title, Description, Canonical, Robots и другим тегам
- 2025-11-26 » Оценка эффективности контента: превращаем информационный балласт в рабочий актив
- 2025-11-26 » 10 причин высокого показателя отказов на сайте
- 2025-11-26 » Когда и зачем обновлять структуру сайта
- 2025-11-26 » Скрытые демотиваторы: как мелочи разрушают эффективность команды
- 2025-11-26 » Зачем запускать MVP и как сделать это грамотно?
- 2025-11-20 » Половина российских компаний сократит расходы на транспорт и маркетинг в 2026 году
- 2025-11-20 » Перенос сайта с большим количеством ссылок
- 2025-11-20 » Перелинковка сайта: Что такое и как ее использовать
- 2025-11-20 » Критерии выбора SEO-специалиста и подрядчика для продвижения сайта
- 2025-11-20 » Применение искусственного интеллекта в рекламных агентствах: комплексное исследование трендов 2025 года
- 2025-11-19 » Геозапросы по-новому: как покорить локальное SEO с помощью ИИ
- 2025-11-14 » Консалтинг: сущность и ключевые направления
- 2025-11-14 » Онлайн-формы: универсальный инструмент для сбора обратной связи
- 2025-11-14 » Факторы конверсии органического трафика
- 2025-11-14 » Планирование рекламного бюджета: самостоятельный подход
- 2025-11-14 » Авторизация на сайте: как выбрать решение для удержания клиентов и сохранения продаж
- 2025-11-13 » Эффективные методы стимулирования клиентов к оставлению положительных отзывов
- 2025-11-13 » Налоговая реформа — 2026: грядущие изменения для предпринимателей
- 2025-11-13 » Альтернативы мессенджерам: что выбрать вместо Telegram и WhatsApp
- 2025-11-13 » Маркировка рекламы для начинающих: полное руководство по требованиям ЕРИР
- 2025-11-13 » ИИ не отберет вашу работу — её займет специалист, владеющий искусственным интеллектом
- 2025-10-29 » Как оценить эффективность работы SEO-специалиста: практическое руководство для маркетологов и владельцев бизнеса
- 2025-10-29 » Киберспорт как маркетинговый инструмент: стратегии привлечения геймеров
- 2025-10-29 » Как говорить с аудиторией о сложном
- 2025-10-29 » Что такое доказательства с нулевым разглашением (ZKP) и их роль в блокчейне
Лично я люблю землянику со сливками, но рыба почему-то предпочитает червяков. Вот почему, когда я иду на рыбалку, я думаю не о том, что люблю я, а о том, что любит рыба. (Дейл Карнеги / БИЗНЕС) |
Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!
Как мы работаем
Заявка
Позвоните или оставьте заявку на сайте.
Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!
Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.
Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.
Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.


Мы создаем практически любые сайты от продающих страниц до сложных, высоконагруженных и нестандартных веб приложений! Наши сайты это надежные маркетинговые инструменты для успеха Вашего бизнеса и увеличения вашей прибыли! Мы делаем красивые и максимально эффектные сайты по доступным ценам уже много лет!
Комплексный подход это не просто продвижение сайта, это целый комплекс мероприятий, который определяется целями и задачами поставленными перед сайтом и организацией, которая за этим стоит. Время однобоких методов в продвижении сайтов уже прошло, конкуренция слишком высока, чтобы была возможность расслабиться и получать \ удерживать клиентов из Интернета, просто сделав сайт и не занимаясь им...
Мы оказываем полный комплекс услуг по сопровождению сайта: информационному и техническому обслуживанию и развитию Интернет сайтов.
Контекстная реклама - это эффективный инструмент в интернет маркетинге, целью которого является увеличение продаж. Главный плюс контекстной рекламы заключается в том, что она работает избирательно.