Пишем собственное поисковое ядро. Часть 1.
Сразу хочется сказать о том, что великие гуру программирования могут сразу же сказать, что в этом уроке все неправильно и так делать нельзя. Что необходимо проверять на инъекции все введенные данные и т.д. Давайте избежим всех этих фраз, мы делаем систему поиска, безопасностью заниматься придется вам уже отдельно, да и уроков на эту тему была масса, так что не будем заострять на этом внимание.
Приступим.
1. Структура.
Для начала хочу показать в какой таблице у меня хранятся материалы:
Как видите у меня достаточно много полей, большинство я не стал показывать они предназначены чисто для технических моментов. Нас интересуют по сути первые 4 поля: id, title, keywords, text. Если вы как то по другому храните свои материалы, и у вас например есть еще поле description то необходимо учесть этот момент и соответственно внести необходимые корректировки.
Далее нас интересует какие файлы у нас будут в системе:
Тут тоже ничего сложного, самое поисковое ядро search_core.php и шаблон search_result.tpl. В чем суть? В том, что все отправляемые пользователем данные будут обрабатываться в поисковом ядре и формировать вывод из файла шаблона в нужное нам место на сайте.
Сам же файл search_core.php будет построен у нас на функциях, работе с массивами и регулярных функциях.
2. Особенности русского языка.
Ни для кого не секрет, что русский язык наверное самый сложный из всех существующих в мире, т.к. столько словоформ сколько у нас в языке нет ни в одном языке мира. Почему? Да потому что у нас в языке существуют такие вещи как приставки, окончания, суффиксы и т.д. Что невероятно сильно усложняет для иностранцев, и для нас - программистов в частности, процесс изучения и обучения великого и могучего. Нам придется научить нашу систему хотя бы понимать разные падежи слов.
Определимся с тем какие у нас есть окончания у слов и напишем первую функцию в наше ядро, которая будет отрезать у слов запроса окончания для повышения уровня релевантности:
function dropBackWords($word) { //тут мы обрабатываем одно слово
$reg = "/(ый|ой|ая|ое|ые|ому|а|о|у|е|ого|ему|и|ство|ых|ох|ия|ий|ь|я|он|ют|ат)$/i"; //данная регулярная функциях будет искать совпадения окончаний
$word = preg_replace($reg,'',$word); //убиваем окончания
return $word;
}Как видите в общем пока ничего сложного. Т.е. если пользователь введет например слово: "Песни", то система откинет букву "и" и оставит нам только "Песн", а это согласитесь позволит найти уже такие слова, как песня, песню, песнями и т.д. Т.е. семантика поиска у нас увеличилась.
Обратите внимание на то, что я указал не все существующие окончания их может быть больше, тут вам придется поучить систему. Возможно даже придется несколько переделать регулярную функцию и написать дополнительные правила.
Такие же функции можно написать на приставки и суффиксы, но не увлекайтесь пока, а то можно наши слова превратить в непонятные огрызки и тогда система будет находить все, хоть сколько нибудь похожее на наш запрос, а нам все же нужны более точные совпадения.
Другой необходимостью является то, что в русском языке, ну собственно как и в любом другом, есть масса стоп-слов, которые нам не нужны в поиске и которые встречаются сплошь и рядом в любом тексте. Поэтому нам надо написать еще функцию, которая убивает все стоп-слова.
function stopWords($query) { //тут мы обрабатываем весь поисковый запрос
$reg = "/\s(под|много|что|когда|где|или|которые|поэтому|все|будем|как)\s/gim"; //данная регулярка отрежет все стоп-слова отбитые пробелами
$query = preg_replace($reg,'',$query); //убиваем стоп-слова
return $query;
}Отлично еще одна функция ядра готова, где я опять же взял немного слов для примера. Она позволит нам создать более осмысленный поисковый запрос.
Как видите такими несложными функциями можно обучать систему работе со словами русского языка. Поверьте мне на слово, все это работает достаточно быстро и говорить о том, что такое большое количество регулярных функций вредно с современным интернетом уже не приходится. В конце концов мы же не Яндекс пишем и обрабатывать у нас будет не так много информации.
Как вариант для обеих функций можно формировать массив таких значений и брать уже из него для сравнения, но не будем тут усложнять себе жизнь.
3. Обработка поискового запроса
Теперь нам надо наконец получить все поисковые слова из общего поискового запроса, который задал пользователь:
function explodeQuery($query) { //функция вызова поисковой строки
$query = stopWords($query); //используем написанную нами ранее функцию для удаления стоп-слов
$words = explode(" ",$query); //разбиваем поисковый запрос на слова через пробел и заносим все слова в массив
$i = 0; //устанавливаем начало массива в 0, помним что нумерация в массивах начинается с 0
$keywords = ""; //создаем пустой массив
foreach ($words as $word) { //в цикле для массива words создаем элемент word
$word = trim($word);
if (strlen($word)<6) { //если слово короче 6 символов то убиваем его
unset($word);
}
else { //иначе выполняем следующее
if (strlen($word)>8) {
$keywords[$i]=dropBackWords($word); //наша функция чистки окончаний для слов длинее 8 символов и занесение их в созданный нами массив
$i++; //наращиваем значение i для того чтобы перейти к следующему элементу
}
else {
$keywords[$i]=$word; //если короче 8 символов то просто добавляем в массив
$i++;
}
}
}
return $keywords; //возвращаем полученный массив
}Думаю стоит объяснить почему мы слова короче 6 символов убиваем. Это правило распространяется на кодировку UTF-8, особенность которой в том, что каждый русский символ идет за два. Попробуйте ради интереса вывести на экран длину 1 русского символа и вы будете удивлены тем, что она равна 2. Таким образом если мы пишем короче 6 символов, то для русского это значит короче 3 символов. Вот такой нюанс, который следует помнить. Сейчас наверное каждый сразу вспомнил недавнее возмущение нашего правительства на тему, почему SMS-сообщения в русской раскладке в два раза короче, чем английские.
Таким образом если вывести наш массив то мы получим примерно следующее:
//поисковая фраза: как написать поисковый модуль своими силами array ( [0]=>написат, [1]=>поисков, [2]=>модул, [3]=>своим, [4]=>силам )
Уже хорошо и практически то, что нам нужно. С этим мы уже можем спокойно работать и получить больше материалов из базы, чем если бы мы искали по целой фразе.
Напишем еще одну небольшую функцию чисто визуализационную и на этом закончим первую часть урока.
function colorSearchWord($word, $string, $color) {
$replacement = "<span style='color:".$color."; border-bottom:1px dashed ".$color.";'>".$word."</span>";
$result = str_replace($word, $replacement, $string);
return $result;
}С помощью этой функции мы будем просто выделять найденные нами слова, чтобы пользователь видел по каким словам был найден материал.
На этом бы хотелось остановится и дать вам возможность самим придумать какие-нибудь дополнительные функции для поискового ядра. А в следующем уроке мы уже посмотрим как среди вороха материалов найти те, что попали в поиск и как их вывести с помощью шаблона.
Источник: http://feedproxy.google.com/~r/ruseller/CdHX/~3/QqOi_PVjKpU/lessons.php
|
Сразу хочется сказать о том, что великие гуру программирования могут сразу же сказать, что в этом уроке все неправильно и так делать нельзя. Что необходимо проверять на инъекции все введенные данные |
РэдЛайн, создание сайта, заказать сайт, разработка сайтов, реклама в Интернете, продвижение, маркетинговые исследования, дизайн студия, веб дизайн, раскрутка сайта, создать сайт компании, сделать сайт, создание сайтов, изготовление сайта, обслуживание сайтов, изготовление сайтов, заказать интернет сайт, создать сайт, изготовить сайт, разработка сайта, web студия, создание веб сайта, поддержка сайта, сайт на заказ, сопровождение сайта, дизайн сайта, сайт под ключ, заказ сайта, реклама сайта, хостинг, регистрация доменов, хабаровск, краснодар, москва, комсомольск |
Дайджест новых статей по интернет-маркетингу на ваш email
Новые статьи и публикации
- 2025-12-02 » Когда ошибка молчит: как бессмысленные сообщения ломают пользовательский опыт
- 2025-12-02 » 9 лучших бесплатных фотостоков
- 2025-12-02 » UTM-метки: ключевой инструмент аналитики для маркетолога
- 2025-12-02 » ПромоСтраницы Яндекса: Что такое и для чего служит
- 2025-12-02 » Метатеги для сайта: исчерпывающее руководство по Title, Description, Canonical, Robots и другим тегам
- 2025-11-26 » Оценка эффективности контента: превращаем информационный балласт в рабочий актив
- 2025-11-26 » 10 причин высокого показателя отказов на сайте
- 2025-11-26 » Когда и зачем обновлять структуру сайта
- 2025-11-26 » Скрытые демотиваторы: как мелочи разрушают эффективность команды
- 2025-11-26 » Зачем запускать MVP и как сделать это грамотно?
- 2025-11-20 » Половина российских компаний сократит расходы на транспорт и маркетинг в 2026 году
- 2025-11-20 » Перенос сайта с большим количеством ссылок
- 2025-11-20 » Перелинковка сайта: Что такое и как ее использовать
- 2025-11-20 » Критерии выбора SEO-специалиста и подрядчика для продвижения сайта
- 2025-11-20 » Применение искусственного интеллекта в рекламных агентствах: комплексное исследование трендов 2025 года
- 2025-11-19 » Геозапросы по-новому: как покорить локальное SEO с помощью ИИ
- 2025-11-14 » Консалтинг: сущность и ключевые направления
- 2025-11-14 » Онлайн-формы: универсальный инструмент для сбора обратной связи
- 2025-11-14 » Факторы конверсии органического трафика
- 2025-11-14 » Планирование рекламного бюджета: самостоятельный подход
- 2025-11-14 » Авторизация на сайте: как выбрать решение для удержания клиентов и сохранения продаж
- 2025-11-13 » Эффективные методы стимулирования клиентов к оставлению положительных отзывов
- 2025-11-13 » Налоговая реформа — 2026: грядущие изменения для предпринимателей
- 2025-11-13 » Альтернативы мессенджерам: что выбрать вместо Telegram и WhatsApp
- 2025-11-13 » Маркировка рекламы для начинающих: полное руководство по требованиям ЕРИР
- 2025-11-13 » ИИ не отберет вашу работу — её займет специалист, владеющий искусственным интеллектом
- 2025-10-29 » Как оценить эффективность работы SEO-специалиста: практическое руководство для маркетологов и владельцев бизнеса
- 2025-10-29 » Киберспорт как маркетинговый инструмент: стратегии привлечения геймеров
- 2025-10-29 » Как говорить с аудиторией о сложном
- 2025-10-29 » Что такое доказательства с нулевым разглашением (ZKP) и их роль в блокчейне
"В будущем на рынке останется два вида компаний: те, кто в Интернет и те, кто вышел из бизнеса." |
Мы создаем сайты, которые работают! Профессионально обслуживаем и продвигаем их , а также по всей России и ближнему зарубежью с 2006 года!
Как мы работаем
Заявка
Позвоните или оставьте заявку на сайте.
Консультация
Обсуждаем что именно Вам нужно и помогаем определить как это лучше сделать!
Договор
Заключаем договор на оказание услуг, в котором прописаны условия и обязанности обеих сторон.
Выполнение работ
Непосредственно оказание требующихся услуг и работ по вашему заданию.
Поддержка
Сдача выполненых работ, последующие корректировки и поддержка при необходимости.


Мы создаем практически любые сайты от продающих страниц до сложных, высоконагруженных и нестандартных веб приложений! Наши сайты это надежные маркетинговые инструменты для успеха Вашего бизнеса и увеличения вашей прибыли! Мы делаем красивые и максимально эффектные сайты по доступным ценам уже много лет!
Комплексный подход это не просто продвижение сайта, это целый комплекс мероприятий, который определяется целями и задачами поставленными перед сайтом и организацией, которая за этим стоит. Время однобоких методов в продвижении сайтов уже прошло, конкуренция слишком высока, чтобы была возможность расслабиться и получать \ удерживать клиентов из Интернета, просто сделав сайт и не занимаясь им...
Мы оказываем полный комплекс услуг по сопровождению сайта: информационному и техническому обслуживанию и развитию Интернет сайтов.
Контекстная реклама - это эффективный инструмент в интернет маркетинге, целью которого является увеличение продаж. Главный плюс контекстной рекламы заключается в том, что она работает избирательно.