Поисковая система – программа, которая составляет и хранит информационную базу Интернета, и находит в ней введенные пользователем ключевые слова. Для этого поисковику нужен поисковой индекс – общая база сайтов и гиперссылок в нем.
Краулеры и индекс
По факту, когда вы вводите запрос в строку, вы ищете не в Интернете, а в его копии, составленной выбранной вами поисковой системой. Делается это при помощи специальных ботов – краулеров (пауков).
Краулер собирает с заданного вручную начального набора страниц гиперссылки и добавляет все найденные в ссылках адреса к первоначальному набору. Также он собирает и хранит тексты для последующей их передачи индексному роботу.
Робот раскладывает полученные слова из всех посещенных веб страниц в алфавитном порядке, сохраняя техническую и служебную информацию. Страницы нумеруются, очищаются от ненужных данных, из текста извлекаются слова и помещаются в индекс. Сам этот процесс называется индексацией.
Релевантность и поисковая выдача
К индексу поисковик обращается при введении вами запроса: ищет нужное слово, извлекает номера страниц, относящихся к нему, и показывает результаты в виде списка (поисковой выдачи). Страницы, наиболее точно подходящие вашему запросу называют релевантными. В выдаче отображается заголовок страницы (title), дата, отрывок текста с подсвеченным ключевым словом. Все вместе это называется сниппетом.
Порядок, в котором страницы расположены определяет сам поисковик в процессе ранжирования – определения соответствия страниц в индексе введенному запросу. Оно проводится в два этапа: чернового, когда поиск ищет в индексе все документы со словами запроса, и чистового, когда все эти страницы сортируются формулой ранжирования, подробности которой не раскрываются. Возникает верхушка поисковой выдачи – несколько тысяч документов, которые поисковик показывает вам в выдаче. Первые 20-30 позиций в ней еще называют зоной видимости, и попадание в нее это главная цель поисковой оптимизации.
Оптимизатор напрямую влияет на процесс индексации, так как может изменять большинство важных для нее элементов: тексты страниц, их названия и описания, файл robots txt., который содержит служебную информацию для краулеров, и многое другое. От скорости индексации зависит то, как быстро ваш сайт будет виден пользователям и потенциальным клиентам.