На заре развития интернета объем хранимой в Сети информации был невелик, соответственно, и количество пользователей – мизерным. Интернет изначально родился, как банк научных данных, поэтому доступ во всемирную паутину получали, в основном, сотрудники учебных центров, исследовательских лабораторий и т.п.
В тот период такого понятия, как
продвижение сайта, не существовало. Организация доступа к информационным источникам проводилась через тематические каталоги. Первым задачу распределить сайты по темам взял на себя Yahoo в 1994 году. Однако число сайтов неуклонно росло, поэтому возникла необходимость поиска по каталогу, который и был реализован. Данное решение, разумеется, не являлось полноценной поисковой системой, поскольку зона поиска была ограничена исключительно теми сайтами, которые были внесены в каталог, и не распространялась на весь интернет.
К сегодняшнему дню каталоги утратили свою ценность и являются мало востребованными. Причина довольно проста – даже крупнейший каталог интернета DMOZ вмещает в себя данные о более 5 миллионах сайтов, в то время как современная база Google содержит 10 миллиардов источников информации.
В том же 1994 году первая поисковая система все же появилась. Ею стал WebCrawler, а через год в Сети добавились поисковики AltaVista и Lycos. Первый на несколько последующих лет стал лидером в сфере поиска данных во всемирной паутине. Самая крупная и популярная нынче поисковая система интернета Google была создана студентами Стэнфордского университета (США) Лари Пейджем и Сергеем Брином в 1997 году. Тогда же на российском интернет пространстве был презентован Yandex – русскоязычный поисковик, остающийся до сих пор лидером поиска в рунете. С этого момента
оптимизация сайта под поисковые системы становится актуальной и сейчас уже вылилась в отдельное направление бизнеса.
Каждый поисковик имеет собственные механизмы реализации поиска информации и выдачи результатов. Тем не менее, их объединяют общие принципы функционирования.
«Паук» - программа, которая в автоматическом режиме, скачивает содержимое страниц сайта. Метод работы этой программы схож с работой браузера, с той разницей, что браузер отображает найденные данные визуально. У «паука» нет зрения, поэтому он сообщается напрямую с html-кодом страницы.
«Краулер» - тоже, своего рода, программа-паук, но в ее задачу входит определение всех, имеющихся на странице ссылок и переход по ним в поисках новых документов, которых еще нет в интернете. Куда пойдет «паук» для скачивания данных, определяет именно «краулер».
После того, как поработали «краулер» с «пауком», в дело вступает «индексатор». Данная программа разбивает скачанную страницу на блоки и проводит анализ этих частей. То есть, анализируются тэги html-кода, текстовая информация, особенности структуры и стиля документа и т.д.
Надо отметить, что вышеперечисленные три функции у многих поисковых систем могут быть реализованы в единой программе. Тем не менее, последовательность действий одинакова.
После того, как страница проанализирована, она поступает в базу данных поисковой системы. Дальнейший контроль над страницами ведет система ранжирования и выдачи результатов. Именно эта программа определяет важность той или иной страницы. Алгоритмы ранжирования определяет администрация поисковой системы, с учетом удовлетворения максимального числа потребностей пользователей, а программисты претворяют алгоритмы в программное решение. Задача оптимизатора как раз и состоит в том, чтобы «преподнести» страницы сайта программе ранжирования и выдачи в самом выгодном свете.