Работа поисковых систем

Работа поисковых систем

Все мы привыкли к простому и практически мгновенному доступу до любой информации. Если что-то надо найти, скачать программы, музыку или фильмы, то проще простого - обратиться за помощью к поисковым системам. Что-то не знаешь - «погугли!» - вот ответ на все вопросы. И потому каждый из нас хоть раз, но пытался разобраться, как эти самые поисковые системы работают, и как это у них так ловко все получается.
Не смотря на множество систем для поиска, их принципы и структура мало чем отличаются между собой. В состав их обязательно должны войти главных 5 компонентов.

Первое - это система, которая должна выдавать результаты, то есть это механизм, которых извлекает все результаты из базы. Далее в составе всегда есть паук - Spider. По своей сути она являет программу, которая скачивает для себя веб-страницы, примерно по тому же принципу, что и ваш личный браузер, когда Вы пытаетесь загрузить страницу или хотите просмотреть ее HTML-код.
Третья составляющая - краулер (Crawler). Эта программа умеет автоматически проходить по всем ссылкам, и выделить их. Получается, что именно она определяет, куда будет идти паук из тех адресов, что предполагаются. По найденным ссылкам краулер ищет новые документы, которые еще пока не известны для поисковой системы, но уже есть в интернете.
Далее все поисковые системы обязательно оснащаются индексатором Indexer. Это элемент особенно важен для продвижения и оптимизации. Он разбивает сайт, страницу на отдельные части и проводит их анализ. Он пропускает через себя все ссылки, текст, графические элементы, части структуры. И наконец, для поисковиков важна база данных. Это большое хранилище всей информации, которую скачивает и анализирует поисковик и часто для нее требуются немалые ресурсы.
Система ищет о ключевым запросам и выдает результаты точно так же, как это делается в библиотеке, только с значительно большей скоростью. По сути, она не перекапывает абсолютно весь интернет. Потому и существует много систем поиска, что каждая имеет разные базы информации. На самом деле, она может предложить только те страницы, которые ею были проиндексированы и включены в список, не больше. Наполненность и новизна системы определяется тем, как часто обновляется база данных. Разумеется, есть свои алгоритмы и схемы, и для каждой машины поиска они являются уникальными и при этом постоянно меняются, чтобы под них нельзя было подстраивать сайты специально, делая «черную» раскрутку.
Говорить об этих системах можно еще долго, но уже и этого достаточно для того, чтобы понять, насколько эти машины мощные и с каким размахом они проводят свою деятельность.

Главное меню