Публикации

Индексация баз данных

Сайты с большим объемом информации хранят свои страницы, в базах данных (таких как MySQL и Microsoft SQL Server). Такие базы данных созданы для удобного хранения и обновления сайта, так как база данных позволяет легко изменять, или удалять информацию.

Как поисковая система реагирует на сайты, документы которых хранятся в таких базах данных? Индексируют ли они их или пропускают? Ответ прост: когда страницы сайта берутся из баз, данных при переходе на ссылки документов сайта, то поисковому роботу в принципе «безразлично» откуда они берутся. Находится ли страница непосредственно на сайте или создается автоматически при переходе на ссылки содержимого сайта – для индексации не важно. Если же для получения доступа к какой-либо странице пользователю требуется ввести запрос в базу данных, то поисковой робот таких страниц попросту говоря «не видит».

Пример. Допустим, существует неважно какая онлайн энциклопедия, в которой содержится более пятидесяти тысяч статей. Хранить и редактировать большое количество документов виде HTML-файлов достаточно обременительно, статьи лучше всего сохранять в базах данных, где их можно расположить в таблицу и хранить в небольшом количестве файлов. После этого сайт можно подавать на индексацию. Если сайт будет располагать полным оглавлением статей энциклопедии в виде, например, иерархического списка, то поисковая система воспримет такое оглавление как ссылки и проиндексирует весь или большую часть сайта. Но если, же сделать такое оглавление для доступа к определенным статьям у вас просто не хватило терпения и сил, то посетитель сайта сможет найти интересующую его статью только через поиск в базе данных, по ключевым словам, которые содержаться в заголовке или теле статьи.

Однако поисковик, не живой человек, а машина, и искать какие статьи есть на сайте не будет. Он зайдет на страницу поиска, ссылок на статьи энциклопедии не обнаружит и последует индексировать другие сайты. И в данном случае система проиндексирует только одну страницу – страницу поиска по энциклопедии, само же содержание энциклопедии останется для него не видимым.

Таким образом, при создании сайта нужно помнить, что поисковая система устроена так, что способна проиндексировать лишь те документы, сайта на которые существуют гипертекстовые ссылки. Огромные базы данных с единственным способом к их содержимому через поиск, для поисковых роботов невидимы. Таких баз данных в мировой сети очень много. В связи с этим существует понятие о «скрытой сети», которая невидима поисковым системам и которая больше видимой в сотни раз.