Публикации

Какие именно слова индексируются? И как

Для того чтобы осуществить индексацию того или иного слова поисковая система должна для себя определить, какую именно информацию в содержании документа можно назвать словом, а какую нет.

Осуществляя процесс индексации, поисковой робот сталкивается с неоднородным текстовым содержимым. К примеру. Слова, пишущиеся через дефис, это одно или два слова? Числа и числовые данные могут восприниматься как пригодное к индексации слово, или же они удаляются системой как спам? Что делает система с комбинациями букв и цифр (названиями моделей различной техники)? Индексируются ли адреса почты, адреса сайтов, порталов или социальных сетей? И если да, то каким образом? Все эти вопросы решаются разработчиками каждой поисковой системы по-разному. По сути, нет смысла даже пытаться предугадать какие именно слова или элементы содержимого страницы сайта будут выделяться Яндексом или Google, и использоваться для индекса.

Изменения в алгоритмах такого рода действий поисковиков могут меняться, хотя каждый месяц. Однако существующие алгоритмы действия можно попытаться проверить самостоятельно. Для того, чтобы, к примеру, проверить как создатели той или иной системы «обрабатывают» слова, пишущиеся через дефис или комбинации слов и цифр – введите в поисковик именно такой поисковой запрос. Поскольку отысканные слова показываются и подсвечиваются в цитатах (аннотациях) страниц, сразу же будет видно, как хранятся слова в индексе конкретного поисковика. Не индексируются различные символы-разделители – пробелы, знаки препинания, а также различные теги и другие элементы языка HTML.

Ранее поисковые системы, в целях экономии места на дисках и времени работы сервера, при индексации отбрасывали некоторые с их «точки зрения» маловажные слова, а именно предлоги, союзы, сокращения и т.д. Однако время показало, что пользователи часто вводят в поисковик и такие слова. Поэтому сейчас поисковые системы индексируют абсолютное большинство слов содержащихся в тексте.