Публикации

Как устроен индекс поисковой системы

Для того, чтобы составить индекс, индексная система поискового робота должна собрать все слова из «выкачанных» ею текстов и расположить их в определенной последовательности. Также индексация подразумевает создание номеров страниц и разного рода служебных данных о каждой странице.

Для этого индексный робот изучает все выбранные им страницы, нумерует их и удаляет из текста страниц ненужный, нетекстовый спам (к примеру, разметку HTML). После этого из текста документа им извлекаются конкретные слова и помещаются в индексную базу данных. При этом к каждому слово добавляется описание страницы, с которых оно было взято. У каждой поисковой системы есть свое «понимание» того, что такое нужный ему текст и какие именно слова он возьмет себе в индексную базу. Эти определения зависят от алгоритмов работы поисковой системы, а они достоверно известны лишь их создателям. В большинстве поисковых систем, слова перед занесением в индекс, проходят определенную лингвистическую обработку, в результате чего слова приобретают свои изначальные грамматические формы и основы или же приобретают именительный падеж. Данный алгоритм действия системы именуют поисково-индексной морфологией. Эта функция поискового робота нужна для экономии места в индексе, но что важнее всего для осуществления более точного и быстрого поиска информации.

Собранные все вместе основы слов из миллионов веб-документов сводятся в индекс – своего рода словарь, в котором все слова расположены в алфавитном порядке с номерами страниц (с которых были взяты эти слова) и номерами их вхождения в эти страницы. Таким образом, индексная запись имеет следующею структуру: основа (слово), номер страницы и номер вхождения. Для дальнейшей экономии места и повышения точности и скорости поиска структура индекс постоянно меняется и усложняется. Основы слов хранят отдельно от их номеров, использую только номера, так как они короче и требуют меньшего времени на их обработку; номера вводятся системой только один раз для всех вхождений с конкретной страницы.