В Google рассказали, что делает система Caffeine

В Google рассказали, что делает система Caffeine

В новом выпуске подкаста Search Off the Record сотрудник Google Гэри Илш объяснил, что делает система Caffeine.

Caffeine – это система индексирования Google. При этом «Caffeine» – это внешнее название, внутри она называется иначе.

Илш отметил, что данная система выполняет большой круг задач, при этом вне компании многие об этом не знают. Поэтому он решил рассказать об этом подробнее.

По его словам, в целом Caffeine «поглощает» всё, что генерирует Googlebot, который является буфером протокола, а также собирает сигналы и выполняет другие задачи, после чего произведённая Caffeine информация добавляется в поисковый индекс.

Что происходит внутри Caffeine?

На самом первом этапе это поглощение буфера протокола. После этого идёт конвертация буфера протокола в другой формат и нормализация HTML – весь HTML пропускается через HTML-лексер (т.е. проходит лексический анализ). Далее наступает черёд тегов заголовка (h1, h2 и т.д.). Они также нормализуются в процессе рендеринга. Google пытается понять, какие стили применены к заголовкам, чтобы определить их важность относительно друг друга.

Илш также отметил, что Google может индексировать большое количество форматов, включая PDF. Поисковая система использует инструмент декодирования от Adobe, с помощью которого конвертирует PDF в HTML и далее уже работает с ним. Похожий процесс происходит со всеми бинарными форматами, которые Google способен индексировать: они также нормализуются и переводятся в HTML.

После этого Google анализирует метатеги, поскольку есть несколько метатегов, которым поисковик уделяет особое внимание – например, «robots». Что касается такого метатега, как keywords, то Google вообще не обращает на него внимания.

В Caffeine есть ещё одна подсистема, связанная с конвертером. В Google её называют «коллапсер». Она выполняет обработку страниц ошибок (404, 200 и т.п.).

Google не хочет видеть страницы с ошибкой soft 404 в своём индексе, поэтому поисковик пытается определить, когда возникают эти ошибки, когда они показываются. И это то, чем занимается подсистема под названием «коллапсер».

У Google есть большие корпуса страниц с ошибками, и поисковик затем пытается сопоставить текст текущей страницы с ними. Это в свою очередь может приводит к «забавным багам», когда, например, в статье идёт речь о страницах с ошибками в целом, а Google не может индексировать эту статью. Иногда системы обработки страниц с ошибками некорректно определяют статью, исходя из используемых в ней ключевых слов, как страницу с ошибкой soft 404. И это заставляет Caffeine остановить процесс обработки страницы.

Caffeine также пытается определить страницы авторизации, т.е. Google о них знает.

Как видим, круг задач, выполняемых этой системой, действительно большой.

Похожие статьи:

Читайте также