“Значение детектора свежести, рассчитываемого в бегемоте”. Факторы ранжирования Яндекса, которые утекли в сеть

Каждый должен так прожить свою жизнь, чтобы не было стыдно за репозиторий

Заинтересовавшиеся архивом слитых данных Яндекса специалисты обнаружили в нем много папок типа: antirobot, captcha, extsearch, kernel, metrika, robot, search, wmconsole, что указывает на то, что был слит полный репозиторий Search Engine and Indexing Bot.

В папке kernel.tar\web_factors_info\ лежит файл с 1922 факторами ранжирования Яндекса, включая неиспользуемые (unused) и отмененные (deprecated). В целом, получается 690 потенциально рабочих факторов ранжирования, которые учитываются Яндексом.

Источник:  searchengines.guru Перепечатка Донат новости – ТГ канал Retail Today

Среди них отмечены следующие, которые в общем-то ни для кого не являются секретом:

  • PageRank
  • Возраст и число входящих ссылок
  • Порядок слов в ссылках
  • Линковая релевантность с учетом тематичности
  • Линковая релевантность с учетом некоммерческости каждой ссылки
  • Вес слов запроса, которые есть в линках
  • Отношение числа входящих ссылок, текст которых является URL, к числу всех входящих ссылок
  • Наличие https-протокола
  • Наличие турбо-страницы
  • Доля заглавных букв в Title
  • Доля прямых заходов среди всего входящего трафика
  • Количество переходов с Википедии
  • Региональная посещаемость из ПС по конкретному запросу
  • Возвращаемость пользователя на url
  • BM25 по текстам и линкам со спец. весами по уровню совпадения (форма, лемма, синоним)
  • Вес слов запроса, которые есть в тексте в точной форме
  • Возраст документа и дата последнего обновления
  • Наличие на странице встроенных карт
  • И т.д.

Есть и забавные факторы, например, «фактор гадкости контента», «нейронная документная модель для поиска неожиданной жести» и даже «значение детектора свежести, рассчитываемого в бегемоте».

Некоторые пользователи форума Searchengines.guru считают, что это не описание факторов ранжирования,  а скорее задания или указания для разработчиков или тестировщиков. Тем более, что большинство факторов содержат ссылки на внутреннюю вики, к которой нет доступа.

В любом случае все согласны, что архив очень любопытный. Помимо факторов ранжирования, там можно посмотреть как технически настроено цензурирование контента в новостях и поиске, какой код отвечает за увеличение цены на Маркете, если заходишь с устройства Apple, и еще много интересного.

Примечательно, что зарубежные специалисты тоже активно обсуждают эту новость, и даже на одном из сайтов уже появился полнотекстовый поиск по факторам ранжирования Яндекса. Как сообщил в своем Telegram-канале Александр Алаев (АлаичЪ), этот поиск очень удобно использовать для изучения факторов – например, можно ввести «title» и увидеть все факторы, где в заголовке или описании упоминается это слово, тоже со словами «link», «content» т.д. Также работает  и группировка по тегам. Описания некоторых факторов приводятся в оригинале, на русском языке.

0

Автор публикации

не в сети 2 дня

Задорожный Сергей

32
Комментарии: 9Публикации: 4905Регистрация: 04-02-2020

Добавить комментарий