Введение в информационный поиск

via

  • Provider
  • Cost
  • Session
  • Language
  • Certificate
  • Effort
  • Duration

Overview

Данный курс был создан сотрудниками "Mail.Ru Group". При разработке заданий упор делался на знания и опыт, которые используются сотрудниками на практике ежедневно при проектировании продуктов, которыми пользуются миллионы людей.
В современном мире невозможно представить человека, который, заходя в интернет, не пользуется поисковыми системами. Google, Yandex, Mail.ru и другие интернет-гиганты решают задачи нахождения информации в интернете и удовлетворения информационных потребностей пользователя. В этом курсе мы расскажем вам, как устроена поисковая система изнутри, покажем, какие приемы обработки естественного языка и машинного обучения используются при построении поискового индекса и ответе на запросы. Также мы обсудим тему объективной оценки качества поисковой системы. В результате слушатели курса смогут опробовать все вышеперечисленные техники на практике и построить работающую модель поисковой системы.

Syllabus

Введение, булев поиск
-Этим занятием открывается цикл лекций, посвященных информационному поиску. Мы начнем с небольшого экскурса в историю возникновения вэб-поиска, изучим базовые понятия и узнаем, как можно классифицировать разные поисковые системы. Базовый вид поиска – это булев поиск. Мы рассмотрим, как он устроен и как можно исполнять запросы пользователей к такому поиску. Но недостаточно использовать оригинальный текст – чтобы учесть разные морфологические формы одного и того же слова, применяются различные этапы нормализации текста. Это применимо не только к документам, но и к запросам. Отдельно стоит рассмотреть такие важные усовершенствования булева поиска, как координатный поиск, которые учитывает, где именно в тексте находятся конкретные слова, и обработку полноценных фразовых запросов.

Поисковый индекс
-В основе текстового информационного поиска лежит концепция обратного индекса. Эта неделя посвящена разным методам его построения, расширения за счет дополнительной информации и улучшения работы с ним благодаря сжатию словаря и ускорению работы с обратным индексом.

Нечёткий поиск
-Эта неделя посвящена двум большим темам, связанным между собой: исправление опечаток в запросах пользователей и выполнение неточных запросов, в которых пользователь сознательно скрывает часть слова за специальным знаком – "*".

Ранжирование
-Выполнение запросов пользователей на большом корпусе документов часто приводит к тому, что запросу удовлетворяет слишком много документов. Для того, чтобы пользователю не пришлось просматривать все найденные документы, поисковая система может отобрать из них только лучшие и показать пользователю в порядке "полезности". Этим занимается ранжирование, о котором и пойдет речь в этой неделе.

Ссылочное и поведенческое ранжирование
-Эта неделя посвящена ссылочному и поведенческому ранжированию. Эти виды ранжирования опираются на связь между разными документами и информацию о поведении пользователя.

Оценка качества
-В этой неделе мы поговорим о том, зачем нужно оценивать качество поиска и как это можно сделать.