назад проект Яндекс, 2005 год
сроки проекта
компания-заказчик Яндекс

История проекта

В 2005 году в рамках стипендии Яндекс исследовательской группой компании Forecsys построена «карта сходства ресурсов Интернет». Карта служит для выявления предпочтений пользователей Интернет. Главные цели проведенного исследования:

  • демонстрация возможностей ранее разработанной технологии анализа клиентских сред, АКС (Customer Environment Analysis, CEA) для анализа пользовательской среды российского Интернета (применение технологии АКС для анализа среды сети Интернет направлено на выявление предпочтений и информационных потребностей пользователей, и в конечном итоге, служит для повышения удобства навигации, автоматической каталогизации ресурсов, персонализации ресурсов и услуг);
  • Создание прототипа системы для анализа логов Интернет-порталов, поисковых систем, счетчиков посещаемости (Web Usage Mining, WUM).

Особенности проекта

Исходными данными исследования являлись протоколы действий пользователей, в которых фиксируется кто, когда и какой ресурс посещал. По этим протоколам строилась матрица частот посещения каждым пользователем каждого ресурса. Дальнейший анализ данных состоял из трех этапов.

На первом этапе проекта построенная частотная матрица подвергалась предварительной обработке для исключения малоинформативных пользователей и ресурсов с наименьшими значениями суммарной частоты пользования.

На втором этапе по частотной матрице строились две меры сходства – между пользователями и между ресурсами. Пользователи схожи, если они посещают схожие множества ресурсов; ресурсы схожи, если их посещают схожие пользователи. Строгая математическая формализация этой простой, на первый взгляд, идеи требует применения специальных математических техник, направленных на построение наиболее адекватных мер сходства:

  • оптимизация мер сходства по критериям кластеризуемости;
  • построение оптимальных композиций из нескольких мер сходства;
  • анализ устойчивости мер сходства.

На третьем этапе к полученным мерам сходства применялись специальные алгоритмы кластеризации, классификации и многомерного шкалирования.

Основа подхода

Технология АКС направлена на решение широкого спектра задач маркетинга и управления взаимоотношения с клиентами (Customer Relationship Management, CRM). К числу этих задач относятся:

  • выявление и интерпретация сложившихся типов поведения клиентов («потребительских корзин»);
  • сегментация клиентской базы и выявление целевых групп клиентов;
  • структуризация ассортимента в соответствии с объективными предпочтениями клиентов;
  • персонализация предложения услуг клиентам;
  • прогнозирование оттока клиентов;
  • выявление необычного или потенциально опасного для компании поведения клиентов.

Основной целью решения этих задач является повышение качества оказываемых услуг, более эффективное привлечение и удержание клиентов.

Технология АКС достаточно универсальна и может применяться в разных сферах бизнеса. Можно говорить о клиентских средах торговых сетей, операторов связи, организаторов биржевых торгов, эмитентов пластиковых карт, а применительно к Интернету – электронных магазинов, интернет-порталов, форумов, поисковых машин.

Функциональные характеристики

Анализ сходства ресурсов и клиентов позволяет предложить ряд новых сервисов как рядовым пользователям Интернет, так и компаниям, имеющим интернет-порталы:

  • графическая навигация в сети Интернет: построение интерактивной графической карты сходства ресурсов, на которой точки соответствуют ресурсам, а расстояния между точками отражают степень их сходства;
  • сегментация пользователей: выявление типовых наборов ресурсов, посещаемых пользователями («потребительских корзин»); целевое позиционирование ресурса на основе потребительских корзин пользователей ресурса;
  • автоматическое создание каталогов: выявление сегментов схожих ресурсов и ранжирование сегментов по посещаемости;
  • эффективный поиск похожих ресурсов: построение карты окрестности некоторого ресурса позволяет пользователю производить поиск аналогичных ресурсов;
  • направленный поиск: предложение пользователю ресурсов, наиболее востребованных среди схожих клиентов (направленный поиск особенно удобен при поиске товаров в Интернет-магазинах);
  • персонализация результатов поисковых запросов: ранжирование результатов поиска по популярности только среди схожих пользователей;
  • создание адаптивных сайтов: автоматическая настройка внешнего вида сайта и рекламного контента для пользователей с учетом предпочитаемых ими ресурсов;
  • автоматизация поиска единомышленников: построение карт для сходства тем обсуждений и участников в Интернет-форумах.

Рабочий вид системы

Примером применения технологии АКС является автоматическое построение карты сходства российского сегмента Интернет. Демонстрационная версия карты содержит около 1000 ссылок на наиболее популярные сайты. Карта строится по принципу «чем больше пользователей заходили на оба сайта сразу, тем ближе эти сайты на карте». Примечательно, что близкими, как правило, оказываются сайты схожей тематики, хотя при построении карты используется только информация о посещаемости сайтов пользователями, а не содержание сайтов.

Для построения демонстрационной карты используется обычная рабочая станция на базе Pentium IV, 2 GHz, 128 MB RAM. Расчет карты по исходному протоколу посещений размером 3,5 GB занимает порядка одной минуты.

Обратите внимание! Для получения интерактивной карты, поддерживающей изменения масштаба, подписи к точкам и переход на сайты, необходимо согласиться с установкой ActiveX-компонента ForecsysActiveCHDView. Выделение точки – левая кнопка мышки, переход по ссылке – правая кнопка мышки. Можно отказаться от установки компонента и получить статичную карту сходства.

Продукты и решения ООО «Форексис» соответствуют политике импортозамещения информационных технологий.

Ответим на все вопросы