Среди специалистов, которые занимаются большими данными, в ходу известная история о том, как маркетологи сети Target догадались о том, что девушка-подросток беременна, раньше, чем ее отец. Анализируя поведение покупателей, они рассчитали, скажем, что в начале второго триместра беременные переключаются на кремы и масла без запахов, а ближе к концу срока налегают на санитайзеры и мешки с ватными тампонами, и стали посылать покупательнице купоны на товары для новорожденных. Их увидел отец.
Сегодня в руках у продавцов масса инструментов для изучения покупателей. Отдельная тема — реклама в интернете: системы знают, что за пользователь зашел на сайт, и с учетом его интересов и намерений, а также местоположения и предполагаемого дохода, подбирают ему правильные баннеры. Не замечали, что после того как вы посмотрели на коллекцию Рианны на Farfetch.com, вам еще неделю предлагают купить ее кроссовки в фейсбуке, «Гугле», везде? Рекламные сети следят за вашими запросами — в том числе фиксируют геопозиционирование, которое собирают и приложения на мобильных устройствах, и современные ноутбуки. Да, продавцы и рекламщики не знают вашего имени и прописки, но могут присвоить GPS-адресу конкретный номер рекламной платформы, чтобы сделать на его основе какие-то выводы.
Компания DCA — она же Data-Centric Alliance — занимается этими «большими данными», обрабатывая анонимные объемы информации о пользователях российского интернета. Среди них встречается много информации о геопозиции, и у разработчиков возникла идея синхронизировать запросы различных пользователей аудитории с картой, чтобы понять, где, например, живут люди, которые не мыслят своей жизни без кофе, а где заядлые коллекционеры New Balance. Таким образом DCA попробовала составить потребительские портреты разных районов Москвы и выбрала самые интересные его сегменты, которые публикует «Афиша Daily».
Как это было сделано
У DCA есть разработка, которая позволяет делить аудиторию интернета на определенные потребительские группы. Например, какая у них покупательская способность, интересуются ли они модой и путешествиями, сходят ли с ума по новым технологиям. Дальше эти группы сопоставили с конкретными районами на основе истории перемещения пользователей по городу.
Как определить район проживания конкретного пользователя? За него считалась область Москвы, откуда в будние дни поступает наибольшее количество запросов на показ рекламы до и после рабочего дня, а по выходным и праздникам — в течение всего дня. В выборку попали только те пользователи, с устройств которых системам приходил запрос на показ рекламы не менее 25 раз в течение двух недель. А для чистоты выводов из результатов убрали тех, кто попал в менее чем 5 потребительских групп. Вся выборка составила более 1 000 000 человек, и в каждый район из них попало от нескольких до десятков тысяч пользователей. Те районы, которые не набрали 2000, тоже исключили из работы. Дальше рассчитывался ключевой для интернет-маркетинга показатель аффинитивности, который демонстрирует, насколько попадающей под определенный портрет аудитории больше или меньше в том или ином районе. То есть насколько типично для владельцев собак жить, например, в Ясенево.
Что это значит
Интересным результатом стало то, что представители креативных профессий, условные хипстеры — из парка Горького, офисов на «Арме» и «Флаконе» — отправляются ночевать домой на «Академическую», в районы Нагатино-Садовники, Крылатское и даже в Гольяново. Аудитория с самым высоким уровнем дохода концентрируется в Крылатском, на проспекте Вернадского и Аэропорте. Наибольшее число мигрантов — тех, кто изучает сайты стран СНГ и ищет информацию о банковских переводах, — живет в Савеловском и Рязанском районах, меньше всего — в Ясенево и Братеево. Однако надо оговориться, что результаты нельзя считать абсолютными — скорее, это выводы-гипотезы.
«Я живу в Северном Тушино, и результаты, на мой взгляд, в целом получились справедливыми. Конечно, есть отдельные нестыковки: те, кто живет в Гольяново, ходят не только в парк Горького, а те, кто пришел в ЦПКиО, — не только из Гольяново. Эти данные не верно использовать для исчерпывающей характеристики конкретного района, но они позволяют сделать приблизительную карту потребительских предпочтений. Наверное, всем интересно, где в Москве живет больше всего незамужних девушек. А мы хотели эту информацию проанализировать и с технической стороны, потому что эта группа представляет собой пересечение нескольких рекламных сегментов — «девушек», «неженатых людей» и «людей молодого возраста».
Этим исследованием мне хотелось показать не только то, как интересно работать с большими данными. Важно помнить, что эти данные безопасны: такой объем информации не позволяет проследить за конкретным человеком, данных слишком много, и даже выделить отдельные районы в этом массиве невероятно сложно. Трудно сказать, есть ли мои собственные данные в этой выборке, — наверное, есть».