Вместе с «Газпром нефтью» «Бумага» рассказывает о петербуржцах, чьи профессии связаны с самыми современными и сложными технологиями. В новом материале — истории специалистов, которые изучают большие данные.
Как data science помогает изучать картины и предсказывать утечки данных или взломы в интернете, почему нужно анализировать человеческое поведение, чтобы создать искусственный интеллект, и что показало исследование твитов с хештегом #MeToo из разных стран?
Сотрудники компаний SEMrush и «Газпром нефти» рассказали «Бумаге», почему решили заниматься data science и насколько сложно работать с терабайтами данных.
Ольга Ломакина
Data scientist в SEMrush
Чем занимаются дата-специалисты?
Data science — наука, которая изучает большие наборы данных, а data scientist — человек, который может найти среди этих данных взаимосвязи и закономерности, предсказывать тренды. Этим, собственно, я и занимаюсь: собираю информацию, выбираю самые интересные данные и нахожу в них изюминку, которую можно развить в крутое исследование. Для этого на языке Python создаю математические модели, которые обрабатывают данные и выдают результаты или прогнозы.
Data science становится всё популярнее и востребованнее — это профессия будущего.
Исследования в этой области охватывают много сфер: например, компьютерное зрение (способность машины распознавать визуальное изображение — прим. «Бумаги»), распознавание речи и искусственный интеллект, который сможет заменить многие существующие профессии. Так, эти технологии помогут распространению беспилотных автомобилей и cменят водителей. Уже сейчас очень хорошо развиваются онлайн-переводчики. Курьеров можно будет заменить автоматической доставкой при помощи дронов. Чтобы всё это запрограммировать и правильно обучить, необходимы математические модели.
Продукты компании SEMrush: интернет-маркетинг, различные данные о социальных медиа, SEO. Я работаю в команде международного PR. Основываясь на наших данных, мы проводим исследования, которые публикуются в различных зарубежных СМИ, медиа: Bloomberg, Reuters, Business Insider, Herald Sun.
Как вы попали на эту работу?
Я полюбила математику еще в детстве, с начальной школы мне хорошо давался этот предмет. По этой причине выбрала специальность, связанную с математикой, а во время учебы в университете узнала о существовании data science — очень творческой математической области, где можно изучать не абстрактные числа, как это делают профессора-математики, а проводить исследования, приближенные к жизни и бизнесу.
Профессия достаточно молодая, она выросла на стыке математики и информатики. Моему собеседованию в SEMrush предшествовало обучение в бакалавриате и магистратуре, прохождение разных курсов, конференций, мероприятий для саморазвития. Я окончила Высшую школу экономики в Москве, профиль — прикладная математика и информатика. В магистратуре училась в петербургской Высшей школе экономики, изучала анализ больших данных в бизнес-экономике и обществе.
В SEMrush мы выбираем темы для исследований, исходя из самых обсуждаемых тем в медиа — либо в технических кругах, либо в крупных американских СМИ.
Например, недавно Business Insider опубликовал результаты наших исследований о криптовалютах. Мы изучили различные зависимости и тренды: как часто люди ищут в поисковике биткоины и другие криптовалюты, как курс биткоина влияет на интерес людей к этой теме и количество поисковых запросов. В том же исследовании сравнивали трафики сайтов, которые занимаются обменом биткоинов. Выяснилось, что сайты бирж криптовалют обгоняют по трафику сайты обычных бирж, на которых торгуют акциями.
В другом исследовании мы проанализировали 8000 сайтов, занимающихся e-commerce (электронной коммерцией — прим. «Бумаги»), из Европы и США. Основываясь на данных SEMrush о трафике, рекламе, технических характеристиках сайтов и прочих данных, подготовили рекомендации для маркетологов, работающих в этой сфере. Например, выяснили, что 56,98 % трафика коммерческих сайтов потребляется с экранов мобильных телефонов.
Кроме того, специалисты SEMrush проводили исследование о том, какие факторы оказывают наибольшее влияние на ранжирование сайта в поисковой выдаче. Оно вызвало большой интерес в SEO-комьюнити. Самые значимые факторы ранжирования, согласно результатам исследования: прямой трафик, время, проведенное пользователем на сайте, и количество страниц, которое пользователь просмотрел за одно посещение сайта.
Из еще не опубликованных наших работ — исследование твитов с хештегом #MeToo, их эмоциональной окраски и других характеристик (хештег появился после обвинений в сексуальных домогательствах Харви Вайнштейна: женщины использовали хештег, рассказывая свои истории, — прим. «Бумаги»). Так, Швеция уделяет особое внимание правам женщин и возглавляет список с наибольшим количеством запросов #MeToo; США и Канада занимают второе и третье места. Большинство твитов с хештегами несут положительную окраску либо нейтральную — и только 15 % выражают негатив. Мы также исследовали популярность людей, интерес к которым существенно возрос в связи с событиями #MeToo. После речи Опры Уинфри на «Золотом глобусе» (на церемонии она выступила в поддержку жертв сексуальных домогательств — прим. «Бумаги») количество поисковых запросов с ее именем увеличилось в шесть раз.
Другой пример: мы проанализировали составы и архивы крупных СМИ — washingtonpost.com, foxnews.com, huffingtonpost.com и других — и изучили темы и тренды: о чем говорят и пишут в обществе. Сейчас работаем над результатами.
Что самое сложное в вашей профессии?
Нужно всегда быть в тренде: область очень быстро развивается, постоянно появляются новые научные статьи и методы, за которыми нужно следить и которые необходимо держать в голове. В определенный момент эти методы могут помочь тебе решить какую-то конкретную задачу гораздо лучше, чем те, которые были актуальны полгода назад.
Объем данных зависит от исследования: бывают исследования данных за десять лет или, например, за последний месяц. Для больших исследований мы можем проанализировать данные 10 тысяч доменов и миллиона — ограничений нет. Количество затраченного времени также зависит от задачи: иногда можно справиться буквально за пару дней, а если исследование серьезнее, работа над ним может длиться около одного-двух месяцев.
Почему эту работу не может выполнить кто угодно?
Нельзя прийти с улицы, пройти курсы за две недели и научиться этой профессии. В лучшем случае, если ты прекрасный математик и информатик, можно изучить эту специальность, думаю, за два месяца. Кроме того, нужно решать очень много практических задач, чтобы понять всю суть, — это приходит с опытом.
Стоит ли заниматься этим делом в Петербурге?
Этой профессией можно заниматься в любой точке мира, если там есть интернет. При этом мне нравится жить и работать в Петербурге, потому что здесь очень крутое data-science-комьюнити.
Здесь data science занимается большое количество людей, проходят различные встречи. Например, ODS SPb Meetup и SPBDSM Meetup, а также дата-завтрак, который проходит каждый четверг в 9:30 в кафе Bonch. На всех этих встречах — формальных и неформальных — можно пообщаться с коллегами из других компаний, обменяться опытом.
Еще в Петербурге проходят data-science-хакатоны, например, из недавних — хакатон AI Hack. Организаторы предлагали выбрать одну из пяти задач. Мы с командой решали задачу прогнозирования оттока клиентов «Газпром нефти»: по предоставленным ею данным необходимо было разработать алгоритм выявления клиентов, которые, начиная со следующего месяца, не будут заправляться на АЗС. Мы вышли в топ-10 на Kaggle (платформа, которая проводит соревнования для исследователей в сфере data science — прим. «Бумаги») и представили презентацию своего решения.
Никита Куприянов
Начальник отдела исследования и разработки в Центре цифровых инноваций «Газпром нефти»
Как data science помогает развитию бизнеса?
Деятельность Центра цифровых инноваций сконцентрирована на бизнес-процессах логистики, переработки и сбыта. Зачастую для решения задач, которые перед нами ставит бизнес, применяется машинное обучение и анализ данных.
Например, возьмем производство абстрактного нефтепродукта. Есть план: что и в каком количестве необходимо произвести в месяц. Производство может работать с предельной загрузкой, но с перерасходом электроэнергии и износом оборудования, а может эффективно и оптимально расходовать ресурсы. Задача специалистов data science — разработать рекомендательные системы для эффективного управления отдельной установкой и системами установок. Большая задача — построить «цифровых двойников». Они позволяют прогнозировать, как поведет себя та или иная установка под влиянием внешних факторов, — например, выход смежного оборудования из строя или внеплановая остановка производства.
Оборудование оснащается измерительными приборами, которые генерируют множество различных сигналов, характеризующих его состояние: температура, загруженность, количество потребляемой энергии и так далее. Потенциально все параметры можно анализировать. Специалист по data science должен определить, какие из этих параметров необходимы для решения определенной задачи (например, выхода оборудования из строя) и правильно подобрать модель, которая позволила бы с помощью этих данных предсказать момент выхода оборудования из строя.
Как вы попали на эту работу?
В моей жизни об искусственном интеллекте все заговорили, когда сняли фильм «Терминатор». Тогда я впервые задумался о существовании машины, которая была бы способна мыслить, но это были детские впечатления. Более углубленное знакомство с AI (artificial intelligence — искусственный интеллект — прим. «Бумаги») я получил на занятиях по предмету «Искусственный интеллект» в ЛЭТИ. Я полагал, что это будет крайне интересно, и с нетерпением ждал лекций. Но в итоге разочаровался. Оказалось, что искусственный интеллект — это просто достаточно сложный математический аппарат. И всё. Сакральный смысл был утерян.
Позже мое внимание привлекла информационная безопасность. Тогда модной темой был анализ поведения пользователей в сети. На сегодняшний день угрозы в интернете выявляются не только при помощи стандартных алгоритмов, но и при помощи искусственных нейронных сетей. На базе трафика нейронная сеть может охарактеризовать «поведение» человека в интернете: представляет ли он и его деятельность опасность для общества или информационных систем.
Оценив потенциал направления, я окончательно решил заняться data science и начал осваивать эту тему самостоятельно: читал литературу, проходил курсы в интернете, писал простейшие модели. С тех пор я уже около пяти лет занимаюсь data science.
Сфера развивается очень быстро, появляются новые модели. Жаль, что большинство выдающихся разработок принадлежит зарубежным компаниям. Например, DeepMind (британская корпорация, которая занимается искусственным интеллектом; например, в 2016 году их программа для игры в го AlphaGo выиграла матч у чемпиона мира Ли Седоля — прим. «Бумаги»).
Есть у направления и печальные новости. Человек принимает решение, основываясь на жизненном опыте, но такое же решение может принять машина. Искусственный интеллект быстро развивается и на сегодняшний день может принять весьма успешно массу решений за меня. Так, современные магазины выбирают за меня, что мне купить. И мне даже нравятся варианты, которые они предлагают.
Пока, конечно, всё это работает на человека: машина еще не может сама себе поставить задачу. Как только она научится это делать — а мощности дают ей гораздо больше возможностей, чем есть у человека, — нам останется только творчество. Хотя на сегодняшний день искусственный интеллект уже очень неплохо творит: рисует картины и пишет музыку. Насколько это можно назвать искусством, скорее уже философский вопрос.
Недавно ученые мира в сфере data science подписали договор о том, что они не будут разрабатывать оружие с использованием искусственного интеллекта. Это один из шагов, который позволит нам посмотреть на результаты разработки самостоятельного искусственного интеллекта — и при этом остаться в живых. Илон Маск говорит о том, что искусственный интеллект несет опасность, и нам следует об этом помнить.
Почему эту работу не может выполнить кто угодно?
Сейчас это очень перегретая область. Я сужу по тем людям, которые приходят ко мне на собеседования. Большинство претендентов на позицию data scientist знают минимальный набор алгоритмов, шаблонные модели и сразу идут на рынок. Зачастую это способствует снижению производительности решений.
Что самое сложное в вашей профессии?
Самое сложное — это понять, как работает та или иная модель, математический аппарат, почему он делает те или иные выводы. Безусловно, для того, чтобы это понимать, нужно уделять массу времени изучению моделей и областям их применения.
Стоит ли заниматься этим делом в Петербурге?
Петербург — очень хороший город, и здесь замечательная атмосфера для работы. Но в этом смысле всё зависит не от города, а от сообщества.
С точки зрения статистики в Москве гораздо больше людей — и на единицу площади приходится больше талантливых ребят.
Кроме того, чем больше людей живет в городе, тем выше вероятность, что там откроется крупная компания, куда приглашают на работу и съезжаются люди из небольших регионов. Компаний, для которых анализ данных является релевантной задачей, в Москве, мне кажется, больше. Как и стартап-тусовок. А там, где стартапы, там и новые технологии, и интересные задачи.
Пять вещей, которые отличают вашу профессию
1.
Нельзя изучить науку о данных без глубоких познаний в математике и информатике
Ольга Ломакина: Для этой работы необходим технический склад ума, аналитическое мышление, знание математики и языка программирования, на котором можно реализовывать разные математические модели. В зависимости от компетенции можно выделить конкретные математические аспекты или языки программирования.
2.
С помощью больших данных можно предсказывать преступления
Никита Куприянов: Например, есть так называемый Darkweb, и есть компании, которые на базе анализа данных в Darkweb предсказывают утечку данных в банках или их потенциальный взлом. Это достаточно сложная задача с использованием искусственного интеллекта. Такая информация, как вы понимаете, стоит очень дорого — и рынок готов за нее платить.
3.
Эта профессия позволяет работать в разных сферах: от медицины до искусства
Ольга Ломакина: Например, в медицине можно анализировать рентгеновские снимки и ставить по ним диагнозы, а в искусстве — определять авторство картин, генерировать музыку или стихи. Data science — по моему мнению, одно из самых творческих направлений в технической сфере: чтобы выбрать подходящий метод и правильно интерпретировать полученные данные, необходимо проявить фантазию.
4.
Специалист должен уметь решать задачи нестандартно
Никита Куприянов: Если специалист умеет строить только шаблонные модели, он не сможет решить задачу, о которой не написано в интернете, и всё закончится плохо. Мне хотелось бы решать именно такие задачи — те, которые на сегодняшний день еще никто не решил.
5.
Чтобы собрать данные для искусственного интеллекта, нужно анализировать человеческое поведение
Ольга Ломакина: Например, чтобы роботы имитировали речь или написание музыки, сначала нужно собрать данные о человеческом поведении, проанализировать их, а затем уже запрограммировать.