По информации Statista, к 2022 году объем данных во всем мире достигнет 94 зеттабайт, а доход компаний от использования больших данных и бизнес-аналитики вырастет до $264 млрд. Специалисты, которые умеют обрабатывать информацию и доставать из нее неочевидные инсайты, сейчас в цене как никогда раньше. Даниил Федулов, сооснователь и CTO стартапа MDinс и инженер-исследователь ORI Team, рассказал T&P о том, где могут пригодиться навыки аналитики данных, почему они нужны не только в сфере ИТ и какие новые профессии уже появляются на стыке отраслей.

Даниил Федулов

Cооснователь и CTO стартапа MDinс, инженер-исследователь ORI Team и менеджер образовательной поддержки профессий «Аналитик данных» и «Специалист по Data Science» в Яндекс.Практикуме

Чем занимается аналитик данных и где он нужен

До того как стать всемирно известным стриминговым сервисом, Netflix распространял по почте и сдавал в аренду DVD-диски. Бизнес-модель компании изменилась после перехода в онлайн и внедрения рекомендательной системы: пользователи стали получать персонализированные предложения к просмотру и принимать решения на основе данных. Сейчас у Netflix больше 100 млн подписчиков, а коэффициент удержания пользователей составляет 97%. Секрет успеха платформы в том числе в сильной команде дата-аналитиков.

Дата-аналитик — это специалист, который занимается сбором, обработкой и интерпретацией данных: это могут быть данные о продукте, о его продвижении или о компании (например, количество активных пользователей, коэффициент удержания или возврат на инвестиции). Сферы применения его знаний ничем не ограничены — они могут пригодиться и в медицинской организации, и в инвестиционной фирме.

В маленьких компаниях обычно нет аналитиков из-за недостаточного количества данных, а в корпорациях интерес к этой профессии, наоборот, повышенный. Так, в 2018 году спрос на дата-аналитиков в России вырос в семь раз по сравнению с 2015 годом.

Особенной популярностью представители этой профессии пользуются в крупных рекламных агентствах и финансовых организациях. В этих сферах за каждую ошибку платишь рублем, поэтому руководители стараются минимизировать потери компании, нанимая сильных специалистов.

Аналитик данных = Data Scientist?

Со стороны не всегда понятно, какие задачи решают представители разных профессий в области данных и чем они отличаются. Например, между аналитиком данных и специалистом по Data Science нет четкой границы, и из-за этого часто возникает путаница в понятиях. Действительно, специалисты обоих направлений анализируют первичную информацию, но делают они это по-разному и для разных целей.

Аналитик находится ближе к бизнесу: он наблюдает за текущими показателями компании, формулирует гипотезы на основании прошлых данных, проводит A/B-тестирование и создает визуализацию с помощью инфографики и дашбордов. Его цель — найти причинно-следственные связи и решить бизнес-задачи компании с помощью данных. Аналитик данных напрямую влияет на бизнес, поэтому ему важно глубоко погрузиться в то, как работает компания: разобраться в процессах, понять, как растить бизнес-показатели, опираясь на данные.

Data Scientist концентрируется на выполнении технических задач — он куда меньше привязан к актуальным бизнес-целям. Как и аналитик данных, он получает задачи на языке бизнеса, но ему важно уметь переводить их с языка бизнеса на язык математических моделей. Такой сотрудник может заниматься задачами машинного обучения, например прогнозировать значения показателей, временные ряды (значения, которые неравномерно меняются с течением времени), заниматься обработкой естественного языка (NLP) и компьютерным зрением (CV). В большей степени его задача — спрогнозировать дальнейшие сценарии развития компании, а не предложить решения текущих проблем.

Кажется, что аналитик и дата-сайентист — это профессии, в которых hard skills и работа с данными стоят во главе угла, но это не совсем так, обоим специалистам ставятся задачи на языке бизнеса, с которым они работают. При этом у каждой отрасли есть свои особенности: например, в медицине важно грамотно подобрать метрику качества модели, чтобы правильно назначить лечение, а в металлургии — понимать особенности дефектов стали, чтобы сделать визуальный анализ партии с помощью компьютерного зрения. То есть для работы с данными важный soft skill — это умение общаться с представителями индустрии и понимать их специфические задачи.

При этом сбор и интерпретация информации могут улучшить процессы не только в сфере ИТ, но и, например, в лабораториях — оптимизировать работу с клиническими данными или выявить закономерности в химических реакциях.

Как использовать аналитику данных в смежных сферах

Аналитика может пригодиться в работе специалистов, чьи задачи не связаны напрямую с анализом больших данных. Приведем опыт нескольких специалистов, которые изучали аналитику данных, чтобы оптимизировать процессы на текущем месте работы, и теперь активно используют полученные знания в смежных областях.

Фармацевтика

Павел Елагин, в прошлом руководитель отдела разработки технологий получения активных фармацевтических субстанций в российской биотехнологической компании, начал применять аналитические инструменты для создания новых молекул и оптимизации работы подчиненных внутри команды.

Я столкнулся с тем, что во время экспериментов набирается большое количество данных, которые хочется использовать для проверки гипотез. То есть не тыкать пальцем в небо, а статистически обосновывать свои действия.

Например, использование Data Science очень популярно в разработке новых молекул, а их несколько десятков миллионов! Оно помогает находить взаимосвязи между структурой молекул и активностью и даже предсказывать результаты химических реакций, минимизируя работу руками и делегируя ее компьютеру. Если говорить об аналитике данных, то с ее помощью получается меньше вовлекать сотрудников в процесс дизайна экспериментов. Данный навык оптимизирует процесс работы и помогает увеличить продуктивность отдела.

После обучения Павлу удалось оптимизировать время создания некоторых продуктов. Разработка химической реакции — это многофакторная система: на нее влияет большое количество переменных, например температура, давление, скорость перемешивания, количество реагентов и другие показатели. Чтобы оценивать все потенциальные воздействия, нужно запланировать эксперимент, собрать информацию и после корректно проанализировать ее. С помощью аналитики данных этот процесс можно ускорить.

Например, после попыток избавиться от побочных продуктов реакции внутримолекулярной конденсации Павел с командой решили провести полный многофакторный эксперимент с включением всех возможных параметров. На основании полученных данных им удалось определить совокупность нескольких факторов, которые больше всего влияли на качество получаемой субстанции. Этот вывод позволил разработать технологию, благодаря которой получается продукт необходимого фармацевтического качества.

Реклама

Максим Фесенко, технический менеджер по работе с клиентами AdTech-компании IPONWEB, решил углубиться в аналитику данных, чтобы подтянуть знание кода и разобраться в том, как работает искусственный интеллект и машинное обучение.

Благодаря новым знаниям в аналитике мне теперь гораздо удобнее работать с большими массивами данных, например с помощью Python. Также я смог ускорить работу с таблицами во время онбординга клиентов — консультаций по техническим аспектам интеграции, сопровождаемых аналитикой. У меня получается извлекать дополнительную информацию, приводить данные к единому формату за более короткий промежуток времени без потери качества.

Максим создал скрипт для автоматизации выгрузки отчетов: раньше данные приходилось запрашивать через длинный и неудобный запрос в базе данных или вручную через UI. С помощью Python и pandas этот процесс удалось ускорить в три раза: если раньше выгрузка отчетов занимала до четверти часа, то сейчас красивые и информативные таблицы можно получить за несколько минут.

Медицина

Онколог и заведующий отделом организационно-методической работы с регионами НМИЦ имени Н.Н. Пирогова Юрий Комаров стал изучать дата-аналитику, чтобы научиться обрабатывать Big Data в медицине — отчетные формы и реестры лечения пациентов.

Почти все полученные знания пригодились мне на практике: сейчас, например, значительно уменьшилось время, которое я трачу на анализ медицинских показателей. Написав код один раз, я использую его повторно: больше не нужно в каждом файле Excel заново рассчитывать всю информацию. Сейчас я пытаюсь сделать модель машинного обучения, которая определит критерии качества оказываемой пациентам помощи.

Юрий уже смог улучшить процесс прогнозирования заболеваемости и смертности от злокачественных опухолей. Если раньше всю информацию приходилось обрабатывать в Excel вручную в течение двух-трех часов, то с помощью программы на Python процесс занимает не больше пяти минут — и ввод данных, и аналитика автоматизированы.

Результаты анализа помогают заранее спланировать закупку препаратов для разных регионов и распределить нагрузку между врачами. Также с их помощью можно увидеть, получает ли пациент лечение в срок, насколько оно эффективно — и корректировать работу медицинских учреждений.

Новые профессии на основе аналитики данных

Аналитика данных может применяться не только в смежных сферах, но и давать начало новым профессиям. Например, в области медиа, маркетинга и продакт-менеджмента уже появились должности, на которых аналитические навыки и знание Python — это самый настоящий must-have. По данным PwC, решения на базе данных скоро будут принимать не только главы компаний, но также финансовые менеджеры и HR-специалисты — хотя названия их должностей пока не претерпели трансформацию.

Дата-журналист

Теперь с помощью Tableau, Excel и Python представители медиа могут находить необычные закономерности и интересные инсайты в открытых данных.

Умение работать с источниками и искать информацию по-прежнему остаются hard skills журналистов, при этом знания в области аналитики помогают им находить инфоповоды для материалов и создавать тексты на резонансные темы. Например, подсчитав количество нефтяных аварий в российских ТЭК за 2019 год, авторы «Важных историй» выяснили, что внештатные ситуации происходят каждые полчаса, и смогли написать об этом статью.

Визуализация данных также играет большую роль в журналистском тексте: в 2018 году Reuters выпустили интерактивный лонгрид о лагере мусульманских беженцев на юге Бангладеш. Описание кризиса, с которым столкнулись жители, сопровождалось разными видами инфографик, основанных на статистических данных: с их помощью журналистам удалось создать эффект присутствия и сделать материал более эмоциональным с помощью фактов и цифр, а не громких слов. В том же году материал получил премию Глобальной сети редакторов за лучшую визуализацию данных.

Дата-журналист = Журналистика (умение писать журналистские тексты) + Программные инструменты (Python + Excel + Tableau) + Понимание актуальной повестки

Дата-маркетолог

Такие специалисты могут оценивать рынок и прогнозировать спрос на те или иные продукты на основании данных, а не собственных умозаключений.

Помимо классических знаний «по Котлеру», дата-маркетологи используют инструменты сквозной аналитики, разбираются в статистических данных с помощью R, Python или SPSS, умеют пользоваться программами для визуализации и интерпретации данных — Power BI, Tableau или Qlik. В отличие от коллег без аналитической базы, они могут благодаря имеющимся данным заранее отметать провальные для рынка гипотезы, прогнозировать результаты контент-маркетинга, предсказывать поведение потребителей и составлять долгосрочные стратегии, опираясь на реальные рыночные данные.

Дата-маркетолог = Маркетинг + Программные инструменты (Python + R + SPSS + Power BI + Tableau + Qlik) + Понимание бизнеса

Продуктовые, игровые и количественные аналитики

Занимаются развитием продукта: формулируют цели и KPI, находят точки роста и тестируют продуктовые гипотезы, используя большие данные.

Сотрудников, которые умеют работать с пользовательской информацией, ищут в игровой индустрии — например, геймдев-аналитиков, способных улучшить пользовательский опыт, понизить churn rate (коэффициент оттока) и увеличить retention rate (коэффициент удержания). По данным HeadHunter, средняя зарплата специалистов в этой области начинается с 90 000 рублей.

В финансовой сфере появляется запрос на количественных аналитиков: они анализируют показатели компаний с упором на применение математических и статистических методов. Они в среднем могут получать от 65 000 рублей и выше.

Продуктовые аналитики = Менеджмент + Программные инструменты + Понимание бизнеса

Основное преимущество работы с Big Data в любой специальности — это оптимизация процессов и сокращение времени на рутину. Грамотно составленные алгоритмы позволяют анализировать данные без человеческого вмешательства, доставляя более точный и релевантный результат для любой сферы бизнеса. При этом наличие у сотрудника экспертизы в конкретной области — маркетинге, игровой индустрии или фармацевтике — помогает формулировать более четкие технические задания и избегать искажения смыслов при интерпретации результатов.