Уже несколько лет анализ больших данных – среди главных инновационных трендов в мире. Прогностические подходы, основанные на Big Data, помогают сокращать денежные и временные затраты компаниям из самых разных индустрий. Но сами по себе большие данные не дают компаниям никаких инсайтов и не предлагают реальных решений. Эту задачу выполняют люди – специалисты по Data Science.

Но как компании укомплектовать команду Data Science, которая позволит получить максимальную пользу от данных? Своим советами по достижению этой цели на второй встрече City.AI в UNIT.City поделился Data Scientist компании Talkable Даниил Анцибор. Он рассказал, какими умениями должны обладать специалисты в области данных, как правильно интегрировать команды Data Science в структуру компании и на какие этапы традиционно делятся проекты, связанные с Big Data. K750 записал самое важное из выступления спикера.

Зачем компаниям Data Science Team?

Согласно исследованиям, 86,4% людей верят любым цифрам, которые им покажут на графике. Почти никто из них не задумывается о том, чтобы найти первоисточник и проверить эту информацию. Но в бизнесе все цифры, на основании которых принимаются решения, должны быть чем-то подкреплены. Инсайты, полученные благодаря анализу данных, позволяют компаниям расширять функционал их продукта, улучшать понимание клиентов и решать другие не менее важные задачи.

Кто может предоставить такие инсайты? Для этого вам понадобиться помощь специалистов по Data Science.

Даниил Анцибор

Посмотрим на этот вопрос с технической стороны. Почему бы руководству компании не получить инсайты, необходимые для принятия data driven-решений, скажем, от девелоперов? Ведь именно разработчики создают продукт и хорошо знакомы со структурой данных. Но, как показывает практика, часто скиллы, подход, а в некоторых случаях и инструментарий разработчиков не подходят для решения задач, которые решает Data Science Team. На задание, с которым Data Scientist справляется за час, у других специалистов уходит два дня. Соответственно, заказчикам запросов будет казаться, что это очень сложные задачи, и от такого вида проектов лучше отказаться.

Специалисты по Data Science также необходимы для того, чтобы создать отдельное хранилище данных. Вы спросите, почему бы просто не использовать существующую инфраструктуру? Ведь компании и так где-то хранят свои данные, продукт при этом работает. Ответ, на самом деле, прост. Те инструменты, те структуры данных, которые используются для транзакционных систем, попросту не подходят для сложных аналитических запросов.

Кто входит в Data Science Team?

Как правило, выделяют несколько основных ролей в команде Data Science. Первая роль — это Data Engineer, вторая — Data Scientist, третья – Data Analyst. Иногда вторую и третью роль объединяют – тогда функции Scientist и Analyst выполняет один и тот же человек. В составы Data Science команд также могут входить менеджеры, которые управляют всеми процессами.

Чем занимаются Data-инженеры? Они отвечают за инфраструктуру, которая позволяет Scientists и Analysts быстро и качественно выполнять свои задачи. Инженеры должны подготовить данные для других участников команды, они должны прекрасно понимать, как сделать работу с этими данными легче и быстрее. Компании, которые делают упор исключительно на аналитиков, забывая об инфраструктуре, в будущем столкнуться со сложностями. Участники команд сами приходят к руководству с просьбой дополнить их подразделение человеком, способным создать хорошую инфраструктуру.

Основная задача Data Scientist и Data Analyst — предоставление инсайтов. Главное отличие Data Scientist от Data Analyst состоит в том, что первый, как правило, выполняет более сложные задачи, например, работает с машинным обучением. Кроме того, от таких специалистов ожидают тех или иных прогнозов.

Представим ситуацию, когда компания может позволить себе только одного человека, который будет заниматься данными. Возникает логичный вопрос: кто это будет — инженер, аналитик или ученый? В идеале, этим специалистом должен быть или инженер с хорошими знаниями Data Science, или же Analyst/Scientist с опытом в Data-инжиниринге.

Что должен уметь Data Scientist?

Любой компании, конечно же, хотелось бы взять в свою команду универсальных специалистов, у которых есть знания в разных сферах. Но в реальном мире легче нанять эксперта, который силен в каком-то одном направлении. Если мы говорим об инженерах, неплохо было бы, чтобы у него был опыт программирования или администрирования баз данных. Важно: инженер должен уметь работать с неструктурированными данными. Другими словами, он должен понимать, как объединить данные и преобразовать их в удобный для анализа формат.

Что должен уметь Data Scientist? В первую очередь, он должен знать, как получить данные. Для этого ему понадобятся знания статистики и программирования. Не менее важно, чтобы Data Scientist умел презентовать результаты своей работы, то есть имел навыки визуализации данных.

Какие этапы традиционно проходит бизнес, реализуя проекты, связанные с данными? На первом этапе необходимо понять, все ли данные о продукте отслеживает и собирает компания? Если нет – возможно, инженерам прийдется несколько усовершенствовать систему, например, поставить большее количество триггеров, чтобы сохранять как можно большее количество данных.

На следующем этапе необходимо подумать об инфраструктуре. Скорее всего, даже если компания и собирает данные о продукте, их неудобно извлекать. Другими словами, на этом этапе вам могут понадобиться умения Data-инженеров. На этапе анализа данных компания привлекает Data Scientists или Data Analysts.

Следующий этап — презентация, когда информацию с языка данных переводят на язык бизнеса и преподносят людям, принимающим решения. В зависимости от размера Data Science Team презентовать инсайты могут как менеджеры Data Science, так и аналитики/Scientists.

Интеграция Data Science Team

Cуществует несколько способов интегрировать команду Data Science в организационную структуру компании. Первый подход – функциональный – специалисты Data Science работают в составе других команд, например, продуктовой, маркетинговой или финансовой. В Talkable команда Data Science стала частью Сustomer Success Team, так как главной задачей компании является создание ценности для потребителей.

Другой подход – встроенный – заключается в организации отдельного департамента в компании, со своим руководителем, который будет отвечать за развитие направления Data Science. И наконец, третий вариант, который по мнению многих участников рынка является оптимальным – это гибридная интеграция. В этом случае в комании существует отдельная команда Data Science, участники которой также принимают участие в проектах других команд.

Как члены команд Data Science могут взаимодействовать с другими сотрудниками компании? Первое направление — это предоставление консультаций. Cпециалисты Data Science рассказывают другим сотрудникам компании о способах реализации их идей. Это не самый эффективный способ взаимодействия, ведь когда команды не работают вместе системно, к аналитикам могут приходить с нереалистичными идеями, на воплощение которых нет средств.

Второй вариант взаимодействия — это кооперация. В этом случае компания принимает решение реализовать тот или иной проект, выделяет под эти цели ресурс и привлекает к работе над проектом специалистов по Data Science и участников других команд. Это самый оптимальный вариант, который позволяет участникам процесса эффективно взаимодействовать и обмениваться знаниями.

Третий, тоже немаловажный подход — это обучение других сотрудников специалистами по Data Science. Например, команде менеджеров по продажам можно подсказать информацию о возможностях продукта, о которых они и не подозревали.

В целом, к важной задачей Data Science Team является налаживание образовательного процесса внутри компании, который поможет другим сотрудникам разобраться, что можно сделать с помощью данных. Круто, когда членам команды Data Science удается внедрить регулярные образовательные встречи для других сотрудников, в рамках которых они смогут рассказать о решении сложных задач или продемонстрировать интересные примеры визуализации данных.

Такие образовательные встречи, конечно же, заинтересуют не каждого сотрудника, но не исключено, что они помогут другим понять, чем занимается Data Science Team и с какими запросами к ним можно обращаться.

Еще одно важная функция, которую могут выполнять специалисты по Data Science – это инициирование и тестирование новых идей. К сожалению, в реальности к идеям Data Scientists не так часто прислушиваются. Очень важно наладить такую коммуникацию между Data Scienсe Team и другими сотрудниками компании, чтобы иногда ценные идеи аналитиков не канули в Лету. Часто идеи, основанные на данных, гораздо ценнее идей, основанных просто на ощущениях.

Как выбрать специалиста в Data Science Team?

Кандидаты, претендующие на позицию в Data Science Team, как правило, имеют хорошее резюме, красиво рассказывают о своем опыте и якобы знают много технологий. Но как проверить, говорят ли они правду и что они умеют на самом деле? Самый лучший вариант – дать кандидату небольшой дата-сет, основанный на реальных данных вашей компании.

При этом кандитат, претендующий на работу, должен не просто описать, что он видит в этом наборе данных, а и сделать небольшую презентацию. После выполнения задания вы должны увидеть ход его мышления и понять, сможет ли кандидат в будущем делать понятные презентации для других команд или для владельцев бизнеса.

Второй вариант – предложить кандидату попробовать решить задачу, которую не удалось решить вам. Если кандидат найдет инсайты в вашем дата-сете, в котором, как вам казалось, ничего нет – это замечательно. Если нет — тоже нормально. Во втором случае главной задачей кандидата будет презентация выводов и обоснование своей точки зрения.

Как организовать правильный оnboarding-процесс для специалиста по Data Science? Нередко новые сотрудники в первые дни занимаются исключительно тем, что читают документацию. Но гораздо лучше в первый же день выдать новому специалисту хотя бы небольшую, но реальную задачу. Это поможет ему быстрее познакомиться с другими сотрудниками компании и приблизиться к пониманию того, чем он должен заниматься в будущем.