Кто такой дата-сайентист
Содержание:
- Вакансии и зарплата, перспективы профессии
- Как и где зарабатывать на данных
- Стоит ли становиться специалистом в области Data Science?
- Дата-сайентисты в облаках
- Искусственный интеллект
- Профессия Data Scientist от Skillbox
- Инструкция: как стать data-сайентистом
- Какая нужна математика? Если нет матбазы, я безнадёжен?
- Как стать Data scientist: лучшее обучение
- Образование. Шесть шагов на пути к Data Scientist
- Работа data сайентистом
- Линейная алгебра
- Машинное обучение
- Что Data Scientist и Data Engineer могут делать в одной компании?
- Заключение
Вакансии и зарплата, перспективы профессии
Эта профессия достаточно молодая, но уже востребована на рынке. Количество данных растет в геометрической прогрессии и требует нестандартного подхода к обработке. Традиционное машинное обучение не срабатывает, нужен совершенно другой подход.
Специалистов разного уровня недостаточно, спрос на их услуги очень высок
Но важно понимать, что выйти на достойную оплату труда за несколько месяцев для Data scientist невозможно. Но для старта в профессии достаточно иметь отличную математическую базу, навыки программирование и знать алгоритмы
В зависимости от уровня знаний и опыта работы зарплата специалиста будет следующая:
Квалификация (уровень знаний) |
Опыт работы и зарплата |
Junior |
Опыт работы до 1 года. Специалисты этого уровня уже знают базовые модели и могут их адаптировать для решения конкретной задачи. Умеют визуализировать данные. Зарплата специалиста 60 000 – 120 000 рублей. |
Middle |
Опыт работы 1-3 года. Специалисты этого уровня уже могут обучать прототипы и подбирать модель под конкретную задачу. Они хорошо понимают потребности бизнеса и могут быстро решить задачу. Зарплата специалиста 150 000 – 180 000 рублей. |
Senior |
Опыт работы от 3-х лет. Специалист такого уровня уже может управлять командой, быть связующим звеном между исполнителями и бизнесом. Он хорошо разбирается в распределенных вычислениях, может быстро обучить прототип на незнакомых данных для оценки эффективности новой идеи. Зарплата специалиста 180 000 – 270 000 руб. |
Самые свежие вакансии с кратким описанием требований к кандидату
Итак, начинающий специалист может рассчитывать на зарплату от 60 000 рублей. Востребованность и высокую оплату подтверждают следующие вырезки только с одного сайта с вакансиями:
Направления развития в профессии
Data scientist всегда работает в команде, состоящей из аналитиков и инженеров данных. Каждый специалист занимается только одним направлением:
- Data engineer – инженер данных, отвечает за создание и поддержку инфраструктуры, обеспечивая сбор, хранение и управление потоками данных в реальном времени.
- Chief data officer – директор по данным, управляет жизненным циклом данных так, чтобы каждый специалист получал нужную информацию в подходящем виде и приемлемом качестве. Контролирует работу других специалистов.
- Data mining – аналитик данных, который обрабатывает исходные данные и предоставляет их в компактном виде.
- Text mining – аналитик текстов, который обрабатывает и разделяет тексты на категории, извлекая информацию и обрабатывая изменения.
Сферы применения Data scientist
В настоящее время формирование и обработка баз данных есть в любой сфере деятельности. В реальной жизни специалист может найти применение своих знаний в следующих отраслях:
Отрасль |
Пояснения |
Производство |
Необходимо мониторить текущие процессы и находить причины возникновения брака. Предлагать варианты оптимизации и улучшения качества продукции. Планировать различные эксперименты и предлагать новые виды продукции. |
Энергетика |
Основные задачи специалиста состоят в прогнозировании объемов потребления и цен на электроэнергию. Он может провести диагностику объектов и рассчитать оптимальные тарифы. Предложит оптимизировать режим потребления электроэнергии, подготовит заявки на почасовое потребление. |
Ритейл |
Необходимо прогнозировать спрос и цены, отток или увеличение количества клиентов. Анализировать предпочтения потребителей. Оптимизировать склады и логистику для увеличения эффективности. |
Финансы |
Оценивать риски и резервные фонды. Отслеживать мошенничество и возможные риски неисполненных кредитных обязательств. Построение инвестиционных моделей входит в задачи специалиста. |
Как и где зарабатывать на данных
- Собирать и продавать данные — в соцсетях, поисковых системах, медиа.
- Обслуживать данные — в софтверных компаниях-гигантах Google, Amazon и других.
- Разрабатывать продукты c data-решениями — в компаниях, которые создают беспилотники и другую инновационную технику.
- Извлекать из данных пользу — в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.
Самая обширная сфера — извлечение пользы из данных. Она охватывает:
- обнаружение аномалий — аномального поведения клиентов, мошенничества;
- персонализированный маркетинг — персональные email-рассылки, ретаргетинг, рекомендательные системы;
- прогнозы метрик — показателей эффективности, качества рекламных кампаний и других направлений деятельности;
- скоринговые системы — обрабатывают большие объёмы данных и помогают принять решение, например, о выдаче кредита;
- базовое взаимодействие с клиентом — стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.
Стоит ли становиться специалистом в области Data Science?
Это одна из наиболее востребованных профессий на текущий момент. Рынок продолжают расти, повышается количество данных, которые нужно обрабатывать, поэтому спада интереса к аналитикам не произойдет.
Зарплаты дата-сайентистов в России варьируются от 100 000 рублей до 500 000 рублей в зависимости от специфики работы и опыта соискателя.
Сотни открытых вакансий, внушительные бюджеты. Выглядит, как отличная карьера для всех, кто заинтересован в новом для себя направлении. К тому же обучиться Data Science сейчас можно на профильных курсах таких онлайн-школ, как GeekBrains, Skillbox и Coursera.
Дата-сайентисты в облаках
Облегчить и ускорить работу по сбору данных, построению и развертыванию моделей помогают специальные облачные платформы. Именно облачные платформы для машинного обучения стали самым актуальным трендом в Data Science. Поскольку речь идет о больших объемах информации, сложных ML-моделях, о готовых и доступных для работы распределенных команд инструментах, то дата-сайентистами понадобились гибкие, масштабируемые и доступные ресурсы.
Именно для дата-сайентистов облачные провайдеры создали платформы, ориентированные на подготовку и запуск моделей машинного обучения и дальнейшую работу с ними. Пока таких решений немного и одно из них было полностью создано в России. В конце 2020 года компания Sbercloud представила облачную платформу полного цикла разработки и реализации AI-сервисов — ML Space. Платформа содержит набор инструментов и ресурсов для создания, обучения и развертывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развертывания обученных моделей на динамически масштабируемых облачных ресурсах SberCloud.
Футурология
«Я бы вакцинировал троих на миллион». Интервью с нейросетью GPT-3
Сейчас ML Space — единственный в мире облачный сервис, позволяющий организовать распределенное обучение на 1000+ GPU. Эту возможность обеспечивает собственный облачный суперкомпьютер SberCloud — «Кристофари». Запущенный в 2019 году «Кристофари» является сейчас самым мощным российским вычислительным кластером и занимает 40 место в мировом рейтинге cуперкомпьютеров TOP500
Платформу уже используют команды разработчиков экосистемы Сбера. Именно с ее помощью было запущено семейство виртуальных ассистентов «Салют». Для их создания с помощью «Кристофари» и ML Space было обучено более 70 различных ASR- моделей (автоматическое распознавание речи) и большое количество моделей Text-to-Speech. Сейчас ML Space доступна для любых коммерческих пользователи, учебных и научных организаций.
«ML Space – это настоящий технологический прорыв в области работы с искусственным интеллектом. По нескольким ключевым параметрам ML Space уже превосходит лучшие мировые решения. Я считаю, что сегодня ML Space одна из лучших в мире облачных платформ для машинного обучения. Опытным дата-сайентистам она предоставляет новые удобные инструменты, возможность распределенной работы, автоматизации создания, обучения и внедрения ИИ-моделей. Компаниям и организациям, не имеющим глубокой ML-экспертизы, ML Space дает возможность впервые использовать искусственный интеллект в своих продуктах, приложениях и рабочих процессах», — уверен Отари Меликишвили, лидер продуктового вправления AI Cloud, компании SberCloud.
Облака помогают рынку все шире использовать платформы для работы с данными, предлагая безграничные вычислительные мощности, подтверждают аналитики Mordor Intelligence.
По мнению экспертов из Anaconda, потребуется время, чтобы бизнес и сами специалисты созрели для широкого использования инструментов DS и смогли получить результаты. Но прогресс уже очевиден. «Мы ожидаем, что в ближайшие два-три года Data Science продолжит двигаться к тому, чтобы стать стратегической функцией бизнеса во многих отраслях», — прогнозирует компания.
Искусственный интеллект
Искусственный интеллект — научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными.
Исследования, связанные с ИИ, высокотехнологичны и узкоспециализированны. Одной из ключевых задач искусственного интеллекта является программирование компьютеров, которые демонстрируют такие способности, как понимание, рассуждение, решение проблем, восприятие, обучение, планирование и т. д.
Основные составляющие ИИ — машинное обучение, инженерия знаний (knowledge engineering) и робототехника.
Принимая во внимание перечисленные научные области, концепции, и инструменты, мы можем без труда заключить: Data Science — это наше будущее, причем ближайшее. Курс
Курс
Data Science с нуля
Освойте все необходимые инструменты для уровня junior и получите самую востребованную IT-профессию 2021 года.
- 8 проектов в портфолио;
- соревнования и хакатоны;
- помощь в трудоустройстве.
Узнать больше
BLOG +5% скидки
Перевод: Тимонина Мария
Профессия Data Scientist от Skillbox
Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.
Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.
Инструкция: как стать data-сайентистом
Общие принципы того, как стать специалистом по данным, идентичны вне зависимости от способа обучения (самостоятельно или на курсах). Но в такой профессии крайне желательно совмещать и самообучение, и обучение на курсах, при этом не забывая о знаниях, полученных в высшем учебном заведении.
Пошаговые действия:
Для того, чтобы в дальнейшем не возникло пробелов в понимании, лучше начать с самых азов — с математики. Высшая математика не понадобится, но понимать такие вещи, как производная, дифференциал, определитель матрицы и подобное, обязательно надо. Дальше следует изучить математическую статистику, без которой никуда при анализе любой информации. Теперь можно переходить к более практическим действиям — научиться писать код на языке программирования Python. Для сферы data science это основной язык. Реже применяется R, который значительно легче усваивается после овладения Python
На этом же этапе важно научиться работать с SQL. Затем можно переходить к пониманию машинного обучения и созданию алгоритмов для него
Кроме теоретических знаний, на этом этапе важно применять изученное на практике. Так информация лучше усваивается. Ознакомиться с такими инструментами, как Apache Kafka, HDFS, Apache Spark, Apache Cassandra. С данным багажом знаний уже можно попробовать создать модель для прогноза чего-либо. Придумайте для себя задачу в сфере, где легко достать неструктурированные данные, и создайте модель для прогноза. Теперь можно найти работу. На протяжении работы будут появляться новые вещи, которые стоит изучить. Что конкретно это будет — зависит от места работы и проектов.
Первые этапы хоть и включают математику и статистику, которые не кажутся особо сложными на фоне языков программирования и специализированных инструментов, являются ключевыми и наиболее трудными для новичков. Поэтому после их прохождения втянуться в профессию будет намного легче.
Какая нужна математика? Если нет матбазы, я безнадёжен?
Константин башевой
Аналитик-разработчик в Яндексе и преподаватель курса «Python для анализа данных»
Вопрос про математику неоднозначный. Глубокое знание математики не является ни необходимым, ни достаточным условием. Конечно, тому, кто её знает, будет легче. Но все необходимые знания даются либо на занятиях, либо в дополнительных материалах.
Здесь как в спорте. Есть люди, которые могут без подготовки пробежать марафон. Остальным будет тяжелее, но при достаточной подготовке и они пробегут. Математическая база — это круто, но не критически необходимо.
Дарья Мухина
Продуктовый аналитик Skyeng, консультант курсов аналитики Нетологии
Кажется, что сейчас глубокую математическую базу можно заменить умением гуглить. В интернете огромное количество видео и статей, где можно получить доступно изложенную информацию — и не нужно лезть в университетские учебники. Главное знать, что тебе нужно.
Сейчас важнее навык применять знания в реальной задаче, а не просто обладать ими.
Елена Герасимова
Руководитель направления Data Science в Нетологии
Понятие «профильное техническое или математическое образование» уходит в прошлое. Уверенного в своих умениях и доменных знаниях специалиста из «гуманитарного» вуза не будут сравнивать с выпускником МФТИ по знанию математики — сравнивают по полезности бизнесу для решения задач.
Уже известны десятки рабочих алгоритмов и библиотек, которые способны всю математическую часть брать на себя без участия человека.
Как стать Data scientist: лучшее обучение
Следует помнить, что востребованным специалистом не получится стать при самостоятельном изучении всех дисциплин. В любом случае необходимо пройти профессиональные курсы.
Отличный курс для новичков с любым уровнем начальных знаний – «Data scientist» от Skillfaktory. Именно здесь обучение построено таким образом, что на каждом этапе погружения в профессию новичок работает с реальными задачами от партнеров. Каждый полученный кейс входит в портфолио выпускника.
Обучение длится 24 месяца, то есть два семестра по 6 месяцев. За это время новичок достигает уровень Junior с портфолио из 8-и кейсов различных тематик.
Следующие 2 семестра – специализация по выбору. За 12 месяцев студент наполняет свое портфолио еще пятью успешными кейсами. В результате обучения и работы над реальными задачами достигает уровня Middle.
После завершения обучения каждый выпускник обладает знаниями и навыками достигнутого уровня. Может претендовать на соответствующую оплату своего труда.
Особенность обучения на этом курсе в том, что каждый студент в ходе решения задачи может обратиться к куратору. Это помогает оперативно получить ответ на вопрос и поддержку.
За время обучения каждый студент получает 2 года стажа по специальности и профессиональное портфолио уровня Middle. Это значительно экономит время и дает быстрый старт в карьере.
Образование. Шесть шагов на пути к Data Scientist
Путь к этой профессии труден: невозможно овладеть всеми инструментами за месяц или даже год. Придётся постоянно учиться, делать маленькие шаги каждый день, ошибаться и пытаться вновь.
Шаг 1. Статистика, математика, линейная алгебра
Для серьезного понимания Data Science понадобится фундаментальный курс по теории вероятностей (математический анализ как необходимый инструмент в теории вероятностей), линейной алгебре и математической статистике.
Фундаментальные математические знания важны, чтобы анализировать результаты применения алгоритмов обработки данных. Сильные инженеры в машинном обучении без такого образования есть, но это скорее исключение.
Что почитать
«Элементы статистического обучения», Тревор Хасти, Роберт Тибширани и Джером Фридман — если после учебы в университете осталось много пробелов. Классические разделы машинного обучения представлены в терминах математической статистики со строгими математическими вычислениями.
«Глубокое обучение», Ян Гудфеллоу. Лучшая книга о математических принципах, лежащих в основе нейронных сетей.
«Нейронные сети и глубокое обучение», Майкл Нильсен. Для знакомства с основными принципами.
Полное руководство по математике и статистике для Data Science. Крутое и нескучное пошаговое руководство, которое поможет сориентироваться в математике и статистике.
Введение в статистику для Data Science поможет понять центральную предельную теорему. Оно охватывает генеральные совокупности, выборки и их распределение, содержит полезные видеоматериалы.
Полное руководство для начинающих по линейной алгебре для специалистов по анализу данных. Всё, что необходимо знать о линейной алгебре.
Линейная алгебра для Data Scientists. Интересная статья, знакомящая с основами линейной алгебры.
Шаг 2. Программирование
Большим преимуществом будет знакомство с основами программирования. Вы можете немного упростить себе задачу: начните изучать один язык и сосредоточьтесь на всех нюансах его синтаксиса.
При выборе языка обратите внимание на Python. Во-первых, он идеален для новичков, его синтаксис относительно прост. Во-вторых, Python многофункционален и востребован на рынке труда.
Что почитать
«Автоматизация рутинных задач с помощью Python: практическое руководство для начинающих». Практическое руководство для тех, кто учится с нуля. Достаточно прочесть главу «Манипулирование строками» и выполнить практические задания из нее.
Codecademy — здесь вы научитесь хорошему общему синтаксису.
Легкий способ выучить Python 3 — блестящий мануал, в котором объясняются основы.
Dataquest поможет освоить синтаксис.
The Python Tutorial — официальная документация.
После того, как изучите основы Python, познакомьтесь с основными библиотеками:
- Numpy : документация — руководство
- Scipy : документация — руководство
- Pandas : документация — руководство
Визуализация:
- Matplotlib : документация — руководство
- Seaborn : документация — руководство
Машинное обучение и глубокое обучение:
- SciKit-Learn: документация — руководство
- TensorFlow : документация — руководство
- Theano : документация — руководство
- Keras: документация — руководство
Обработка естественного языка:
NLTK — документация — руководство
Web scraping (Работа с web):
BeautifulSoup 4 — документация — руководство
Работа data сайентистом
Профессия data scientist интересна и востребована. Многие прямо сейчас изучают эту сферу, в то время как другие ищут хороших специалистов по данной специальности.
Что касается востребованности, по множествам рейтингов в США эта профессия считается самой востребованной в стране. В России тоже много вакансий для дата-сайентиста, особенно в Москве. Так как сфера сейчас стремительно развивается и явно обладает огромным потенциалом, количество вакансий точно будет увеличиваться с каждым годом. Как у нас, так и за рубежом.
Основным плюсом работы специалистом по данным является заработная плата и быстро развивающееся направление, которое скорее всего будет актуально многие годы. Но сразу стоит отметить, что профессия объемная и трудная в изучении. Чтобы стать тем, кого возьмут на работу, надо потратить 1-2 года на обучение, усердно занимаясь на курсах или самостоятельно.
Так же дата-сайентистом крайне сложно стать людям, мало смыслящим в математике. Есть примеры, когда гуманитарий становился data-сайентистом, но для таких случаев путь изучения специальности еще более тернист и сложен. Помимо математики, облегчить становление специалистом по данным можно, зная статистику, программирование и основные принципы машинного обучения.
Заработок в профессии
То, сколько получают дата саентисты, зависит от нескольких факторов:
- опыт работы ученого по данным;
- навыки, которые можно подтвердить путем прохождения тестовых заданий или показа предыдущие проекты;
- сферы деятельности компании-работодателя;
- сложности конкретного проекта или группы проектов.
На 2020 год показатели зарплаты выше среднестатистических. Это от 70 тысяч рублей по России и от 100 тысяч рублей в Москве. Столько получают новички в профессии.
Средняя заработная плата специалиста составляет примерно 105-150 тысяч рублей в России и 140-190 тысяч рублей в Москве. Специалисты с высокой квалификацией и большим опытом зарабатывают от 230 тысяч рублей.
Заработок за границей зависит от страны. В Европе платят так же, как в Москве, а вот в Америке заработная плата больше. В час там платят в среднем 40-60 долларов, то есть работая условные 4 часа в день можно зарабатывать по 200 долларов. Высокая заработная плата связана не только с разницей в экономике России и США, но и с тем, что в Америке намного больше компаний и стартапов, которым нужен ученый по данным.
Требования и обязанности
Эффективный способ понять, что должен уметь дата саентист — ознакомиться с требованиями работодателя. Причем как в вакансиях на постоянную работу, так и в проектных работах на фрилансе. Конечно, у каждого работодателя будут свои требования к аналитику, но основные обязанности специалиста встречаются во всех вакансиях.
Список главных требований и обязанностей:
- проведение исследований в области деятельности компании;
- создание систем для прогнозирования и оценки рисков;
- сегментация клиентов;
- отличное владение SQL;
- оптимизация процессов на основе большого объема данных;
- создание автоматизированных систем для анализа данных на основе современного инструментария Data Science (Python, Apache Spark, Jupyter, Zeppelin);
- работа в Apache Kafka, HDFS, Apache Spark, Apache Cassandra;
- создание, развитие и поддержка внутренней инфраструктуры данных для их анализа, обработки и составления прогнозов;
- знание языка программирования Python и/или R;
- построение моделей данных и работа с сырыми данными;
- формулировка гипотез и их валидация;
- визуализация результатов;
- понимание принципов математической статистики и методов машинного обучения;
- использование прикладной статистики;
- работа с современными системами контроля версий (Git, HG);
- взаимодействие с подразделением IT.
Пример вакансии:
Где найти работу
В том, чтобы найти работу data сайентисту, нет ничего сложного. После обучения стоит поискать вакансии на одном из популярных сайтов (например, на HeadHunter или Trud). Там можно отфильтровать работу по опыту, заработной плате, виду деятельности и расположению офиса.
Если хочется начать с проектной работы, лучше поискать заказы на биржах фриланса. Отмечу, что проектные заказы, связанные с работой с данными, встречаются редко и довольно сложны в выполнении, так как требуют ознакомления с деятельностью компании-заказчика. Придется каждый раз делать это заново, ведь на фрилансе заказчики будут меняться часто. Поэтому данный вид деятельности рекомендован опытным специалистам, а не новичкам.
Линейная алгебра
Большой раздел математики, имеющий дело со скалярами, наборами скаляров (векторами), массивами чисел (матрицами) и наборами матриц (тензорами).
Ключевые понятия линейной алгебры. Источник
Почти любая информация может быть представлена с помощью матрицы. Объясним на примере: МРТ-снимок головного мозга — это набор плоских снимков, слоев мозга. Каждый плоский снимок можно представить как таблицу интенсивности серого цвета, а весь МРТ-снимок — это будет тензор. Затем можно найти спектр матрицы — набор всех собственных чисел векторов. С помощью спектров можно классифицировать данные на норму и патологию и выявить, например, есть ли у человека заболевание мозга.
Теперь возьмем задачу, связанную с бизнесом, — проанализировать и спрогнозировать прибыль сети магазинов. Отдельный магазин можно описать набором чисел, которые показывают размер прибыли, количество товара, количество рабочих часов в неделе, время открытия и закрытия. Набор этих чисел будет вектором. Для всей сети магазинов набор векторов составит таблицу с числами или матрицу.
Частично линейную алгебру используют в крупных компаниях при разработке рекомендательных систем (например, в Facebook, YouTube, Instagram). Знания о матрицах, их свойствах и операциях с ними помогут понять, как устроен механизм работы методов библиотеки NumPy, как считаются важные статистические величины для больших данных.
Машинное обучение
Во-первых, машинное обучение — часть более обширной области искусственного интеллекта. Искусственный интеллект — это термин, придуманный Джоном МакКарти в 1956 году, определяемый как «наука и технология создания интеллектуальных машин». Со временем машинное обучение в этой области становится все более значимым.
Машинное обучение можно разбить на две формы обучения: обучение с учителем (supervised) и без учителя (unsupervised).
Обучение с учителем (supervised). Большая часть прикладного машинного обучения сегодня осуществляется с помощью контролируемого обучения — обучения с учителем. Контролируемое обучение — это обучение алгоритма на данных с получением ожидаемых результатов и их последующей корректировкой пользователем, чтобы алгоритм совершенствовал точность при следующем запуске. Представьте алгоритм компьютера в роли студента, а себя в роли учителя, который корректирует его и направляет, когда это необходимо.
Обучение без учителя (unsupervised). Хотя этот тип машинного обучения имеет сейчас менее практическое применение, эта отрасль, возможно, интереснее. В неконтролируемом обучении алгоритмы оставлены сами себе, они самостоятельно обнаруживают и идентифицируют базовые структуры в данных.
Значимость в Data Science
Машинное обучение, несомненно, имеет большое значение в сегодняшней технологической картине. Тони Тейтер и Джон Хеннесси уже назвали это «следующим интернетом» и «горячей новинкой». Билл Гейтс также упомянул эту тему, заявив, что «прорыв в компьютерном обучении будет стоить десяти Microsoft».
Офлайн-курс: «Data Scientist»
Области применения вроде разработки беспилотных автомобилей, классификации изображений и распознавания речи, легко объясняют шумиху вокруг машинного обучения. Сфера растет, и растет быстро, так что прыгайте на подножку сейчас или останетесь позади.
Что почитать
7 шагов к пониманию машинного обучения — пошаговое объяснение процесса машинного обучения.
Что такое машинное обучение? (англ.) — интересное обсуждение на Quora с несколькими немного отличающимися ответами, цель которых — определить машинное обучение.
(англ.) — немного о том, как возникло машинное обучение.
Контролируемые и неконтролируемые алгоритмы машинного обучения (англ.) — четкие, краткие объяснения типов алгоритмов машинного обучения.
Визуализация машинного обучения (англ.) — мой любимый ресурс по этому вопросу. Отличная визуализация, которая позволяет вам точно понять, как используется машинное обучение.
Что Data Scientist и Data Engineer могут делать в одной компании?
У исследователя данных и дата-инженера обычно разные цели. Первый непосредственно решает запросы бизнеса: для этого он проверяет гипотезы и строит прогнозные модели. Второй отвечает за оптимальное и надежное хранение данных, их преобразование, а также за быстрый и удобный доступ к ним. Это позволяет дата-сайентисту работать с корректными и актуальными данными. Компании, которые хотят использовать Data Science для развития своего бизнеса, могут нанимать и дата-инженера, и дата-сайентиста.
Пример: в онлайн-магазине бытовой техники каждый раз, когда посетитель сайта нажимает на тот или иной товар, создается новый элемент данных.
Дата-инженер может собрать эти данные и сохранить в удобном для доступа формате. Дата-сайентист получает данные о том, какие клиенты купили те или иные товары, и использует эту информацию так, чтобы предсказать вариант идеального предложения для каждого нового посетителя сайта.
Пример: работа в платной онлайн-библиотеке. Если компания хочет узнать, какие пользователи тратят больше денег, им нужны компетенции и дата-сайентиста, и дата-инженера. Инженер соберет информацию из логов сервера и журналов событий сайта и создаст пайплайн, который соотносит данные с конкретным пользователем. Затем инженеру нужно будет обеспечить хранение полученной информации в базе данных так, чтобы ее можно было без труда запросить. После этого дата-сайентист сможет проанализировать действия пользователей сайта и узнать особенности поведения тех, кто тратит больше денег.
Заключение
Сейчас вы уже знаете о должности Data Scientist: что это за профессия, какие обязанности у специалиста, плюсы и минусы деятельности, где можно выучиться и найти работу.
Это сложная профессия и подойдет она далеко не всем. Но те, кто все же заинтересуется, должны знать, как отзываются об этой работе действующие специалисты:
- Эта работа нравится мне тем, что каждый раз приходится подходить творчески ко взаимодействию с данными. Каждая задача особенная и к ней надо подобрать оригинальный ключик.
- Я вижу огромный потенциал у этой должности. Все программы, коды и алгоритмы помогают быстро решать сложнейшие бизнес-задачи при помощи Big Data. И для этого не надо нанимать много работников.
- Главное в этой профессии – нельзя останавливаться в обучении. Всегда ищите что-то новое. Каждое изменение в индустрии может повлиять на подход к работе.
- Надо уметь разговаривать не только с профессионалами, но и обычными людьми, которые не настолько знакомы с техническими терминами. Поэтому учитесь выражаться на простом языке.
- Работа Data Scientist – это непрерывный процесс, ведь данные постоянно обновляются и добавляются все новые сведения.
Чтобы у вас было больше альтернатив при выборе будущей профессии, посмотрите и другие интересные должности и их описание на блоге iklife.ru.
Всего хорошего!