Кто такой дата-сайентист

Содержание:

Вакансии и зарплата, перспективы профессии

Эта профессия достаточно молодая, но уже востребована на рынке. Количество данных растет в геометрической прогрессии и требует нестандартного подхода к обработке. Традиционное машинное обучение не срабатывает, нужен совершенно другой подход.

Специалистов разного уровня недостаточно, спрос на их услуги очень высок

Но важно понимать, что выйти на достойную оплату труда за несколько месяцев для Data scientist невозможно. Но для старта в профессии достаточно иметь отличную математическую базу, навыки программирование и знать алгоритмы

В зависимости от уровня знаний и опыта работы зарплата специалиста будет следующая:

Квалификация (уровень знаний)

Опыт работы и зарплата

Junior

Опыт работы до 1 года. Специалисты этого уровня уже знают базовые модели и могут их адаптировать для решения конкретной задачи. Умеют визуализировать данные. Зарплата специалиста 60 000 – 120 000 рублей.

Middle

Опыт работы 1-3 года. Специалисты этого уровня уже могут обучать прототипы и подбирать модель под конкретную задачу. Они хорошо понимают потребности бизнеса и могут быстро решить задачу. Зарплата специалиста 150 000 – 180 000 рублей.

Senior

Опыт работы от 3-х лет. Специалист такого уровня уже может управлять командой, быть связующим звеном между исполнителями и бизнесом. Он хорошо разбирается в распределенных вычислениях, может быстро обучить прототип на незнакомых данных для оценки эффективности новой идеи. Зарплата специалиста 180 000 – 270 000 руб.

Самые свежие вакансии с кратким описанием требований к кандидату

Итак, начинающий специалист может рассчитывать на зарплату от 60 000 рублей. Востребованность и высокую оплату подтверждают следующие вырезки только с одного сайта с вакансиями:

Направления развития в профессии

Data scientist всегда работает в команде, состоящей из аналитиков и инженеров данных. Каждый специалист занимается только одним направлением:

  • Data engineer – инженер данных, отвечает за создание и поддержку инфраструктуры, обеспечивая сбор, хранение и управление потоками данных в реальном времени.
  • Chief data officer – директор по данным, управляет жизненным циклом данных так, чтобы каждый специалист получал нужную информацию в подходящем виде и приемлемом качестве. Контролирует работу других специалистов.
  • Data mining – аналитик данных, который обрабатывает исходные данные и предоставляет их в компактном виде.
  • Text mining – аналитик текстов, который обрабатывает и разделяет тексты на категории, извлекая информацию и обрабатывая изменения.

Сферы применения Data scientist

В настоящее время формирование и обработка баз данных есть в любой сфере деятельности. В реальной жизни специалист может найти применение своих знаний в следующих отраслях:

Отрасль

Пояснения

Производство

Необходимо мониторить текущие процессы и находить причины возникновения брака. Предлагать варианты оптимизации и улучшения качества продукции. Планировать различные эксперименты и предлагать новые виды продукции.

Энергетика

Основные задачи специалиста состоят в прогнозировании объемов потребления и цен на электроэнергию. Он может провести диагностику объектов и рассчитать оптимальные тарифы. Предложит оптимизировать режим потребления электроэнергии, подготовит заявки на почасовое потребление.

Ритейл

Необходимо прогнозировать спрос и цены, отток или увеличение количества клиентов. Анализировать предпочтения потребителей. Оптимизировать склады и логистику для увеличения эффективности.

Финансы

Оценивать риски и резервные фонды. Отслеживать мошенничество и возможные риски неисполненных кредитных обязательств. Построение инвестиционных моделей входит в задачи специалиста.

Как и где зарабатывать на данных

  • Собирать и продавать данные — в соцсетях, поисковых системах, медиа.
  • Обслуживать данные — в софтверных компаниях-гигантах Google, Amazon и других.
  • Разрабатывать продукты c data-решениями — в компаниях, которые создают беспилотники и другую инновационную технику.
  • Извлекать из данных пользу — в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.

Самая обширная сфера — извлечение пользы из данных. Она охватывает:

  • обнаружение аномалий — аномального поведения клиентов, мошенничества;
  • персонализированный маркетинг — персональные email-рассылки, ретаргетинг, рекомендательные системы;
  • прогнозы метрик — показателей эффективности, качества рекламных кампаний и других направлений деятельности;
  • скоринговые системы — обрабатывают большие объёмы данных и помогают принять решение, например, о выдаче кредита;
  • базовое взаимодействие с клиентом — стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.

Стоит ли становиться специалистом в области Data Science?

Это одна из наиболее востребованных профессий на текущий момент. Рынок продолжают расти, повышается количество данных, которые нужно обрабатывать, поэтому спада интереса к аналитикам не произойдет.

Зарплаты дата-сайентистов в России варьируются от 100 000 рублей до 500 000 рублей в зависимости от специфики работы и опыта соискателя

Сотни открытых вакансий, внушительные бюджеты. Выглядит, как отличная карьера для всех, кто заинтересован в новом для себя направлении. К тому же обучиться Data Science сейчас можно на профильных курсах таких онлайн-школ, как GeekBrains, Skillbox и Coursera.

Дата-сайентисты в облаках

Облегчить и ускорить работу по сбору данных, построению и развертыванию моделей помогают специальные облачные платформы. Именно облачные платформы для машинного обучения стали самым актуальным трендом в Data Science. Поскольку речь идет о больших объемах информации, сложных ML-моделях, о готовых и доступных для работы распределенных команд инструментах, то дата-сайентистами понадобились гибкие, масштабируемые и доступные ресурсы.

Именно для дата-сайентистов облачные провайдеры создали платформы, ориентированные на подготовку и запуск моделей машинного обучения и дальнейшую работу с ними. Пока таких решений немного и одно из них было полностью создано в России. В конце 2020 года компания Sbercloud представила облачную платформу полного цикла разработки и реализации AI-сервисов — ML Space. Платформа содержит набор инструментов и ресурсов для создания, обучения и развертывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развертывания обученных моделей на динамически масштабируемых облачных ресурсах SberCloud.

Футурология

«Я бы вакцинировал троих на миллион». Интервью с нейросетью GPT-3

Сейчас ML Space — единственный в мире облачный сервис, позволяющий организовать распределенное обучение на 1000+ GPU. Эту возможность обеспечивает собственный облачный суперкомпьютер SberCloud — «Кристофари». Запущенный в 2019 году «Кристофари» является сейчас самым мощным российским вычислительным кластером и занимает 40 место в мировом рейтинге cуперкомпьютеров TOP500

Платформу уже используют команды разработчиков экосистемы Сбера. Именно с ее помощью было запущено семейство виртуальных ассистентов «Салют». Для их создания с помощью «Кристофари» и ML Space было обучено более 70 различных ASR- моделей (автоматическое распознавание речи) и большое количество моделей Text-to-Speech. Сейчас ML Space доступна для любых коммерческих пользователи, учебных и научных организаций.

«ML Space ­– это настоящий технологический прорыв в области работы с искусственным интеллектом. По нескольким ключевым параметрам ML Space уже превосходит лучшие мировые решения. Я считаю, что сегодня ML Space одна из лучших в мире облачных платформ для машинного обучения. Опытным дата-сайентистам она предоставляет новые удобные инструменты, возможность распределенной работы, автоматизации создания, обучения и внедрения ИИ-моделей. Компаниям и организациям, не имеющим глубокой ML-экспертизы, ML Space дает возможность впервые использовать искусственный интеллект в своих продуктах, приложениях и рабочих процессах», — уверен Отари Меликишвили, лидер продуктового вправления AI Cloud, компании SberCloud.

Облака помогают рынку все шире использовать платформы для работы с данными, предлагая безграничные вычислительные мощности, подтверждают аналитики Mordor Intelligence.

По мнению экспертов из Anaconda, потребуется время, чтобы бизнес и сами специалисты созрели для широкого использования инструментов DS и смогли получить результаты. Но прогресс уже очевиден. «Мы ожидаем, что в ближайшие два-три года Data Science продолжит двигаться к тому, чтобы стать стратегической функцией бизнеса во многих отраслях», — прогнозирует компания.

Искусственный интеллект

Искусственный интеллект — научное направление, в рамках которого ставятся и решаются задачи аппаратного или программного моделирования тех видов человеческой деятельности, которые традиционно считаются интеллектуальными.

Исследования, связанные с ИИ, высокотехнологичны и узкоспециализированны. Одной из ключевых задач искусственного интеллекта является программирование компьютеров, которые демонстрируют такие способности, как понимание, рассуждение, решение проблем, восприятие, обучение, планирование и т. д.

Основные составляющие ИИ — машинное обучение, инженерия знаний (knowledge engineering) и робототехника.

Принимая во внимание перечисленные научные области, концепции, и инструменты, мы можем без труда заключить: Data Science — это наше будущее, причем ближайшее. Курс

Курс

Data Science с нуля

Освойте все необходимые инструменты для уровня junior и получите самую востребованную IT-профессию 2021 года.

  • 8 проектов в портфолио;
  • соревнования и хакатоны;
  • помощь в трудоустройстве.

Узнать больше

BLOG +5% скидки

Перевод: Тимонина Мария

Профессия Data Scientist от Skillbox

Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.

Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.

Инструкция: как стать data-сайентистом

Общие принципы того, как стать специалистом по данным, идентичны вне зависимости от способа обучения (самостоятельно или на курсах). Но в такой профессии крайне желательно совмещать и самообучение, и обучение на курсах, при этом не забывая о знаниях, полученных в высшем учебном заведении.

Пошаговые действия:

Для того, чтобы в дальнейшем не возникло пробелов в понимании, лучше начать с самых азов — с математики. Высшая математика не понадобится, но понимать такие вещи, как производная, дифференциал, определитель матрицы и подобное, обязательно надо. Дальше следует изучить математическую статистику, без которой никуда при анализе любой информации. Теперь можно переходить к более практическим действиям — научиться писать код на языке программирования Python. Для сферы data science это основной язык. Реже применяется R, который значительно легче усваивается после овладения Python

На этом же этапе важно научиться работать с SQL. Затем можно переходить к пониманию машинного обучения и созданию алгоритмов для него

Кроме теоретических знаний, на этом этапе важно применять изученное на практике. Так информация лучше усваивается. Ознакомиться с такими инструментами, как Apache Kafka, HDFS, Apache Spark, Apache Cassandra. С данным багажом знаний уже можно попробовать создать модель для прогноза чего-либо. Придумайте для себя задачу в сфере, где легко достать неструктурированные данные, и создайте модель для прогноза. Теперь можно найти работу. На протяжении работы будут появляться новые вещи, которые стоит изучить. Что конкретно это будет — зависит от места работы и проектов.

Первые этапы хоть и включают математику и статистику, которые не кажутся особо сложными на фоне языков программирования и специализированных инструментов, являются ключевыми и наиболее трудными для новичков. Поэтому после их прохождения втянуться в профессию будет намного легче.

Какая нужна математика? Если нет матбазы, я безнадёжен?

Константин башевой

Аналитик-разработчик в Яндексе и преподаватель курса «Python для анализа данных»

Вопрос про математику неоднозначный. Глубокое знание математики не является ни необходимым, ни достаточным условием. Конечно, тому, кто её знает, будет легче. Но все необходимые знания даются либо на занятиях, либо в дополнительных материалах.

Здесь как в спорте. Есть люди, которые могут без подготовки пробежать марафон. Остальным будет тяжелее, но при достаточной подготовке и они пробегут. Математическая база — это круто, но не критически необходимо.

Дарья Мухина

Продуктовый аналитик Skyeng, консультант курсов аналитики Нетологии

Кажется, что сейчас глубокую математическую базу можно заменить умением гуглить. В интернете огромное количество видео и статей, где можно получить доступно изложенную информацию — и не нужно лезть в университетские учебники. Главное знать, что тебе нужно.

Сейчас важнее навык применять знания в реальной задаче, а не просто обладать ими.

Елена Герасимова

Руководитель направления Data Science в Нетологии

Понятие «профильное техническое или математическое образование» уходит в прошлое. Уверенного в своих умениях и доменных знаниях специалиста из «гуманитарного» вуза не будут сравнивать с выпускником МФТИ по знанию математики — сравнивают по полезности бизнесу для решения задач.

Уже известны десятки рабочих алгоритмов и библиотек, которые способны всю математическую часть брать на себя без участия человека.

Как стать Data scientist: лучшее обучение

Следует помнить, что востребованным специалистом не получится стать при самостоятельном изучении всех дисциплин. В любом случае необходимо пройти профессиональные курсы.

Отличный курс для новичков с любым уровнем начальных знаний – «Data scientist» от Skillfaktory. Именно здесь обучение построено таким образом, что на каждом этапе погружения в профессию новичок работает с реальными задачами от партнеров. Каждый полученный кейс входит в портфолио выпускника.

Обучение длится 24 месяца, то есть два семестра по 6 месяцев. За это время новичок достигает уровень Junior с портфолио из 8-и кейсов различных тематик.

Следующие 2 семестра – специализация по выбору. За 12 месяцев студент наполняет свое портфолио еще пятью успешными кейсами. В результате обучения и работы над реальными задачами достигает уровня Middle.

После завершения обучения каждый выпускник обладает знаниями и навыками достигнутого уровня. Может претендовать на соответствующую оплату своего труда.

Особенность обучения на этом курсе в том, что каждый студент в ходе решения задачи может обратиться к куратору. Это помогает оперативно получить ответ на вопрос и поддержку.

За время обучения каждый студент получает 2 года стажа по специальности и профессиональное портфолио уровня Middle. Это значительно экономит время и дает быстрый старт в карьере.

Об­ра­зо­ва­ние. Шесть ша­гов на пути к Data Sci­en­tist

Путь к этой про­фес­сии тру­ден: невоз­мож­но овла­деть все­ми ин­стру­мен­та­ми за месяц или даже год. При­дёт­ся по­сто­ян­но учить­ся, де­лать ма­лень­кие шаги каж­дый день, оши­бать­ся и пытать­ся вновь.

Шаг 1. Ста­ти­сти­ка, ма­те­ма­ти­ка, ли­ней­ная ал­геб­ра

Для се­рьез­но­го по­ни­ма­ния Data Sci­ence по­на­до­бит­ся фундамен­таль­ный курс по тео­рии ве­ро­ят­но­стей (математический ана­лиз как необ­хо­ди­мый ин­стру­мент в теории ве­ро­ят­но­стей), ли­ней­ной ал­геб­ре и ма­те­ма­ти­че­ской ста­ти­сти­ке.

Фун­да­мен­таль­ные ма­те­ма­ти­че­ские зна­ния важ­ны, что­бы анали­зи­ро­вать ре­зуль­та­ты при­ме­не­ния ал­го­рит­мов об­ра­бот­ки дан­ных. Силь­ные ин­же­не­ры в ма­шин­ном обучении без та­ко­го об­ра­зо­ва­ния есть, но это ско­рее ис­клю­че­ние.

Что по­чи­тать

«Эле­мен­ты ста­ти­сти­че­ско­го обу­че­ния», Тре­вор Ха­сти, Ро­берт Тиб­ши­ра­ни и Дже­ром Фрид­ман — если по­сле уче­бы в универси­те­те оста­лось мно­го про­бе­лов. Классические разделы ма­шин­но­го обу­че­ния пред­став­ле­ны в тер­ми­нах матема­ти­че­ской статисти­ки со стро­ги­ми ма­те­ма­ти­че­ски­ми вычис­ле­ни­я­ми.

«Глу­бо­кое обу­че­ние», Ян Гуд­фел­лоу. Луч­шая кни­га о математи­че­ских прин­ци­пах, ле­жа­щих в ос­но­ве ней­рон­ных сетей.

«Ней­рон­ные сети и глу­бо­кое обу­че­ние», Май­кл Ниль­сен. Для зна­ком­ства с основны­ми прин­ци­па­ми.

Пол­ное ру­ко­вод­ство по ма­те­ма­ти­ке и ста­ти­сти­ке для Data Science. Кру­тое и нескучное по­ша­го­вое ру­ко­вод­ство, ко­то­рое по­мо­жет сори­ен­ти­ро­вать­ся в ма­те­ма­ти­ке и ста­ти­сти­ке.

Вве­де­ние в ста­ти­сти­ку для Data Sci­ence по­мо­жет по­нять централь­ную пре­дель­ную тео­ре­му. Оно охва­ты­ва­ет генеральные со­во­куп­но­сти, вы­бор­ки и их рас­пре­де­ле­ние, содер­жит по­лез­ные ви­део­ма­те­ри­а­лы.

Пол­ное ру­ко­вод­ство для на­чи­на­ю­щих по ли­ней­ной ал­геб­ре для спе­ци­а­ли­стов по ана­ли­зу дан­ных. Всё, что необ­хо­ди­мо знать о ли­ней­ной ал­геб­ре.

Ли­ней­ная ал­геб­ра для Data Sci­en­tists. Ин­те­рес­ная ста­тья, знако­мя­щая с ос­но­ва­ми ли­ней­ной ал­геб­ры.

Шаг 2. Про­грам­ми­ро­ва­ние

Боль­шим пре­иму­ще­ством бу­дет зна­ком­ство с ос­но­ва­ми програм­ми­ро­ва­ния. Вы може­те немно­го упро­стить себе задачу: нач­ни­те изу­чать один язык и сосредоточьтесь на всех ню­ан­сах его син­так­си­са.

При вы­бо­ре язы­ка об­ра­ти­те вни­ма­ние на Python. Во-пер­вых, он иде­а­лен для новичков, его син­так­сис от­но­си­тель­но прост. Во-вто­рых, Python мно­го­функ­ци­о­на­лен и вос­тре­бо­ван на рынке тру­да.

Что по­чи­тать

«Ав­то­ма­ти­за­ция ру­тин­ных за­дач с по­мо­щью Python: практическое ру­ко­вод­ство для на­чи­на­ю­щих». Прак­ти­че­ское ру­ко­вод­ство для тех, кто учит­ся с нуля. До­ста­точ­но про­честь гла­ву «Ма­ни­пу­ли­ро­ва­ние стро­ка­ми» и вы­пол­нить практические за­да­ния из нее.

Codecad­emy — здесь вы на­учи­тесь хо­ро­ше­му об­ще­му синтакси­су.

Лег­кий спо­соб вы­учить Python 3 — бле­стя­щий ма­ну­ал, в котором объ­яс­ня­ют­ся основы.

Dataquest по­мо­жет осво­ить син­так­сис.

The Python Tu­to­r­ial — офи­ци­аль­ная до­ку­мен­та­ция.

По­сле того, как изу­чи­те ос­но­вы Python, по­зна­комь­тесь с основ­ны­ми биб­лио­те­ка­ми:

  • Numpy : до­ку­мен­та­ция —  ру­ко­вод­ство
  • Scipy : до­ку­мен­та­ция  —  ру­ко­вод­ство
  • Pan­das :  до­ку­мен­та­ция  —  ру­ко­вод­ство

Ви­зу­а­ли­за­ция:

  • Mat­plotlib :  до­ку­мен­та­ция  —  ру­ко­вод­ство
  • Seaborn : до­ку­мен­та­ция  —  ру­ко­вод­ство

Ма­шин­ное обу­че­ние и глу­бо­кое обу­че­ние:

  • SciKit-Learn:  до­ку­мен­та­ция  —  ру­ко­вод­ство
  • Ten­sor­Flow : до­ку­мен­та­ция  —  ру­ко­вод­ство
  • Theano : до­ку­мен­та­ция  —  ру­ко­вод­ство
  • Keras:  до­ку­мен­та­ция  —  ру­ко­вод­ство

Об­ра­бот­ка есте­ствен­но­го язы­ка:

NLTK — до­ку­мен­та­ция  —  ру­ко­вод­ство

Web scrap­ing (Ра­бо­та с web):

Beau­ti­ful­Soup 4 — до­ку­мен­та­ция  —  ру­ко­вод­ство

Работа data сайентистом

Профессия data scientist интересна и востребована. Многие прямо сейчас изучают эту сферу, в то время как другие ищут хороших специалистов по данной специальности.

Что касается востребованности, по множествам рейтингов в США эта профессия считается самой востребованной в стране. В России тоже много вакансий для дата-сайентиста, особенно в Москве. Так как сфера сейчас стремительно развивается и явно обладает огромным потенциалом, количество вакансий точно будет увеличиваться с каждым годом. Как у нас, так и за рубежом.

Основным плюсом работы специалистом по данным является заработная плата и быстро развивающееся направление, которое скорее всего будет актуально многие годы. Но сразу стоит отметить, что профессия объемная и трудная в изучении. Чтобы стать тем, кого возьмут на работу, надо потратить 1-2 года на обучение, усердно занимаясь на курсах или самостоятельно.

Так же дата-сайентистом крайне сложно стать людям, мало смыслящим в математике. Есть примеры, когда гуманитарий становился data-сайентистом, но для таких случаев путь изучения специальности еще более тернист и сложен. Помимо математики, облегчить становление специалистом по данным можно, зная статистику, программирование и основные принципы машинного обучения.

Заработок в профессии

То, сколько получают дата саентисты, зависит от нескольких факторов:

  • опыт работы ученого по данным;
  • навыки, которые можно подтвердить путем прохождения тестовых заданий или показа предыдущие проекты;
  • сферы деятельности компании-работодателя;
  • сложности конкретного проекта или группы проектов.

На 2020 год показатели зарплаты выше среднестатистических. Это от 70 тысяч рублей по России и от 100 тысяч рублей в Москве. Столько получают новички в профессии.

Средняя заработная плата специалиста составляет примерно 105-150 тысяч рублей в России и 140-190 тысяч рублей в Москве. Специалисты с высокой квалификацией и большим опытом зарабатывают от 230 тысяч рублей.

Заработок за границей зависит от страны. В Европе платят так же, как в Москве, а вот в Америке заработная плата больше. В час там платят в среднем 40-60 долларов, то есть работая условные 4 часа в день можно зарабатывать по 200 долларов. Высокая заработная плата связана не только с разницей в экономике России и США, но и с тем, что в Америке намного больше компаний и стартапов, которым нужен ученый по данным.

Требования и обязанности

Эффективный способ понять, что должен уметь дата саентист — ознакомиться с требованиями работодателя. Причем как в вакансиях на постоянную работу, так и в проектных работах на фрилансе. Конечно, у каждого работодателя будут свои требования к аналитику, но основные обязанности специалиста встречаются во всех вакансиях.

Список главных требований и обязанностей:

  • проведение исследований в области деятельности компании;
  • создание систем для прогнозирования и оценки рисков;
  • сегментация клиентов;
  • отличное владение SQL;
  • оптимизация процессов на основе большого объема данных;
  • создание автоматизированных систем для анализа данных на основе современного инструментария Data Science (Python, Apache Spark, Jupyter, Zeppelin);
  • работа в Apache Kafka, HDFS, Apache Spark, Apache Cassandra;
  • создание, развитие и поддержка внутренней инфраструктуры данных для их анализа, обработки и составления прогнозов;
  • знание языка программирования Python и/или R;
  • построение моделей данных и работа с сырыми данными;
  • формулировка гипотез и их валидация;
  • визуализация результатов;
  • понимание принципов математической статистики и методов машинного обучения;
  • использование прикладной статистики;
  • работа с современными системами контроля версий (Git, HG);
  • взаимодействие с подразделением IT.

Пример вакансии:

Где найти работу

В том, чтобы найти работу data сайентисту, нет ничего сложного. После обучения стоит поискать вакансии на одном из популярных сайтов (например, на HeadHunter или Trud). Там можно отфильтровать работу по опыту, заработной плате, виду деятельности и расположению офиса.

Если хочется начать с проектной работы, лучше поискать заказы на биржах фриланса. Отмечу, что проектные заказы, связанные с работой с данными, встречаются редко и довольно сложны в выполнении, так как требуют ознакомления с деятельностью компании-заказчика. Придется каждый раз делать это заново, ведь на фрилансе заказчики будут меняться часто. Поэтому данный вид деятельности рекомендован опытным специалистам, а не новичкам.

Линейная алгебра

Большой раздел математики, имеющий дело со скалярами, наборами скаляров (векторами), массивами чисел (матрицами) и наборами матриц (тензорами).

Ключевые понятия линейной алгебры. Источник

Почти любая информация может быть представлена с помощью матрицы. Объясним на примере: МРТ-снимок головного мозга — это набор плоских снимков, слоев мозга. Каждый плоский снимок можно представить как таблицу интенсивности серого цвета, а весь МРТ-снимок — это будет тензор. Затем можно найти спектр матрицы — набор всех собственных чисел векторов. С помощью спектров можно классифицировать данные на норму и патологию и выявить, например, есть ли у человека заболевание мозга.

Теперь возьмем задачу, связанную с бизнесом, — проанализировать и спрогнозировать прибыль сети магазинов. Отдельный магазин можно описать набором чисел, которые показывают размер прибыли, количество товара, количество рабочих часов в неделе, время открытия и закрытия. Набор этих чисел будет вектором. Для всей сети магазинов набор векторов составит таблицу с числами или матрицу.

Частично линейную алгебру используют в крупных компаниях при разработке рекомендательных систем (например, в Facebook, YouTube, Instagram). Знания о матрицах, их свойствах и операциях с ними помогут понять, как устроен механизм работы методов библиотеки NumPy, как считаются важные статистические величины для больших данных.

Машинное обучение

Во-первых, машинное обучение — часть более обширной области искусственного интеллекта. Искусственный интеллект — это термин, придуманный Джоном МакКарти в 1956 году, определяемый как «наука и технология создания интеллектуальных машин». Со временем машинное обучение в этой области становится все более значимым.

Машинное обучение можно разбить на две формы обучения: обучение с учителем (supervised) и без учителя (unsupervised).

Обучение с учителем (supervised). Большая часть прикладного машинного обучения сегодня осуществляется с помощью контролируемого обучения — обучения с учителем. Контролируемое обучение — это обучение алгоритма на данных с получением ожидаемых результатов и их последующей корректировкой пользователем, чтобы алгоритм совершенствовал точность при следующем запуске. Представьте алгоритм компьютера в роли студента, а себя в роли учителя, который корректирует его и направляет, когда это необходимо.

Обучение без учителя (unsupervised). Хотя этот тип машинного обучения имеет сейчас менее практическое применение, эта отрасль, возможно, интереснее. В неконтролируемом обучении алгоритмы оставлены сами себе, они самостоятельно обнаруживают и идентифицируют базовые структуры в данных.

Значимость в Data Science

Машинное обучение, несомненно, имеет большое значение в сегодняшней технологической картине. Тони Тейтер и Джон Хеннесси уже назвали это «следующим интернетом» и «горячей новинкой». Билл Гейтс также упомянул эту тему, заявив, что «прорыв в компьютерном обучении будет стоить десяти Microsoft».

Офлайн-курс: «Data Scientist»

Области применения вроде разработки беспилотных автомобилей, классификации изображений и распознавания речи, легко объясняют шумиху вокруг машинного обучения. Сфера растет, и растет быстро, так что прыгайте на подножку сейчас или останетесь позади.

Что почитать

7 шагов к пониманию машинного обучения — пошаговое объяснение процесса машинного обучения.

Что такое машинное обучение? (англ.) — интересное обсуждение на Quora с несколькими немного отличающимися ответами, цель которых — определить машинное обучение.

(англ.) — немного о том, как возникло машинное обучение.

Контролируемые и неконтролируемые алгоритмы машинного обучения (англ.) — четкие, краткие объяснения типов алгоритмов машинного обучения.

Визуализация машинного обучения (англ.) — мой любимый ресурс по этому вопросу. Отличная визуализация, которая позволяет вам точно понять, как используется машинное обучение.

Что Data Scientist и Data Engineer могут делать в одной компании?

У исследователя данных и дата-инженера обычно разные цели. Первый непосредственно решает запросы бизнеса: для этого он проверяет гипотезы и строит прогнозные модели. Второй отвечает за оптимальное и надежное хранение данных, их преобразование, а также за быстрый и удобный доступ к ним. Это позволяет дата-сайентисту работать с корректными и актуальными данными. Компании, которые хотят использовать Data Science для развития своего бизнеса, могут нанимать и дата-инженера, и дата-сайентиста.

Пример: в онлайн-магазине бытовой техники каждый раз, когда посетитель сайта нажимает на тот или иной товар, создается новый элемент данных.

Дата-инженер может собрать эти данные и сохранить в удобном для доступа формате. Дата-сайентист получает данные о том, какие клиенты купили те или иные товары, и использует эту информацию так, чтобы предсказать вариант идеального предложения для каждого нового посетителя сайта.

Пример: работа в платной онлайн-библиотеке. Если компания хочет узнать, какие пользователи тратят больше денег, им нужны компетенции и дата-сайентиста, и дата-инженера. Инженер соберет информацию из логов сервера и журналов событий сайта и создаст пайплайн, который соотносит данные с конкретным пользователем. Затем инженеру нужно будет обеспечить хранение полученной информации в базе данных так, чтобы ее можно было без труда запросить. После этого дата-сайентист сможет проанализировать действия пользователей сайта и узнать особенности поведения тех, кто тратит больше денег.

Заключение

Сейчас вы уже знаете о должности Data Scientist: что это за профессия, какие обязанности у специалиста, плюсы и минусы деятельности, где можно выучиться и найти работу.

Это сложная профессия и подойдет она далеко не всем. Но те, кто все же заинтересуется, должны знать, как отзываются об этой работе действующие специалисты:

  1. Эта работа нравится мне тем, что каждый раз приходится подходить творчески ко взаимодействию с данными. Каждая задача особенная и к ней надо подобрать оригинальный ключик.
  2. Я вижу огромный потенциал у этой должности. Все программы, коды и алгоритмы помогают быстро решать сложнейшие бизнес-задачи при помощи Big Data. И для этого не надо нанимать много работников.
  3. Главное в этой профессии – нельзя останавливаться в обучении. Всегда ищите что-то новое. Каждое изменение в индустрии может повлиять на подход к работе.
  4. Надо уметь разговаривать не только с профессионалами, но и обычными людьми, которые не настолько знакомы с техническими терминами. Поэтому учитесь выражаться на простом языке.
  5. Работа Data Scientist – это непрерывный процесс, ведь данные постоянно обновляются и добавляются все новые сведения.

Чтобы у вас было больше альтернатив при выборе будущей профессии, посмотрите и другие интересные должности и их описание на блоге iklife.ru.

Всего хорошего!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector