Как стать data scientist, не потратив ни копейки

Дата-сайентист

Дата-сайентисты занимаются более крупными проектами — например, созданием и развертыванием моделей машинного обучения. В процессе они могут консультироваться с несколькими инженерами и менеджерами по продукту, чтобы убедиться в правильности и эффективности кода, а также в том, что получившаяся модель решает поставленную бизнес-задачу. При этом дата-аналитики могут работать в одиночку с помощью Tableau.

С кем вам предстоит работать?

В отличие от дата-аналитика, вы будете встречаться с заказчиком гораздо реже, зато вам предстоит тесно сотрудничать с инженерами данных, разработчиками программного обеспечения и менеджерами по продукту.

С кем нужно будет делиться выводами?

Не только с заказчиками, но и с другими инженерами — например, с теми, кто отвечает за финальный вид продукта и создает пользовательский интерфейс.

С какой скоростью нужно выполнять задачи?

Возможно, это самое большое отличие между двумя профессиями. Дата-аналитика — более динамичная сфера, в то время как у дата-сайентиста могут уходить недели и месяцы на один проект. Сбор данных, создание и настройка моделей, обработка результатов — все это требует серьезных временных затрат.

Чем занимается Data Scientist?

В Data Science обучении стоит отталкиваться от задач, поставленных перед специалистом. При этом задачи Data Scientist могут отличаться в зависимости от сферы деятельности компании. Вот несколько примеров:

  • обнаружение аномалий — например нестандартных действий с банковской картой, мошенничества;
  • анализ и прогнозирование — показатели эффективности, качество рекламных кампаний;
  • системы баллов и оценок — обработка больших объёмов данных для принятия решения, например, о выдаче кредита;
  • базовое взаимодействие с клиентом — автоматические ответы в чатах, голосовые помощники, сортировка писем по папкам.

Но для любой из вышеперечисленных задач всегда нужно выполнять примерно одни и те же шаги:

  1. Сбор данных — поиск источников и способов получения информации, а также сам процесс сбора.
  2. Проверка — валидация, удаление аномалий.
  3. Анализ — изучение данных, построение предположений, выводов.
  4. Визуализация — приведение данных в вид, понятный для человека (графики и диаграммы).
  5. Результат — принятие решений на основе анализируемых данных, например об изменении маркетинговой стратегии или увеличении бюджета на какую-либо деятельность компании.

Плюсы и минусы профессии

Плюсы:

  • Высокая зарплата — дата-сайентист приносит пользу бизнесу, за это готовы платить.
  • Влияние на бизнес — ваши модели будут напрямую влиять на развитие компании и выручку.
  • Востребованность — данных все больше, а на рынке дефицит кадров, многие крупные компании в поисках хороших кандидатов.

Минусы:

  • Непредсказуемые результаты — нельзя понять, будет ли модель эффективной, до начала работы с ней. Поэтому нужно быть терпеливым и готовым к неудачам, начинать с начала по нескольку раз.
  • Дата-сайентисты часто работают в больших интернет-компаниях, потому что те обладают огромными массивами данных для обработки. В таких компаниях результат работы специалиста сложно выделить среди результатов всего бизнеса.

Курс

Data Science с нуля

Освойте самую востребованную профессию 2021 года! Только реальные знание и навыки, поддержка менторов и помощь в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

Почему я пошел в Data Science

Я закончил МФТИ: сначала учился на факультете физической и квантовой электроники. После бакалавриата я попал в научную организацию, которая занимается фотоприемниками, приборами для регистрации оптических сигналов. Там я не видел больших перспектив, поэтому решил сменить направление. Это довольно стандартная история для Data Scientist из российских технических вузов, вроде МФТИ. В российской науке, к сожалению, нет больших перспектив, а работать простым кодером для многих скучно. Поэтому я пошел в Data Science: в этой области есть баланс интереса и перспектив.

В магистратуре я перешел на факультет инноваций и высоких технологий. На этом факультете «Тинькофф» открыл первый набор на кафедру финансовых технологий. После конкурса я попал туда на работу. Я выбирал между разными крупными IT-компаниями: в «Тинькофф» к тому моменту уже была полноценная работа с технологиями.

Как стать Data Scientist с нуля?

Давайте разберемся, с чего начать обучение профессии, и как можно стать специалистом по анализу данных.

  1. Первый способ – поступить в профильный вуз и параллельно освоить необходимые языки программирования и инструменты визуализации. Есть несколько вузов, выпускники которых особенно ценятся среди работодателей.
  2. Второй способ – пойти на курсы, где вы изучите математическую базу и получите практические навыки. Если у вас уже есть техническое образование, пусть даже не связанное с Data Scientist, это оптимальный вариант. Если технического образования нет, то найти первую работу будет сложнее. Вам могут помочь курсы, где есть программы помощи с трудоустройством.
  3. Часто в профессию переходят аналитики данных и Python-разработчики. Сфера активно растет, поэтому людей привлекают высокие зарплаты и перспективы.

Также освоить профессию Data Scientist можно через интернет. Многие люди, которые ищут, с чего начать карьеру в этой сфере, выбирают данный путь. Есть несколько онлайн-университетов, где можно пройти обучение:

Название курса и ссылка на него

Описание

Профессия Data Scientist в Skillbox

Курс в университете Skillbox. Подходит новичкам и людям без опыта работы в IT. Вы изучите теорию (анализ данных, Machine Learning, статистика, теория вероятностей, функции, работа с производными и многое другое), научитесь программировать на Python и языке R, изучите библиотеки Pandas, NumPy и Matplotlib, работу с базами данных. Сможете создавать рекомендательные системы, применять нейронные сети для решения задач, визуализировать данные. Включает практические задания. На защите диплома присутствуют работодатели.

Обучение Data Scientist в Нетологии (уровень – с нуля)

Курс походит людям, которые хотят сменить текущую профессию на Data Scientist. Включает программу помощи с трудоустройством. Изучают математику для анализа данных, построение моделей, управление data-проектами, Python, базы данных, обработку естественного языка (NLP) и многое другое. Объема полученных знаний хватит для старта в карьере. Преподаватели – сотрудники крупных ИТ и финансовых компаний.

В интернете есть бесплатные курсы по Data Scientist. Если вы думаете, подойдет или нет вам эта профессия, то можете посмотреть данные уроки и получить более полное представление и описание данной работы:

  • Анализ данных на Python в задачах и примерах
  • Курс по библиотеке Pandas
  • Курс по машинному обучению для новичков
  • Бесплатный курс по базам данных MySQL
  • Работа с Google Таблицами для начинающих

Этап 2. Основы Python и Pandas

  • Основы Python (80ч). Без знания Питона невозможно использовать львиную часть инструментов машинного обучения. Другие языки менее эффективны в этой сфере и непопулярны.

  • pandas (20 ч) — основа основ в работе с данными в Питоне. На первых порах достаточно хотя бы самых базовых знаний: индексирование, выбор данных по условиям, группировка данных, и соединение разных датафреймов

  • Также научиться основам работы с разными API и парсингом данных (requests, beatiful soup)

На этом этапе дополнительные знания Python позволяют вытаскивать данные из разных API, или путем веб-парсинга.

Возможно, на работе в позиции аналитика от вас не будут ожидать знаний Питона. Но вы можете сами найти где его применить, автоматизировать что-либо, и получить большой плюс в глазах работодателя (помимо ценного опыта для себя). Шансы на трудоустройство на этом этапе не вырастут, но может вырасти зарплата, если эффективно это будете применять.

A/B-тесты важнее обучения модели

Вы обучили и настроили новую модель, и она дала потрясающие результаты в каждой тестовой метрике, превзойдя предыдущий алгоритм. Вам нужно немедленно отправить её в продакшн, верно? К сожалению, нет.

Важным процессом в Agile и Data Science являются A/B-тесты. Ваша модель может превзойти предыдущее решение во время обучения, но может не работать в реальной жизни. Обучающие данные — это лишь подмножество реальных данных. Они могут быть устаревшими и содержать ошибки. Поэтому модель выпускается в продакшн только в том случае, если она показывает лучшие результаты во время A/B-тестирования.

Этап 3. Базовые понятия и классические алгоритмы машинного обучения

(Этот этап может занять 200-400 ч в зависимости от того, насколько хорошо изначально вы владеете математикой)

Базовые понятия машинного обучения:

  • Кросс-валидация

  • Overfitting

  • Регуляризация

  • Data leakage

  • Экстраполяции (понимание возможности в контексте разных алгоритмов)

Базовые алгоритмы, которые достаточно знать на уровне главных принципов:

  • Прогнозирование и классификация:

    • Линейная регрессия

    • Дерево решений

    • Логистическая регрессия

    • Random forest

    • Градиентный бустинг

    • kNN

  • Кластерзиация: k-means

  • Работа с временными рядами: экспоненциальное сглаживание

  • Понижение размерности: PCA

Базовые приёмы подготовки данных: dummy переменные, one-hot encoding, tf-idf

Математика:

  • умение считать вероятности: основы комбинаторики, вероятности независимых событий и условные вероятности (формула Байеса).

  • Понимать смысл фразы: «correlation does not imply causation», чтобы верно трактовать результаты моделей.

  • Мат.методы, необходимые для полного понимания, как работают ключевые модели машинного обучения: Градиентный спуск. Максимальное правдоподобие (max likelihood), понимание зачем на практике используются логарифмы (log-likelihood). Понимание как строиться целевая функция логистической регрессии (зачем log в log-odds), понимание сути логистической функции (часто называемой «сигмоид»). С одной стороны, нет жесткой необходимости всё это понять на данном этапе, т.к все алгоритмы можно использовать как черные ящики, зная только основные принципы. Но понимание математики поможет глубже понять разные модели и придать уверенности в их использовании. Позднее, для уровня senior, эти знания являются уже обязательным:

Без практических навыков знания данного этапа мало повышают ваши шансы на трудоустройство. Но значительно облегчают общение с другими дата-сайентистами и открывают путь для понимания многих дальнейших источников (книг/курсов) и позволяют начать практиковаться в их использовании.

Как войти в профессию с нуля

В профессию можно попасть и с нулевыми знаниями. Для этого нужно обладать двумя вещами: по-настоящему интересоваться данными и иметь высокую самодисциплину. Если с этим все в порядке, нужно просто брать курсы и учиться. Для классического пути в Data Science нужно знать несколько вещей: Python, математику (линейная алгебра, теория вероятности и статистика, матанализ) и пройти курс по ML.

Мало кто знает все это на отлично, да и не во всех компаниях это требуется. Хорошее освоение трех вещей если не гарантирует, то сильно увеличивает шансы найти первую работу. По времени это занимает минимум полгода для тех, кто пришел из технических областей. Совсем с нуля все можно выучить минимум за год. После этого уже можно подаваться на позиции стажера или джуниора.

Курс 

Data Science с нуля 

Освойте самую востребованную профессию 2021 года! Только реальные знание и навыки, поддержка менторов и помощь в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

MVP лучше, чем долгосрочное исследование

Мир технологий конкурентоспособен и изменчив. В большинстве случаев у компаний нет времени ждать идеального решения, которое достигло бы наилучшего уровня производительности. Вместо этого они начинают проект с минимально жизнеспособного продукта (minimum viable product, MVP) и развивают его. MVP должен удовлетворять самым основным потребностям проекта — ни больше, ни меньше.

Перфекционистам и людям, внимательным к деталям (то есть большинству Data Science-энтузиастов), зачастую сложно работать над MVP. Обычно исследователи стремятся тщательно проанализировать данные, опробовать множество различных моделей и найти наилучшее решение. Наука о данных по сути ориентирована именно на такой подход, однако мы не зря говорим о прикладной области Data Science.

Нужно понимать, что в разработке самый важный актив — время. Никто не может предсказать путь, по которому пойдёт продукт. Возможно, со временем проект приостановят или полностью закроют. MVP создаётся, чтобы свести риски к минимуму. Даже если продукт гарантированно будет развиваться, поначалу ему может не хватать необходимых ресурсов. Построение простой модели и её постепенное развитие с появляющимися новыми данными и технологиями даёт более надёжные результаты.

Откуда приходят в дата-инженеры?

  • Из аналитики вне IT. Когда хочется автоматизировать и улучшить работу с таблицами и отчетами.
  • Из аналитики в IT. Если уже знакомы с Python на базовом уровне и хочется развиваться в техническом направлении, научиться программировать.

Максим Керемет добавляет: «Можно переквалифицироваться из дата-сайентиста, если хочется больше развиваться с точки зрения программирования и построить какой-то сервис или продукт. Кроме того, если надоело постоянно выполнять разные ситуативные задачи и хочется сконцентрироваться на среднесрочных проектах на несколько месяцев, дата-инженер — хороший вариант».

Бонусные материалы для самообучения

Топ-5 книг для начинающих:

  • «Data Science», Джоэл Грас.
  • «Практическая статистика для специалистов D.S.», Питер Брюс, Эндрю Брюс.
  • «Data Science», Кэти О’Нил, Рэйчел Шатт.
  • «Python Data Science Essentials», A. Boschetti.
  • «Python для сложных задач. Наука о данных и машинное обучение», Дж. Вандер Плас.

Полезные ссылки и ресурсы:

  • https://habr.com/ru/company/skillfactory/blog/536828/ — «12 платформ соревнований по Data Science и искусственному интеллекту для развития ваших навыков в 2021 году». Чтобы преуспеть в профессии, необходимо много практиковаться и в этой статье на Хабре собраны лучшие соревнования по дата сайнс, которые помогут в этом деле.
  • https://tproger.ru/translations/the-best-datasets-for-machine-learning-and-data-science/ — «Лучшие датасеты для машинного обучения и анализа данных». Очевидно, чтобы быть профессионалом, нужно не только уметь работать с данными, но и где-то их находить. В этой статье собраны датасеты разных категорий и тематики.
  • https://datastart.ru/blog/ — профессиональный блог с полезными статьями и новостями.
  • https://tproger.ru/quiz/data-science-test-megafon/ — Интересные тесты от TProger и Мегафон для проверки знаний в дата сайнс.
  • https://ods.ai/ — Крупное международное сообщество, с которым вы сможете оставаться в курсе важных событий в профессии.
  • https://dev.by/ — Dev.by. Полезный белорусский ресурс обо всем, что связано с разработкой.
  • https://colab.research.google.com/notebooks/welcome.ipynb?hl=ru – Colab. ПО для написания кода Python непосредственно в браузере. Разработано для студентов, специалистов по работе с данными и исследователей ИИ.

Англоязычные блоги и сайты с новостями, кейсами, советами:

  • https://www.kdnuggets.com/ — KD Nuggets.
  • https://indico.io/blog/ — Indico.
  • https://dataconomy.com/ — Dataconomy.
  • https://deepmind.com/blog — Blog Deep Mind.

YouTube-каналы и плейлисты:

  • видеозаписи лекций Константина Воронцова о машинном обучении.
  • Плейлист с лекциями по машинному обучению Юрия Кашницкого.
  • Ютуб канал с полезными видео по глубокому изучению и другим темам.
  • Deep Learning на пальцах. Вводная лекция, которая рассказывает об основах.
  • Anaconda, Inc. Хороший канал для тех, кто владеет английским. Много полезного контента.
  • DeepMind. Англоязычный канал по глубокому изучению.

Лучшие Телеграмм-каналы:

  • BigQuery Insights
  • Data Science и все такое
  • Small Data Science for Russian Adventures
  • gonzo-обзоры ML статей
  • Hey Machine Learning
  • This is Data
  • DeepLearning ru

Требования к специалисту

Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.

Кроме этого, Data Scientist должен знать:

  1. Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
  2. Базы данных MySQL и PostgreSQL.
  3. Технологии и инструменты для представления отчетов в графическом формате.
  4. Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
  5. Как подготовить данные и сделать их перевод в удобный формат.
  6. Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
  7. Как установить закономерности и видеть логические связи в системе полученных сведений.
  8. Как разработать действенные бизнес-решения.
  9. Как извлекать нужную информацию из разных источников.
  10. Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
  11. Как успешно внедрить программу.
  12. Область деятельности организации, на которую работает.

Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:

  • трудолюбивым,
  • настойчивым,
  • скрупулезным,
  • внимательным,
  • усидчивым,
  • целеустремленным,
  • коммуникабельным.

Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.

С чего начать обучение Data Science самостоятельно

Научиться основам Data Science с нуля можно примерно за год. Для этого нужно освоить несколько направлений.

Python. Из-за простого синтаксиса этот язык идеально подходит для новичков. Со знанием Python можно работать и в других IT-областях, например веб-разработке и даже гейм-дизайне. Для работы нужно также освоить инструменты Data Science, например Scikit-Learn, которые упрощают написание кода на Python.

Математика. Со знанием Python уже можно работать ML-инженером. Но для полного цикла Data Science нужно уметь работать с математическими моделями, чтобы анализировать данные. Для этого изучают линейную алгебру, матанализ, статистику и теорию вероятностей. Также математика нужна, чтобы понимать, как устроен алгоритм, и уметь подобрать правильные параметры для задачи.

Машинное обучение. Используйте знания Python и математики для создания и тренировки ML-моделей. Код для моделей и наборы данных для обучения (датасеты) можно найти, например, на сайте Kaggle. Подробнее о том, зачем дата-сайентисту Kaggle, читайте в статье.

Визуальный анализ данных (EDA) отвечает на вопросы о том, что происходит внутри данных, позволяет найти выбросы в них и получить инсайты про создание уникальных фичей для будущего алгоритма.

Вот несколько полезных ссылок для новичков:

Книги:

«Изучаем Python», Марк Лутц.

«Python и машинное обучение. Машинное и глубокое обучение с использованием Python, scikit-learn и TensorFlow», Себастьян Рашка, Вахид Мирджалили.

«Теория вероятностей и математическая статистика», Н. Ш. Кремер.

«Курс математического анализа» Л. Д. Кудрявцев.

«Линейная алгебра», В. А. Ильин, Э. Г. Позняк.

Курсы:

Питонтьютор — бесплатный практический курс Python в браузере.

Бесплатный курс по Python от Mail.ru и МФТИ на Coursera.

Модуль по визуализации данных из курса Mail.ru и МФТИ.

Фреймворки, модели и датасеты

Основные библиотеки: NumPy, Scipy, Pandas.

Библиотеки для машинного и глубокого обучения: Scikit-Learn, TensorFlow, Theano, Keras.

Инструменты визуализации: Matplotlib и Seaborn.

Статья на хабре со ссылками на модели из разных сфер бизнеса на GitHub.

Список нужных фреймворков, библиотек, книг и курсов по машинному обучению на GitHub.

Kaggle — база моделей и датасетов, открытые соревнования дата-сайентистов и курсы по машинному обучению.

Дата-сайентистом можно стать и без опыта в этой сфере. За 13 месяцев на курсе по Data Science вы изучите основы программирования и анализа данных на Python, научитесь выгружать нужные данные с помощью SQL и делать анализ данных с помощью библиотек Pandas и NumPy, разберетесь в основах машинного обучения. После обучения у вас будет 8 проектов для портфолио.

Курс

Data Science с нуля

Станьте востребованным специалистом на рынке IT! За 13 месяцев вы получите набор компетенций, необходимый для уровня Junior.

  • структуры данных Python для проектирования алгоритмов;
  • как получать данные из веб-источников или по API;
  • методы матанализа, линейной алгебры, статистики и теории вероятности для обработки данных;
  • и многое другое.

Узнать больше

Промокод “BLOG10” +5% скидки

«Теория вероятностей для начинающих‎» от МФТИ

Длительность: 23 часа на освоение материала.

Формат обучения: видеоуроки + текстовые материалы + тесты.

Программа обучения: курс знакомит слушателей с основами предмета, и рассчитан на широкую аудиторию. Также программа будет полезна тем, чья деятельность напрямую связана с математикой.

Какие навыки получите:

  • Владение азами комбинаторики
  • Решение прикладных задач
  • Понимание конечных и бесконечных вероятностей пространства
  • Работа с теоремами для суммы случайных величин
  • Свободный график обучения
  • Возможность повысить квалификацию
  • Лёгкая подача материала
  • После прохождения можно получить сертификат
  • Возможность начать новую карьеру

Кто такой Data Scientist?

Data scientist исследует данные, чтобы отыскать скрытые закономерности и делать прогнозы о том, как будут развиваться события в будущем. Data Scientist занимается математическими моделями, программированием и статистикой применительно к необходимой профессиональной области (финансы, банковское дело и т.д.), а также решением конкретных задач, как-то: распознавание мошеннических транзакций, набор генов, соответствующих определенной болезни, финансовые риски для компаний и проч.

Чтобы решать эти задачи такой специалист должен обладать знаниями и навыками в нескольких областях. Самые важные из них — это математика, программирование, а также понимание бизнеса и стратегии.

Какие специалисты работают с данными

Аналитик данных (Data Analyst) — работает с данными в структурированном виде из внутренних систем аналитики, помогает бизнесу суммировать и интерпретировать эти данные. Работает с Excel, SQL и внутренними системами аналитики. В SkillFactory открыт курс «Специализация Аналитик Данных»

Разработчик BI (Business Intelligence Developer) — занимается проектированием внутренних хранилищ данных, связыванием данных из различных систем, а также созданием дэшбордов и аналитических отчетов. Использует BI-системы (Oracle, IBM и другие), SQL, инструменты ETL и языки программирования.

Инженер по данным (Data Engineer) — занимается созданием и поддержкой инфраструктурой данных, в частности Big Data. Занимается сбором, хранением и управлением потоками данных в реальном времени. IT-специалист высочайшего уровня, работающий с кластерами серверов на Linux, облачными системами, такими системами обработки больших данных, как Hadoop, Spark и другие. В SkillFactory открыт курс «Специализация Data Engineer»

Специалист по данным (Data Scientist) — занимается интеллектуальным анализом структурированных и неструктурированных данных. Использует статистику, машинное обучение и продвинутые методы предиктивной аналитики для решения ключевых бизнес-задач. По сравнению с аналитиком данных, специалист по данным должен не только уметь анализировать полученную информацию, но и обладать отличными навыками программирования, уметь разрабатывать новые алгоритмы, обрабатывать большие объемы информации и иметь хорошее представление о той сфере, в которой он применяет свои знания.

Заключение

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьезные теоретические знания и практический опыт нескольких профессий сразу. В любой компании такой специалист на вес золота. Чтобы достичь желаемых целей и постичь эту науку нужно упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

А еще бытует мнение, что лет через 10–20 любому менеджеру в продвинутой компании будет просто необходимо владеть хотя бы базовыми навыками Data Science. Как однажды рекрутер Линда Берч сказала в своем интервью Mashable: «Если вы не помешаны на данных, то через десять лет вам просто не найдется места в рядах начальников». Что ж, как говорится, поживем – увидим!

Материалы по теме:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector