Data Science для тех, кто в теме. Как попасть в мир Data Science

В нашей предыдущей статье мы много рассказывали о Data Science и развеивали некоторые распространенные мифы об АИ и нейросетях. Если вы разработчик в ИТ компании или будущий разработчик, студент факультета прикладной математики, эксперт в статистике, аналитик и любите работать с данными, или же просто технический человек, интересующийся ИТ трендами, тогда вам к нам! Сегодня мы с экспертами в Data Science Андреем Босым и Николаем Козленком поможем вам углубиться собственно в техническую сторону этой науки и расскажем, что скрывается за Data Science, что нужно знать и изучать датасаентистам, какие технологии сейчас лидируют в Data Science Development.

Если вы рассмотрите сферы применения, возможности и перспективы науки о Data (мы об этом также рассказывали в предыдущей статье), вполне вероятно, вам захочется изменить или дополнить свое направление работы составляющей Data Science. Даже если вы успешный разработчик, вам однозначно не помешают дополнительные умения.

matrix-2953869_1920

Начнем с основного: Data science — наука, которая работает с данными; это использование и анализ имеющихся данных для того, чтобы получить от них определенную пользу для клиента и общества. С другой стороны, стороны разработчика — это сочетание трех основных составляющих:

  1. Программирования. Без кода не бывает Data Science
  2. Статистика. Вся наука о данных строится на основе законов статистики и теории вероятности, с применением прикладной математики.
  3. Домен. Вам нужно изучить и понимать отрасль, в которой работает ваш клиент. Без такого понимания вы вряд ли сможете эффективно анализировать данные с пользой для бизнеса.

Начнем с программной части. Что нужно начинающему датасаентисту?

Если говорить о технологиях и языках программирования, то в последние годы лидируют языки R и Python, причем Python постепенно выходит на первое место. Также полезным инструментом является MATLAB. Почему именно такие технологии? Компилируемые  языки программирования не являются оптимальными для работы с данными, ведь нам нужно иметь возможность менять значения переменных и мгновенно видеть результаты этих изменений во всей системе в режиме реального времени. Поэтому сейчас Python — наше все. Также в работе применяют среду IPython Notebook (Jupyter Notebook), что дает возможность легко работать командой на совместном проекте и предоставляет множество других удобных возможностей.

ipy_0.13В общем, сейчас существует очень много готовых библиотек и инструментов, которые облегчают жизнь Data Science разработчикам. Например, библиотека scikit learn, которая является простым и эффективным инструментом для работы с данными. Это оупен-сорс инструмент, созданный на базе NumPy, SciPy, matplotlib. Библиотека помогает классифицировать данные, прогнозировать поведение объектов и их характеристик в будущем, автоматически группировать объекты с похожими характеристиками, уменьшить количество случайных величин, осуществлять сравнения, валидацию, выбор параметров для моделей, и тому подобное. Таким образом, мы уже плавно подошли к статистической части работы с данными.

sphx_glr_plot_classifier_comparison_001

Итак, что нужно со статистической сферы, чтобы начать работать с Data Science:

  • вспомнить университетский курс статистики. На самом деле, именно это и есть огромная, можно даже сказать основная часть информации, необходимой в работе с данными,
  • вспомнить теорему Байеса и другие интересные вещи по курсу теории вероятности,
  • уметь выбирать данные, знать, какую пользу они могут в себе нести, анализировать содержание этих данных,
  • знать, как совместить имеющиеся данные с реальной ситуацией, ведь далеко не всегда даже большие данные точно отражают реальность,
  • устранять ошибки в данных и знать методики, с помощью которых это делается,
  • уметь правильно выбрать sample (выборку) и осуществлять экстраполяцию данных на популяцию. Знать, что такое доверительные интервалы и как правильно их определять,
  • правильно строить гипотезы, знать методы опровержения нулевых гипотез и подтверждения альтернативных гипотез и тому подобное.

business-2089534_1920

Если все выше перечисленное для вас не странные неизвестные слова, а вещи, значение которых вы понимаете, тогда путь к Data Science для вас будет совсем не таким сложным, как может показаться на первый взгляд.

Итак, если вы уже программируете, вспомнили статистику и готовы анализировать сферу бизнеса своего клиента, тогда добро пожаловать в Data Science, где вы будете работать с такими крутыми вещами, как Machine Learning, Deep Learning, нейросети и тому подобное.

Если вы еще не определились, нужна ли вам наука о данных, и не знаете, понравится ли вам работать в этой сфере, будет ли это сложно для вас или нет, можем поделиться следующими рекомендациями. Сейчас существует очень много онлайн и оффлайн курсов по Data Science, и довольно непросто сделать выбор в пользу определенного курса. А выбор этот очень важен, особенно для начинающих, ведь от него зависит то, захотите ли вы продолжать двигаться в этом направлении, или оставите это занятие навсегда. Например, есть курсы, обремененные сложной математикой и формулами, они способны отбить у вас желание к обучению в этой области на всю жизнь. Противоположностью таких курсов можно назвать курс от Стэнфордского Университета, преподавателем которого является Andrew Ng, соучредитель Coursera. Этот курс является достаточно простым и доступным для понимания, поэтому можете попробовать начать с него.

kaggle

Если вы уже немного разобрались в этом всем и хотите проверить свои силы, очень интересная вещь — kaggle.com. На этом ресурсе есть соревнования (competitions). Компании публикуют свои челенджи, и все желающие могут их решать и публиковать свое решение, кто решит задачу наилучшим образом, получает вознаграждение от компании. Кроме этих челленджей, там есть две ситуации, которые можно решить просто для себя и узнать, насколько хороши ваши знания и умения. Например, вам нужно будет спрогнозировать вероятность выживания людей, находившихся на Титанике. Работает это примерно так: на старте вы получаете все данные и характеристики по каждому человеку, который был на Титанике. Вам нужно составить модель, которая способна определить, выжил человек или нет. В этом задании важно хорошо понимать, какие факторы на что влияют и каким образом. Скажем, фактор пола: очевидно, что женщин первыми высаживали на шлюпки, а значит у женщин вероятность выживания выше, и так далее. Вторая задача касается распознавания рукописного текста. Если вы выполните задачу и попадете в 1000 лучших — вы неплохо поработали. Если попадете в сотню — то вы можете считать себя крутым!

Итак, если вы готовы окунуться в сферу Data Science — можем пожелать вам успехов! По крайней мере, рекомендуем сделать попытку! И кто знает, возможно когда-то мы с вами еще поработаем в одной команде.

analytics-925379_1920

Чат боты bvblogic. Совершенный Инструмент для Поддержки Связи 24/7

Спрос на создание чат ботов в различных сферах бизнеса растет в геометрической прогрессии. Благодаря этому инструменту можно общаться с клиентами круглосуточно. Наша команда также имела опыт использования данного коммуникационного инструмента для решения различных видов бизнес-задач….

bvblogic была аккредитована как одна из ведущих компаний по разработке мобильных приложений в Украине по версии GoodFirms

Благодаря своим исключительным сервисным предложениям, GoodFirms классифицирует компанию bvblogic одной как одну из ведущих компаний по разработке мобильных приложений в Украине. О bvblogic bvblogic — это инновационная компания, занимающаяся разработкой технологий. Компания была основана в…

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *