Data Science для тих, хто в темі. Як потрапити у світ Data Science

У нашій попередній статті ми багато розповідали про Data Science та розвіювали деякі поширені міфи про АІ та нейромережі. Якщо ви розробник в ІТ компанії чи майбутній розробник, студент факультету прикладної математики, експерт у статистиці, аналітик та любите працювати з даними, або ж просто технічна людина, яка цікавиться ІТ трендами, тоді вам до нас! Сьогодні ми з експертами в Data Science Андрієм Босим та Миколою Козленком, засновниками Mindcraft.ai, допоможемо вам заглибитись власне у технічну сторону цієї науки та розповімо, що ховається за Data Science, що потрібно знати та вивчати датасаєнтистам, які технології зараз лідирують в Data Science Development.

Якщо ви розглянете сфери застосування, можливості та перспективи науки про Data (ми про це також розповідали в попередній статті), цілком ймовірно, що вам захочеться змінити чи доповнити свій напрямок роботи складовою Data Science. Навіть якщо ви успішний розробник, вам однозначно не завадять додаткові вміння.

matrix-2953869_1920

Почнемо із основного: Data science – це наука, що працює із даними, це використання та аналіз наявних даних для того, щоб отримати від них певну користь для клієнта чи суспільства. З іншого боку, боку розробника – це поєднання трьох основних складових:

  1. Програмування. Без коду не існуватиме Data Science
  2. Статистика. Вся наука про дані будується на основі законів статистики та теорії ймовірності, із застосуванням прикладної математики.
  3. Домен. Вам потрібно вивчити та розуміти галузь, в якій працює ваш клієнт. Без такого розуміння ви навряд чи зможете ефективно аналізувати дані із користю для бізнесу.

Почнемо із програмної частини. Що потрібно початківцю-датасаєнтисту?

Якщо говорити про технології та мови програмування, то в останні роки лідирують мови R та Python, при чому Python поступово виходить на перше місце. Також корисним інструментом є MATLAB. Чому саме такі технології? Компільовані мови програмування не є оптимальними для роботи із даними, адже нам потрібно мати можливість міняти значення змінних і миттєво бачити результати цих змін в усій системі в режимі реального часу. Тому наразі Python – наше все. Також в роботі застосовують середовище IPython Notebook (Jupyter Notebook), що дає можливість легко працювати командою на спільному проекті та надає безліч інших зручних можливостей.

ipy_0.13

Взагалі, зараз існує дуже багато готових бібліотек та інструментів, які полегшують життя Data Science розробникам. Наприклад, бібліотека scikit learn, яка є простим та ефективним інструментом для роботи з даними. Це оупен-сорс інструмент, створений на базі NumPy, SciPy, matplotlib. Бібліотека допомагає класифікувати дані, прогнозувати поведінку об’єктів та їх характеристик у майбутньому, автоматично групувати об’єкти зі схожими характеристиками, зменшити кількість випадкових величин, здійснювати порівняння, валідацію, вибір параметрів для моделей, тощо. Як бачите, ми уже плавно підійшли до статистичної частини роботи з даними.

sphx_glr_plot_classifier_comparison_001

Отже, що потрібно зі статистичної сфери, щоб почати працювати із Data Science:

  • згадати університетський курс статистики. Насправді, саме це величезна, можна навіть сказати основна частина інформації, яка потрібна в роботі з даними,
  • пригадати теорему Байєса та інші цікаві речі із курсу теорії ймовірності,
  • вміти вибирати дані, знати яку користь вони можуть в собі нести, аналізувати зміст цих даних,
  • знати, як поєднати наявні дані із реальною ситуацією, адже далеко не завжди навіть великі дані точно відображають реальність,
  • усувати помилки в даних і знати методики, за допомогою яких це робиться,
  • вміти правильно вибрати sample (вибірку) та здійснювати екстраполяцію даних на популяцію. Знати що таке довірчі інтервали та як правильно їх визначати,
  • правильно будувати гіпотези, знати методи спростування нульових гіпотез та підтвердження альтернативних гіпотез тощо.

business-2089534_1920

Якщо все вище перечислене для вас не дивні невідомі слова, а речі, значення яких ви розумієте, тоді шлях до Data Science для вас буде зовсім не таким складним, як може здатись на перший погляд.

Отже, якщо ви уже програмуєте, пригадали статистику та готові аналізувати сферу бізнесу свого клієнта, тоді ласкаво просимо в Data Science, де ви будете працювати з такими крутими речима, як Machine Learning, Deep Learning, нейромережі тощо.

Якщо ви ще не визначились, чи потрібна вам наука про дані, чи вам сподобається працювати в цій сфері, буде це складно чи ні, можемо поділитись наступними рекомендаціями. Зараз існує дуже багато онлайн та офлайн курсів по Data Science, і доволі непросто зробити вибір на користь певного курсу. А вибір цей дуже важливий, особливо для початківців, адже від нього залежить те, захочете ви продовжувати рухатись в цьому напрямку, чи покинете це заняття назавжди. Наприклад, є такі курси, які надзвичайно обтяжені складною математикою та формулами і здатні відбити вам бажання до навчання в цій галузі на все життя. Протилежністю таких курсів можна назвати курс від Стендфордського Університету, викладачем якого є Andrew Ng, співзасновник Coursera. Цей курс є достатньо простим та доступним для розуміння, тому можете спробувати почати із нього.

kaggle

Якщо ви уже трохи розібрались в цьому всьому та хочете перевірити свої сили, є дуже цікава річ – kaggle.com. На цьому ресурсі є змагання (competitions). Компанії публікують свої челенджі, і всі бажаючі можуть їх вирішувати та публікувати своє рішення, хто вирішить задачу найкращим чином, отримує винагороду від компанії. Окрім цих челенджів там є дві ситуації, які можна вирішити просто для себе і дізнатись, на скільки хорошими є ваші знання та вміння. Наприклад, вам потрібно буде спрогнозувати ймовірність виживання людей, що перебували на Титаніку. Працює це приблизно так: на старті ви отримуєте всі дані та характеристики по кожній людині, що була на Титаніку. Вам потрібно скласти модель, яка здатна визначити, вижила людина чи ні. В цьому завданні важливо добре розуміти, які фактори на що впливають та яким чином. Скажімо, фактор статі – очевидно, що жінок першими висаджували на шлюпки, а значить у жінок ймовірність виживання вища, і так далі. Друге завдання стосується розпізнавання рукописного тексту. Якщо ви виконаєте задачу і потрапите в 1000 найкращих – ви непогано попрацювали. Якщо потрапите в сотню – то ви можете вважати себе крутим!

Отже, якщо ви готові поринути в сферу Data Science – можемо побажати вам успіхів! Принаймні, рекомендуємо зробити спробу! І можливо колись ми з вами ще попрацюємо в одній команді.

analytics-925379_1920

bvblogic був акредитований однією з провідних компаній з розробки мобільних додатків в Україні за версією GoodFirms

Завдяки своїм винятковим сервісним пропозиціям, GoodFirms класифікує компанію bvblogic як одну з провідних компаній з розробки мобільних додатків в Україні. Про bvblogic bvblogic – це інноваційна компанія, що займається розробкою технологій. Компанія була заснована в…

Чому українські розробники – це найкраще рішення для вашого аутсорсинг чи аутстафінг проекту

Україна – це країна, яка володіє значними ресурсними можливостями та стрімко розвивається. Щороку кількість ІТ-спеціалістів зростає. Все більше ентузіастів виявляють бажання присвятити свій час вивченню технологій та роботі в цій сфері. В той же час,…

Напишіть відгук

Ваша пошт@ не публікуватиметься. Обов’язкові поля позначені *