Наиболее важной частью является приложение Data Science, все виды приложений. Да, вы читаете это хорошо, все виды приложений, например, машинное обучение.
Революция данных
Примерно в 2010 году, благодаря большому объему данных, это позволило машинному обучению использовать подход, основанный на данных, а не подход, основанный на знаниях. Вся теоретическая работа по повторяющимся векторам, поддерживающим нейронные сети, стала возможной. Что-то, что может изменить наш образ жизни, то, как мы ощущаем вещи в мире. Глубокое обучение больше не является академической концепцией, которая лежит в магистерской диссертации. Он стал осязаемым, полезным классом науки, который повлияет на нашу повседневную жизнь. Таким образом, машинное обучение и искусственный интеллект доминировали в средствах массовой информации, скрывая все другие аспекты науки о данных, такие как исследовательский анализ, метрики, анализ, ETL, эксперименты, A / B-тесты и традиционно называемые Business Intelligence.
Наука о данных — общее восприятие
Так что теперь публика задумывается об изучении данных, потому что ученые сосредоточились на машинном обучении и искусственном интеллекте. Но в отрасли работают специалисты по данным в качестве аналитиков. Так что есть смещение. Причина неравномерности заключается в том, что да, большинство из этих ученых, возможно, работают над более крупными техническими проблемами, но крупные компании, такие как Google, Facebook и Netflix, имеют так много незатейливых фруктов, чтобы улучшить свои продукты, которые не нужно больше изучать. машины или статистические знания, чтобы найти эти влияния в своем анализе.
Хороший Data Scientist — это не просто сложные модели
Быть хорошим исследователем данных не означает, насколько продвинуты ваши модели. Речь идет о том, какое влияние вы можете оказать на свою работу. Вы не обработчик данных, вы — решение проблемы. Вы стратег. Компании поставят перед вами самые неоднозначные и сложные задачи и ожидают, что вы поведете компанию в правильном направлении.
Работа Data Scientist начинается со сбора данных. Это включает в себя пользовательский контент, измерительные приборы, датчики, внешние данные и протоколирование.
Другим аспектом роли Data Scientist является передача или хранение этих данных. Это включает в себя хранение неструктурированных данных, надежный поток данных, инфраструктуру, ETL, конвейеры и хранение структурированных данных.
По мере того, как требуемая работа для Data Scientist увеличивается, следующая трансформируется или проверяется. Этот конкретный комплекс работ включает в себя подготовку, обнаружение аномалий и очистку.
Следующим в иерархии работы для ученого данных является агрегация и маркировка данных. Эта работа включает в себя Metris, анализ, агрегаты, сегменты, данные обучения и функции.
Наука и оптимизация — это еще одна работа для специалистов по данным. Этот набор работ включает в себя простые алгоритмы машинного обучения, A / B тесты и эксперименты.
Самая сложная работа Data Scientists находится на вершине набора. Он состоит из искусственного интеллекта и глубокого обучения,
Все эти усилия по разработке данных очень важны, и речь идет не только о создании сложных моделей, но и о гораздо более сложной задаче.