05.04.2022

Data science - база искусственного интеллекта

Продолжая знакомиться с понятием и ролью искусственного интеллекта в целом и его влиянием на технологии, а также на экономику и человечество, мы приходим к огромным массивам данным или базам данных, с которыми оперирует ИИ.

Начало статьи - Как работает искусственный интеллект: Big Data, Artificial Intelligence и много других страшных слов Data science

DATA SCIENCE

Если совсем просто, Data Science — это наука о методах анализа данных и извлечения из них ценной информации. Согласно «Википедии», Data science (наука о данных) — это дисциплина, изучающая проблемы анализа, обработки и представления информации в цифровой форме.

Началом формирования выделенной дисциплины считается 1966 г., когда был учрежден Комитет по данным для науки и техники (CODATA), а датой возникновения термина считают 1974 г., когда датский информатик Петер Наур издал книгу «A Basic Principle of Data Science», в которой он явно определил науку о данных как дисциплину, изучающую жизненный цикл цифровых данных — от появления до преобразования для представления в других областях знаний.

Однако только в 1990-е гг. термин, обозначающий дисциплину, получил широкое употребление, и только в начале 2000-х стал общепризнанным, прежде всего благодаря статье Уильяма Кливленда, статистика Bell Labs (по состоянию на 2012 г. — профессор статистики в Purdue University), где он опубликовал план развития технических аспектов статистических исследований и выделил науку о данных как отдельную академическую дисциплину, в которой эти технические аспекты должны быть сконцентрированы.

В 2002 г. Комитетом по данным для науки и техники начат выпуск журнала «CODATA Data Science Journal», содержащего в названии наименование дисциплины, а в январе 2003 г. вышел первый номер «The Journal of Data Science» Колумбийского университета.

С начала 2010-х гг. наука о данных перестала быть чисто академической дисциплиной. Очередной взлет широкого интереса к науке о данных относится к появлению парадигмы Big Data. С 2011 г. американская издательская компания O’Reilly проводит серию крупных конференций по науке о данных — Strata, корпорация EMC, начиная с 2011 г., проводит ежегодной саммит по науке о данных.

Петер Наур

Основная практическая цель профессиональной деятельности в науке о данных — обнаружение закономерностей в данных и извлечение знаний из данных в обобщенной форме. Первая составляющая науки о данных, то, без чего весь дальнейший процесс невозможен, — это, собственно, сами данные: как их собирать, хранить, очищать и обрабатывать, а также как выделять из общего массива данных полезную информацию.

Именно очистке данных и приведению их к нужному виду специалисты посвящают до 80 % своего рабочего времени. После сбора и подготовки данных уже можно переходить к их анализу и поиску закономерностей, подготовке моделей, проверке гипотез, экспериментам и далее — интеграции в продукт. Тут помогают такие дисциплины, как статистика, машинное обучение, оптимизация и т. д.

Таким образом, наука о данных представляет собой набор некоторых взаимосвязанных дисциплин из области информатики и математики и методов обработки данных, их анализа и поиска оптимальных решений, а также применение результатов к практическим задачам. Результаты работы, которые основаны на глубоком анализе больших данных любой компании, позволяют руководителям найти решение для больших проблем в любой отрасли и предугадать последствия своих действий.

В отличии от классической статистики, на методах которой во многом основывается и наука о данных, в ней подразумевается исследование сверхбольших разнородных массивов цифровой информации и неразрывная связь с информационными технологиями, обеспечивающими их обработку.

В сравнении с деятельностью в области проектирования и работы с базами данных, где предполагается предварительное проектирование модели данных, отражающей взаимосвязи предметной области и последующее исследование загруженных данных относительно простыми (арифметическими) методами, в науке о данных предполагается опора на аппарат математической статистики, искусственного интеллекта, машинного обучения, зачастую без предварительной загрузки данных в модели.

В сравнении с профессией аналитика, основная цель деятельности которого состоит в описании явлений на основе накопленных данных относительно простыми пользовательскими средствами (вроде электронных таблиц или средств класса Business Intelligence), профиль специалиста по науке о данных в меньшей степени требует концентрации на содержании предметных областей, но требует более глубоких знаний в математической статистике, машинном обучении, программировании, и в целом более высокого образовательного уровня (магистры, кандидаты наук, Ph.D в сравнении с бакалаврами и специалистами).

Для примера, в курсе введения в науку о данных Вашингтонского университета, опубликованном в системе Coursera, выделены следующие разделы:

  • - модели данных: отношения, «ключ — значение», деревья, графы, изображения, тексты;
  • - реляционная алгебра и параллельное выполнение запросов;
  • - NoSQL-системы и хранилища «ключ-значение»;
  • - компромиссы между SQL-, NoSQL- и NewSQL-системами;
  • - проектирование алгоритмов для Hadoop (и для MapReduce в общем случае);
  • - базовый статистический анализ: семплирование, регрессии;
  • - введение в data mining: кластеризация, ассоциативные правила, деревья решений;
  • - приложения: социальные сети, биоинформатика, анализ текста.

Стоит еще раз отметить, что для успешной работы в этой сфере также очень важно разбираться в том, что происходит в предметной области (например, в финансовых процессах, биоинформатике, банковском деле или даже в компьютерной игре), чтобы отвечать на реальные вопросы: какие риски сопровождают ту или иную компанию, какие наборы генов соответствуют определенному заболеванию, как распознать мошеннические трансакции или какое поведение людей соответствует игрокам, которых надо забанить.

Описывая умения, необходимые для данной сферы, Джефф Хаммербахер сказал: «...в любой момент члену команды могло понадобиться создать многоуровневую систему на Python, разработать дизайн, запустить анализ образцов, работать с Hadoop или же с тем, что уже сделали остальные сотрудники в нашей организации…».

На сегодняшний день специалисты Data Scientists считаются одними из самых высокооплачиваемых работников в мире. Средний уровень дохода аналитика больших данных в США около $90 000 в год, и чем больше опыт работника в сфере Data Science, тем выше его доход.

В дополнение к опытным банкирам, биржевым маклерам, бухгалтерам, финансовым агентам — Wall Street все чаще ищет экспертов по науке о данных. Специалисты по Data science в финансах прогнозируют аналитические показатели, управляют клиентскими базами, облачным программным обеспечением, работают над кибербезопасностью и маркетингом. Они имеют опыт работы в области искусственного интеллекта и машинного обучения, а также занимаются разработкой и анализом алгоритмов, которые могут обнаружить что угодно. Например, выяснить, как разные группы населения тратят свои деньги или во что их вкладывают.

Многие медицинские организации мирового уровня, UNICEF, к примеру, начали использовать возможности Data science, чтобы понимать перемещение населения и распространение болезней в мире, а также для анализа качества медицинского обслуживания людей, живущих в определенных районах земного шара.

Разумные аналитические исследования позволяют сократить расходы на здравоохранение и использовать финансовые ресурсы эффективнее, ведь анализируя данные клинических систем можно определить, как распределяются ресурсы, как минимизировать потери и максимизировать уход за пациентом. Прогностическое здравоохранение, используемое в сочетании с современной медициной, дает возможность специалистам Data Science влиять на жизни людей.

Данные об окружающей среде позволяют найти возможности по улучшению экологического состояния планеты. Например, одна из компаний Эдинбурга, которая занимается вопросами обработки отходов, работает с национальным картографическим агентством Англии над созданием карты для отслеживания движения мусора в Великобритании. Эта система будет отслеживать более 20 млн цепочек перемещения отходов из домов, местных органов власти, предприятий, строительных площадок из их первоначального места к месту переработки.

По данным Национального центра экологического анализа и синтеза США, вопросов по сбору достаточного количества информации по состоянию окружающей среды больше нет. Вопрос в том, что с этим делать, именно поэтому они инициировали шестимесячную стипендию для Data Scientists с целью поддержки текущих проектов. Продолжение следует.

Ярослав Ефименко, Андрей Скулин 01 февраля 2022, 10:29

Источник: naukatehnika.com

На нашей информационной площадке "ДайджестВизард" вы сможете найти больше новостей IT

Информируем Вас о наших курсах для IT-специалистов по администрированию в среде Linux, FreeBSD и информационной безопасности:

    Информационная безопасность и шифрование данных
    ALSE-1605. СПЕЦИАЛЬНЫЙ КУРС ОС ASTRA LINUX
    Администрирование FreeBSD (Базовый курс)

Посмотреть больше курсов