09.02.2022

Как работает искусственный интеллект: Big Data, Artificial Intelligence и много других страшных слов

С термином «искусственный интеллект» человечество знакомо уже очень давно. Благодаря научной фантастике искусственный интеллект, или сокращенно ИИ, как только ни использовался — и для управления гигантскими и обычными человекоподобными роботами, космическими кораблями, заводами, целыми городами и планетами и т. д. В творчестве фантастов он мог быть и дружественным, и враждебным (вспомнить хотя бы SkyNet и Терминатора), способным на самостоятельное существование и действующим только совместно с человеком, — в общем, на любой вкус. Но и в современном мире кто-то считает, что искусственный интеллект из фантастики уже существует, ну или как минимум на пороге, кто-то вообще про это ничего не знает и не думает, кто-то полон скептицизма в принципе. Давайте разберемся детальнее.

BIG DATA. ЧТО ЭТО ВООБЩЕ ТАКОЕ?

Фактически рассматриваемый далее «искусственный интеллект» и прочие методики работы с данными базируются на так называемых «больших данных», или на английском — Big Data. Что же это вообще такое?

Большие данные — обозначение структурированных и неструктурированных данных огромных объемов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х гг., и альтернативных традиционным системам управления базами данных. В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объем данных. Хороший пример в данном случае — это метеорологические данные. Считается, что достоверные прогнозы погоды как в общепланетном масштабе, так и для любого интересующего региона стали возможны именно с 2010 г. и именно вследствие возможности обработки всего накопленного массива данных в реальном времени.

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объeм (volume, в смысле величины физического объема, считается, что большие данные условно начинаются от 5 терабайт), скорость (velocity, в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных). Другими словами, данных не просто много, а очень много, их количество постоянно и быстро становится все больше и больше, да еще и сами данные не отличаются качеством, а, скорее, наоборот — все время разные по составу, форматам и источникам.

Кроме этого, есть еще и дополнительные «три V». Так, Veracity, истинность, означает, что большие данные включают в себя различные искажения, шумы и сдвиги. Показатель истинности как раз и учитывает их влияние. Отмечается, что установить истинность в анализе данных является самой большой проблемой при сравнении с объемом и скоростью. К вопросу об истинности примыкает вопрос о достоверности данных — Validity. Он означает, что данные получены из правильного источника, измерения проведены согласно установленным правилам и т. д. Как отметил Фил Франциско, вице-президент по управлению продуктами IBM, достоверные данные являются ключом к принятию правильных решений. Последняя V — Volatility, изменчивость — относится к тому, как долго данные действительны и как долго должны храниться. В этом мире данных реального времени нужно определять, в какой момент данные уже не соответствуют реальности, а значит, не могут использоваться для анализа текущей ситуации.

Набор признаков VVV (volume, velocity, variety) изначально выработан Meta Group в 2001 г. вне контекста представлений о больших данных как об определенном наборе информационно-технологических методов и инструментов, в нем, в связи с ростом популярности концепции центрального хранилища данных для организаций, отмечалась равнозначность проблематик управления данными по всем трем аспектам.

В дальнейшем появились интерпретации с «четырьмя V» (добавлялась veracity — истинность, использовалась в рекламных материалах IBM), «пятью V» (в этом варианте прибавляли viability — жизнеспособность, и value — ценность) и даже «семью V» (кроме всего, добавляли также variability — переменчивость, и visualization). IDC интерпретирует «четвертое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объемов в соответствующих условиях, что отражено также и в определении больших данных от IDC. Во всех случаях в этих признаках подчеркивается, что определяющей характеристикой для больших данных является не только их физический объем, но и другие категории, существенные для представления о сложности задачи обработки и анализа данных.

Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 г. специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?», в котором были собраны материалы о феномене взрывного роста объемов, многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда» и т. п.

Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 г. термин широко распространился в деловой прессе, а к 2010 г. относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 г. большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, HewlettPackard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования.

В 2011 г. исследовательская и консалтинговая компания Gartner отметила большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов. С 2013 г. большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных (Data Science), вычислительным наукам и инженерии. В 2015 г. Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 гг. отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, которые в нем присутствовали, по большей части перешли в специальные циклы.

ОТКУДА БЕРУТСЯ БОЛЬШИЕ ДАННЫЕ?

Классическими источниками больших данных признаются интернет вещей и социальные сети, считается также, что большие данные могут поступать из внутренней информации предприятий и организаций (генерируемой в информационных средах но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики (исследования генома, например), из астрономических наблюдений.

В качестве примеров источников возникновения больших данных также приводятся непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов (RFIDметок), метеорологические данные, данные дистанционного зондирования Земли, потоки данных от абонентов сетей сотовой связи, устройств аудиои видеорегистрации.

Типичный пример больших данных — это информация, поступающая с различных физических экспериментальных установок, — например, с Большого адронного коллайдера, который производит огромное количество данных и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью решают параллельно множество задач.

Сайт аncestry.com пытается построить семейную историю всего человечества

Если говорить о военной сфере, то наиболее ярким представителем является система «Эшелон» (Echelon) — это глобальная система радиоэлектронной разведки, работающей в рамках соглашения о радиотехнической и разведывательной безопасности Великобритания — США (Австралия, Канада, Новая Зеландия, Великобритания, Соединенные Штаты Америки; также известного под названиями UKUSA Agreement, AUSCANNZUKUS или Five Eyes). Известно, что «Эшелон» имеет возможность перехвата и анализа телефонных переговоров, факсов, электронных писем и других информационных потоков по всему миру путем подключения к каналам связи, таким как спутниковая связь, телефонная сеть общего пользования, СВЧ-соединения, и, конечно, путем мониторинга интернет-трафика.

Другой интересный пример — это государственная программа США PRISM (Program for Robotics, Intelligents Sensing and Mechatronics). Она представляет собой комплекс мероприятий, осуществляемых с целью массового негласного сбора информации, передаваемой по сетям связи, принятая американским Агентством национальной безопасности (АНБ) в 2007 г. в качестве замены Terrorist Surveillance Program. Широкой общественности о существовании программы стало известно 6 июня 2013 г., когда отрывки из секретной презентации о PRISM были опубликованы в газетах The Washington Post и The Guardian. По оценкам The Washington Post от 2010 г., ежедневно системы сбора информации АНБ (в том числе PRISM) перехватывали и записывали около 1,7 миллиарда телефонных разговоров и электронных сообщений и около 5 миллиардов записей о местонахождении и передвижениях владельцев мобильных телефонов по всему миру.

Проект eHarmony. Сайт знакомств, на котором сейчас есть около 40 миллионов зарегистрированных пользователей

Легко представить, какие преимущества такая система дает разведчикам, но тут кроется и другая опасность. Известно, например, что тот же «Эшелон» заранее отметил переписку, касающуюся терактов 11 сентября, но эти сообщения просто затерялись в потоке других данных, даже после первичного отсеивания. Такая ситуация получила название «Проклятие Кассандры», или «Эффект Кассандры», — когда система знает все, но проверить и использовать это невозможно. И даже просто обработать такие гигантские объемы неоднородной и быстро поступающей цифровой информации традиционными инструментами невозможно. Поэтому в совокупность подходов и инструментов для больших данных изначально включались средства массово-параллельной (или, другими словами, горизонтальной) обработки неопределенно структурированных данных — прежде всего системами управления базами данных категории NoSQL, алгоритмами MapReduce и реализующими их программными каркасами и библиотеками проекта Hadoop. Горизонтальная масштабируемость, которая обеспечивает обработку данных, — базовый принцип обработки больших данных. Этот термин означает, что данные распределены на вычислительные узлы, а обработка происходит без деградации производительности.

В дальнейшем к набору технологий больших данных стали относить разнообразные информационно-технологические решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных. Ряд специалистов под термином Big Data понимает не только и не столько какой-то конкретный объем данных и даже не сами данные, а как раз вышеуказанные методы их обработки, которые позволяют распределенно обрабатывать информацию.

А СКОЛЬКО УЖЕ ЭТИХ БОЛЬШИХ ДАННЫХ?

По данным компании IBS, к 2003 г. мир накопил 5 эксабайт данных (1 ЭБ = 1 млрд гигабайт). К 2008 г. этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1 024 эксабайта), к 2011 г. — до 1,76 зеттабайта, к 2013 г. — до 4,4 зеттабайта. В мае 2015 г. глобальное количество данных превысило 6,5 зеттабайта. К 2020 г., по прогнозам, человечество сформирует 40–44 зеттабайт информации. А к 2025 г. это число вырастет в 10 раз, говорится в докладе «The Data Age 2025», который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители. Аналитики исследования считают, что данные станут жизненно важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключенными устройствами около 4 800 раз в день.

Анализ больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человеческому восприятию. Это дает беспрецедентные возможности оптимизации всех сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и т. д.

Конечно, это только слова, но для лучшего их восприятия можно привести несколько примеров. Уже классическая история — сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей, и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 г. разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери прислали буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиниться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.

Еще интересный пример — сайт ancestry.com пытается построить семейную историю всего человечества, основываясь на всех доступных на сегодняшний день типах данных: от рукописных записей во всевозможных книгах учета до ДНК-анализа. На сегодняшний день им удалось собрать уже около 5 миллиардов профилей людей, живших в самые разные исторические эпохи, и 45 млн генеалогических деревьев, описывающих связи внутри семей. Главная сложность в этой работе заключается в том, что обрабатываемые данные страдают неполнотой, в них много неточностей, а идентифицировать людей нужно по отнюдь не уникальным именам, фамилиям, датам рождения, смерти и т. п. Стандартные алгоритмы не справляются с обработкой таких данных. Однако машинное обучение позволяет учитывать все эти неточности и с большой вероятностью выдавать правильные результаты.

Другой пример — проект eHarmony. Это сайт знакомств, на котором сейчас есть около 40 млн зарегистрированных пользователей. В анкетах можно указывать до 1 000 различных признаков. Ежедневно система делает около 100 млн предположений о том, что два человека могут подходить друг другу. И предположения эти строятся не просто на банальном нахождении соответствий в указанных пользователями свойствах и пристрастиях. Например, выяснилось, что относительная площадь лица на фотографии в профиле может влиять на вероятность контакта между определенными людьми. Кроме того, оказалось, что люди с пристрастиями к определенным видам пищи могут обладать разной совместимостью друг с другом. Два вегетарианца с вероятностью в 44 % найдут общий язык и начнут общение, в то время как два любителя гамбургеров с вероятностью 42 % никаких отношений не заведут.

Классическими источниками больших данных признаются интернет вещей и социальные сети

Еще один интересный кейс внедрил железнодорожный оператор в Италии. С помощью датчиков в компании снимают показания, как работают двери в поезде. Сразу выяснилось, что одна дверь открывается в три раза чаще, чем другие: больше людей заходит в этот вагон. И наоборот — есть двери, которые открываются реже. Если стандартно двери в вагонах ремонтируются по плану, то теперь в компании знают, что одну дверь надо обслуживать чаще, другую — реже.

Статья была опубликована в мартовском номере журнала "Наука и техника" за 2020 -год

Ярослав Ефименко, Андрей Скулин 20 января 2022

Источник: naukatehnika.com

На нашей информационной площадке "ДайджестВизард" вы сможете найти больше новостей IT

Информируем Вас о наших курсах для IT-специалистов по администрированию в среде Linux, FreeBSD:

    Администрирование FreeBSD (Базовый курс)
    Дистанционный курс: Администрирование ОС Linux
    ALSE-1605. СПЕЦИАЛЬНЫЙ КУРС ОС ASTRA LINUX
    ALSE-1604. СЕТЕВОЕ АДМИНИСТРИРОВАНИЕ ОС ASTRA LINUX
    ALSE-1602. АДМИНИСТРИРОВАНИЕ ОС ASTRA LINUX SPECIAL EDITION
    ALSE-1601. ОС ASTRA LINUX ДЛЯ ПОЛЬЗОВАТЕЛЕЙ

Посмотреть больше курсов