09.02.2022

Как работает искусственный интеллект: Big Data, Artificial Intelligence и много других страшных слов

С термином «искусственный интеллект» человечество знакомо уже очень давно. Благодаря научной фантастике искусственный интеллект, или сокращенно ИИ, как только ни использовался — и для управления гигантскими и обычными человекоподобными роботами, космическими кораблями, заводами, целыми городами и планетами и т. д. В творчестве фантастов он мог быть и дружественным, и враждебным (вспомнить хотя бы SkyNet и Терминатора), способным на самостоятельное существование и действующим только совместно с человеком, — в общем, на любой вкус. Но и в современном мире кто-то считает, что искусственный интеллект из фантастики уже существует, ну или как минимум на пороге, кто-то вообще про это ничего не знает и не думает, кто-то полон скептицизма в принципе. Давайте разберемся детальнее.

BIG DATA. ЧТО ЭТО ВООБЩЕ ТАКОЕ?

Фактически рассматриваемый далее «искусственный интеллект» и прочие методики работы с данными базируются на так называемых «больших данных», или на английском — Big Data. Что же это вообще такое?

Большие данные — обозначение структурированных и неструктурированных данных огромных объемов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х гг., и альтернативных традиционным системам управления базами данных. В широком смысле о «больших данных» говорят как о социально-экономическом феномене, связанном с появлением технологических возможностей анализировать огромные массивы данных, в некоторых проблемных областях — весь мировой объем данных. Хороший пример в данном случае — это метеорологические данные. Считается, что достоверные прогнозы погоды как в общепланетном масштабе, так и для любого интересующего региона стали возможны именно с 2010 г. и именно вследствие возможности обработки всего накопленного массива данных в реальном времени.

В качестве определяющих характеристик для больших данных традиционно выделяют «три V»: объeм (volume, в смысле величины физического объема, считается, что большие данные условно начинаются от 5 терабайт), скорость (velocity, в смыслах как скорости прироста, так и необходимости высокоскоростной обработки и получения результатов), многообразие (variety, в смысле возможности одновременной обработки различных типов структурированных и полуструктурированных данных). Другими словами, данных не просто много, а очень много, их количество постоянно и быстро становится все больше и больше, да еще и сами данные не отличаются качеством, а, скорее, наоборот — все время разные по составу, форматам и источникам.

Кроме этого, есть еще и дополнительные «три V». Так, Veracity, истинность, означает, что большие данные включают в себя различные искажения, шумы и сдвиги. Показатель истинности как раз и учитывает их влияние. Отмечается, что установить истинность в анализе данных является самой большой проблемой при сравнении с объемом и скоростью. К вопросу об истинности примыкает вопрос о достоверности данных — Validity. Он означает, что данные получены из правильного источника, измерения проведены согласно установленным правилам и т. д. Как отметил Фил Франциско, вице-президент по управлению продуктами IBM, достоверные данные являются ключом к принятию правильных решений. Последняя V — Volatility, изменчивость — относится к тому, как долго данные действительны и как долго должны храниться. В этом мире данных реального времени нужно определять, в какой момент данные уже не соответствуют реальности, а значит, не могут использоваться для анализа текущей ситуации.

Набор признаков VVV (volume, velocity, variety) изначально выработан Meta Group в 2001 г. вне контекста представлений о больших данных как об определенном наборе информационно-технологических методов и инструментов, в нем, в связи с ростом популярности концепции центрального хранилища данных для организаций, отмечалась равнозначность проблематик управления данными по всем трем аспектам.

В дальнейшем появились интерпретации с «четырьмя V» (добавлялась veracity — истинность, использовалась в рекламных материалах IBM), «пятью V» (в этом варианте прибавляли viability — жизнеспособность, и value — ценность) и даже «семью V» (кроме всего, добавляли также variability — переменчивость, и visualization). IDC интерпретирует «четвертое V» как value c точки зрения важности экономической целесообразности обработки соответствующих объемов в соответствующих условиях, что отражено также и в определении больших данных от IDC. Во всех случаях в этих признаках подчеркивается, что определяющей характеристикой для больших данных является не только их физический объем, но и другие категории, существенные для представления о сложности задачи обработки и анализа данных.

Широкое введение термина «большие данные» связывают с Клиффордом Линчем, редактором журнала Nature, подготовившим к 3 сентября 2008 г. специальный выпуск с темой «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?», в котором были собраны материалы о феномене взрывного роста объемов, многообразия обрабатываемых данных и технологических перспективах в парадигме вероятного скачка «от количества к качеству»; термин был предложен по аналогии с расхожими в деловой англоязычной среде метафорами «большая нефть», «большая руда» и т. п.

Несмотря на то, что термин вводился в академической среде и прежде всего разбиралась проблема роста и многообразия научных данных, начиная с 2009 г. термин широко распространился в деловой прессе, а к 2010 г. относят появление первых продуктов и решений, относящихся исключительно и непосредственно к проблеме обработки больших данных. К 2011 г. большинство крупнейших поставщиков информационных технологий для организаций в своих деловых стратегиях используют понятие о больших данных, в том числе IBM, Oracle, Microsoft, HewlettPackard, EMC, а основные аналитики рынка информационных технологий посвящают концепции выделенные исследования.

В 2011 г. исследовательская и консалтинговая компания Gartner отметила большие данные как тренд номер два в информационно-технологической инфраструктуре (после виртуализации и как более существенный, чем энергосбережение и мониторинг). В это же время прогнозировалось, что внедрение технологий больших данных наибольшее влияние окажет на информационные технологии в производстве, здравоохранении, торговле, государственном управлении, а также в сферах и отраслях, где регистрируются индивидуальные перемещения ресурсов. С 2013 г. большие данные как академический предмет изучаются в появившихся вузовских программах по науке о данных (Data Science), вычислительным наукам и инженерии. В 2015 г. Gartner исключил большие данные из цикла зрелости новых технологий и прекратил выпускать выходивший в 2011—2014 гг. отдельный цикл зрелости технологий больших данных, мотивировав это переходом от этапа шумихи к практическому применению. Технологии, которые в нем присутствовали, по большей части перешли в специальные циклы.

ОТКУДА БЕРУТСЯ БОЛЬШИЕ ДАННЫЕ?

Классическими источниками больших данных признаются интернет вещей и социальные сети, считается также, что большие данные могут поступать из внутренней информации предприятий и организаций (генерируемой в информационных средах но ранее не сохранявшейся и не анализировавшейся), из сфер медицины и биоинформатики (исследования генома, например), из астрономических наблюдений.

В качестве примеров источников возникновения больших данных также приводятся непрерывно поступающие данные с измерительных устройств, события от радиочастотных идентификаторов (RFIDметок), метеорологические данные, данные дистанционного зондирования Земли, потоки данных от абонентов сетей сотовой связи, устройств аудиои видеорегистрации.

Типичный пример больших данных — это информация, поступающая с различных физических экспериментальных установок, — например, с Большого адронного коллайдера, который производит огромное количество данных и делает это постоянно. Установка непрерывно выдает большие объемы данных, а ученые с их помощью решают параллельно множество задач.

Если говорить о военной сфере, то наиболее ярким представителем является система «Эшелон» (Echelon) — это глобальная система радиоэлектронной разведки, работающей в рамках соглашения о радиотехнической и разведывательной безопасности Великобритания — США (Австралия, Канада, Новая Зеландия, Великобритания, Соединенные Штаты Америки; также известного под названиями UKUSA Agreement, AUSCANNZUKUS или Five Eyes). Известно, что «Эшелон» имеет возможность перехвата и анализа телефонных переговоров, факсов, электронных писем и других информационных потоков по всему миру путем подключения к каналам связи, таким как спутниковая связь, телефонная сеть общего пользования, СВЧ-соединения, и, конечно, путем мониторинга интернет-трафика.

Другой интересный пример — это государственная программа США PRISM (Program for Robotics, Intelligents Sensing and Mechatronics). Она представляет собой комплекс мероприятий, осуществляемых с целью массового негласного сбора информации, передаваемой по сетям связи, принятая американским Агентством национальной безопасности (АНБ) в 2007 г. в качестве замены Terrorist Surveillance Program. Широкой общественности о существовании программы стало известно 6 июня 2013 г., когда отрывки из секретной презентации о PRISM были опубликованы в газетах The Washington Post и The Guardian. По оценкам The Washington Post от 2010 г., ежедневно системы сбора информации АНБ (в том числе PRISM) перехватывали и записывали около 1,7 миллиарда телефонных разговоров и электронных сообщений и около 5 миллиардов записей о местонахождении и передвижениях владельцев мобильных телефонов по всему миру.

Легко представить, какие преимущества такая система дает разведчикам, но тут кроется и другая опасность. Известно, например, что тот же «Эшелон» заранее отметил переписку, касающуюся терактов 11 сентября, но эти сообщения просто затерялись в потоке других данных, даже после первичного отсеивания. Такая ситуация получила название «Проклятие Кассандры», или «Эффект Кассандры», — когда система знает все, но проверить и использовать это невозможно. И даже просто обработать такие гигантские объемы неоднородной и быстро поступающей цифровой информации традиционными инструментами невозможно. Поэтому в совокупность подходов и инструментов для больших данных изначально включались средства массово-параллельной (или, другими словами, горизонтальной) обработки неопределенно структурированных данных — прежде всего системами управления базами данных категории NoSQL, алгоритмами MapReduce и реализующими их программными каркасами и библиотеками проекта Hadoop. Горизонтальная масштабируемость, которая обеспечивает обработку данных, — базовый принцип обработки больших данных. Этот термин означает, что данные распределены на вычислительные узлы, а обработка происходит без деградации производительности.

В дальнейшем к набору технологий больших данных стали относить разнообразные информационно-технологические решения, в той или иной степени обеспечивающие сходные по характеристикам возможности по обработке сверхбольших массивов данных. Ряд специалистов под термином Big Data понимает не только и не столько какой-то конкретный объем данных и даже не сами данные, а как раз вышеуказанные методы их обработки, которые позволяют распределенно обрабатывать информацию.

А СКОЛЬКО УЖЕ ЭТИХ БОЛЬШИХ ДАННЫХ?

По данным компании IBS, к 2003 г. мир накопил 5 эксабайт данных (1 ЭБ = 1 млрд гигабайт). К 2008 г. этот объем вырос до 0,18 зеттабайта (1 ЗБ = 1 024 эксабайта), к 2011 г. — до 1,76 зеттабайта, к 2013 г. — до 4,4 зеттабайта. В мае 2015 г. глобальное количество данных превысило 6,5 зеттабайта. К 2020 г., по прогнозам, человечество сформирует 40–44 зеттабайт информации. А к 2025 г. это число вырастет в 10 раз, говорится в докладе «The Data Age 2025», который был подготовлен аналитиками компании IDC. В докладе отмечается, что большую часть данных генерировать будут сами предприятия, а не обычные потребители. Аналитики исследования считают, что данные станут жизненно важным активом, а безопасность — критически важным фундаментом в жизни. Также авторы работы уверены, что технология изменит экономический ландшафт, а обычный пользователь будет коммуницировать с подключенными устройствами около 4 800 раз в день.

Анализ больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человеческому восприятию. Это дает беспрецедентные возможности оптимизации всех сфер нашей жизни: государственного управления, медицины, телекоммуникаций, финансов, транспорта, производства и т. д.

Конечно, это только слова, но для лучшего их восприятия можно привести несколько примеров. Уже классическая история — сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей, и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 г. разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери прислали буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиниться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.

Еще интересный пример — сайт ancestry.com пытается построить семейную историю всего человечества, основываясь на всех доступных на сегодняшний день типах данных: от рукописных записей во всевозможных книгах учета до ДНК-анализа. На сегодняшний день им удалось собрать уже около 5 миллиардов профилей людей, живших в самые разные исторические эпохи, и 45 млн генеалогических деревьев, описывающих связи внутри семей. Главная сложность в этой работе заключается в том, что обрабатываемые данные страдают неполнотой, в них много неточностей, а идентифицировать людей нужно по отнюдь не уникальным именам, фамилиям, датам рождения, смерти и т. п. Стандартные алгоритмы не справляются с обработкой таких данных. Однако машинное обучение позволяет учитывать все эти неточности и с большой вероятностью выдавать правильные результаты.

Другой пример — проект eHarmony. Это сайт знакомств, на котором сейчас есть около 40 млн зарегистрированных пользователей. В анкетах можно указывать до 1 000 различных признаков. Ежедневно система делает около 100 млн предположений о том, что два человека могут подходить друг другу. И предположения эти строятся не просто на банальном нахождении соответствий в указанных пользователями свойствах и пристрастиях. Например, выяснилось, что относительная площадь лица на фотографии в профиле может влиять на вероятность контакта между определенными людьми. Кроме того, оказалось, что люди с пристрастиями к определенным видам пищи могут обладать разной совместимостью друг с другом. Два вегетарианца с вероятностью в 44 % найдут общий язык и начнут общение, в то время как два любителя гамбургеров с вероятностью 42 % никаких отношений не заведут.

Еще один интересный кейс внедрил железнодорожный оператор в Италии. С помощью датчиков в компании снимают показания, как работают двери в поезде. Сразу выяснилось, что одна дверь открывается в три раза чаще, чем другие: больше людей заходит в этот вагон. И наоборот — есть двери, которые открываются реже. Если стандартно двери в вагонах ремонтируются по плану, то теперь в компании знают, что одну дверь надо обслуживать чаще, другую — реже.

Статья была опубликована в мартовском номере журнала "Наука и техника" за 2020 -год

Ярослав Ефименко, Андрей Скулин 20 января 2022

Источник: naukatehnika.com

На нашей информационной площадке "ДайджестВизард" вы сможете найти больше новостей IT

Информируем Вас о наших курсах для IT-специалистов по администрированию в среде Linux, FreeBSD:

    Администрирование FreeBSD (Базовый курс)
    Дистанционный курс: Администрирование ОС Linux
    ALSE-1605. СПЕЦИАЛЬНЫЙ КУРС ОС ASTRA LINUX
    ALSE-1604. СЕТЕВОЕ АДМИНИСТРИРОВАНИЕ ОС ASTRA LINUX
    ALSE-1602. АДМИНИСТРИРОВАНИЕ ОС ASTRA LINUX SPECIAL EDITION
    ALSE-1601. ОС ASTRA LINUX ДЛЯ ПОЛЬЗОВАТЕЛЕЙ

Посмотреть больше курсов