523 133 7MB
Russian Pages [150] Year 2019
ПРОСТО
СЕРИ Я
•• П Р О С Т О J
••
ПРОСТО
Автор идеи и научный редактор серии СЕРГЕЙ ДЕМЕНОК
Н А УЧН О -П О П УЛЯРН О Е
И ЗД А Т Е Л Ь С Т В О if
«с
т р о ю
»
С ан кт-П етер б ур г.2 019
УДК 004 Б Б К 3 2 .9 7 П 82
П 82
П р осто Big D ata. — СПб.: Страта, 2019. — 148 с. — (серия « П р о сто » )
ISBN 978-5-907127-29-6 Б ольш и е данны е — кл ю чевой эл ем ен т со вр ем ен н ого инф ормационного п ростран ства. П рактически все, что дела ет отдельный человек, группы людей, ч ел о веч ество в целом, компании из разны х сфер бизнеса, правительства, происходит в рамках глобального инф ормационного поля. Н аш а р абота, наш досуг, шопинг, п утеш естви я — всё тем или иным с п о со б о м связан о с большими данными. М ы полу чаем и отправляем письма по электронной почте, мы звоним по телефону и зв о н я т нам, мы сёрфим в И н терн ете — и таким образом получаем и отправляем биты информации и находим ся внутри си стем ы больш их данных. Книга рассказы вает о практическом применении техн оло гии в тор говле и бан ковском деле, медицине и метеорологии, о том , как больш ие данные п ом огаю т о бесп ечи вать безоп ас ность, п редсказы вать погоду и заставляю т нас делать покупки. О чен ь ско р о больш ие данные будут править миром. С о временному человеку не уйти о т больш их данных. Э то часть нашей ж изни. Все права защищены. Никакая часть настоящей книги не может быть воспроизведена или передана в какой бы то ни было форме и ка кими бы то ни было средствами, будь то электронные или механи ческие, включая фотокопирование и запись на магнитный носитель, а также размещение в Интернете, если на то нет письменного разре шения владельцев. АН rights reserved. No parts o f this publication can be reproduced, sold or transmitted by any means without permission o f the publisher.
УДК 004 Б Б К 3 2 .9 7
IS B N 9 7 8 - 5 - 9 0 7 1 2 7 - 2 9 - 6
© Ж у к о в а M . В ., 2 0 1 9 © О О О «С трата», 2019
та книга посвящена большим данным (Big Data) и инфор мационной революции. В наши дни мы постоянно слышим эти термины. В чем сила и привлекательность больших данных? В сборе огромного количества информации и ее анализе таким образом, как люди никогда не смогли бы сделать без помощи компьютеров. Большие данные — это структурированные и неструкту рированные разнообразные данные, имеющие огромный объ ем, которые обрабатываются программными инструментами, появившимися в 2000-х годах. Это социально-экономический феномен, связанный с появлением технологических возмож ностей для анализа огромных массивов данных, включая миро вые данные, и вытекающих из этого трансформационных п о следствий. В настоящее время термин включает не только сами данные, но и технологии их обработки и использования, мето ды поиска необходимой информации в больших массивах. С о временные технологии позволяют сделать то, что еще недавно казалось невозможным и даже сегодня иногда так кажется. Большие данные открывают человечеству новый мир. С не которыми современными компьютерами можно даже разгова ривать. Однозначно можно утверждать, что применение боль ших данных очень быстро растет и множится и имеет огромный потенциал. Станет ли наша жизнь от этого лучше или хуже? Большой вопрос.
З
Просто Big Data
ГЛАВА 1. ЧТО ТАКОЕ ДАННЫЕ И БОЛЬШИЕ ДАННЫЕ? Просто данные Слово «данны е» происходит от латинского datum, кото рое означает «то , что дано». Данные — это сведения, показа тели, характеризующие кого-либо или что-либо как основа ка ких-то выводов и решений. Это факты и обстоятельства для суждений о ком-либо, чем-либо, оценках кого-то или че го-то. Это свойства, способности, качества, необходимые для какой-либо деятельности. В современном английском языке обычно используется множественное число слова «данны е» — data, но ученые спо рят, множественное или единственное число глагола исполь зовать с этим словом. Специалисты из Оксфордского универ ситета и составители Оксфордского словаря современного английского языка пришли к выводу, что в настоящее время следует использовать единственное число, потому что имеется в виду массив данных. Обычно мы употребляем слово «данны е», если говорим о числах и измерениях, хотя это может быть что угодно, записан ное, зафиксированное и используемое в дальнейшем. Например, слова в книге, которую вы держите в руках, — это данные. А вообще данные появились где-то 6 0 00 лет назад вместе с появлением сельскохозяйственных общин — это концепция данных в современном понимании. Люди, занятые сельским хозяйством, фиксировали, когда пахать землю, когда сеять те или иные культуры, когда собирать урожай, сколько семян нуж но для засевания той или иной площади. Например, геометрия
Просто Big Data
использовали десятичную систему но примерно такой же про цент составляют и племена, которые использовали пятеричную (основанную на числе 5 ) и даже пятерично-десятичную систе мы. Оставшаяся треть распределяется между доминирующей бинарной, или двоичной системой (основанной на числе 2; ее используют свыше 20% племен), двадцатичной системой (осно ванной на числе 20; ее используют 10% племен) и тридцатичной системой (основанной на числе 30; ее использует 1 % племен). Появился счет, появилась письменность — и данные стали хребтом цивилизации, потом они превратились в инструмент, который помогал открывать окно в будущее. Правда, эти по пытки далеко не всегда были успешными из-за ограниченного количества доступных данных и ограниченной способности людей к их анализу. В Египте использовался папирус, в Месопотамии — глиня ные таблички. Ряд папирусов и табличек с данными дошли до на ших дней. Например, папирус Ринда (или Ахмеса). Длина этого папируса составляет 6 метров. Он интересен нам благодаря свое му математическому содержанию: он включает 87 разнообразных задач вместе с решениями. Папирус датируется временем между 2 0 0 0 и 1800 годами до н. э., хотя Ахмес объясняет, что представ ляет данные, которым свыше 2 00 лет. Автор утверждает, что со брал их вместе для обучения будущих писарей. Этот папирус мо жет рассматриваться как примитивный «учебник» для обучения математике. В настоящее время он хранится в Британском музее (с 1858 года), но изначально входил в коллекцию шотландского египтолога Генри Ринда, отсюда название. Глиняным табличкам из Месопотамии по крайней мере 4 0 0 0 лет. Они позволяли хранить и удобно использовать дан ные, а не держать их в голове или нацарапанными на стене пеще ры. Да и папирус было менее удобно носить с собой. И папирус менее надежен, чем глиняная табличка. Это первые портатив ные хранилища данных. Первые образцы письменности в этой области имели фор му пиктограмм (графические изображения описываемого предмета), затем они преобразовались в клинопись. Изменение было результатом влияния технологии: новая система письма сложилась благодаря используемым материалам. Клинопись наносилась на влажные глиняные таблички. Для начала насечки
Глава 1. Что такое данные и большие данные?
делались с использованием заостренного тростника, а в даль нейшем деревянной палочки для письма, один конец которой заострен клином (слово «клинопись» произошло от латин ского слова cuneus, что означает « к л и н » ). Многие шумерские таблички сохранились до сегодняшнего дня в хорошем состо янии. Фактически в настоящее время в музеях по всему миру хранится 4 0 0 0 0 0 глиняных табличек из Месопотамии. Текст примерно на 4 0 0 из них относится к математике, старейшие — это таблички из исчезнувшего города Урук, располагавшегося на берегах Евфрата, примерно в 2 2 5 километрах от современ ного Багдада. Урук считается колыбелью вычислений и счета. Некоторые ученые считают, что современное название Ирак происходит от шумерского Урук. Для работы с данными в древности использовались палоч ки, камни, бусины — все, что помогало считать. Также нельзя не упомянуть и первый процессор — абак. Это счетная доска, которая применялась для арифметических вычислений начи ная примерно с V века до н. э. в Древнем Риме, Древней Гре ции, Древнем Китае и ряде других стран. Доска была разделена на полосы, считали с помощью камней или фишек. Абак играл исключительно важную роль как инструмент для вычислений. С развитием цивилизации развивались и технологии, помо гающие работать с данными для получения информации и, соот ветственно, знаний. Цепочка «данные — информация — зна ния» существовала всегда, только ее составляющие усложнялись. Многие проблемы не меняются столетиями, но меняются спосо бы передачи информации. Соответственно меняется скорость донесения ее до получателей. В наши дни она возросла в сотни раз по сравнению с предыдущими веками. Если в Интернет вбра сывается какой-то тезис, то он очень быстро обрастает коммен тариями и часто подталкивает к действию.
Появление больших данных Не было бы просто данных — не появились бы боль шие данные. Данные — это основа понимания. Иногда цепочка «данные — информация — знание» представ ляют в виде пирамиды, где данные составляют основание,
Просто Big Data
а знание — вершину. Информация строится на основании данных. М ы собираем группы каким-то образом связанных данных и так получаем представление о мире или важную ин формацию об окружающем нас пространстве. Как уже ска зано, слова в этой книге — данные. Информация — это сло ва, соединенные в предложения, предложения, разделенные на абзацы, а абзацы на главы. И из информации получились знания. Знания — это интерпретация информации для ее ис пользования: вы читаете книгу, обрабатываете информацию, и у вас формируется мнение, появляются собственные идеи, вы предпринимаете какие-то действия. Данные могут быть и набором цифр, они в свою очередь могут быть представлены различным образом, например, в та блице. Если вы охотник, то вы, например, знаете или ищете ин формацию о том, когда в ближайшем к вам лесу бывает больше всего уток. Существуют специальные издания и сайты, где пу бликуется количество рыбы в той или иной местности по ме сяцам. Используя эту информацию, вы принимаете решение 0 том, когда пойти охотиться на уток или порыбачить. Хотя может показаться, что большие числа встречаются только в современном мире, а в текстах и хрониках, которые оставила нам история, можно увидеть только маленькие числа, это не так. В Оксфордском университете хранится артефакт, возраст которого составляет около 5 0 00 лет. В нем рассказыва ется о победе фараона Нармера над ливанцами к западу от дель ты Нила. Описывается, как Египет взял в плен 120 0 0 0 чело век, захватил 4 0 0 0 0 0 быков и 1 4 2 2 0 0 0 козлов. Сотни тысяч и миллионы также упоминаются в египетской Книге мертвых. Для того периода это очень большие данные. Сложности с большими данными возникли в связи с про ведением переписи населения. Первая перепись населения СИ1А была проведена в 1790 году. Тогда население Соединен ных Ш татов составило чуть менее 4 миллионов человек — 3 9 2 9 3 2 6 человек, включая рабов. Во время последней пе реписи, которая проводилась в 2 0 1 0 году, население страны составляло уже 3 0 8 7 4 5 5 3 8 человек. В соответствии со статьей 1 Конституции С Ш А перепись населения должна проводить ся не реже чем раз в десять лет. Она проводится в годы, закан чивающиеся на « 0 » . С 1790-го по 1840 год она проводилась
Глава 1. Что такое данные и большие данные?
шерифами, а в 1840 году появился первый центральный офис Бюро по переписи населения. И каждый раз людям, занимавшимся переписью населения, казалось, что поставленная перед ними задача обречена на про вал. И все — из-за количества данных. Их количество посто янно росло, ну^кно было обрабатывать и хранить все больше и больше данных, а доступных и удобных инструментов не хва тало. В первые годы все, конечно, делалось вручную. Люди сами чертили таблицы, вносили туда данные, считали без помощи вы числительных машин, пересчитывали по несколько раз, чтобы избежать ошибок. Иногда данные одной переписи не успевали полностью проанализировать до начала следующей! А ведь пе риод между ними составлял десять лет! И следующая перепись приводила ответственных за нее чиновников в еще больший ужас, потому что население росло с каждым годом, и данных во время каждой следующей переписи населения получалось больше, чем во время предыдущей. Проблема была решена с помощью механизации. В 1890 году при переписи впервые использовали электриче скую табулирующую машину Германа Холлерита (1 8 6 0 -1 9 2 9 ) для обработки данных. Это американский инженер и изобрета тель, сын немецких эмигрантов. Он учился и защитил диссер тацию, посвященную электрической табулирующей системе, которую взяло на вооружение правительство для работы Бюро по переписи населения. Холлерит вошел в историю как созда тель этой системы, она носит его имя (электрическая табулиру ющая система Холлерита). Благодаря ему данные переписи на селения удалось обработать всего за год, что было невероятным для того времени, когда результаты предыдущей переписи едва успевали проанализировать к началу следующей. Известна даже дата изобретения им табулятора — 2 9 февраля 1888 года. Табулятор — это электромеханическая машина, пред назначенная для автоматической обработки (суммирования и категоризации) числовой и буквенной информации, записан ной на перфокартах. Результаты выдаются на бумажную ленту или специальные карты. И до появления электронно-вычисли тельных машин табуляторы использовались по всему миру. Та буляторы достаточно эффективно складывали и вычитали. С ум ножением и делением было сложнее: требовалось многократное
Просто Big Data
последовательное повторение сложения или вычитания. М но гие изобретения появились для облегчения ручного труда. Табулятор — один из них. Идея использования перфокарт принадлежала Джону Биллингсу, будущему тестю Германа Хол лерита, который был высокопоставленным чиновником в Бюро по переписи населения СШ А. Ну а зять изобрел машину и оста вил свое имя в истории. И не только как создатель табулятора, но и прадедушка компании IBM. Он создал компанию для про изводства своих табулирующих машин, потом продал, и она вошла в состав International Business Machines, или IBM, в насто ящее время — одного из крупнейших в мире производителей и поставщиков аппаратного и программного обеспечения, I T -сервисов и консалтинговых услуг. Электронные вычислительные машины появились в конце 1940-х годов. В настоящее время обработка данных переписи населения (больших данных) полностью автоматизирована, хотя в сборе данных до сих пор участвуют интервьюеры. Обра ботка ведется по единым правилам и плану. Первые переписчи ки о таком не могли и мечтать! М ы живем в эпоху компьютерной, вычислительной, техно логической революции. Современные технологии позволяют и обрабатывать, и хранить информацию. Считается, что хране ние информации началось с изобретения письменности. Другие ученые говорят, что с появления книг. И на протяжении веков считалось, что книга — это хранилище информации и источник знаний и существует он независимо от времени или простран ства. То есть книга, написанная в X V III веке в Англии, служила источником информации и давала знания в X IX веке в СШ А. Если же вы попросите современных молодых людей назвать из вестные им средства хранения информации, ни один не назовет книгу. Современные технологии позволили манипулировать ин формацией так, как никогда раньше. Современные машины спо собны не только обрабатывать данные, но и превращать их в ин формацию. Нам доступен Интернет, новейшие системы связи, мы можем в любой момент связаться с человеком, находящимся в другой части земного шара. А системы, работающие с огром ными объемами данных, которые поступают быстро и неструк турированны, не могли бы работать без новейших технологий,
Глава 1. Что такое данные и большие данные?
позволяющих их обрабатывать и анализировать. До появления этих технологий работать с большими объемами данных было просто непрактично. Обычно использовалась выборка.
Выборочный метод против анализа больших данных Опросы общественного мнения с целью изучения мнения населения по тому или иному поводу на протяжении многих лет проводились с помощью выборочного метода. Но опрашива лось же не все население! Раньше это было просто невозмож но технически. Сейчас, конечно, тоже 100% населения СШ А не будет участвовать ни в одном опросе, но чисто технически можно провести опрос более чем 95% взрослого населения СШ А. Людям не надо никуда идти, тратить свое время, отве чая на вопросы интервьюеров на улице или в магазине. Если, например, требуется только три раза кликнуть мышью или кос нуться пальцем экрана смартфона, люди ответят на задаваемые вопросы. Пусть не 95% , но это все равно будет гораздо больший охват, чем при традиционных выборочных опросах обществен ного мнения. И это будут большие данные, которые обработает и проанализирует соответствующая программа. Дополнитель но поступающие данные от тех, кто ответил позже, она тоже проанализирует. И ведь есть же всевозможные базы данных (больших данных), которыми можно воспользоваться в тех или иных целях. Что было раньше? Тщательно выбиралась небольшая груп па, которая, по мнению организаторов, наилучшим образом представляет все население. Н о ведь даже при самом тщатель ном подходе это все равно были предположения и догадки. И опросы общественного мнения, проводившиеся традицион ным образом с помощью выборочного метода, никогда не дава ли правильного результата. То есть это могло быть что-то типа «орел или реш ка». Вы будете голосовать за Барака Обаму или Джона Маккейна? За Джорджа Буша или Альберта Гора? Приведу для примера парламентские выборы в Великобри тании 2 0 1 0 года. С небольшим перевесом победили консерва торы, и Дэвид Кэмерон возглавил правительство. Но по итогам выборов сформировать однопартийное правительство было
Просто Big Data
нельзя (3 0 7 мандатов у консерваторов и 2 55 у лейбористов, 55 — у либеральных демократов и 29 у остальных партий), по тому что консерваторы не получили необходимого большинства в палате общин — нужно абсолютное большинство (то есть больше половины мест в палате общин). В 2 0 1 0 году впервые в истории послевоенной Великобритании было сформировано коалиционное правительство. А предвыборные опросы давали другие результаты! В апреле говорилось о победе консерватив ной партии (в результате она победила, но не с абсолютным большинством), и никто не ожидал высокого результата либе ральных демократов, которые здорово рванули вперед после публикации предвыборных программ. Второго мая 2 0 1 0 года рейтинг консерваторов составил 37% , у лейбористов и либе рал-демократов было по 27% . Но это по опросам обществен ного мнения. Выборы, которые состоялись 6 мая, дали другой результат! Почему? Да потому что большие данные не были ни собраны, ни обработаны! Великобритания в этом плане отстает от СШ А , и ни один из опросов с использованием выборочного метода не дал того результата, который дал Brexit. Х отя с подсчетом голосов на выборах все в порядке. Там, как и во всех развитых странах мира, используются современные технологии. И та же Вели кобритания, как и С Ш А , часто работает с большими данными. Но были времена, когда с большими данными работали крайне редко, потому что их обработка отнимала слишком много времени и усилий. М ы уже говорили про первые пе реписи населения в С Ш А — данные обрабатывали и анали зировали вплоть до следующей. Фактически с по-настоящему большими данными в прошлом работали во время переписи населения и всеобщих выборов, например, выборов П ре зидента СШ А. Пока их обрабатывали вручную, ни о каком массовом сборе и анализе больших данных речи не шло. В от поэтому и появилась концепция выборки и был разработан выборочный метод. Давайте поговорим об этом методе подробнее. Ведь он не посредственно связан с данными, и заменить его смогли только большие данные. Н о инструменты и возможности для их обра ботки есть далеко не везде, поэтому он продолжает использо ваться.
Глава 1. Что такое данные и большие данные?
Что нужно для использования выборочного метода? Нуж но выбрать подмножество из всего населения, получить данные у этого подмножества, а потом экстраполировать их на все на селение. Как это работает в реальности? Давайте для примера возьмем выплату гонораров ав торам за то, что их книги берут читать в библиотеках. Пока еще ни в одной стране, которая использует эту систему автор ского вознаграждения, нет программы, которая учитывала бы данные по всем библиотекам страны. В настоящее время си стему используют 28 стран, чтобы компенсировать авторам потенциальные потери роялти (проценты с продаж их книг) из-за того, что читатели могут взять их книги в библиотеках. Обычно это часть государственной программы по поддержке искусства и литературы. Эта программа действует в Велико британии, Канаде, Австралии, Н овой Зеландии, всех Сканди навских странах, Израиле, Германии, Австрии, Бельгии, Ни дерландах и ряде других стран. В СШ А, Южной Америке, Азии и Африке эта программа не работает. Гонорар авторов за использование их книг зависит от того, как часто их книгу спрашивают в библиотеках страны. Н о боль ших данных по всем библиотекам не собирают (пока). Обычно собирают данные по четверти библиотек (в Великобритании берут 3 6 ). То есть это выборочный метод, а не анализ больших данных. Но, например, если книга о М анчестере написана авто ром из Манчестера, действие происходит в этом городе, то ее там будут спрашивать гораздо чаще, чем в Ливерпуле или Эдин бурге. Конечно, выборка — это лучше, чем ничего, но она не м о жет сравниться с анализом больших данных. Подход, использу ющий большие данные, — это сбор, обработка и анализ данных из всех библиотек страны, а то и других стран. Выборочный метод используется не только во время опро сов общественного мнения и службами статистики, но, на пример, и во время медицинских исследований. Медицинские исследования пока не могут охватить все население, хотя в не которых случаях это было бы очень желательно. Ведь речь идет о здоровье, а то и жизни людей. Но лекарства, методы лечения, диеты проверяются на очень малых группах людей относитель но всего населения. И с выборочным методом в медицине связа ны две серьезные проблемы. Во-первых, очень сложно, а иногда
Просто Big Data
и невозможно изолировать действие конкретного лекарства или метода лечения. Во-вторых, очень трудно выбрать группу испытуемых, которая на самом деле была бы репрезентативна. О больших данных в медицине мы поговорим в соответствую щей главе. Возьмем для примера вас, дорогой читатель. М ожно ли считать вас представителем всего населения? Образцом попу ляции? Репрезентативным представителем популяции? В неко торых случаях — да. У вас две ноги и две руки, как у большин ства населения, но не 100% населения. То есть вы представляете большую группу населения, но нельзя предполагать, что все люди даже в вашей стране такие же, как вы. Если брать другие ваши характеристики или черты, то вы становитесь еще менее репрезентативным. Если брать вашу расу, национальность, цвет глаз и цвет волос, профессию, соци альный статус, место жительства, то вы становитесь все менее и менее репрезентативным. Так что если мы хотим изучать все население, то собрать нужно большую группу представителей, учитывая самые разные вариации и пропорции. Нужно точно определиться с важными факторами для репрезентативного анализа, нужно разобраться с количеством, с имеющимися ва риантами. Это сложно и дорого. Именно поэтому исследования одних и тех же продуктов, методов лечения, препаратов и их воздействия на организм дают разные, иногда противоречивые результаты. В качестве приме ра можно привести красное вино. Посмотрите информацию в Интернете. Одни ученые говорят о его несомненной пользе и подтверждают это документально. Другие говорят, что крас ное вино вредно, как и любой алкоголь, и тоже это подтвержда ют. И те, и другие собрали данные, обработали их и проанали зировали. Но это был выборочный метод, а не большие данные. Но в обозримом будущем использование выборочного метода будет продолжаться. Дело в стоимости и удобстве. Да, большие данные надежнее и вернее. Работая с большими дан ными, мы избегаем предположений и прикидок, при использо вании больших данных отсутствуют обычные недостатки ис следования или опроса общественного мнения. Когда данные поступают от большой группы, у исследователя меньше неуве ренности.
Глава 1. Что такое данные и большие данные?
Современные системы позволяют довольно легко соби рать некоторые (но не все) виды данных в огромных масштабах и обрабатывать их. И этим во все возрастающей степени поль зуются различные организации. Обычно они начинают со сбо ра данных, которые легко собрать, например, без активного вовлечения населения. Раньше это было невозможно, или служ бам статистики было очень сложно получить результаты наблю дений, подсчетов, опросов, которыми занимались не они сами. Но теперь есть Интернет. М ы заходим на сайты с определен ной целью. М ы используем поисковые системы для получения информации. М ы заглядываем в интернет-магазины, чтобы что-то купить. Владельцы сайтов, на которые мы заходим, спо собны получить гораздо больше данных о нас, чем мы предпола гаем. М ы даже не осознаем, что делимся ими. Иногда нас предупреждают об использовании куки-файлов, а иногда нет. Куки-файлы используются веб-серверами для идентификации пользователей и хранения данных о них. Название происходит от слова «п ечен ье». Эти файлы — вол шебное печенье, набор данных, которые получает программа. В 1994 году программист Лу Монтулли решил использовать их при веб-соединении. Они используются в первую очередь для аутентификации пользователя и для ведения статистики о пользователе. Такие файлы являются очень мощным источ ником данных для компаний. О многих пользователях! Вы даже не подозреваете о том, что о вас знают компании! Это означает, что владельцы основных поисковых систем (если захотят) смогут собрать о вас самую разную информа цию. Вам не придется даже кликать мышкой. Эти большие дан ные можно будет проанализировать (с помощью соответству ющей программы) и предсказать, как на ближайших выборах проголосуете вы и как проголосует население в целом. И полу ченный результат будет гораздо точнее, чем выборочный опрос общественного мнения. Еще одна важная вещь в случае использования больших данных — это отсутствие необходимости указывать системе правила игры. Давайте опять вернемся к голосованию. Не по требуется гадать, что влияет на нас, когда мы голосуем так или этак. Система сама соотнесет большое количество данных и результаты и со временем сама научится давать поразительно
Просто Big Data
точные сведения о населении, действия которого она анали зирует. И это всегда будет гораздо более точное предсказание, чем предсказание с использованием выборочного метода.
Прошлое, настоящее и будущее Традиционно на протяжении веков только данные из про шлого и о прошлом были точными (хотя тоже не всегда). Но в сравнении с настоящим и тем более будущим о прошлом можно было говорить с уверенностью. Оно уже случилось. Первоначальные данные — это данные о прошлом, уже имев ших место событиях и явлениях, которые помогали заниматься сельским хозяйством и торговлей. М ы уже упоминали древний город-государство шуме ров Урук. Современным людям трудно понять, что числа там не были универсальными. Мы воспринимаем это как долж ное, но это не очевидно! Например, торговцы сыром, рыбой, зерном могли использовать разные системы чисел. Но в любом случае данные развивались с торговлей, иначе не могло быть, а также были связаны с появлением и развитием государств. «Государство» на латыни — status (state на английском), оно имеет один корень со словом «статистика». То есть стати стика — это изначально данные о государстве. Данные соби рались для ведения торговли, налогообложения, обеспечения комфортных условий жизни, благоустройства территорий. И для всего этого нужно было знать о прошлом. В некотором смысле эта зависимость от прошлых данных была не столько идеальным решением, сколько прагматичным использованием возможностей. Идеальным было бы также знать и о настоящем. Н о данные о настоящем стали доступны только к концу X X столетия, когда появились механизмы для ра боты с большими данными. Но даже и в наши дни многие орга низации действуют так, будто настоящего не существует. Большими данными в наши дни оперируют сети супермар кетов. У них есть данные о том, что происходит в настоящем, в режиме реального времени. Их интересно сравнивать с дру гими организациями, которые подходят к делу по-другому. На пример, менеджер головного офиса сети супермаркетов прямо
Глава 1. Что такое данные и большие данные?
сейчас может сказать, что лучше всего продается во всей сети. У него есть данные по продажам каждую минуту. Он может разложить сутки не только на 2 4 часа, но на 1 4 4 0 минут, если супермаркеты работают круглосуточно. Современные сети супермаркетов работают с большими данными, у них есть данные по продажам в разных штатах, если мы говорим о СШ А , районах или областях, городах и п о селках. У них есть данные по каждому магазину и всем, вместе взятым, по каждому продукту. М енеджер в головном офисе оценивает спрос и ежедневно связывается с поставщиками или передает информацию коллеге из соответствую щ его отде ла. К концу дня известно, что нужно поставить к следующему утру. Данные не только о прошлом, но и из настоящего — это часть больших данных, и они помогают сформировать буду щее — то, что будет поставлено в супермаркеты сети завтра, послезавтра и т. д. Издательский бизнес строится совсем по-другому, если го ворить об авторах. Как правило, авторы в СШ А получают го норары два раза в год. Каждому автору представляется сводка по продажам его книг, например, с января по июнь в конце сен тября, а деньги он получает в октябре. Это обычная практика в СШ А. Системы продаж, фиксирующие данные по продажам книг каждый день, существуют и работают, но до сих пор ис пользуется старая система расчетов с авторами. Так принято. Так привычно. Издательский бизнес во многом живет в про шлом, а не в настоящем. И книга считается проданной, когда ее отгружают в книжный магазин или книготорговую сеть. Она ушла из издательства, торговцы заплатили издательству. Все. Но она может не дойти до читателей, отправиться в неликвиды, быть возвращенной в издательство. Это уже будущее. А торго вые договоры уходят корнями в прошлое. Сейчас появились технологии, связанные с большими данными, возможно, они серьезно изменят и издательский бизнес. Люди только в X V II веке осознали, что данные, собранные в прошлом, могут использоваться в будущем. До этого пользо вались подобными знаниями неосознанно — прошлый опыт готовил к тому, что может произойти в будущем. Но сознатель ное использование пришло позднее. С вое имя в историю вписал Джон Граунт (1 6 2 0 -1 6 7 4 ) , галантерейщик. Он начинал свою
Глава 1. Что такое данные и большие данные?
В некоторой степени это — игра в азартные игры, игра на деньги, но чем больше у вас данных, тем меньше риска. По-на стоящему большие данные и современные технологии, обеспе чивающие возможности анализа, сводят риск к минимуму. Конечно, желания Джона Граунта и владельцев лондонских кофеен не были чем-то новым — до них масса людей, занима ющихся самыми разнообразными видами деятельности, хотела предсказать будущее и иметь данные о том, как ситуация в буду щем повлияет на их бизнес и не только бизнес. Знать будущее — естественное желание человека. М ы же хотим к нему подгото виться, «подстелить соломки». Ведь очень многое зависит от того, кто выиграет войну. И лично для вас важно, на какую лошадь ставить на скачках. На протяжении тысячелетий прори цатели, астрологи зарабатывали неплохие деньги и всегда были при делах. Н о традиционно, опять же на протяжении тысячеле тий, способность заглядывать в будущее основывалась на вооб ражаемых, мистических способностях. Джон Граунт и другие первые статистики предложили научный подход к заглядыва нию в будущее. Или надежду на появление такого подхода. А для такого подхода требовались данные, и чем больше данных, тем лучше. Научное прогнозирование важно для самых разнообразных видов деятельности, от метеорологии до оцен ки объемов продаж любых товаров. Но первыми «проснулись» страховые компании. Оценка рисков для них — это деньги, и иногда очень большие. Прогнозирование — это научное предсказание хода и ре зультатов каких-либо событий, мероприятий, процессов, про ектирование чего-то, что ждет впереди. Нужно собрать данные из прошлого, по возможности из настоящего — и «бросать кости », то есть с помощью имеющихся данных попробовать снять завесу с будущего. «К ач ество » таких попыток всегда очень сильно варьировалось.
Прогноз погоды Вы знаете людей, которые бы не ругали метеорологов? Их ругают во всех странах. Первый в истории прогноз пого ды был опубликован 1 августа 1861 года в английской газете
Просто Big Data
The Times. Его составил офицер британского военно-морско го флота Роберт Фицрой. Ворчать на неточность прогнозов погоды считается в Англии национальным хобби. Прогноз по годы — научно и технически обоснованное предположение. Слово «метеорология» — это перевод с древнегреческого, и означает оно «рассуждение о небесных явлениях». Но рас суждение на основе данных! А в наше время — на основе боль ших данных и современных технологий их обработки и анализа. М етеорологи стали первыми использовать большие данные, все остальные — после них. У Аристотеля есть трактат под названием «М етеорологик а » , в котором описаны небесные явления (дождь, град, радуга, полярное сияние, кометы, метеоры). М етеорология как наука возникла в X V II веке после того, как Галилео Галилей ( 1 5 6 4 1642) изобрел термометр, а О тто фон Герике (1 6 0 2 -1 6 8 6 ) изобрел барометр. Герцог Тосканский Леопольдо де Медичи ( 1 6 1 7 -1 6 7 5 ) приказал Академии дель Чименто («Академия о п ы тов») во Флоренции, которую он создал, заняться сбором информации о метеоусловиях на территории Европы. Факти чески это было научное общество, в котором научные исследо вания основывались на непосредственных наблюдениях. Это первая европейская экспериментальная академия. Вскоре уже работало 9 метеостанций, конечно, большинство на террито рии Италии, но была и одна в Варшаве. К сожалению, они были ликвидированы в 1667 году вместе с закрытием академии. Вторая сеть метеостанций появилась уже в Англии в 1723 году. Медик и физик, член и секретарь Лондонского ко ролевского общества Джеймс Джурин (1 6 8 4 -1 7 5 0 ) разрабо тал инструкцию по наблюдению за погодой и составил таблицу, в которую следовало вносить данные. Измерялись температу ра, давление воздуха, сила и направление ветра. Эта сеть мете останций просуществовала до 1735 года. Но Джеймс Джурин разослал свои инструкции, таблицы и список необходимых приборов и многим европейским ученым, которые также заин тересовались наблюдениями за погодой. Первое международное метеорологическое общество было основано в 1781 году в Мангейме (Германия), в Акаде мии наук и изящной словесности курфюрста Пфальцкого. Оно объединило 3 9 метеостанций от СШ А до России. Общ ество
Глава 1. Что такое данные и большие данные?
снабжало метеорологов одинаковыми приборами, чтобы мож но было проводить сравнительный анализ данных. Замеры проводились в одно и то же время, 4 раза в день — в 7 утра, 11, 14 часов и в 21 час. Первая государственная метеорологическая служба поя вилась в Великобритании. Именно там и работал упомянутый выше Роберт Фицрой ( 1 8 0 5 -1 8 6 5 ) , который ее и возглавил. Заметим, что Фицрой был капитаном «Б и гл я», на котором Чарльз Дарвин совершил кругосветное путешествие. За эту экспедицию Фицрой получил золотую медаль Лондонского королевского общества. Он занимался подготовкой четырех томного издания о плавании «Б и гл я» (третий написал Чарльз Дарвин). То есть это был очень разносторонний человек — и моряк, и ученый, и даже политик (он был избран в парламент, хотя и работал там недолго), он успел побыть генерал-губер натором Новой Зеландии. Метеорологический департамент Фицрой возглавил после возвращения из Новой Зеландии. Фицрой обязал капитанов всех английских судов вести на блюдение за погодой и раздал им всем одинаковые таблицы, куда требовалось вносить данные. Также Фицрой обеспечил поставку необходимых приборов на все корабли. Они должны были измерять температуру воздуха, снимать показания баро метра, определять силу и направление ветра. Быстрое (или относительно быстрое) получение данных от метеостанций, объединенных в сеть, стало возможным после появления азбуки М орзе. Первой ее стали использовать в сети из 2 4 метеостанций, большинство которых находилось на тер ритории Великобритании, две были во Франции, по одной в Дании, Португалии и Нидерландах. Они сообщали свои дан ные в Центр службы погоды. В нем все эти данные объединяли и анализировали. Этот же Центр службы погоды стал выпускать первые синоптические карты, на основании которых и состав лялись прогнозы погоды. Э В М для составления прогнозов погоды стали использо вать в 1960-е годы, и тогда же произошел резкий скачок роста сбывшихся прогнозов. В настоящее время прогнозы погоды во многом автоматизированы. Основные приборы, используемые в метеорологии в на стоящее время, — это привычный термометр для измерения
Просто Big Data
температуры воздуха и воды; гигрометр — прибор для изме рения влажности воздуха; барометр — прибор для измерения атмосферного давления; анемометр — прибор для измерения силы и скорости ветра; облакомер — прибор для измерения высоты нижней границы облаков; термограф — регистратор изменения температуры воздуха и воды; флюгер — прибор для определения направления ветра; метеозонд — устройство, находящееся в атмосфере для измерения ее параметров; метео спутник — устройство, находящееся на орбите для метеона блюдений. Метеорологические станции существуют до сих пор и ве дут наблюдение за погодой с помощью приборов, регистриру ют метеорологические изменения, составляют прогнозы пого ды. Н о везде есть и центральные службы погоды. Раньше после метеорологических наблюдений специалист-метеоролог коди ровал полученную информацию и подготавливал ее для переда чи по каналам связи. В настоящее время это чаще всего делается автоматически. Есть полностью автоматизированные метеоро логические станции. Но все равно информация с метеостанций передается в центры прогноза погоды в закодированном виде, хотя в отдаленных районах большинство работ до сих пор ве дется вручную. Мощные вычислительные машины в центрах принимают сообщения, запоминают, накапливают данные и анализируют информацию. Это огромный объем данных — физически большой объем. К тому же он передается быстро, и обрабатывать его нужно быстро, потому что картина погоды может очень быстро меняться. Характеристики больших данных — это три V: volume, velocity, variety (объем, скорость и разнообразие). И они в пол ной мере относятся к современным прогнозам погоды. При знайте, что прогнозы погоды, по крайней мере на ближайшие три дня, стали гораздо точнее, чем сорок и даже десять лет на зад. Дело в том, что теперь у синоптиков есть и компьютеры, и много данных, и возможности для анализа этих данных. Си ноптические карты теперь никто не рисует вручную, они стро ятся на основе компьютерной обработки полученных данных. Современные суперкомпьютеры обрабатывают огромный объ ем данных и выполняют сложнейшие вычисления, и прогнозы, сделанные с их помощью, самые точные.
Глава 1. Что такое данные и большие данные?
Первые математические модели для составления прогно зов погоды появились уже в 1920-е годы. Но только после изо бретения компьютера и компьютерного моделирования это стало возможным в режиме реального времени. Использова ние числовых методов для составления погоды было предложе но в 1922 году британским математиком Льюисом Фрайем Ри чардсоном. Правда, сам он не смог составить прогноз погоды. Первый успешный прогноз погоды был составлен в 1950 году в СШ А с помощью Э В М ENIAC. Работала целая команда: метеорологи Ж юль Черни, Филипп Томпсон, Ларри Гейтс, Рагнар Фьюртофтом (норвежец) и математик Джон фон Ней ман. В постоянном режиме численное прогнозирование нача лось в СШ А с 1955 года. В проекте участвовали ВМ Ф и Бю ро погоды. Численная модель для составления прогнозов погоды — это компьютерная программа на основе системы математи ческих уравнений. Она составляет прогноз погоды на основе последних метеорологических данных. Данные поступают с метеорологических станций, метеозондов и метеоспутников. Чем больше точек замера, тем больше данных и тем точнее про гноз. Также чем выше точность модели, тем выше требования к мощности Э ВМ . Модель может быть как локальной, так и гло бальной. В настоящее время прогноз погоды состоит из трех этапов. Первый этап — это сбор данных наблюдений о погоде. Как уже говорилось, данные стекаются в один центр. Эти данные посту пают из различных источников, с использованием современных средств связи, о которых Роберт Фицрой не мог и мечтать. Второй этап — обработка и анализ полученных данных. На этом этапе составляются карты погоды, определяются райо ны дождей, гроз, туманов, сильных ветров, песчаных бурь, области высокого и низкого давления, определяются линии атмосферных фронтов, с которыми обычно связаны резкие из менения погоды. Третий этап — это и есть непосредственно составление прогноза погоды, он считается самым сложным. Точность прогноза зависит и от точности наблюдений, то есть посту пивших данных, и от имеющихся приборов, от разработки но вой техники и новых технологий. Скорость обработки данных
Просто Big Data
наблюдений и их анализ зависят от мощности Э В М и от автома тизации всех звеньев, участвующих в процессе. Чем на более длительный срок составляется прогноз, тем меньше его точность. Поэтому долгосрочные прогнозы по годы — это всегда фантазии независимо от точности данных. Когда в следующий раз услышите в августе, что ожидается суро вая зима, не сомневайтесь: научной базы, надежных обоснова ний нет. Даже при современной технике и технологиях не стоит рассчитывать на точный прогноз более чем на 7 - 1 0 дней. Н е которые специалисты говорят, что надежнее предсказывать по году в конкретном месте на основании данных прошлых лет — того, какая здесь была погода именно в это время года. Если летняя жара пришла на две недели позже, то другие прогнозы тоже следует сдвинуть на две недели. Так что данные прошлых лет для долгосрочного прогноза надежнее, чем последние дан ные. Но в наши дни уже можно рассчитывать на точный про гноз погоды на завтра и на ближайшие три дня.
Образцы и самообман Данные из прошлого и данные о будущем — это наборы цифр и расчеты. М ы непроизвольно придаем и тем, и другим одинаковый вес, иногда это приводит к печальным, а ино гда к забавным последствиям. Любая торговая компания занимается прогнозированием сбыта, то есть оценивает возможный объем продаж за опре деленный период в будущем. Это попытка компании генери ровать данные о будущих продажах на основании прошлого опыта. В каждом виде бизнеса эти прогнозируемые цифры будут неточными. И регулярно! Хотя иногда удается попасть пальцем в небо. Но когда прогноз составляется неправильно (а такое случается часто), руководство начинает анализировать, «ч то пошло не так », и при этом игнорирует само определение слова «п р о гн о з». Прогноз — это не реальность. Это прогноз! А данные о прошлом — это не данные о будущем. Между ними нельзя ставить знак равенства. Прогнозируемые продажи не совпадают с реальными про дажами из-за обычной проблемы, которая возникает, когда мы
Глава 1. Что такое данные и большие данные?
имеем дело со статистикой. М ы слишком сильно зависим от об разцов, моделей и примеров из прошлого. Образцы и модели — это главный механизм, используе мый для понимания окружающего мира. Человек делает вы воды, учитывая привычные образцы и модели, таким образом на протяжении всей истории человеческой расы наши предки и мы сами определяли и определяем хищников, врагов и друзей, опасности, еду, которую можно есть и которую нельзя. Если бы люди не пользовались таким методом, то человечество уже дав но бы вымерло. Данные из прошлого необходимы. Например, мы знаем, что большой предмет на четырех ко лесах, который ездит по дорогам, представляет для нас угрозу. Это данные из прошлого, образцы зафиксированы у нас в со знании. Если бы мы не учитывали эти данные, то вскоре погиб ли бы под колесами, переходя дорогу. Поэтому даже если мы видим неизвестную нам модель легкового автомобиля или гру зовика, выруливающего из-за угла, мы действуем соответству ющим образом. М ы не пытаемся перейти перед ним улицу. Это относится к дизайну автомобиля, цвету, всем характеристикам. М ы знаем, что это — автомобиль. Эта модель сидит у нас в со знании. И вся наука построена на образцах и моделях, иначе нам бы потребовалась отдельная теория для каждого пред мета, животного, даже атома, чтобы объяснить их поведение или действия. Да, мы не можем не зависеть от прошлого опыта и прошлых данных, моделей и образцов. Это так. Но иногда мы слишком за висим от образцов и привычных моделей и в результате оказы ваемся в дураках. Для примера приведем «Викинг-1 » — один из двух космических аппаратов, отправленных к М арсу в рам ках программы НАСА. Он состоял из орбитальной станции (искусственного спутника М арса) и спускаемого аппарата с ав томатической марсианской станцией. Это первый космический аппарат, который успешно сел на поверхность планеты и вы полнил заданную программу. Аппарат был запущен в 1975 году, первые снимки прислал в 1976 году. И ученые сразу же опо знали на присланных снимках человеческое лицо, вырезанное на поверхности М арса. Они не могли не опознать человеческое лицо! М озг настроен таким образом: образец человеческого лица сидит глубоко в подкорке, в подсознании — называйте,
Просто Big Data
как хотите. Но более поздние снимки того же участка поверхно сти показали, что «л и ц о » было иллюзией. Дело в том, что когда делались первые снимки, Солнце стояло под определенным углом к поверхности М арса, и падающие тени создали соот ветствующую иллюзию. Но на более поздних снимках видно, что выходы породы в том месте не имеют ничего общего с че ловеческим лицом. После этого случая даже появилось слово парейдолия (или парейдолическая иллюзия), происходящее от древнегре ческих слов, обозначающих «рядом, около, отклонение от че го-либо» и «изображ ение». Это разновидность зрительной иллюзии, когда мы видим образ чего-то, чего на самом деле в данном месте нет. Если вы видите фигуры людей и животных в облаках — это парейдолия. И точно так же прогнозирование в бизнесе основывается на образцах и моделях и является самообманом. Если же в доступных нам исторических данных нет никаких образцов или моделей по какому-то вопросу, то мы не можем ничего сказать о будущем. Примером могут служить лотереи. В Национальной лотерее Великобритании нужно угадать 6 ша ров из 59. В американской лотерее Powerball нужно угадать 5 из 69 плюс 1 из 26 шаров. В эту лотерею играют в 45 штатах. Нет образца! Нет модели! М ожно только гадать. Это означа ет, что прогнозировать то, что выпадет на следующей неделе или в следующем месяце, невозможно. Но люди все равно про должают играть, и никакая логика их не останавливает. У каждой крупной лотереи теперь есть сайт в Интернете. На этом сайте вы можете найти статистику по выпадавшим ша рам, например, таблицу, где указано, сколько раз за всю историю выпадал каждый из шаров. И люди статистику изучают, хотя это случайность. Но даже математики со степенями пытаются най ти какие-то образцы и модели, пишут статьи (вы можете найти их в Интернете), объясняя, почему те или иные шары выпадают чаще других. Например, в Великобритании чаще всего выпада ет шар « 5 9 » . И масса людей уже предложила свои объяснения! Такова человеческая природа. Этим пользуются организаторы лотерей. Они публикуют статистику и выгодные им статьи. Есть много людей, которые верят, что если какой-то шар долго не выпадал, то уже подходит
Глава 1. Что такое данные и большие данные?
его черед, на него обязательно надо ставить. И такая статистика есть! М ожете посмотреть на сайтах лотерей — этот не выпадал столько-то недель, а этот — уже два года. Современные техно логии позволяют легко вести такие подсчеты и обновлять дан ные после каждого тиража. Но между предыдущим и последующим розыгрышем нет никакой связи. Нет связи между самым первым и последним. У лотереи нет памяти. В этом случае нельзя использовать про шлое для предсказания будущего. Н о мы все равно пытаемся. Невозможно избежать самообмана, который нам навязывают образцы и модели. Но, в отличие от лотерей, в большинстве систем имеет ся связь между прошлым и будущим. Это прогнозы погоды, торговля ценными бумагами на бирже, продажи телевизоров или сапог. Будущее не отделено от прошлого. Эту связь мож но изучать и использовать. М ы можем использовать данные из прошлого для составления прогнозов погоды, сбыта и коти ровок. Но нужно понимать ограниченность прогнозирования, даже имея большие данные и современные технологии.
Экстраполяция Экстраполяция (от латинских слов, означающих «сверх, вн е» и «выправляю, изм еняю ») — это логико-методическая процедура распространения или переноса выводов, сделанных относительно какой-то части объектов или явлений, на всю со вокупность данных объектов или явлений, а также на их другую часть. Самый простой способ использования данных для предска зания будущего — это предположить, что завтра все останется таким же, как было вчера или хотя бы сегодня. Этот простой метод работает на удивление хорошо, и при его применении требуются минимальные вычислительные мощности. М ы мо жем предсказать, что завтра взойдет солнце, или что Земля повернется таким образом, что у проживающих на планете людей создастся впечатление, что встает солнце. Да, мы м о жем его не увидеть из-за облачности, но оно будет находиться там, где должно. Когда-нибудь, через миллионы лет, подобное
Просто Big Data
предсказание может стать ложным, но явно не при тех, кто даже родился сегодня. М ы знаем, что использование имеющихся данных снова и снова при прогнозировании в конце концов (а то и относи тельно быстро или очень быстро) приведет к неудаче. Но по добный метод может и срабатывать довольно долго, и вы будете успешно строить работу своей компании, применяя только его. Возьмем закон Мура, который гласит, что количество транзисторов, размещаемых на кристалле интегральной схе мы, удваивается каждые 2 4 месяца. В плане компьютеров он действует уже более 5 0 лет! М ы знаем, что когда-нибудь насту пит момент, когда этот закон перестанет срабатывать: некуда будет больше усовершенствовать технику. Но о том, что закон М ура « с к о р о » прекратит работать, говорят уже по крайней мере 2 0 лет. Он срабатывает снова и снова — и это только ра дует и производителей, и пользователей. М ы можем спокойно прогнозировать, что завтра или в следующем году закон Мура будет работать. Еще один пример. На протяжении большей части истории наблюдалась инфляция. Стоимость денег падала. Были перио ды дефляции, но этот процесс, противоположный инфляции, обычно длился гораздо меньше. Иногда денежные единицы пе реоценивались, иногда менялись методы расчетов, но в целом мы также можем с уверенностью предсказать, что стоимость денег будет падать. Но, к сожалению для тех, кто занимается прогнозами, только очень малое количество систем настолько просто. Од нако есть много систем, имеющих циклический характер. М ы уже говорили, что продажу некоторых товаров можно легко предсказать. Например, вы сами можете предсказать, когда будут лучше всего продаваться резиновые сапоги. Хотя, что бы предсказать, когда лучше всего будут продаваться зимние сапоги, когда галоши, а когда босоножки и в каких количе ствах, нужны данные по прошлым продажам. Нужны данные за прошлый год, за позапрошлый, за последние пять лет. Люди, занимающиеся торговлей обувью, внимательно изучают эти данные. Когда поставлять зимние сапоги? Когда осенние? Когда босоножки? Они изучают тренды на протяжении всего года. При торговле обувью нельзя говорить, что на следующей
Глава 1. Что такое данные и большие данные?
неделе будет продаваться то же, что и на этой или на прошлой, в таком же количестве или что продажи вырастут на опре деленный процент. В этом бизнесе важную роль играют п о годные условия. Ранняя очень сырая осень — одни продажи. Долгое бабье лето, теплая и сухая погода — другие. В любом случае осенью обуви продается больше, чем в середине лета, независимо от погодных условий, и так бывает всегда. Конеч но, если в середине лета вдруг зарядят дожди, то увеличатся продажи резиновых сапог. Но если будет жарко и солнечно, никто не станет запасаться ими. Торговцы обувью учитывают и данные прошлых лет, и прогнозы погоды. Э тот бизнес инте ресуется долгосрочными прогнозами погоды и погодой про шлых лет. Если в данном случае это еще не большие данные, но точно шаг в направлении больших данных. Еще один пример — это барбекю, которые так любят аме риканцы. П о данным одной сети супермаркетов, увеличение температуры воздуха на 10 градусов в мае увеличивает прода жи мяса в три раза. Люди массово отправляются на пикники. Но увеличение температуры воздуха на 10 градусов в середи не лета уже не дает такого эффекта. В мае люди соскучились по пикникам, а к середине лета любители барбекю уже неод нократно выезжали на природу и жарили мясо. Да и тем пе ратура воздуха в середине лета может быть такой, что мяса не хочется. П оэтому торговым сетям нужно иметь данные результатов продаж различных продуктов в разные годы и се зоны, но также и прогнозы погоды. Прогнозы погоды инте ресую т всех! Влияние сезонного фактора — это лишь один аспект всего того, что оказывает влияние на будущее. Данные из прошлого необходимы для прогнозирования будущего. Но таких пере менных может быть несколько, и чем их больше, тем сложнее составлять прогноз. Если эти факторы еще и как-то взаимодей ствуют друг с другом и влияют и друг на друга, то мы получаем хаос. Невозможно сделать долгосрочный прогноз, сомнитель ным представляется даже точный прогноз на несколько дней. Примером в данном случае служат прогнозы погоды. Вся систе ма очень сложна, взаимодействует очень большое количество факторов, небольшие изменения могут привести к существен ным последствиям.
Просто Big Data
Ученые широко используют два метода или две техники логических рассуждений — дедукцию и индукцию — для про гнозирования. Дедукция — это способ рассуждения от общих положений к частным, логический вывод частных положений из какой-то общей мысли. Индукция — это способ рассужде ния от отдельных частных фактов и положений к общим выво дам, обобщениям. Процесс дедукции основывается на полном наборе данных. Например, никто не сомневается, что все бананы желтые. Если вы видите фрукт типичной для банана формы, но малинового цвета, вы вполне логично придете к выводу, что это не банан. Это дедукция. Но у вас неполные данные! На Сейшельских островах растут малиновые бананы. То есть получается, что все бананы, которые вы видели, желтого цвета, но не все вообще. А индукция говорит: высока вероятность того, что малиновый фрукт, который вы увидели, это не банан. Так работает наука, так строятся предположения и делаются прогнозы. Нужно строить предположения на основании доступных доказательств и име ющихся фактов, но не «вы водить» факты. В реальном мире у нас редко бывает полный набор данных. Но прогнозирование на основании неполных данных всегда рискованно: все может внезапно и неожиданно пойти не так, как в прошлом. До посещения Австралии все европейцы были уверены в том, что все лебеди — белые. Другие были неизвест ны в Европе до 1697 года! Именно тогда голландские моряки впервые увидели черных лебедей в Австралии. «Черный ле бедь» был в латинском языке и стал метафорой в английском, означающей плод воображения, что-то редкое или вообража емое. Термин стал особенно популярен в наше время после выхода книги Нассима Николаса Талеба (р. в 1960 г.) «Ч ер ный лебедь. Под знаком непредсказуемости» (2 0 0 7 ). Автор предложил теорию, рассматривающую труднопрогнозируемые и редкие события, которые имеют значительные последствия. У события типа «черный лебедь» три критерия: оно является неожиданным для эксперта (науки); оно имеет существенные последствия; в ретроспективе оно имеет рационалистическое объяснение, как будто бы было ожидаемым. Примерами могут служить развитие Интернета, распад Советского Союза, атака на башни-близнецы в Нью-Йорке 11 сентября 2001 года.
Глава 1. Что такое данные и большие данные?
Термин «черный лебедь» используется и в статистике и означает прогнозирование на основании неполных данных (а в реальности в большинстве случаев так и бывает) с риском неожиданного изменения положения дел. Например, всемирно известная американская компания «К о д ак», производитель фотоматериалов и оборудования, образованная в 1881 году. На протяжении многих лет дела у компании шли великолепно, она успешно из года в год прогнозировала продажи фотоплен ки. Да, бывали подъемы и спады, но в компании были уверены, что у них надежный, устойчивый бизнес, а пленка и дальше будет продаваться, как и пленочные фотоаппараты. Н о в мире менялись технологии, и выплыл «черный лебедь» — цифровая камера. Компания «К о д ак» сама первой выпустила такую камеру, но потом попыталась остановить развитие этой технологии, каким-то образом утопить «черного лебедя». Это оказалось невозможно, он оказался непотопляемым, и в 2 0 1 2 году гигант «К одак» стал банкротом. Да, «К о д ак » прошел реструктуриза цию, существует до сих пор, но маловероятно, что эта компания когда-либо в будущем станет такой же успешной, как раньше. Цель больших данных — свести к минимуму риск непра вильного прогноза путем сбора как можно большего количе ства данных. Те, кто контролирует большие данные, смогут до биваться успехов, немыслимых в прошлом. Но нельзя забывать урок, который ежедневно преподают прогнозы погоды. Метеорологические службы в ряде стран используют самые мощные суперкомпьютеры — более мощные, чем в других сфе рах деятельности. Например, так обстоят дела в Великобрита нии. Каждый день собирается, обрабатывается и анализируется огромное количество данных, на основании которых выдаются прогнозы. Данные объединяются, чтобы предсказать наиболее вероятный результат в конкретном месте. Современные про гнозы гораздо точнее, чем прогнозы прошлых лет. Но при этом на них все равно нельзя полагаться со 100%-ной уверенностью. Даже на краткосрочные, не говоря о долгосрочных. Но большие данные все равно помогают и оказывают огромное влияние во всех сферах, где они уже используют ся. И не надо заниматься экстраполяцией, то есть перено сить выводы, сделанные на основе малого количества данных,
П р о с то B ig D ata
на большие. Вспомните о выборочном методе, о котором го ворилось. И вспомните о результатах опросов общественного мнения с использованием этого метода. А потом о результатах выборов.
Термин и характеристики Давайте теперь поговорим об этом термине и характери стиках явления или новой реалии. Автором термина «большие данные» считается Клиффорд Линч, редактор журнала Nature. Датарождения термина — 3 сентября 2 0 0 8 года, когда вышел специальный номер, тема которого «К ак могут повлиять на бу дущее науки технологии, открывающие возможности для рабо ты с большими объемами данных?». В этом специальном выпу ске редакционная коллегия собрала материалы, посвященные взрывному росту объемов обрабатываемых данных и их мно гообразия, а также технологическим перспективам этого фено мена. Высказывались предположения о переходе от количества к качеству. Английский термин Big Data был сформулирован аналогич но уже имеющимся: big business (большой бизнес) — крупней шие корпорации; big oil (большая нефть) — крупные нефтяные компании СШ А; big пате (дословно «большое и м я ») — зна менитость, известная личность. Термин появился в академической среде и в первый год после появления использовался, когда говорили о росте объе мов и многообразия исключительно научных данных. Но уже в 2 0 0 9 году он просочился в деловую прессу и очень быстро по лучил широкое распространение. В 2 0 1 0 году появились первые продукты и решения, относящиеся исключительно к проблеме обработки больших данных. В 2011 году большинство крупней ших поставщиков информационных технологий уже исполь зовали понятие больших данных (например, IBM, Microsoft). Также появились отдельные исследования на эту тему. В том же 2011 году большие данные были названы трендом № 2 (после виртуализации) в информационно-технологической инфра структуре. В 2 0 1 3 году большие данные были включены в про граммы американских высших учебных заведений, где изучается
Глава 1. Что такое данные и большие данные?
наука о данных. 2015 год считается годом перехода к массовому практическому применению больших данных. Понятие больших данных применяется практически в лю бой сфере современной информационной деятельности. В пер вую очередь это, конечно, I T -сфера, а также реклама, торговля и маркетинг, мобильные технологии. Они используются в бан ковской сфере, телекоммуникациях, энергетике, логистике, промышленности, государственном управлении. Первыми, на помним, их стали использовать метеорологи. Количество данных постоянно растет, Интернет есть вез де, поэтому любой бизнес вынужден думать об этой техноло гии. Это ключевой элемент современного информационного пространства. Практически все, что делает отдельный человек, группы людей, человечество в целом, компании из разных сфер бизнеса, правительства, происходит в рамках глобального ин формационного поля. Ваша работа, ваш досуг, шопинг, путешествия — все тем или иным способом связано с большими данными. Вы полу чаете и отправляете письма по электронной почте, вы звоните по телефону и звонят вам, вы серфите в Интернете, и таким об разом вы получаете и отправляете биты информации и находи тесь внутри системы больших данных. Финансовые операции проходят через Интернет. Все, что вы когда-либо публиковали в социальных сетях, остается во Всемирной паутине. Эти дан ные не исчезают. Современному человеку не уйти от больших данных. Отдельный человек физически не способен и никак не может успеть осмыслить процессы, которые происходят в информационном поле, в котором он находится. В настоящее время к большим данным относятся потоки данных объемом свыше 100 Гб в день. В 2003 году в мире было накоплено 5 эксабайтов данных (1 эксабайт равен 1 миллиар ду гигабайтов). В 2015 году их было уже более 6,5 зеттабайта (1 зеттабайт = 1024 эксабайтов). К 2 0 2 0 году прогнозиру ется 4 0 - 4 4 зеттабайта данных. А к 2 0 2 5 году этот объем вы растет в 10 раз. М ировой доход на рынке больших данных в 2 0 1 7 году — US$ 150,8 миллиарда. Их объем настолько велик, что обработка такого количества данных стандартными про граммными и аппаратными средствами представляется крайне сложной, а иногда просто невозможной.
П р о с то B ig D ata
Кроме основных характеристик Big Data — volume, velocity, variety (объем, скорость и разнообразие), есть еще четыре характеристики, которые появились позже. Это value (цен ность), veracity (достоверность), viability (жизнеспособность) и variability (переменчивость). Несмотря на то, сколько V ис пользуется для характеристики больших данных, всегда под черкивается, что физический объем не является основной или определяющей характеристикой Big Data. Другие не менее важны и необходимы для понимания сложности задачи — об работки и анализа больших данных. И ведь любое дело должно быть экономически целесообразным, поэтому «ценность» ча сто оказывается вторым V при характеристике больших данных после того, как традиционно отдается должное физическому объему. Big Data — это социально-экономический феномен, ко торый связан с появлением новых технологических возмож ностей для анализа огромного количества данных. Зачем они простому обывателю? Представьте, что в супермаркете, куда вы обычно ходите за покупками, по какой-то таинственной причи не все продукты и товары перемешались. Кекс оказался рядом с молоком, а хлеб с шампунем, яблоки с мясом, рыба с соком. Именно большие данные помогут расставить все по местам, найти нужный товар, узнать срок годности и стоимость. О пе рируя большими данными, вы также сможете узнать, чем поле зен и чем вреден тот или иной продукт, при каких заболеваниях его нельзя употреблять, а при каких, наоборот, нужно. Полная информация о том, что есть в супермаркете и для чего это нуж но, и есть большие данные. Огромные объемы данных обраба тываются, чтобы конкретный человек мог получить нужную ему конкретную информацию для ее дальнейшего применения. Это управление данными является решением проблем отдель ного человека, компании, города, страны, мира. Используя традиционные инструменты, невозможно обра ботать огромные объемы неоднородной и быстро поступающей информации. Новые современные инструменты для обработки и анализа больших данных позволяют увидеть закономерности, которые не может увидеть человек и даже старые инструмен ты. Это помогает оптимизировать все сферы нашей жизни — производство, сбыт, телекоммуникации, даже государственное
Глава 1. Что такое данные и большие данные?
управление. Большие данные дают конкурентное преимущество. Допустим, вы хотите узнать баланс вашей банковской карты. Обработка запроса занимает какие-то доли секунды. Это и есть скорости современного информационного рынка. И х требуют большие данные. Современные технологии позволяют обыч ному пользователю хранить гигабайты информации в своем кармане и у себя дома, бизнес и государственные структуры собирают, обрабатывают и анализируют данные в немыслимых раньше масштабах. Это позволяют современные технологии — технологии Big Data. Большую часть данных генерируют предприятия, с каждым годом они становятся все более важным активом, все больше возрастает роль безопасности. Большие данные поступают из трех источников. Первый — это Интернет, то есть соци альные сети, средства массовой информации, разнообразные сайты, форумы и блоги. Второй — это корпоративные архивы. Третий — показания различных приборов и устройств. Главное — научиться обрабатывать и анализировать эти огромные объемы информации. Ведь большие данные — это постоянно меняющаяся картинка. Бели вы правильно полу чили большие данные, это не только помогает преодолеть не точность, которая всегда сопровождает выборку, но и дает невероятные возможности: к данным из прошлого прибавля ются данные из настоящего, и это помогает наилучшим обра зом справляться с ближайшим будущим. Это возможно, пото му что, в отличие от традиционного статистического анализа, большие данные можно постоянно обновлять и учитывать все направления и тенденции. Как уже говорилось выше, люди, занимающиеся прогно зированием, знают о сезонности и учитывают этот фактор, но большие данные позволяют учитывать множество факто ров и вариаций. М ожно добавлять новые пакеты или наборы, или ряды данных и смотреть, помогают ли они делать кратко срочные прогнозы. Например, при прогнозировании продаж уже давно учитываются четыре сезона и праздничные дни. Но теперь можно посмотреть, как погода в определенные дни влияет на продажи. И это относится не только к товарам, не посредственно связанным с погодой (например, зонтикам или резиновым сапогам), но и колбасе, и открыткам. Это все
П р о с то B ig Data
можно проверить, имея большие данные физически, а так же технологии для их обработки и анализа. Если мы увидим, что какой-то фактор оказывает существенное (или какое-то) влияние на продажи, мы учтем его в прогнозировании продаж на соответствующие дни и сделаем все возможное, чтобы удов летворить спрос. Большие данные помогают составлять прогнозы, ориенти руясь не только по сезонам и дням, но также и в зависимости от мест, где ведется торговля. Они позволяют изучить, какие товары в какой местности пользуются наибольшим спросом. Например, хаггис (смесь овечьих потрохов с овсянкой, луком и приправами в оболочке для колбасы) — это национальное шотландское блюдо. Вы можете купить его в магазинах Ш от ландии, в СШ А хаггис продается там, где живет много выходцев из Шотландии, которые традиционно его едят. В ряде штатов про него никогда не слышали. Угорь в желе — это лондонское блюдо, в других частях Англии и других странах оно непопуляр но. Черный пудинг популярен в Великобритании и Ирландии. И продажи можно «точно настроить» в зависимости от спроса на местах. Есть три основных требования к работе с большими данны ми — мощные компьютеры, подключение к Интернету и пра вильный алгоритм. У вас может быть невероятно много данных физически, прекрасная связь с огромным количеством точек, откуда эти данные поступают, но наличия данных и связи недо статочно. Даже бесполезно. С ними же надо работать, а человек способен обрабатывать только небольшое количество данных за один раз, даже самый гениальный математик. С ними про сто не справиться. Нужна помощь компьютерных программ, в частности, нужны алгоритмы. Алгоритм — это последовательность действий для выпол нения какой-то задачи. В Оксфордском словаре английского языка говорится, что слово происходит от древнегреческо го, обозначающего « ч и сл о », как и «ариф метика». Хотя есть и другая версия, и она представляется правильной, поскольку много слов (а то и все), начинающихся с « а л » , происходят от арабских слов. В данном случае считается, что алгоритм происходит от имени узбекского математика, астронома, фи лософа и историка Мухаммеда аль-Хорезми, который жил
Глава 1. Что такое данные и большие данные?
в IX веке. В первую очередь он был математиком, и благодаря ему алгебра стала самостоятельной наукой. Его работы были основными учебниками по математике в европейских универ ситетах на протяжении нескольких веков. В латинизированном варианте его имя звучит как Algorizmi или Algorizmus. Имя ста ло нарицательным, таким образом европейские математики стали называть любое вычисление по строго определенным правилам. Позднее понятие расширилось до набора инструк ций, описывающих порядок действий для достижения резуль тата в любой сфере деятельности. Но независимо от происхождения слова, оно относится к набору процедур и правил, которые позволяют нам работать с данными. Одни и те же процедуры и правила могут приме няться к различным наборам данных. М ногие компьютерные программы включают алгоритмы, но для алгоритма не ну жен компьютер, и есть компьютерные программы, которые не включают алгоритм. Пример простого алгоритма — это числа Фибоначчи. Эта числовая последовательность невероят но длинная, а алгоритм для нее очень короткий и простой: ка ждое последующее число равно сумме двух предыдущих чисел. То есть инструкция будет звучать: возьмите две единицы и по вторно прибавляйте последнее число в ряду к предыдущему, чтобы получить следующее значение. Если мы говорим о больших данных, алгоритмы могут ока заться очень сложными. Но при этом они все равно будут со стоять из процедур и правил, которые позволяют системе ана лизировать или генерировать данные. Система больших данных хороша настолько, насколько хороши алгоритмы, используемые для доступа к данным, обработки и управления ими. Алгоритм нейтрален. Ему все равно, что подразумевают данные, он про сто делает то, что мы запрашиваем. Но нам, как пользователям больших данных, нужно быть очень осторожными с нашими предположениями и точно знать, что делает алгоритм. Самое важное — это правильно интерпретировать результаты. Алгоритм зависит от его разработчиков — они должны сделать правильные предположения о пользователях систем и правильные предположения о выводах, которые можно сде лать из данных. Неправильные предположения часто являются причинами неудач при принятии решений.
П р о с то B ig D ata
Например, вы предполагаете, что успеете проскочить, пока на светофоре не загорится красный свет. Вы предполагаете, что успеете пересесть на другой самолет, если между рейсами у вас будет час времени. Но красный свет загорается раньше, чем вы предполагали, и вы попадаете в аварию, или ваш само лет опаздывает, и вам приходится проводить в аэропорту сутки, ожидая следующего стыковочного рейса. Вы встречаете чело века в первый раз в жизни и только на основании его внешно сти и одежды делаете какие-то предположения, которые потом не оправдываются. Люди постоянно делают предположения о том, что мож но и что нельзя, такова человеческая природа, но эти предпо ложения мешают творчеству и новым идеям. И точно так же создатели алгоритмов делают предположения об ограниченно сти данных и о том, как они будут использоваться. И если нет возможностей для внесения корректировок в алгоритмы, эти предположения будут мешать правильно интерпретировать и использовать данные. Для примера также можно привести так называемую « п р о блему 2 0 0 0 года». М ожно считать, что компьютеры получили достаточно широкое распространение в 1960-е годы, когда до 2 0 0 0 года было еще очень далеко. Разработчики программ ного обеспечения в X X веке часто использовали для обозначе ния года только две последние цифры. Соответственно, мно гие системы предполагали, что год начинается с « 1 9 » . То есть при наступлении следующего века такие системы могли пред положить, что 2015 год — это 1915 год. Подобное могло приве сти к серьезным сбоям в работе финансовых программ и систем управления технологическими процессами. Программы вооб ще могли прекратить работать в 2 0 0 0 году. Проблема возникла из-за того, что разработчики про грамм не подумали о том, что может произойти при смене столетий. Было приложено немало усилий (теперь говорят, что даже больше, чем нужно) и, по некоторым данным, по трачено свыше 3 0 0 миллиардов долларов. Н о проблема была своевременно обнаружена, проведена соответствую щ ая под готовка, тестирование и профилактика. Хотя теперь говорят, что она была «р азду та» с целью получения прибыли. Конеч но, следовало проверять системы, управляющие самолетами,
Глава 1. Что такое данные и большие данные?
и банковские системы, но не базовое офисное программное обеспечение. В любом случае ни больших, ни малых сбоев не было, а это — самое главное. Но мы сейчас о другом — о неправильном предположе нии или, скорее, о халатности: не была учтена смена цифр с « 1 9 » на « 2 0 » . Это просто не пришло в голову разработчи кам. И что-то аналогичное может случиться с системами боль ших данных. Разработчиков алгоритмов для больших данных ждет очень большая работа. Хочется, чтобы они не забывали о «проблеме 2 0 0 0 года», проводили как можно больше тестов, проверяли как можно больше предположений и обеспечили возможности легкого внесения исправлений. Ведь обязательно что-то ускользнет, придется делать корректировку, так пусть эта корректировка обойдется не в 3 00 миллиардов долларов, а дешевле. Так что давайте думать о последствиях. С развитием технологий мы почувствовали возможности использования больших данных. Ниже мы подробнее погово рим о сферах деятельности, на которые их обработка и анализ оказали и продолжают оказывать наибольшее влияние.
Немного истории Кто были пионерами больших данных? Возможно, вы уди витесь, но ими считаются так называемые трейнспоттеры ( « о т слеживающие п о езд а») и люди, ведущие дневники. Трейнспоттинг — это хобби в странах, где поезда ходят по постоянному расписанию. Люди проводят время на вокзалах, у железнодо рожных путей, локомотивных депо. Их цель — увидеть все ло комотивы и все вагоны, курсирующие в их стране (или хотя бы штате). Больше всего трейнспоттеров в СШ А и Великобри тании. Они собирают информацию о движении поездов и об мениваются ею с другими энтузиастами. У первых трейнс поттеров были специальные записные книжки, в которых они фиксировали данные, блокнот и ручка для быстрой записи дан ных (номера локомотивов, вагонов), которые потом аккурат но переносятся в книжку. Потом у них появились диктофоны, смартфоны и специальные сайты в Интернете. Но некоторые и сегодня работают по старинке.
П р о с то B ig D ata
Трейнспоттеры не используют выборочный метод, у них как раз тот подход, который применяется в случае больших дан ных. Они хотят увидеть все локомотивы, а иногда и все вагоны. Не выборочно! Некоторые записывают все, что связано с их пу тешествиями вдоль железных дорог, — время, скорость, цвет. И для одного человека получается огромный набор данных, в большинстве случаев цифровых, хотя необязательно только цифровых. Любители вести дневники — одни из первых собирателей данных, потому что они часто фиксировали мельчайшие детали, которые остались только в их записях и дошли до наших дней именно таким образом. Они больше не существовали нигде! Один из самых знаменитых авторов дневников в истории — это Сэмюель Пипс ( 1 6 3 3 -1 7 0 3 ) . Он оставил после себя знаме нитый дневник о жизни лондонцев. Он учился в Кембридж ском университете, служил чиновником в морском ведомстве, избирался в парламент, какое-то время был секретарем короля по военно-морским делам. Он дружил с Исааком Ньютоном, Робертом Бойлем, Кристофером Реном. Он остался в истории как автор дневника, который вел много лет и прекратил вести только из-за проблем со зрением, а диктовать его посторонне му человеку не хотел. Он записывал в дневник и информацию о событиях, важных для его страны в целом, и мелкие детали собственного быта. Например, он описывает Великую лондон скую чуму 1665 года, Великий лондонский пожар 1666 года, придворные дрязги, свою работу в парламенте, но также и то, что подавали на обед в его доме, различные детали быта. Этот дневник считается очень важным историческим источником и переводился на многие языки. Многие аристократы (и, к счастью, не только аристокра ты) вели дневники в прошлые века. Часть из них дошла до нас. Их используют историки, писатели, кинематографисты. Такие дневники — своеобразные базы данных, источники информа ции для тех, кто пытается воспроизвести образ жизни в опреде ленный исторический период. Данные — это не только цифры. Чтобы превратить много дневников в большие данные, тре буются усилия, организационная работа. С 1937-го по 1949 год в Великобритании была запущена программа «М ассовое на блюдение». В ней участвовала группа авторов, которые вели
Глава 1. Что такое данные и большие данные?
дневники, регулярно отвечали на вопросы и сами проводили опросы общественного мнения в определенных группах людей. Одновременно работали представители правоохранительных органов (это была оплачиваемая работа), которые записывали все массовые акции и мероприятия, проходившие в те годы, а также слушали разговоры самых разных людей в самых разных местах. Представители органов вначале работали в Болтоне на северо-западе Англии, а потом по всей стране. Они пред ставили свыше 3 0 0 0 подробных отчетов. Представители пра воохранительных органов знали эти виды работы, и их отчеты были признаны высококачественным материалом. М ы можем считать результаты работы авторов и сотрудников правоохра нительных органов большими данными (в особенности для тех лет) и предшественниками современных больших данных, ко торые и обрабатываются, и анализируются по-другому. В на стоящее время все эти данные находятся в открытом доступе, это очень важный ресурс. В дальнейшем было запущено еще несколько подобных проектов, но в них уже участвовали только волонтеры, которые вводили собранную информацию в общую базу данных. С каж дым годом становилось все проще обрабатывать и анализиро вать информацию. Но все действия предшественников операто ров больших данных были неизбежно ограничены отсутствием технологий. Дневники велись без каких-либо технологий (а из начально и гусиным пером, которое макали в чернила), трейнспоттеры в лучшем случае имели органайзер. Если говорить о появлении компьютеров, то их отцами считаются французский математик, физик, философ и теолог Блез Паскаль ( 1 6 2 3 - 1 6 6 2 ) , создатель суммирующей маши ны, и английский математик Чарльз Бэббидж ( 1 7 9 1 - 1 8 7 1 ) . Иногда говорят только про последнего, мы можем сказать, что Бэббидж сыграл свою роль в том, чтобы сделать исполь зование больших данных практически возможным. Б э б бидж — изобретатель первой аналитической вычислительной машины. Его машина — прообраз современной Э В М . Он сам называл ее «аналитической». Архитектура современного компьютера во многом схожа с машиной Бэббиджа. Следует отметить, что машина Бэббиджа не была построена при его жизни, хотя он подробно описал ее конструкцию и принципы
П р о с то B ig Data
работы. Причины — отсутствие финансирования и низкий уровень технологий. Питать машину Бэббиджа должен был паровой двигатель, в качестве ввода она брала перфокарты, имелся принтер и еще одна система для пробивания новых карт на выходе. Там также были память для хранения 1 0 0 0 чисел по 5 0 десятичных знаков и арифметическое устройство, которое поддерживало четыре основные операции. Бэббидж называл его мельницей. Машина программировалась при по мощи специфического языка, который послужил прообразом современного ассемблерного кода. Машину по чертежам отца в 1888 году построил его сын, Генри Бэббидж, она оказалась работоспособной. В свое время Чарльз Бэббидж написал: «В ероятн о, пройдет половина столетия, прежде чем люди убедятся, что без тех средств, которые я оставляю после себя, нельзя будет обой ти сь». Он ошибся с количеством лет, но в целом оказался абсолютно прав! Один образец машины Бэббиджа в настоящее время нахо дится в М узее компьютерной истории в Маунтин-Вью, Кали форния. Еще один — в М узее наук в Лондоне. Компьютер в со временном понимании был сделан сто лет спустя на ее основе Джоном Эккертом и Джоном Мочли. Один из главных недостатков всех этих старых машин со стоял в ограниченности скорости обработки данных, в них не было гибкости, необходимой для управления операциями и анализа. Два последних десятилетия мы продвигались вперед с невероятной скоростью развития технологий, и это обеспечи ло возможность операций с большими данными. Но как все-таки появились большие данные? М ы знаем, когда был впервые использован термин, но как они «вылезли наружу»? Когда? Давайте начнем с 1980-х годов. Если вы в те годы были хотя бы подростком, то у вас был кассетный магнитофон (которые появились в 1960-е годы) и пленочный фотоаппа рат. Сколько песен или музыкальных фрагментов хранилось на кассетах? Сколько фотографий было на пленках? В сравне нии с тем, что сегодня хранится у вас в телефоне, — ничтож но мало. Ваш смартфон сегодня — это большие данные в срав нении с тем, что было в 1980-х и 1990-х годах. И даже 2000-х! И если запись на кассете можно было стереть и записать новую
Глава 1. Что такое данные и большие данные?
(но не бесконечное количество раз, потому что качество пленки портилось), стереть фотографии было нельзя и использовать пленку для фотографирования во второй раз было нельзя. Вы сейчас можете такое представить? Потом мир стал постепенно оцифровываться. Появились цифровые камеры, цифровые методы записи, сканеры для счи тывания штрихкодов и qr- кодов, которые теперь используют ся повсеместно, банковские терминалы. Предприятиям стало легче управляться с финансами, магазинам оптимизировать расположение товаров, все стали сегментировать клиентов и покупателей, предоставлять лучший сервис. Этому всему по могли компьютеры и Интернет, обеспечившие доступ к новым большим потокам информации. Правда, сейчас многие говорят, что тогда в первую очередь думали только о хранении информа ции — электронных базах данных с удобным поиском вместо карточек, папок и бумажных архивов. На составление отчетов уходило много времени, сил, денег. А сколько людей требова лось, чтобы работать с бумагами! Еще в 1995 году на вопрос об Интернете в компании Microsoft ответили, что считают его полезным академиче ским инструментом, но не ожидают существенной пользы с коммерческой точки зрения. Даже в этой компании думали, что Интернет будет помогать только ученым, с ним не связыва ли получение прибыли. А ведь в 1995 году персональные ком пьютеры уже получили широкое распространение, по крайней мере, в СШ А. Не было смартфонов, но первое основное тре бование для больших данных — это компьютер с большой па мятью и большой мощностью. В торое требование — это под ключение к Интернету, но важность этого не понимали даже в компании Microsoft. Данных становилось все больше и больше. Технологии стали дешевле, упростился процесс анализа. Очень вовремя появился iPhone (2 0 0 7 ). Стив Д жобс рассказал о нем на конференции в январе, в продажу он поступил 2 9 июня 2 0 0 7 года. На той же конференции Стив Д жобс сказал, что буковка « I » в первую очередь означает Интернет, но также включает и другие поня тия: individual (личный), instruct (обучать), inform (информиро вать), inspire (вдохновлять). В 2008 году появилась новая, более совершенная модель, без многих аппаратных и программных
П р о с то B ig D ata
недостатков первой. Третья появилась в 2 0 0 9 году, объем опе ративной памяти увеличился вдвое, увеличилась скорость рабо ты, появились дополнительные функции. Технологии в смартфонах и не только менялись каждый год, что-то упрощалось, что-то удешевлялось. Появились мобиль ные технологии, облачные технологии. Компании стали поку пать технологии, которые соответствовали веяниям времени, чтобы быть в тренде и оптимизировать свою работу, а в резуль тате увеличить прибыль. Появились возможности считывать данные и реагировать на происходящее в режиме реального времени. И люди, и машины стали принимать решения online. В наши дни данные есть везде: в телефонах и домашней бы товой технике, во всех датчиках, в светофорах на улице, каме рах видеонаблюдения. Преимущество больших данных в том, что разрозненные источники информации можно соединить, синтезировать, соотносить друг с другом, чтобы на этой основе принимать правильные решения. И если термин Big Data появился в 2008 году, я думаю, что мы можем говорить о факте рождения больших данных в 2 0 0 7 году. Вечная память Стиву Джобсу.
Глава 2. Большие данные и шопинг
ГЛАВА 2. БОЛЬШИЕ ДАННЫЕ И ШОПИНГ В командировку со смартфоном Я смог в полной мере оценить возможности современных технологий, когда отправился в командировку в Лондон. Я за казал такси через Uber — приложение, которым пользуюсь и в СШ А. Компания Uber Technologies Inc. разработала гени альное приложение для поиска, вызова и оплаты такси. Вы за казываете машину с водителем и отслеживаете ее перемещение к месту, где находитесь. Вы заранее знаете, кто будет вашим во дителем, вам сообщают цену, потом приложение присоединит ся к вашему банковскому счету и предоставляет вашему банку информацию о платеже. М ожно платить и наличными. В компа нии более 2 0 видов такси, они занимаются и доставкой, для сни жения платы вы можете разделить поездку с кем-то еще. Напри мер, такой сервис был предложен мне в аэропорту в Лондоне. Вообще в каждой стране свой набор услуг с учетом специфики. Uber работает уже в 76 странах мира. В большинстве стран 80% оплаты идет водителю (часто это водители со своими автомо билями). В немецком языке слово, используемое для названия при ложения, означает «над, сверху, превыше всего ». В английском языке оно перешло в разряд сленга и означает «су п е р » . Так что первое название компании можно перевести как «С уперТакси » ( UberCab ). И если вспомнить годы моей юности, то та кой сервис на самом деле — супер. Правда, в современном мире технологиями владеют не только положительные герои, но и мошенники. Например, в октябре 2 0 1 6 года база данных компании Uber была взломана
П р о с то B ig D ata
и украдены данные 50 миллионов пассажиров и 7 миллионов водителей. У мошенников оказались имена, номера мобильных телефонов, адреса электронной почты клиентов, номера води тельских удостоверений водителей. Злоумышленники потребо вали выкуп и получили его. Но где гарантия, что никто не вос пользуется вашими персональными данными? Компания Uber использует большие данные, в особенности теперь, работая по всему миру. В частности, стало известно, что специалисты компании изучают и поведенческие особен ности клиентов и таким образом определяют их род занятий. Это помогает блокировать преступников, конкурентов и чи новников контролирующих органов. Например, в свое время транспортные инспекторы заблокировали Uber в Портленде, штат Орегон, так как на работу не было разрешения городских властей. ... Так вот. Я доехал до центра Лондона, до офисного здания, где работает мой старинный приятель, с которым я назначил первую встречу. Стоило выйти из такси, как я получил инфор мацию через приложение Starbucks о том, что одна из их кофеен находится совсем рядом. Starbucks Corporation — это американ ская компания по продаже кофе и одноименная сеть кофеен. Они работают в 65 странах мира. После появления мобильного приложения в 2 0 1 3 году 10% покупок в тот год было сделано через мобильное приложение Starbucks. И в том же году она по пала в список 100 ведущих компаний мира по версии журнала
Fortune. В последнее время я делаю заказы в Starbucks с помощью смартфона, и все мое «общ ение» с этой компанией проходит через их приложение. Они знают, в каких кофейнях я бывал, ког да я там бывал и что заказывал, я считаюсь одним из их постоян ных клиентов. В Лондоне я действую так же, как и в любом го роде СШ А. Я знаю, что Starbucks очень успешно запустила свою сеть в Китае, в России. Я прихожу в кафе — и мой заказ уже ждет меня на стойке. Благодаря тому же приложению у меня есть счет в Starbucks, и компания каждый раз при оплате мною товаров не шлет запросы в мой банк. О т меня только требует ся периодически этот счет пополнять — и только тогда я вза имодействую с банком. Но на счету Starbucks деньги должны быть положены заранее — компания не работает по принципу
Глава 2. Большие данные и шопинг
кредитных карт. Если деньги есть, все очень просто — пару раз касаюсь экрана моего смартфона, который также считывает отпечаток моего пальца. И за использование их приложения Starbucks меня еще и премирует! Мы пьем с приятелем кофе, но у меня назначены и другие встречи. У всех людей, с которыми я встречался в Лондоне — и по делу, и дружески, загружено приложение «Н айти друзей», которое позволяет определять местоположение друзей и род ственников в режиме онлайн. У меня запланирован ужин с тре мя коллегами, и я быстро узнаю, что один все еще находится на работе, второй — в метро, а третий — в пяти минутах ходь бы от ресторана, в котором мы встречаемся. Я считаю, что это приложение лучше всего подходит для женщин, которые от правляются за покупками вместе и могут потеряться в торго вом центре, и для семей с детьми. Семьи могут использовать его везде — опять же в торговом центре, в музее, в парке аттракци онов. Теперь вы не потеряете вашего ребенка! Это стало возможным благодаря технологиям Big Data. Но сколько всего о нас знает провайдер подобной услуги? С ко рее всего, он знает, где вы находились все время после актива ции приложения. И такое приложение может подключить себе каждый владелец смартфона. Только подумайте, что бы за него отдали спецслужбы в прошлом, а тем более позапрошлом веке. Им такое даже не снилось! Я сам нахожу ближайшую станцию метро с помощью Google Maps. Google тоже сохраняет информацию о моих передвиже ниях. За проезд в метро я плачу с помощью телефона. Теперь системы Apple отмечают, где я нахожусь и что делаю. Стоимость поездки в метро уходит в базы Apple, а уже оттуда запрос от правляется в мой банк. Банк отправляет мне СМ С-сообщ ение о том, что я воспользовался Apple Рау и сколько стоила поездка. Оплата идет через Apple в банк, обслуживающий лондонское метро. Потом я плачу в ресторане через Apple Рау или PayPal и предоставляю информацию о себе и своих действиях ресто рану, банку и Apple. То есть несколько различных крупных систем в течение одного дня получают информацию обо мне, моих передви жениях и действиях. Это современные технологии. С моей точки зрения, у меня был легкий вечер, не потребовалось
П р о с то B ig D ata
напрягаться, прилагать усилия, у меня не было с собой бу мажных денег (и опасений, что кто-то вытащит мой бумаж ник в чужой стране, как было раньше), мелочь не оттягивала мои карманы. Я не боялся за безопасность платежей благода ря используемым крупными системами технологий. Большие данные сделали мою жизнь более удобной. В ответ на это компании, участвовавшие в транзакциях, узнали больше обо мне и моих пристрастиях. Им это нужно и выгодно. И это вы годно мне — потому что в дальнейшем какие-то из этих ком паний обязательно предложат мне скидки на то, что я люблю и чем пользуюсь. М ы все выигрываем от Big D ata — и компа нии, и отдельные люди. Современные технологии помогают компаниям собирать данные, благодаря которым они лучше узнают меня, они знают, как убедить меня делать покупки чаще и тратить больше. Мину сом подобных технологий является естественное опасение — раз они так много обо мне знают, то ведь могут и использовать эту информацию против меня. В моих ли интересах постоянно находиться под наблюдением, да еще такого количества глаз? Да, это, конечно, беспокоит, но я не откажусь от использования современных технологий, я уже не могу себе представить жиз ни без них. Big D ata очень сильно упростили мою жизнь.
Система управления взаимоотношениями с клиентами Если вы живете в деревне или поселке, то вас точно знают в местном магазине. Если вы живете в большом городе и заходи те в небольшие магазинчики, а не раз в неделю ездите закупать ся в крупный супермаркет, то вас в этих магазинчиках знают. Ваш мясник знает, что вы, например, всегда берете ребрышки на суп и фарш и просите взвесить вам фарш по 500 граммов в разные пакеты. В рыбном магазине знакомый продавец вам скажет, что сегодня привезли отличную треску, а за селедкой нужно приходить завтра. В книжном магазине вам отложат но вую книгу автора, которого вы всегда берете. В канцелярском могут продать пачку бумаги по оптовой цене, потому что вы ре гулярно покупаете у них канцелярские товары. Список можно продолжать долго.
Глава 2. Большие данные и шопинг
Эти продавцы знают вас лично и, пусть на подсознательном уровне, взвешивают ценность продажи товара по завышенной цене сейчас, с одной стороны, и наличие постоянного покупа теля с другой. Они знают вас как постоянного покупателя, вы регулярно к ним приходите, а при индивидуальном подходе, персональном обслуживании вы и дальше будете приходить к ним. Нельзя один раз содрать по максимуму и почивать на лав рах, если вы хотите долго работать в этом районе, поселке, де ревне. Получили поменьше сейчас — и покупатель будет прихо дить к вам снова и снова. На протяжении столетий подобный подход прекрасно ра ботал в разных странах во всех частях света. Но только в слу чае маленьких магазинчиков, которые знают своих покупате лей в лицо. С появлением больших данных подобный подход стал возможен и в крупных сетях. Они дают возможность приблизиться к персональному обслуживанию, типичному для маленького магазинчика, но уже миллионов покупателей. Это не всегда срабатывает, дело в так называемом принципе GIGO — «мусор внутрь, мусор наружу»: введение неверной информации в компьютер всегда дает бесполезный результат. Иногда внедрение программ проводится плохо, вяло, ведь хо рошее обслуживание покупателей стоит немалых денег. Также играет роль то, что лишь немногие ритейлеры готовы к иннова циям. Они строили свой бизнес, когда о мире Big Data еще ни кто не слышал; они успешно работают на протяжении многих лет и даже десятилетий, получают прибыль и не собираются внедрять новые, совершенно непонятные им технологии, кото рые к тому же дорого стоят. Хотя представители новой волны быстро оценили возможности систем больших данных. В лю бом случае нужно признать, что возможности использования, обработки и анализа больших данных в мире сейчас есть, и они могут очень помочь в торговле и маркетинге. Подобные системы называются системами управления взаимоотношениями с клиентами. Понятие появилось в сфере маркетинга. Это стратегия, направленная на построение устой чивого бизнеса, в основе которой лежит клиенто-ориентиро ванный подход. Основная цель, естественно, — это увеличение объемов продаж, а для этого нужно увеличить удовлетворен ность клиентов. Системы включают прикладное программное
П р о с то B ig D ata
обеспечение для компаний, которое помогает им улучшить об служивание клиентов благодаря сохранению и обработке ин формации о них и, соответственно, оптимизировать продажи. Ядро системы — это подход, ориентированный на удовлетво рение индивидуальных потребностей клиента. В такой системе всегда имеется хранилище информации, в котором собираются сведения о клиентах и историях взаимо отношений с ними. Оно называется клиентской базой. Чем боль ше объем данных, тем лучше для компании. Вся собранная ин формация о клиентах анализируется, и на основе этого анализа принимаются организационные решения. Имея информацию по откликам на промоакции и комментарии на сайте компании, можно прогнозировать спрос на те или иные продукты. Ана лиз накопленной информации о поведении клиентов позволяет оценивать удовлетворенность клиентов и увеличивать ее, а так же регулировать тарифную политику и маркетинг. Данные, которые собираются и анализируются, включают довольно разнообразную информацию о клиенте: пол, возраст, приобретаемый товар, цель приобретения, место приобрете ния, способ оплаты, средний чек, частота покупок, использова ние мобильных приложений, бонусов, реакция на телефонные звонки, на рассылку предложений по электронной почте, — то есть собирается вся история о взаимоотношениях компа нии с конкретным потребителем и персональная информация об этом потребителе. Работа системы состоит из трех этапов. Первый — это сбор информации. Сведения могут добавляться автоматически, а могут вводиться вручную. Чаще используются оба способа. Второй этап — хранение и обработка данных. Сведения систе матизируются и группируются. Третий этап — это передача сведений сотрудникам. Обработанная информация часто пред ставляется в таблицах и графиках. Машина может выдать свои рекомендации. Данные обрабатываются автоматизированно и централизованно — работают технологии Big Data. Это дает лучший результат, чем обработка данных по точкам продаж, по городам и т. д. Участие сотрудников, то есть человеческого фактора, в процессе минимально. При этом обработка проис ходит оперативно, чтобы оперативно вносить корректировки и снижать риски потерь.
Глава 2. Большие данные и шопинг
Но окончательный анализ все-таки проводят люди, они принимают решения и вырабатывают концепции. Принципы работы с использованием системы управления взаимоотношениями с клиентами и больших данных включают несколько направлений — обслуживание на точках продаж, те лефонные звонки, рекламная рассылка по электронной почте, все виды рекламы, часто персонализированной, акции и меро приятия. Также с помощью таких клиентских баз компании ис пользуют общение с клиентами через социальные сети, в чатах, предлагают клиентам регистрироваться на своих сайтах, где даются рекламные ссылки и проводятся акции. Бизнес-процесс автоматизируется, и это помогает обеспечить клиентно-ориентированный подход. Появление и развитие таких систем напоминает развитие человечества. Вначале был ручной труд и дефицит многих то варов, потом появилось массовое производство, и степень уча стия человека в процессе значительно снизилась. То, что было дефицитом, стало доступно массам людей. Сейчас изменились и клиенты. Некоторые хотят иметь вещи, которых нет у других, готовы переплачивать за уникаль ный продукт. А современный бизнес не может существовать без клиентов. Они — составляющая успеха вместе с той про дукцией, которую предлагает компания. Предприятия должны организовывать производство так, чтобы в зависимости от реакции клиентов они могли его пере строить и переориентировать. Для этого, в свою очередь, нужна обратная связь с покупателями. И поэтому нужно разработать систему обмена информацией с потребителями и партнерами. И сейчас все более и более важным становится разработка ин дивидуальных предложений и индивидуальный подход. Лучший вариант — это интегрированная система. Она обе спечивает координацию деятельности разных подразделений предприятия, разных точек продаж в Сети. Она помогает со гласовать работу отделов продаж, маркетинга и сервиса. Ведь часто бывает, что они действуют обособленно друг от друга, и их представления о клиентах и их потребностях не совпадают. Система помогает быстрее реагировать на запросы и умень шить издержки, повысить конкурентоспособность и увеличить прибыль.
П р о с то B ig D ata
Конкурентную борьбу в современном мире выигрывают те компании, которые полностью осваивают системы управ ления взаимоотношениями с клиентами. Они исследуют пред почтения покупателей и предсказывают спрос на ту или иную продукцию и часто еще и в конкретном ценовом сегменте. Они могут оценить и спланировать эффективность вывода товара на рынок. Такие системы могут применяться любым предприя тием вне зависимости от сферы деятельности. Хотя я начал го ворить про торговые компании, системы полезны и сервисным компаниям. Они помогают контролировать износ оборудова ния у клиентов, потребность в профилактике, ремонте, учиты вать наиболее частые поломки и встречающиеся дефекты, а по том предлагать обновленную технику на основе предпочтений клиентов. Но большие данные могут работать в обоих направлени ях — на компанию, магазин, банк и на покупателя, то есть на вас. Магазин хочет знать о вас как можно больше, чтобы вы не ушли к конкурентам, и вытянуть из вас как можно больше денег. А вам нужны данные о магазине, чтобы получить лучший товар по наи более привлекательной цене и лучший сервис. Если большие данные правильно используются, то в выигрыше остаются все.
Карты лояльности Самые первые подобные возможности появились вместе с картами лояльности. Фактически это документ, предоставля ющий обладателю дополнительные преимущества. Часто уже после одной покупки вы можете стать «привилегированным клиентом». С помощью таких карт борются с конкуренцией, привлекают клиентов и формируют пул постоянных клиентов. 80% прибыли в любом бизнесе дают постоянные клиенты, которые составляют только около 20% от числа всех клиентов. Эту закономерность установил итальянский инженер, эконо мист и социолог Вильфредо Парето ( 1 8 4 8 -1 9 2 3 ) , и в честь него был назван принцип Парето, который действует уже сто лет. Поэтому компании стараются не просто найти новых клиентов, а и превратить их в постоянных покупателей. Одни из наиболее популярных средств для этой цели — карты лояльности.
Глава 2. Большие данные и шопинг
Дисконтная карта — это самый простой пример привле чения клиентов: при дальнейших покупках в этом магазине или сети вы получите скидки, если у вас есть дисконтная карта. Обычно это определенный процент от суммы покупки, в неко торых магазинах на ценниках указывается цена для обладателей дисконтных карт и для тех, у кого их нет. Иногда карты прихо дится покупать за отдельную плату. Магазинам и сетям выпуск карт обходится дешево, но подобные карты теперь есть у всех конкурентов. М ожет использоваться и накопительная система: вам на числяются баллы после каждой покупки, которые вы можете использовать в дальнейшем. При увеличении общей суммы по купок могут увеличиваться и проценты отчислений. Бывают и VIP-карты, владельцам таких карт предоставля ются дополнительные услуги, особые условия. Например, это может быть бесплатная доставка товара. Но для получения та кой карты, как правило, нужно быть постоянным клиентом ком пании на протяжении какого-то периода времени и совершить покупки на определенную общую сумму. То есть вначале вы по лучаете обычную карту лояльности, потом серебряную, а потом золотую. Магазин никогда не останется в проигрыше! Но это выгодно и вам. Подобные программы лояльности работают в продукто вых, парфюмерных, хозяйственных магазинах, кафе и рестора нах, на заправках и в авиакомпаниях. При получении подобных карт вам предлагают заполнить анкету, в которой вы указываете свои данные и подписывае те согласие на их обработку. И тут в дело вступают системы, о которых было рассказано в предыдущей главе. Более того, вас начинают регулярно оповещать о появлении каких-то товаров, скидках, акциях и т. д. И вашу реакцию, и ваше поведение изу чают и анализируют. При каждой покупке информация о ней поступает в базу данных компании. Подобный сбор информа ции, обработка и анализ стали возможны только с появлением современных технологий и в частности Big Data. А вообще программы лояльности появились в начале X X ве ка. В 1914 году в СШ А некоторые магазины стали выдавать состоятельным клиентам специальные карточки, по которым можно было покупать товары в кредит. Они были бумажными.
П р о с то B ig D ata
Металлические пластинки появились в 1928 году, их стала вы давать компания Farrington Manufacturing в Бостоне. Эти пла стинки вкладывались в специальную машину под названием импринтер, и выдавленные на ней буквы отпечатывались на чеке. Первые программы лояльности были только местными, общенациональные и международные появились только с раз витием компьютерных технологий. Первой такой программой лояльности в истории можно считать предложение авиакомпа нии American Airlines в 1970-е годы. Авиакомпания предложила считать мили, которые налетает клиент на ее самолетах, а потом обменивать мили на билеты. Международные гостиничные про граммы лояльности появились в 1980-е годы. Первой такую про грамму ввела сеть отелей Marriott, она стала поощрять гостей, которые останавливались в ее отелях по всему миру: клиентам начисляли очки, из них можно было набрать на бесплатное про живание. И эта же гостиничная сеть первой заключила договор с авиакомпаниями, договор позволял менять очки на мили. Это была первая в истории коалиционная программа лояльности. Сейчас они получают все большее распространение и, в частности, благодаря технологиям Big Data. Такие програм мы объединяют нескольких партнеров из разных сфер бизнеса, имеющих примерно одинаковый вес в своих сегментах и по хожую или даже общую целевую аудиторию. Внедрить такую программу сложнее, но поддерживать для компаний дешевле, чем свою собственную, кроме того, они считаются более при влекательными для потребителей. Также они помогают участ никам программы привлечь новых клиентов и обмениваться клиентской базой. К коалиционным программам относятся банковские карты с опцией cashback. Вы делаете покупки у парт неров банка — и вам возвращают 1,3% , а то и больше от сделан ной покупки. Для примера могу привести авиакомпанию Virgin Atlantic, которая сделала бонусную систему многоуровневой — вы м о жете обменивать мили на оплату парковки, отеля, аренду ав томобиля. После того как накопите определенное количество миль, вы получаете другой статус — серебряный. Начинает на числяться больше миль, и вы можете регистрироваться на рейс вне очереди. Третий уровень — золотой. Клиент может пользо ваться VIP-зонами в аэропорту.
Глава 2. Большие данные и шопинг
Сам я впервые получил карту лояльности в кофейне, куда регулярно заходил. Тогда на карточку наклеивались марки за ка ждую купленную чашку кофе. Карточка заполнялась — я полу чал бесплатную чашку кофе и новую пустую карточку. Н о све дений обо мне ни кофейня, ни сеть, в которую она входила, не получали. Они просто привлекали меня возможностью по лучить бесплатную чашку кофе. Сейчас таких карт лояльности, по крайней мере в развитых странах, уже нет. Они все включа ют сбор информации о клиенте. Очень интересной представляется программа Clubcard бри танской сети супермаркетов Tesco. Она была запущена 13 февра ля 1995 года и позволила компании обогнать своих конкурентов и увеличить долю рынка. А маркетинговое исследование потен циала карт лояльности началось в 1993 году. Ни одна торговая сеть до Tesco такого крупномасштабного исследования не про водила. Изначально в компании в качестве промо-инструмен та использовали марки, за которые клиенты по возвращении в магазины сети получали вознаграждение. Но это не давало информации о клиентах! Карты с магнитной полосой предо ставили эту возможность. Лорд Маклорен, который на тот мо мент возглавлял совет директоров Tesco, произнес знаменитую фразу, обращаясь к молодым разработчикам, использовавшим новые технологии: «М еня пугает то, что вы через три месяца знаете о моих покупателях больше, чем я за тридцать л ет » . Сей час карты лояльности Tesco имеются у 17 миллионов человек только в Великобритании, а также в Ирландии, Чехии, Польше и Венгрии. Tesco при выдаче карты просит, в частности, указать информацию о детях и активно использует технологии Big Data. В последнее время эффективность таких программ падает. Считается, что падение началось с 2 0 1 5 года. Люди не видят для себя реальной выгоды и считают бонусные программы по пытками продать ненужные товары, а звонки и СМ С-сообщ ения с предложениями начинают раздражать. И компании придумали еще один способ привлечения кли ентов — своими некоммерческими программами и проводи мой политикой. При выборе и покупке товаров клиент узнает, например, об экопрограммах компании, эта информация есть на сайте, о ней клиенту могут сообщать и персонально, опять же используя системы больших данных. С их помощью
П р о с то B ig D ata
можно узнать и об интересе клиента к экологичности това ров, его участии в соответствующ их акциях. Компания со з дает позитивный и привлекательный для клиента образ, и это объединяет производителя и клиента. Например, британская компания Lush — один из самых известных британских про изводителей экокосметики, привлекает клиентов политикой компании. В составе средств используются только натураль ные ингредиенты, они не тестируются на животных, не нано сится вред окружающей среде. Более того, создана специаль ная упаковка, которую можно переработать и использовать еще раз. Клиенты собирают баночки, приносят их в магазин, и за это получают маску для лица или скраб — чем понятнее и прозрачнее производство, тем больше доверие к компании, тем больше у нее клиентов.
Сравнительный шопинг Но технологии Big Data также позволяют не ходить по ма газинам вообще, если вы этого не любите. Теперь вы можете за ниматься шопингом не вставая с любимого дивана. Хотите за казать пиццу — дотроньтесь до экрана вашего смартфона пару раз, и вскоре курьер с аппетитной коробкой окажется у вас на пороге. Теперь все мои друзья и знакомые проводят поиск в Ин тернете перед тем, как делать крупные покупки. Какой товар есть на рынке? Где он дешевле? Некоторые вообще не поедут ни в одни магазин и закажут товар по Интернету, другие после изучения предложения все-таки поедут, чтобы, так сказать, по щупать товар. Например, вам нужен новый холодильник. Если вы живете в относительно крупном городе, то у вас наверняка есть сайт «Холодильники». Там представлены если не все магазины го рода, торгующие холодильниками, то, по крайней мере, все сети, торгующие бытовой техникой. Вы изучаете цены, техни ческие характеристики, читаете отзывы. Потом часть людей едет в реальный магазин, зная, что картинка в Интернете может отличаться от реального вида товара. Но едете в тот магазин, где выбранная модель холодильника дешевле! Это типичное
Глава 2. Большие данные и шопинг
поведение для людей среднего и старшего возраста, овладевших Интернетом. Более молодые чаще не едут, а заказывают товар по Интернету. С другой стороны, в С Ш А 98% пользователей Интернета читают отзывы о товаре перед его приобретением. Конечно, сейчас я не говорю про йогурты, хотя отзывы о про дуктах питания тоже читают. Но перед приобретением како го-то товара длительного пользования отзывы о нем читают сейчас практически все. Поскольку практически не существует маленьких магазин чиков бытовой техники, где продавец знает всех покупателей, получить скидку и отсрочку оплаты у менеджера сетевого ма газина практически нереально. А хочется купить подешевле. Хочется знать, где подешевле. Такова наша природа — хорошо там, где нас нет, и у соседа трава всегда зеленее. Современные технологии позволяют узнать, где она зеленее и насколько хоро шо там, где нас нет. Некоторые современные покупатели очень долго ищут нужный товар, чтобы не упустить самое выгодное предложение. В современном английском языке даже появился термин для таких покупателей — comparison shoppers (сравнива ющие покупатели). Больше всего во время шопинга мобильные устройства ис пользуют люди в возрасте от 25 до 3 4 лет. Находясь в магазинах, они используют телефоны для сравнения цен, общения с друзь ями, чтобы получить советы и рекомендации, и общения с тор говыми компаниями через их сайты, социальные сети и чаты. 72% миллениалов (родившихся с 1980-го по 2 0 0 0 год) изучают все возможные варианты онлайн перед тем, как реально идти в магазин. Отзывы о товарах в Интернете влияют на решения, кото рые принимают 55 % покупателей всех возрастов. Наверняка вы видели, как люди направляют свои смартфоны на какие-то то вары. Кто-то их просто фотографирует, чтобы, например, спросить мнения у друзей и знакомых, но большинство скани рует код. Сейчас есть приложения, которые помогают быстро определить, можно ли купить этот товар подешевле, например, в интернет-магазине. И так получается, что реальные мага зины, которые тратят деньги на аренду залов и зарплату про давцов, ничего не получают, так как продажа осуществляется в Интернете. А реальный магазин не получает даже комиссии
П р о с то B ig D ata
за предоставление своей площади и товара для считывания кода. М ногие экономисты говорят, что в будущем у нас с каждым го дом будет все меньше и меньше реальных магазинов, и торговля во все большей и большей степени будет уходить в Интернет. Но ведь всегда кто-то выигрывает, а кто-то проигрывает. М ы с вами, как потребители, выигрываем. А многие большие мага зины или сетевые магазины теперь имеют площадки в Интерне те в дополнение к реальным магазинам. И в своих интернет-магазиных они продают товары дешевле, чем если вы покупаете тот же товар в торговой точке. Количество методов сравнения бесконечно, они во многом зависят от конкретного человека, но их можно объединить в не сколько групп: базы сравнительного шопинга, чтение отзывов, изучение альтернатив и конкурентов (с помощью Google ). Базы сравнительного шопинга именуются comparisons engines или comparison shopping engines. Они собирают информа цию о товарах и отображают ее для тех, кто отправляет соот ветствующие запросы. Продавцы могут сами загружать данные о своих товарах, включая цену, срок гарантии, опции и т. д. Что этот сравнительный шопинг означает для бизнеса, в особенности интернет-магазинов? Это значит, что компа нии должны изучить предложение всех конкурентов, причем не только цены конкурентов, но и все их предложения. Конку рентная борьба теперь распространяется не только на ассорти мент и цены, но и бонусы, обслуживание клиентов, гарантийные сроки, гибкость даты поставки и общую удовлетворенность клиентов. Торговцам приходится помнить, что покупатели не хотят платить лишнее. И вообще очень-очень не хотят платить. На пример, международное маркетинговое агентство Mindshare North America опубликовало очень интересную статистику. 47% миллениалов при совершении покупок в интернет-магазинах не завершают процесс покупки, а только набирают «корзину» и ждут, когда магазин с ними свяжется, чтобы предложить более выгодную цену, дать скидку, подарок, что-то! 26% признались в том, что вводили неправильную дату рождения для получения скидки или подарка. 70% перед покупками ищут промо-коды. 64% процента ждут, чтобы товар отправился на распродажу. 39% подписаны на специальные сервисы мониторинга цен
Глава 2. Большие данные и шопинг
для получения уведомления о падении цены на интересующий товар. В се это стало возможным благодаря появлению совре менных технологий. Простота оформления покупки важна для 74% . Разнообра зие представленных брендов и продуктов для 73% . Количество доступных методов оплаты для 62% . Возможность отслежи вать доставку для 66% . Наличие бесплатной доставки для 61% . Простая и понятная процедура возврата для 56% . Возможность в любой момент связаться со службой клиентской поддержки для 46% . Возможность приобретения товара с помощью при ложения в смартфоне для 38% . То есть для продавца необязательно предлагать самый де шевый вариант, важно заострить внимание на том, почему именно вы предлагаете лучшее качество, почему ваш товар уни кален. Снова и снова подчеркивайте то, что делает вас лучши ми на рынке. Поработайте над уникальностью предложения, если же товар не уникален, придется привлекать самой низкой ценой. Продавцы размещают свои предложения в базах сравнения и на сайтах со скидками. Процедура аналогичная. Как прави ло, указывается цена, производитель, прилагается фотография, описание и разнообразные данные, все это помещается в табли цу. В каждой сравнительной базе есть свои требования для за гружающих данные, например формат файла. Как только база обработает ваше предложение, оно откроется для широкого доступа. Плата — за каждый клик. То есть все подобные сайты сделаны по одному шаблону и функционируют похожим образом, но есть детали, которым следует уделить внимание. М огут быть разные требования к за гружаемым файлам, текстам, изображениям, а также разные принципы выставления счетов. Аудитория баз может разли чаться. Ведение сравнительного сайта может оказаться совсем не дешевым делом. Первый такой сайт в Великобритании пред лагал сравнивать цены на книги. Он назывался BookBrain, появился в 1999 году. В настоящее время в разных странах действует несколько подобных сайтов, где можно сравнивать цены на книги, но все они остаются небольшими. Самые успеш ные сравнительные сайты работают в тех областях, где можно
П р о с то B ig Data
получать высокие комиссионные, например это страхование и туризм. А комиссионные являются очень важным фактором, и его обязательно нужно учитывать. Ведь сравнительные сай ты сами ничего не продают, так что для зарабатывания денег они должны получать плату за отсылку клиентов к ритейлерам. Поэтому их и нет для некоторых сегментов рынка. Невыгодно! Для владельцев сайта наиболее выгодно отправлять покупате лей к тем продавцам, которые платят им самые высокие комис сионные, независимо от того, предлагают они покупателям луч шую цену или не предлагают. И технология Big Data им в этом помогает.
Целевая реклама Е сли вы сами когда-то работали продавцом, то умеете опре делять людей, которые не сделают покупку. Этому быстро учат ся все продавцы. Конечно, такое маловероятно в продуктовом магазине, а в магазинах бытовой техники случается сплошь и рядом. Эти люди часто отнимают массу времени у продавцов, и магазин теряет другого покупателя и, соответственно, деньги, потому что продавец был занят с тем, кто в результате покупку не сделал, и не уделил внимание тому, кто в результате сделал ее, но в другом магазине. В интернет-магазинах несколько иное положение дел, но современные технологии помогают улавли вать людей, которые попусту тратят время. Не время продавцов в данном случае, а убивают свое. Современные технологии по зволяют перенаправлять таких людей на другие сайты. И ком пания от этого только выигрывает! Наиболее часто подобное происходит на туристических сайтах. Система может быть настроена таким образом, что реша ет: маловероятно, что вы совершите покупку. И это — иде альный момент для появления рекламы конкурента. Если вы кликнете по появившемуся рекламному объявлению, то сайт, на котором вы были (и теряли время), получит небольшие ко миссионные. Это лучше, чем ничего, а еще лучше, что комисси онные выплачивает ваш конкурент. Система «чи тает» опреде ленные сигналы, например, учитывает информацию о заходах на сайт с вашего IP- адреса. Эта информация хранится в базах
Глава 2. Большие данные и шопинг
данных: заходили ли вообще раньше, сколько раз, делали ли по купки в прошлом. Также может учитываться время дня, время года, когда вы зашли на сайт. Учитывается и ваш запрос. Да, это не стопроцентное попадание, но в большинстве случаев систе ма «угады вает» правильно, и количество ошибок получается приемлемым для компании. Однако эта система не учитывает, что ошибка в таргетиро вании может раздражать потенциального покупателя. И тут мы подходим к вопросу целевой рекламы. Она стала возможной тоже благодаря большим данным (в том виде, в котором суще ствует сейчас). Современные технологии «улавливают», что вы интересовались каким-то товаром (фотоаппаратом, духами, хо лодильником, лаком для волос), и вам начинают настойчиво этот продукт предлагать. Наверняка вы замечали такое. Только сде лали запрос, посмотрели товар, собрались заняться другими де лами, например ответить на письма, — а там реклама аналогич ных товаров. Это начинает раздражать. И ведь система не знает, когда вы покупаете товар. Например, вы покупаете духи, какие хотели, на следующий день после того, как делали соответству ющий запрос в поисковой системе, но целевая реклама у вас бу дет всплывать еще неделю. А как обидно бывает, если вы узнаете, что заплатили больше, чем в каком-то магазине! 68% миллениалов и 64% взрослого населения раздражает снова и снова появляющаяся одна и та же реклама. 54% процен та купят товар, о котором думали, но от которого отказались, если им предложат эксклюзивную скидку. 70% продавцов го ворят, что проще удержать старого клиента, чем приобрести нового. 49% вкладываются в развитие отношений с уже имею щимися клиентами. Передовые магазины зарабатывают на ста рых клиентах до 80% . Что им помогает? Технологии Big D ata ! Они собирают информацию о своих клиентах и напоминают им о себе. Иногда система ошибается очень серьезно. И в СШ А уже есть случаи подачи соответствующих исков. Хотя трудно опре делить, против кого подавать иск. Например, вы вводите запро сы о товарах для лежачих больных, которые раньше не вводили никогда, и вдруг у вас на экране начинает всплывать инфор мация о ритуальных услугах. Это реальный случай. У женщи ны во Флориде серьезно заболела мать, которая в дальнейшем
61
П р о с то B ig Data
выздоровела. Но дочь успела сфотографировать целевую рекла му, которая вдруг стала всплывать у нее на экране. Есть и другие неприятные вещи, связанные с целевой рек ламой и большими данными. Например, человек ищет инфор мацию об управлении долгом — ему нужна помощь, подсказка, какие действия предпринять, чтобы уменьшить сумму долга, тщательно спланировать расходы, урегулировать отношения с уже имеющимися кредиторами, найти источники рефинан сирования. Н о тут же всплывает реклама краткосрочных по требительских кредитов, которые именуют «кредиты до зар платы». Подобные «кредиты до зарплаты» всегда усугубляют положение тех, у кого уже есть долг. Подобная целевая рекла ма — большой минус технологии Big Data. Хотя дело в человеческом факторе, ведь систему настра ивают люди. Почему бы при запросе об управлении долгом не посылать человеку информацию о благотворительных ор ганизациях, которые занимаются как раз управлением долга ми, и бесплатно! Такие организации есть в СШ А. Так что дело не в больших данных, а в вопросах морали. Благотворительные организации не платят комиссий ни одному сайту. Тем временем системы собирают информацию о ваших запросах в поисковых системах. И она не удаляется! И систе мы умеют анализировать ваши сезонные запросы. Они зна ют, что вы покупаете каждым летом, а что — каждой зимой, и при приближении соответствующего сезона у вас будет вы плывать реклама каких-то товаров — тех, которые, по мнению Big Data, вы можете в ближайшее время приобрести. Так приоб ретайте их в тех фирмах, которые платят сайту комиссионные!
Amazon Конечно, вы все слышали про этот интернет-магазин, в ко тором можно найти практически все. Это и есть магазин бу дущего, использующий технологии Big Data. Это крупнейший в мире интернет-магазин, а его основатель Джефф Безос — пер вый в истории и пока единственный миллиардер с 12-значным состоянием. Билл Гейтс, который на протяжении 16 лет подряд был первым богачом планеты, опустился на второе место.
Гл ава 2. Б о л ь ш и е д а н н ы е и ш о п и н г
Джефф Безос — это само воплощение американской меч ты. Этот человек сделал себя сам. Его отличительная черта — фантастическое трудолюбие. К нему добавляются дисциплини рованность и пунктуальность. Электронно-вычислительными машинами он увлекся в школе, и тогда же сам начал собирать роботов и различные модели судов. Школу Безос окончил с от личием, а затем учился в Принстонском университете, потом работал в финансовых фирмах на Уолл-стрит. В 2 9 лет Безос стал самым молодым вице-президентом крупной инвестици онной компании D .E. Shaw & Со. Ее основатель — профес сор информатики Колумбийского университета Дэвид Шоу, который сделал ставку на компьютерные технологии. Именно поэтому в компанию попал Безос, который в этих технологиях прекрасно разбирался. Да и Ш оу считал неизбежным наступле ние эры Интернета — за 1993 год активность пользователей Сети в СШ А увеличивалась в 2 3 0 раз. Уже тогда Б езос задумал ся об интернет-магазине, в котором можно купить все. Но он понимал, что сразу такой магазин создать не получится. Эра Big Data еще не наступила. А когда идея сформировалась, Джефф бросил хоро шую должность и ушел в свободное плавание. Это случилось в 1994 году. Ему было тридцать лет. Он понимал, что начинать надо с одной отрасли и дать покупателям неограниченный вы бор в этой сфере. Выбор пал на книги — на тот момент в мире в год издавалось три миллиона «названий». И у каждой книги еще и был свой тираж, иногда превышающий миллион экзем пляров. Ни один магазин не в состоянии разместить три милли она разных книг на своих полках. А это только книги, изданные за один год. Но ведь есть и спрос на издания прошлых лет. Вы бор на книги пал и еще по одной причине — в СШ А только два крупных оптовых продавца книг. Безос назвал магазин Amazon в честь самой большой реки на Земле. Это была аналогия с самым большим книжным ма газином планеты. Джефф и его супруга вложили в бизнес все накопления и еще взяли кредит. Супруга стала бухгалтером но вой фирмы. Бизнес начинался в родительском гараже без окон. Сколько великих людей нашего времени начинали бизнес в га раже или в комнате университетского общежития (Стив Д жобс и Стив Возняк основали Apple в гараже, Билл Гейтс и Пол Аллен
Просто Big Data
основали Microsoft в гараже, Марк Цукерберг начинал в комна те университетского общежития)! Безос покупал у оптовиков книгу со скидкой 50% и отсылал клиенту, который ее заказал, по цене ниже розничной. Но для оптовой скидки требовалось брать 10 книг. Б езос нашел выход — в дополнение к заказанной клиентом книге он заказывал еще девять редких книг, напри мер, по каким-нибудь лишайникам. Этих книг на складе не ока зывалось, он получал одну за 50% цены, да еще и с извинениями дистрибьютора за то, что книг по лишайникам нет. Ну а теперь это самый большой интернет-магазин планеты. В нем можно купить любые товары. Фактически — рыночная площадка для множества продавцов. И компания берет свои комиссионные за то, что делает продажу возможной. Но цену устанавливает продавец. Продавцы могут корректировать цену, причем в обе стороны — поднимать, если никто не предлагает товар дешевле, или опускать, если такие конкуренты нашлись. Отслеживание ситуации стало возможно благодаря технологии Big Data. В данном случае используется программный механизм под названием «ш о п б о т». Он осуществляет поиск выгодных цен на представленную продукцию. Подобной программой может воспользоваться каждый, ведь крупные продавцы вы ставляют тысячи наименований продукции, человеку просто не справиться с таким объемом данных. Программа может быть настроена таким образом, что будет оповещать вас о снижении цены на интересующий товар. Она также оповещает продавцов о снижении цены конкурентами. Эта технология используется на Amazon. Джеффу Безосу принадлежат слова: «Будущее полно от крытий. Люди не имеют ни малейшего представления о том, сколь впечатляющи перспективы Интернета, и сейчас мы нахо димся лишь в самом начале этого большого пути».
Авиакомпании Авиакомпании стали одними из первых успешных пользо вателей больших данных. Они стали использовать технологии Big Data, предоставляя услуги бронирования, и использовать очень успешно. Компанию American Airlines можно назвать
Гл ава 2. Б о л ь ш и е д а н н ы е и ш о п и н г
пионером в этом деле, и у них все получилось так хорошо и бы стро, что они даже стали называть себя «компанией по брони рованию, в которой также есть и самолеты». В наши дни бро нирование происходит в режиме реального времени за доли секунды и по всему миру. Наверное, авиакомпании лучше всех других осведомлены о продажах и положении дел. Но с этими компаниями связана одна странность — по крайней мере, нам на первый взгляд кажется, что это стран ность, а если хорошо подумать и проанализировать ситуацию, то понятно, что это хорошо просчитанный риск, а соответ ственно — правильное решение с коммерческой точки зрения. Я говорю о том, что уже на протяжении многих лет авиаком пании по всему миру позволяют бронировать места большему количеству пассажиров, чем мест в салоне. Авиакомпании про водят оперативные исследования поведения пассажиров. Во время Второй мировой войны в авиацию пришли фи зики и математики, которые помогали с решением проблем. Проблемы, конечно, были связаны с войной. Например, они рассчитывали величину заряда, который необходим для выве дения из строя подводной лодки, если бомба сбрасывается с са молета, летящего на определенной высоте. После окончания войны аналитики в авиации остались, но стали вести расчеты в мирных целях. Первой компанией, допустивший бронирова ние большего количества мест, чем имеется в самолете, стала
British Airways. Возвратный билет обычно дорогой, и в случае, если вы им не воспользуетесь, вам возвращают деньги, причем во многих компаниях сумму возвращают полностью даже после рейса. Если бизнесмены не уверены в своем графике, они покупают несколько билетов на близлежащие даты. Но летят-то один раз! А затем получают полную сумму за неиспользованные билеты. Это означает, что на определенных рейсах остается много пу стых мест, хотя они были проданы, а затем компании приходит ся возвращать деньги. Авиакомпании внимательно изучили свои маршруты, что бы понять, на каких это происходит чаще всего. Среди лидеров оказались перелеты из Нью-Йорка в Лондон и обратно и Л он дон — Амстердам. Были собраны большие данные по неявке пассажиров на регулярные рейсы. Теперь компании знают,
Просто Big Data
на каких рейсах с большой долей вероятности не будут заняты 10% мест. Данные регулярно обновляются и уточняются. А по том система продает на определенные рейсы не 100% билетов, а 110% билетов. Конечно, это срабатывает не всегда, как и в случае любых прогнозов, и в некоторые дни на некоторые рейсы приходит больше людей, чем мест в самолете. Авиакомпания платит им компенсацию за доставленные неудобства и сажает на другой рейс. Но это все равно выгоднее для авиакомпаний. Получен ная прибыль значительно перевешивает выплаченные компен сации. Так что вроде бы «неправильное» использование данных стало нормой в индустрии, которая на самом деле очень хо рошо и умело пользуется большими данными. Правильное ис пользование технологий Big Data в любых компаниях означает прибыль.
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
ГЛАВА 3. БОЛЬШИЕ ДАННЫЕ И БЕЗОПАСНОСТЬ История и современность М ы уже говорили про перепись населения. Это, пожалуй, первые большие данные в истории, и точно первые большие данные, к которым люди относились с подозрением, считая, что они могут угрожать их безопасности. О первой переписи в истории говорится в Библии. Царь Давид — второй царь народа Израиля, но историки до сих пор не пришли к единому мнению о том, существовал ли он на са мом деле. В Библии рассказывается про устроенную царем Давидом перепись населения, но она была неугодна Богу. Зем ной царь — наместник Бога на Земле, а Господь — законода тель, судья и царь. И земные цари должны действовать по воле Божьей. Воля Божья открывалась через пророков и первосвя щенников, но земной царь также мог молить царя небесного открыть ему свою волю. Право назначать исчисление народа принадлежало только Богу. « И сказал Господь Моисею, гово ря: когда будешь делать исчисление сынов Израилевых при пе ресмотре их, то пусть каждый даст выкуп за душу свою Господу при исчислении их, и не будет между ними язвы губительной при исчислении и х ». Далее Неемия говорит: « И положил мне Б ог мой на сердце собрать знатнейших и начальствующих и на род, чтобы сделать перепись». Но царь Давид сделал исчисле ние по своей воле, даже несмотря на то, что военачальник Иоав пытался убедить Давида не делать этого, предостерегал его, по нимая, что это решение неправильное: « И сказал Иоав царю: Господь, Б ог твой, да умножит столько народа, сколь есть, и еще во сто раз столько, а очи господина моего, царя, да увидят
П р о с то B ig Data
это; но для чего господин мой, царь, желает этого дела?». К о нечно, земной царь Давид не мог скрыть от царя небесного и свой мотив проведения переписи — честолюбие. К концу жизни Давида государство, которым он правил, стало сильным и мощным, и он хотел «сосчитать» свои успехи. Иоав с военачальниками пошел считать народ Израилев. « И обошли всю землю, и пришли чрез девять месяцев и двад цать дней в Иерусалим. И подал Иоав список народной пере писи царю; и оказалось, что Израильтян было восемьсот тысяч мужей сильных, способных к войне, а Иудеян пятьсот тысяч. И вздрогнуло сердце Давидово после того, как он сосчитал на р од ». Вздрогнуло — потому что он увидел свои успехи, могу щество своего царства. То есть земной царь Давид сосчитал способных к войне мужей без Божьего повеления, за что и поплатился. Только Бог дает победу или поражение тем или иным народам, в зависимо сти от их праведности. В результате Господь послал язву на из раильтян. Перепись населения проводилась и в Римской империи. И звестно о переписи населения во время правления императо ра Августа в 28 году до н. э. Судя по ней, население Римской им перии составляло 4 0 3 6 0 0 0 человек. Н о скорее всего это было число взрослых свободных мужчин, которыми и интересова лись власти. В таком случае население Римской империи в тот период составляло порядка 10 миллионов человек, не считая рабов. Хотя ряд историков придерживаются мнения, что пере писчики считали всех свободных граждан. Н о мы сейчас говорим об отношении к переписи и о во просах безопасности. Средневековые историки придержива лись мнения, что именно перепись населения стала причиной гибели детей, то есть избиения младенцев по приказу царя Ирода. Члены британского парламента, хорошо знавшие Библию, проголосовали против переписи населения, предложенной правительством в 1753 году. Многие признавали, что она мо жет принести немало пользы, но, с другой стороны, вспомина ли исторический опыт и опасались, что эта статистика попадет во вражеские страны. А это даст врагам Англии информацию о ней, которую разглашать было ни в коем случае нельзя. Это
Гл ава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
вопрос безопасности страны. Именно из-за таких опасений пе репись отвергали многие европейские страны. Враг не должен знать ни количество населения в целом, ни количество взрос лых мужчин, способных участвовать в войне. Первые статисти ческие данные в Швеции были опубликованы в 1744 году. И с следование проводилось в одном городе (Упсале), но он нигде не упоминался. Также жители не хотели, чтобы государство имело о них больше информации. Они не сомневались, что перепись при ведет к новым налогам, а молодых людей, о которых станет известно государству, станут забирать в армию, «вы р ы вая» их из семейного дела или с земли, где всегда требуются лишние руки. Необходимость переписи населения в Великобритании была признана только в 1801 году после недостатка продук тов питания в 1800 году по всей стране. Для их распределения государству требовалось знать, какое количество людей в нем живет. До сих пор люди во всех странах не горят желанием участво вать в переписи. Возможно, срабатывает историческая память. Но скорее, как и в прошлом, мы просто не хотим, чтобы пра вительство имело о нас лишнюю информацию и каким-то об разом использовало ее против нас. Хотя в современном мире необходимость борьбы с терроризмом заставляет людей пони мать и необходимость раскрытия данных. Следует отметить, что такие компании, как Amazon, Apple, Google, не желают добровольно делиться информацией с прави тельством и правоохранительными органами. Например, только за вторую половину 2 0 1 6 года Apple получила около 6 0 0 0 тре бований, касающихся национальной безопасности. Но в компа нии твердо убеждены, что национальная безопасность может быть обеспечена без нарушения конфиденциальности. В компанию регулярно поступают официальные просьбы о раскрытии информации и выполнении определенных дей ствий. Это могут быть запросы от властей, правоохранитель ных органов и частных компаний. Запросы от частных лиц обычно связаны с судебными разбирательствами. В компании каждый из них рассматривается отдельно. С троя взаимоотнош ения с партнерами и поставщиками услуг, компания требует от них следовать тем же стандартам,
П р о с то B ig D ata
которым следует сама в ответ на требования государственных органов. Ю ристы компании тщательно проверяют, есть ли за конные основания для требования о предоставлении данных. Если они есть, то данные предоставляются только в необхо димом объеме. Если запрос не обоснован, нечетко сформули рован или некорректен, никакой информации не предостав ляется. В продукты и сервисы Apple никогда не встраивались уни версальные ключи и средства несанкционированного доступа. В компании говорят, что никогда не предоставят прямого до ступа к их сервисам правоохранительным органам. Когда правоохранительные органы присылают запросы в от ношении устройств (в случае потери и кражи), компания старает ся помочь. Компания получает запросы по финансовым иденти фикаторам, например, использованию данных чужих кредитных карт для покупки продукции Apple. Доступ к пользовательскому контенту предоставляется только при наличии ордера на обыск, если дело происходит в США. Если компания получает международные запросы на доступ к контенту, хранящемуся в центрах обработки данных в США, то для их рассмотрения они должны соответствовать требовани ям закона СШ А « О защите информации, передаваемой при по мощи электронных систем связи». Если компания предоставляет информацию правоохранительным органам о данных, хранящих ся в iCloud, то предварительно оповещает об этом пользователя, если оповещение не запрещено законом. Интересный случай, связанный с Apple, произошел в 2 0 1 6 году. Компания отказалась взламывать телефон по тре бованию ФБР после теракта в Сан-Бернардино. Стрельба в Сан-Бернардино произошла 2 декабря 2015 года. Сайед Фа рук и его жена Ташфин Малик открыли огонь в центре для лю дей с ограниченными возможностями. 14 человек погибли, еще 21 получил травмы разной степени тяжести. По данным ФБР, Фарук имел контакты с двумя зарубежными террористи ческими организациями — «Д жебхат ан-Нусра» и «Аш-Ш абаб». В СШ А случившееся признали терактом. Глава компании Apple Тим Кук заявил, что этот прецедент может ударить по другим гражданам, а они должны быть уве рены в безопасности своих данных. На сайте компании было
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
опубликовано обращение к клиентам и выражен протест на тре бования властей о получении доступа к айфону и поступившим на него сообщениям стрелку Сайеду Фаруку. По мнению компа нии, запрос угрожал безопасности клиентов Apple, и последствия прецедента «выходят далеко за рамки правового поля». Окруж ной суд Лос-Анджелеса постановил 16 февраля, что Apple должна обеспечить «разумную техническую помощь» для того, чтобы сотрудники ФБР получили доступ к данным айфона Фарука. ФБР потребовала от компании снять ограничение на количество по пыток ввести пароль, тогда система автоматического взлома па ролей взломает смартфон Фарука. Тим Кук назвал это созданием «лазейки к айфонам». Кук написал на сайте на следующий день после принятия решения судом (1 7 февраля 2 0 1 6 года): « Прави тельство попросило Apple взломать аппараты наших собственных пользователей и подорвать десятилетия работы над системой за щиты клиентов, в том числе американских граждан, от изобрета тельных хакеров и киберпреступников». В дальнейшем Министерство юстиции СШ А объявило, что правоохранительным органам удалось взломать защиту смартфона Фарука (там ведь тоже работают талантливые люди). Таким образом спор между Apple и ФБР, требовавшим от ком пании содействия в разблокировке, был прекращен. Apple со действия не оказала. Apple — не единственная американская компания, от ко торой Ф БР или правительство требовали содействия во взло ме смартфонов. Такие требования получала и Google, напри мер, в 2 0 1 5 году, когда велось расследование дела, связанного с торговлей наркотиками. Калифорнийский суд обязал при влечь компанию к разблокировке телефонов. Подобные реше ния принимались в Алабаме, Северной Дакоте и ряде других штатов, но неизвестно, подчинялась ли Google этим требова ниям. Представитель Google официально объявил, что компа ния никогда не получала требований создать дополнительный инструмент, ставящий крест на безопасности ее продуктов, как было в случае с Apple. «Если бы такое требование поступило, мы бы его решительно оспорили,» — заявили в Google. То есть Apple и Google выступают против политики правительства СШ А, но за строгую конфиденциальность данных своих клиентов.
П р о с то B ig D ata
За нами наблюдают Е сли вы смотрите детективные сериалы по телевизору или триллеры в кино, то обязательно видели полицейских или следователей, внимательно просматривающих записи с ка мер видеонаблюдения. Таким образом они пытаются засечь или автомобиль, или какого-то человека. Когда мы произносим слова «большие данные», то в первую очередь на ум приходят цифры. Но видеозаписи — это такие же данные, как какая-ни будь сводная таблица или ведомость, в особенности цифровое видео. Человек чувствителен к визуальным данным. Конечно, кто-то лучше воспринимает письменный текст, кто-то — информацию на слух, но мы все способны обраба тывать информацию, получаемую органами зрения. Это часть человеческой природы. Но способность ухудшается при боль шой зрительной нагрузке. Например, если полицейскому нуж но просмотреть много часов записи, у него неизбежно снизится внимание. Человек устает. И поэтому анализ видеозаписей явля ется прекрасной возможностью для использования алгоритмов Big Data. И в наши дни они все больше и больше используются в работе правоохранительных органов, как, впрочем, и в рабо те ритейлеров. Видеокамеры наблюдения есть везде, даже там, где мы их не замечаем и не догадываемся об их наличии. То есть сейчас наши города, по крайней мере в развитых странах, будто накрыты гигантским куполом. М оему другу довелось побывать в городском техническом отделе обработки информации. Туда поступают данные со всех камер города — и это тоже стало возможным благодаря по явлению технологий Big Data. Человеку, видящему подобное впервые, становится неуютно. В этом центре собрано огром ное количество мониторов, а на них стремительно меняются картинки — мелькают лица людей, машины, дома, вывески ма газинов. Эта информация обрабатывается, сортируется, если есть необходимость — маркируется как особо важная и ставит ся на контроль. При желании можно отследить передвижения любого человека — в любой день и любое время, днем и ночью. Есть соответствующие программы, помогающие вычленить нужный час у какого-то здания или, например, пассажиров определенного рейса.
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
Сейчас никого не удивляют работающие камеры в су пермаркетах и других магазинах. М ы скорее удивимся, если их не увидим, по крайней мере, в СШ А. М ы предполагаем, что эти камеры установлены в целях безопасности, и с их по мощью за посетителями наблюдает служба безопасности су пермаркета или даже государственные правоохранительные органы с какого-то центрального пункта наблюдения. Н о боль шие данные обеспечивают не только возможность наблюдения за посетителями. С их помощью магазин следит, какие полки привлекают наибольшее внимание. Так же работает система распознавания лиц — и отслежива ет не только людей, объявленных в розыск (которые интересу ют правоохранительные органы), но и постоянных покупателей (которые интересуют магазин). Эта же система распознавания лиц в дальнейшем соотносит постоянных покупателей данного магазина сети или многих магазинов сети с аккаунтами в соци альных сетях, и им направляется целевая реклама или предложе ния. Подобное стало возможно только благодаря технологиям
Big Data. Еще одна интересная система сбора данных установле на в сети 7-Eleven, работающей в 18 странах мира и имеющей более 3 6 0 0 0 торговых точек — небольших супермаркетов. У них установлена система, собирающая информацию по по токам покупателей и по тому, сколько человек проходит через каждую кассу. Система соотносит количество покупателей в целом и количество покупателей, обслуженных каждым кас сиром, вычисляется наиболее напряженное время и спокойные часы. В ряде стран это круглосуточные магазины, потому что, например на курортах в Таиланде, есть круглосуточный спрос на их услуги. Имея в распоряжении всю эту информацию, мож но увеличить количество продавцов-кассиров в часы наиболь ших потоков покупателей и убрать в те часы, когда покупателей нет. И эти часы различаются в разных странах и городах одной и той же страны. Технологии Big Data в этом очень помогают. Также эти технологии, использующие видеонаблюдение, помогают определить, какие продавцы хорошо работают вме сте, а кого лучше не ставить в одну смену. Не нужно нанимать психологов, проводить дорогостоящее тестирование. В се это сделает алгоритм! Кто-то лучше работает в солнечные дни,
П р о с то B ig D ata
а кто-то в дождливые. Это можно учесть. Систему придумали в американской компании Percolata, которая предлагает раз личные решения для оптимизации маркетинга. В компании посчитали, что в магазинах, где их система используется, уда лось поднять выручку от 10 до 30% . Конечно, подобный подход не радует сотрудников, как и любая работа, которой управляет алгоритм. Ведь начинаются сокращения или сотрудники вы нуждены работать в неудобные для них часы, без четкого гра фика, а тогда, когда система посчитала выгодной их загрузку для нанимателя. С другой стороны, с такой системой хороших сотрудников можно поощрять и награждать, а от плохих избав ляться. И конечно, система «л ови т» воров. Подобные системы наблюдения уже давно используют ся на улицах, по крайней мере, в развитых странах. Они ста ли необходимой частью работы полиции и властей. Конечно, нельзя представить ни один современный аэропорт или вок зал без круглосуточной системы наблюдения и системы распо знавания лиц. Сейчас уже говорят, что мы живем в «общ естве наблюдения». Видеокамеры не только висят на улицах и в по мещениях, наши автомобили оснащены видеорегистраторами, на некоторых официальных лицах вы тоже можете их увидеть (например, на сотрудниках дорожной полиции), и наше место положение можно отследить с помощью телефона. Уверены ли мы, что видеоданные, попадающие в систе мы Big Data, будут использованы правильно? Конечно, нет. С их помощью можно все больше и больше контролировать нашу жизнь, наши действия, которые мы совершаем ежеднев но. В некоторых частях Америки власти не ограничиваются видеонаблюдением — на скамейках на улицах и в парках уже установлены микрофоны. Разговоры анализируют с помощью технологий Big Data. Наверное, никто не будет спорить с тем, что видеонаблюде ние — это важная часть работы полиции. И видеодоказатель ства более весомы в суде. Они более надежды, здесь никак не ме шает человеческий фактор, хотя во время слушаний в суде до сих пор учитываются показания свидетелей-людей и на их основа нии судьи и присяжные принимают решения. Но на них нельзя полагаться! Не потому, что люди преднамеренно лгут, а потому, что каждый человек по-своему видит ситуацию.
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
Д ля примера можно вспомнить эксперимент австрийского и немецкого юриста, специалиста в области уголовного и между народного права Франца фон Аиста ( 1 8 5 1 -1 9 1 9 ), проведенный в далеком 1901 году. Во время семинара в Берлине разразился жаркий спор (специально спровоцированный исследователем), потом прозвучал выстрел — и один из студентов (участник экс перимента) «упал замертво». Все замерли в ужасе. Через не сколько минут «убитый» студент встал, а фон Лист объяснил, что никто не пострадал и случившееся — часть программы семи нара. Потом он попросил каждого студента детально описать то, что произошло в аудитории у них перед глазами. Это были будущие юристы и описывали они то, что случи лось только что, а не несколько недель или даже месяцев назад, как бывает при даче показаний в суде. Студенты успокоились, поняв, что никто не пострадал, от их показаний не будет зави сеть ни жизнь, ни судьба другого человека, невиновный не от правится в тюрьму и обвинять вообще некого. Наверное, сам Франц фон Аист не ожидал такого резуль тата — он получил совершенно разные описания случившего ся. Большинство студентов ошиблись с временным фактором. Часто неправильно указывалась последовательность событий. Некоторые описывали, как убийца выбежал из аудитории, а он никуда не убегал. И студентам еще нужно было назвать имя «убийцы» (еще одного помощника фон Листа). Было названо восемь разных человек. Так можно ли после этого верить пока заниям людей?! Человеческая память несовершенна. Видеозапись не мо жет помнить неправильно. На ней зарегистрировано именно то, что произошло. Только одна запись. А когда запись вводится в систему Big Data, то появляются и дополнительные возмож ности ее использования. Несчастных полицейских, часами про сматривающих километры пленки, можно избавить от этого изнурительного труда. И полицейские тоже люди, как и сви детели. Они устают, они могут пропустить на записи важный момент: срабатывает человеческий фактор. Здесь нельзя гово рить о непрофессионализме или даже невнимательности. Он смотрел внимательно и напряженно, но шесть или восемь часов подряд! Если же поиск за нас осуществляет искусственный ин теллект, мы можем рассчитывать на гораздо лучший результат.
П р о с то B ig D ata
Нельзя сказать, что системы Big Data идеальны, но они значи тельно облегчают работу людей, например, вычленяют из не скольких часов записей несколько важных минут, которые уже внимательно просматривают люди. С помощью программного обеспечения для распознава ния лиц или автомобилей просто отследить перемещение че ловека или автомобиля по городу. Камеры висят не на каждом шагу, но путь от камеры к камере проследить не сложно. С о временные системы позволяют узнать о ваших перемещениях в мельчайших деталях! Например, в СШ А и Великобритании подобные отслеживания используются для того, чтобы ловить незарегистрированные автомобили. Также эти системы актив но используются для поиска пропавших людей. И масса людей была найдена таким образом. Постоянная слежка за нами — это хорошо или плохо? В какой степени мы готовы терпеть вторжение в нашу частную жизнь ради потенциальной пользы и безопасности? Поиск про павших людей, ловля преступников — да. Если данные будут использоваться правильно и только для обеспечения доказа тельств в законных расследованиях, это кажется разумным.
Предсказывание наших действий М ы можем ожидать, что спецслужбы будут знать о нас все. Но дело в том, что они смогут знать и то, где мы будем завтра, через месяц, а то и год. И в этом им помогут большие данные. Спецслужбы всего мира сейчас очень интересуются новыми технологиями и привлекают к работе молодых специалистов, которые в этих технологиях прекрасно разбираются. И они не только собирают данные обо всех, но и занимаются передо выми разработками по моделированию поведения отдельных людей или групп людей. Пока еще нет технологий, позволяю щих абсолютно точно предсказывать, где в ближайшее время начнутся беспорядки, революция или что-то подобное, но та кие разработки ведутся, и в них уже инвестированы огромные средства. Хотим ли мы этого? М ожно ли отдавать развитие интеллекта на откуп спецслужб? Не получится ли в результате большого перекоса?
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
Давай вернемся в прошлое, в X IX век. Эпидемия холеры на чалась в Лондоне в 1854 году, в районе Брод-стрит (в настоящее время Бродвик-стрит). Благодаря этому событию прославился и вошел в историю лондонский врач Джон Сноу, который смог определить источник заражения. Это была вода из совершен но определенной водозаборной колонки. Сноу смог связать вспышку холеры с загрязнением питьевой воды. Сноу не верил в господствовавшую в то время теорию миазмов, в соответствии с которой причиной болезней типа холеры и чумы считался нездоровый воздух. Джон Сноу опрашивал жителей всех домов в районе Сохо, один за другим, и наносил на карту источники, в которых они брали воду (водопровода, как вы понимаете, еще не было, а вместо канализации использовались выгребные ямы). Исследовать воду лабораторными методами он не мог, но смог определить «вредоносную » водозаборную колонку. Он составил так называемую «карту холеры». На ней были от мечены водозаборные станции и количество заболевших в том или ином здании, и Сноу смог доказать местным властям связь между источником воды и распространением заболевания. После того как власти сняли с колонки рукоять насоса, эпиде мия пошла на спад. М естное население очень высоко оценило работу доктора Сноу. Чуть позже появилось еще одно доказа тельство его правоты. В расположенном недалеко от той самой водозаборной колонки монастыре никто не умер. Но оказалось, что монахи пили только пиво, сваренное на монастырской пи воварне. Расследование Сноу считается главным событием в истории эпидемиологии, медицинской географии и важной вехой в истории здравоохранения и обеспечения безопасности людей в целом. А метод, использованный Сноу, стали использовать в раз личных областях знаний. Сейчас уже появились и используют ся программные продукты для предсказывания преступлений. Они снова и снова используют принцип анализа, который применил для составления своей «карты холеры» Джон Сноу, только работают с большими массивами данных. Один из самых известных «предсказателей» вероятных мест совершения пре ступлений — PredPol. Это программный комплекс, разработан ный с участием Калифорнийского университета и в тесном со трудничестве с полицией. Это «предсказание преступлений»,
П р о с то B ig D ata
аналитический инструмент, который подсказывает сотрудни кам полиции, на что следует обратить внимание. Он позволяет с большой долей вероятности определить, когда и где случится преступление: кража, ограбление, ДТП , преступление, свя занное с наркотиками, увеличение активности уличных банд. То есть дается предсказание о виде преступления, месте и вре мени, но не личности преступника. О точности предсказаний данных нет: разработчики и производители предпочитают об этом умалчивать. Хотя полиция Кента (Великобритания) официально заявила о раскрытии на месте и предотвращении гораздо большего (в 10 р аз!) количества преступлений и право нарушений с использованием PredPol, чем при обычном патру лировании. Алгоритм использует отчеты о преступлениях за годы и десятилетия и определяет районы с наибольшей вероятно стью совершения следующего. На карте города он отмечает такие участки красными квадратами. В реальности их вели чина 150 х 150 метров. Учитывается расположение банкома тов, места охвата уличными камерами и «сер ы е» зоны, места проживания людей с криминальным прошлым, людской поток на улицах в то или другое время дня. Время дня, день недели, национальные и религиозные праздники тоже учитываются. В район, который система посчитает потенциально опасным, можно отправить полицейского или патрульную машину. С о трудники могут обнаружить, что кто-то пытается взломать за мок на двери пустующего дома, открыть чужую машину, спасти прохожего от нападения. Н о этого может и не случиться. Клик ните на выделенный район — и можете ознакомиться с истори ей правонарушений. Но для лучшей работы этой системы нужно, чтобы в по лицию сообщали обо всех правонарушениях, а этого не про исходит, в особенности из районов, где жители селятся по эт ническому признаку. Или люди просто не хотят тратить время на общение с полицией, понимая, что им все равно не вернут украденный бумажник. В бумажнике были только банковские карты, ни одного наличного доллара. Человек звонит в банк, блокирует карты, ему вскоре выдают новые — или бесплат но, или за минимальную плату. Далеко не все драки попадают в полицейскую базу данных, а драки в районах, где проживают
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
национальные меньшинства, попадают только в случае, если есть жертвы, и то не всегда. Компания PredPol основана антропологом Джеффри Брэнтингемом, который изучает криминальный мир, опираясь на статистику, из Калифорнийского университета, и математи ком Джорджем Молером из университета Санта-Клары. При думанная система основана на работах, выполнявшихся по за казу Армии СШ А. Ученые создавали модели прогнозирования количества потерь во время боевых действий и поведения тер рористов в Афганистане и Ираке. Это был проект, о котором рассказывается на сайте Министерства обороны СШ А. Он на зывался «Применение пространственно-временной нелиней ной фильтрации в целях информационной поддержки и борь бы с проявлениями терроризма». В нем участвовал Джеффри Брэнтингем, который с 2 0 0 8 года занимался построением ста тистических моделей криминальной активности. В СШ А система используется в подразделениях полиции в Калифорнии, Флориде, Мэриленде, Пенсильвании, Алаба ме и Вашингтоне. Она используется полицией Лос-Анджелеса с 2 0 1 4 года. За пределами СШ А использовалась в городе Кент (Великобритания), о чем уже было сказано, и Монтевидео (Уругвай). Стоимость лицензирования разная в разных горо дах: для Колумбии (столица штата Южная Каролина с населе нием 134 0 0 0 человек) — это 37 5 0 0 долларов в год; для Алхамбры в Калифорнии (8 5 0 0 0 человек) — это 2 2 0 0 0 долларов в год. У PredPol немало противников, которые считают эффек тивность системы недоказанной, а популярность — хорошей работой маркетологов. Но полиция приняла этот инструмент и использует его. Hitachi, производитель бытовой техники, электроники и медицинского оборудования, предложила свой модуль РСА (Predictive Crime Analytics) для прогнозирования преступле ний в составе комплекса для работы «ум ного города». К ом плекс называется H itachi Visualization Suite (H V S), это облач ная платформа, которая использует данные, поступающие от службы 91 1 , камер наблюдения, считывателей автомобиль ных номеров и датчиков выстрелов. Используется в Техасе и Калифорнии.
П р о с то B ig Data
Разработчики М арк Джулс и Дэррин Липскомб зани мались вопросами безопасности. И х компанию в 2 0 1 4 году купила Hitachi. РС А использует данные о криминальной ак тивности, погоде, дорожном движении, маршрутах обще ственного транспорта, записи с камер видеонаблюдения, сообщения в социальных сетях. Система анализирует твиты с учетом местного сленга — так можно понять, что происхо дит в том или ином городе. В се странные сообщения улавлива ются. Разработчики приводят пример. РС А ловит сообщение с предложением купить насос в Макдоналдсе. Это ненормаль но. Система мгновенно реагирует, проводит анализ местного сленга и приходит к выводу, что в Макдоналдсе идет торговля амфетамином. На карте города в этой системе появляются цветные бло ки, чем он темнее, тем выше вероятность криминальной актив ности. Шкала от 0 до 100. Размер квадрата 2 0 0 х 2 0 0 метров. Разработчики РС А говорят и о возможности определения личности вероятного преступника. Система не справляется с предсказанием преступлений как PredPol. Она мало помогает оперативным работникам на улицах, хотя сидящие в кабинетах аналитики высоко ее оценивают. В Нью-Йорке используется разработка компании Microsoft под названием Domain Awareness System, разработана по за казу полиции Нью-Йорка. Система имеет доступ к более чем 3 0 00 камерам видеонаблюдения, полицейским отчетам, записям звонков в спасательную службу, базе автомобилей и датчикам радиации. Она снабжает полицию города полезной информаций о подозрительной активности, обобщает и визуа лизирует данные. Но эта система не делает выводов о том, где и когда произойдет следующее преступление. То есть полиция получает мгновенный доступ к записям с видеокамер, следователи наблюдают за арестом подозрева емых, полиция отслеживает похожие преступления в том же районе, выявляет преступные схемы, похожие и связанные между собой события, можно отследить, где находилась машина преступника вчера, месяц назад. В зависимости от криминаль ной активности в районе руководители могут правильно рас пределить силы. Если где-то обнаружена подозрительная сумка, можно отмотать назад запись и увидеть, кто ее принес.
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
В Китае компания China Electronics Technology Group, про изводитель локационного оборудования и электронных ком понентов для военных нужд Китая, работает над созданием системы предотвращения террористических актов, но она по доступным описаниям больше похожа на систему тотально го контроля за людьми. Эта система может анализировать данные о выполняе мой человеком работе, движении денег по карточкам и бан ковским счетам, хобби, видах и частоте покупаемых товаров и услуг и сопоставлять эти данные с данными камер видеона блюдения. Эти сведения будут использоваться для обнаруже ния необычных для человека действий: вдруг кому-то падает на счет крупная сумма денег, вдруг кто-то начинает регулярно звонить в СШ А. Все эти системы используют большие данные. Подобная компьютерная система автоматизирует методики, нарабо танные десятилетиями, то, чем правоохранительные органы занимались «вручную », «внезапные озарения» после часов размышлений и просмотра фотографий и записей теперь про исходят гораздо быстрее. В американских детективных фильмах такое озарение де тектива часто показано очень эффектно. Теперь это делает машина и без многих часов анализа. Человек для обработки больших массивов данных использует подсознание, возм ож ности которого ограничены, а тут работает машина, которую можно подправить, перенастроить, и она станет еще эффек тивнее. И эти системы помогают обеспечить безопасность про стых граждан. Например, система подсказывает, что в та ком-то районе или квадрате следует ожидать вспышки пре ступлений. Там появляются полицейские и предотвращают или раскрывают преступления на месте, даже те, о которых при других обстоятельствах люди не стали бы сообщать. П р е ступность снижается. В крупных городах в систему загружают только серьезные правонарушения, иначе в таком городе, как Нью-Йорк, поли ции будет просто не справиться. А в Кенте загружают все, даже самые мелкие правонарушения. Результат впечатляющий.
П р о с то B ig D ata
Что наше, а что не наше М асса людей в разных странах зависит от иностранного программного обеспечения, чаще всего американского, и тео ретически очень даже возможно, что в какой-то стране (напри мер, России) будет заблокирована Windows. Сейчас и почти весь софт, и почти все «ж ел езо », то есть почти любое программное обеспечение и оборудование имеют удаленное управление. То есть они привязаны к поставщику. В большинстве случаев имеются встроенные модули, которые обращаются к поставщи ку за какой-то информацией. Это означает, что на систему мож но влиять удаленно и даже отключить. Поставщик хочет оставить себе доступ к системе. Это по нятно. Ему нужно обеспечивать техническую поддержку. С о временные технологии позволяют налаживать систему удален но, если в ней что-то сломалось или сбилось. Также поставщик хочет привязать к себе клиентов, держать их на крючке. Поэтому любая страна, заботящаяся о своей безопасно сти, просто не имеет права иметь инфраструктуру, зависимую от технологий других стран, в особенности тех, с которыми у нее не самые лучшие отношения. Угрозами кибератак в наши дни никого не удивить. Но некоторые почему-то до сих пор не верят в их реальность. А зря. Да, простому человеку сложно представить, что одна страна может отключить другой свет. М о жет! Если в энергосистеме есть управляемые модули, связанные с Интернетом, то это означает низкий уровень защищенности. Талантливые хакеры вполне могут в эту систему проникнуть. Да и поставщик может вмешаться. Программное обеспечение открывает возможность слеж ки за пользователем. И иностранное государство, из которо го это программное обеспечение поступило, может следить за гражданами другого государства, в котором это программ ное обеспечение используют. Это может быть массовая слежка. Данные пользователей в той или иной степени собирают смарт фоны, социальные сети, фитнес-браслеты, все современные гаджеты. Данные собираются на какой-то платформе, анали зируются, чаще всего они передаются партнерам для адресной рекламы. Как было сказано выше, ни Apple, ни Google не желают передавать данные ФБР, наоборот, они выступают за защиту
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
данных своих пользователей. Но в современном мире мы не м о жем быть уверены в защите данных. Ведь ФБР смогло взломать смартфон Сайеда Фарука, хотя Apple категорически отказалась разрабатывать универсальный ключ. Можно следить и за конкретным человеком, который по каким-то причинам интересен заказчику, например ино странному государству. Это может быть политик или чиновник, или бизнесмен, который знает что-то важное для заказчика. Сейчас несложно запустить вирус или троянскую программу в смартфон — с помощью предложения перейти по ссылке, поучаствовать в розыгрыше призов, просто через С М С . Раз работчики средств подсаживания троянских программ — это специалисты по социальной инженерии. Это настоящие про фессионалы, которые придумывают предложения, на которые клиент кликает — и все. Шпионская программа засела в смарт фоне нужного человека и следит за всем, что происходит. М ож но подключиться и к чужому компьютеру, в особенности если человек повсюду ходит с ноутбуком. Вам он обязательно ну жен в кафе? Если вы будете цепляться к Wi-Fi в любых местах, то обязательно подцепите какую-нибудь виртуальную гадость. Пусть вы не хранитель государственных секретов и даже кор поративных секретов, но деньги-то у вас какие-то есть. Вам же будет жалко их потерять. Поэтому неудивительно, что сейчас самые богатые и высокопоставленные люди на нашей планете вернулись к простым кнопочным телефонам. М ожно запустить шпиона не только в личные гаджеты, но и в корпоративную сеть. Хотя это гораздо сложнее, чем под ключиться к конкретному смартфону или компьютеру. Если компьютер подключен к корпоративной сети и никуда не вы носится из офиса, для внедрения в него троянской программы нужно взламывать корпоративную сеть. Русских хакеров обвинили во взломе сервера демократиче ской партии С Ш А перед выборами. Так ли виноваты русские хакеры, если они на самом деле получили информацию? Ведь перед тем как они что-то взломали (если взломали), были грубо нарушены правила безопасности. Не русские хакеры виноваты в том, что конфиденциальная информация была вынесена из се кретной сети. Секретные данные оказались на домашнем ком пьютере. Разве в этом виноваты русские хакеры?
П р о с то B ig D ata
Сейчас много говорят о том, что хакеры могут реально вли ять на происходящие в мире события. Да, могут! Кибервойна — это написание вирусных программ или кодов с целью выведения из строя инфраструктуры противника или воровства информа ции. В 2017 году кибератаки блокировали работу организаций в 150 странах мира, причем это были самые разные организа ции — операторы мобильной связи, государственные учрежде ния, больницы. Подобные атаки в современном мире аноним ны, трудно установить организатора или инициатора. Отсюда и появляются обвинения «русских хакеров». Чаще всего атаки организуются на финансовые структуры, их количество растет. Инструменты, разработанные государствами для борьбы со сво ими противниками, могут быть похищены, причем иностранно му шпиону теперь не нужно физически выезжать в чужую страну. Примером может служить кибератака, совершенная в 2 0 1 7 году, в результате которой был похищен вирус WannaCry, разработан ный в Ц РУ Эта программа-вымогатель денежных средств даже получила титул «вирус года». О т нее в общей сложности постра дало более 5 00 тысяч компьютеров. Один из первых и самых известных примеров киберору жия — это вирус Stuxnet. Это компьютерный червь, поража ющий компьютеры под управлением операционной системы Microsoft Windows. Этот компьютерный червь может быть ис пользован для несанкционированного сбора данных и дивер сий на промышленных предприятиях, электростанциях, в аэро портах. Это первый случай в истории, когда вирус физически разрушал инфраструктуру. Это очень высококвалифицирован ная разработка, в которой признались спецслужбы СШ А и И з раиля. Считается, что она была направлена против ядерного проекта Ирана. Американский журналист Дэвид Сангер в сво ей книге «П ротивостоять и скрывать: тайные войны Обамы и удивительное использование американской силы» утвержда ет, то это часть антииранской операции «Олимпийские игры», разработанной американским правительством. В 2011 году гос секретарь СШ А Хилари Клинтон заявила, что проект по раз работке Stuxnet оказался очень успешным, а иранская ядерная программа была отброшена на несколько лет назад. Израильтя не утверждали, что испытывали его в своем центре в пустыне Негев.
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
Вирус использовал четыре уязвимости системы Microsoft Windows и был обнаружен только через три года (от момента разработки до момента обнаружения). Это сделал белорусский эксперт Сергей Уласень из компании «ВирусБлокА да». За вре мя действия вирус успел не только вывести из строя центрифу ги на заводе по обогащению урана в Иране, но и заразить целый ряд объектов в разных частях света, например в Великобрита нии и России. Обычно вирус обнаруживают гораздо быстрее — за не сколько часов, а то и минут. Ситуация с Stuxnet — необычная и единственная в своем роде. Вероятно, дело в очень высокой квалификации разработчиков. Но в дальнейшем ни один разра ботчик не имеет контроля над вирусом — после того, как его «вы пускает». И вирус может поражать объекты не только в стране, против которой разрабатывался, но и в любой дру гой, включая страну-разработчика. Да и в большинстве случаев авторство компьютерных вирусов установить не удается. Если разработчик не хочет, то «национальность» вируса определить невозможно. Например, смешно слушать доказательства вме шательства именно русских хакеров в американские выборы. Ну и что, что программа писалась в то время, когда в М оскве рабочие часы? У хакеров что, нормированный рабочий день? И вроде бы они оставили свои следы (комментарии в коде на писаны на кириллице). Удивительно талантливые ребята, спо собные навязать президента другой стране, не в состоянии спрятать свои следы? Вы можете себе представить, чтобы вор на месте преступления оставил свой биологический материал и водительское удостоверение, чтобы его уж точно нашли? В большинстве развитых (и не только) стран мира в насто ящее время созданы специализированные центры или подраз деления, которые занимаются защитой от киберугроз, работа ют государственные системы обнаружения, предупреждения и ликвидации компьютерных атак. В первую очередь там за нимаются угрозами, которые могут нанести урон государству как прямо, так и косвенно. В Китае работает так называемый «Великий китайский файервол», который также называют золотым щитом. Он фильтрует всю поступающую извне информацию по Интерне ту. Разработка проекта началась в 1998 году, а внедрен он был
П р о с то B ig D ata
по всей стране в 2 0 0 3 году. В системе есть несколько подсистем, например, управление безопасностью, информирование о пра вонарушениях, управление трафиком, контроль за вводом ин формации и т. д. Золотой щит ограничивает доступ к ряду иностранных сай тов с территории КНР. Например, в Китае не работает Facebook. Сайты, базирующиеся на территории КНР, не имеют права пу бликовать новости и даже ссылаться на новости с зарубежных сайтов или С М И без специального предварительного одобре ния. Фильтрация идет по ключевым словам, связанным с госу дарственной безопасностью. Также есть черный список адре сов сайтов. То есть у китайцев получилась блокировка больших плат форм, и извне управлять Китаем через информационные техно логии невозможно. В Китае есть собственные социальные сети и различные системы. Но Интернет — это в любом случае меж дународная сеть, и какие-то угрозы все равно будут распростра няться.
Советы простому человеку Е сли вы пользуетесь социальными сетями и любыми об лачными хранилищами данных, вы должны понимать, что эта информация — публичная. Вы считаете, что вы никому не ин тересны, кроме родственников, друзей и работодателей. Вы пользуетесь смартфоном и регулярно заходите в социальные сети. Вы абсолютно уверены, что публикуемая вами информа ция никому не интересна? Вы считаете, что общаетесь в социальных сетях только с узким кругом друзей. Нет. Вы выносите информацию на пу блику. До этой информации могут добраться миллионы людей. И у вас нет возможности контролировать дальнейшую жизнь вашей публикации. Даже если вы ее удалили, а кто-то успел ско пировать, она будет жить своей жизнью без вас, и вы не можете на это повлиять. Вы что-то публиковали для узкого круга дру зей, а ваш френд возьмет и представит эту публикацию милли онам или конкретным заинтересованным людям. И вы опять ничего не можете сделать. Так что очень хорошо думайте перед
86
Глава 3. Б о л ь ш и е д а н н ы е и б е зо п а с н о с т ь
тем, как что-то выкладывать в Сеть. Ваши старые фото в стиле ню или просто фривольные через несколько лет могут поме шать вам устроиться на хорошую работу. Также не забывайте, что любой ваш современный гаджет принадлежит разработчику технологии. Что он в него встро ил? Как он отреагирует, если вы попытаетесь внести изменения в операционную систему? У производителей платформ и раз ных приложений есть доступ к информации, которую вы хра ните в своих устройствах. По телефону можно определить ваше местоположение. Это кладезь информации о вас. Что мы обычно загружаем на сайты типа Facebook ? Там мож но найти наши демографические данные, место жительства, се мью и друзей, друзей друзей, интересы, пристрастия, образова ние, домашних животных, фотографии, видеозаписи и многое другое. Наш современник, выдающийся математик Стивен Вольфрам, создатель «вычислительного двигателя знания», известного так же, как Wolfram Alpha, разработал потребитель ский программный продукт, известный как «личная аналитика для Facebook». В течение всего лишь одной минуты этот про граммный продукт выдает колоссальный набор данных и гра фиков о вас и ваших социальных связях. Сам Вольфрам назвал это «приборной доской для ж изни». Если вы зарегистриро ваны на Facebook, то советую вам посмотреть ваш личный ва риант, это бесплатно: h ttp ://w w w .w olfram alpha.com /facebook/. О т того, что вы увидите, может стать немного неуютно, по скольку программа извлекает всю информацию, которую вы когда-либо размещали на Facebook, создает облачное хранилище данных из всех ваших постов, точного времени вашего захода и образа действий, ваших лайков и комментов, поста, который больше всего понравился, поста, который получил наиболь шее количество комментов, демографических данных по всем вашим друзьям, включая карту мира с их местонахождением, местное время у них и дни рождения, карты ваших социальных связей, выделяя друзей и семью, влияния, соседей, социальные элементы соединения, случайных и близких людей. Вы хотите, чтобы любой желающий мог это узнать? Если нет, думайте перед тем, как что-то пишете в Интернете или за гружаете на своей страничке в социальной сети, даже для само го узкого круга.
П р о с то B ig Data
ГЛАВА 4. БОЛЬШИЕ ДАННЫЕ И БАНКОВСКОЕ ДЕЛО Платежные пластиковые карты В главе, посвященной шопингу, мы говорили о картах лояльности, теперь поговорим о других, гораздо более важ ных — банковских. Кажется, теперь невозможно найти чело века, не имеющего банковской карты. Наши банковские карты обычно привязаны к одному или нескольким расчетным счетам в банке. С их помощью мы платим за товары и услуги и непо средственно находясь в магазине, и через Интернет. Подобное было бы невозможно, если бы в нашем мире не появились боль шие данные. Первые кредитные карты не были банковскими — они только подтверждали платежеспособность владельца. Они были картонными и стали выдаваться в 1914 году. Отец банков ских кредитных карт — Джон Биггис из Национального банка Flatbush в Бруклине. Он был специалистом по потребительским кредитам и в 1946 придумал «расписки », которыми клиенты банка могли расплачиваться за мелкие покупки в местных мага зинах. Потом магазины сдавали эти расписки в банк и получали деньги со счетов клиентов. Система безналичного расчета появилась в СШ А в 1 9 4 0 1950-е годы. Фактически карты заменили чековые книжки. Первая массовая платежная карточная система — это Diners Club. Компания создала ее в 1949 году. В отличие от предше ственников здесь между клиентами и компаниями появился по средник, занимавшийся расчетами. Идея создания карты при шла в голову Альфреду Блумингдейлу (внуку основателя одного
Глава 4. Б о л ь ш и е д а н н ы е и б а н к о в с к о е д е л о
из самых крупных универмагов в С Ш А ) в центре Манхэттена, где он встретился за ужином с Фрэнсисом Макнамарой, главой финансовой корпорации Hamilton Credit Corporation. У Макна мары был один клиент, предприниматель, который разрешал соседям пользоваться его счетом за проценты. Владелец ре сторана, которого друзья подозвали для консультации, сказал им, что готов платить за новых клиентов 7% . Кстати, эта ставка на долгие годы утвердилась как ставка при операциях с кредит ными картами. Вначале бизнесмены включили в свою систему 10 ресторанов, прибыль за первый месяц составила 2 0 0 0 долла ров, через четыре месяца она составляла уже 2 50 тысяч долла ров. Для идентификации клиентов они использовали эмбоссированные пластинки, которые уже давно были в ходу. Блумингдейл и Макнамара объединили свои компании в одну и назвали ее Diners Club. Через год в дело было включено 285 торговых и сервисных компаний и 35 0 0 0 клиентов (дер жателей карт компании). За годовое обслуживание они брали с каждого держателя карты 3 доллара. Вскоре подобные опера ции с картами стали внедряться повсеместно. Карты бывают дебетовые и кредитные. С помощью дебето вых карт мы распоряжаемся собственными деньгами, которые лежат на соответствующем счете в банке. Кредитные карты используются для распоряжения деньгами путем займа у банка с последующей выплатой процентов за пользование деньгами банка, каждая из этих карт тоже привязана к соответствующему счету. У большинства карт единый формат — 85,6 мм х 5 3,98 мм. Самые популярные на сегодняшний день карты в мире — это VISA Classic и M asterCard Standard. Карты из серий Gold (золо тые) и Platinum (платиновые) — это элементы имиджа, стату са. Их владельцам некоторые компании предоставляют особые скидки, преимущества или услуги, например, возможность пользоваться залом бизнес-класса в аэропорту независимо от купленного билета. Самые престижные — это титановые карты, первую такую карту под названием «Ц ентурион» выпу стила компания American Express. За время своего существования они сильно модернизиро вались. Вначале это были кусочки картона, потом металличе ские пластинки, которые работали по принципу перфокарты. Магнитную полоску изобрели в начале 1970-х (патент получил
П р о с то B ig D ata
француз Ролан М орено в 1974 году), в конце 1990-хв карты стали интегрировать микросхемы. Первая банковская карта была вы пущена в 1951 году банком Long Island Bank в Нью-Йорке. Своя система платежных карт появилась в Японии в 1964 году — JC B (Japan Credit Bureau — «Японское кредитное б ю р о » ), извест ная EuroCard появилась в 1966 году. Общенациональная бан ковская карточная ассоциация СШ А была учреждена в августе 1966 года. Это заслуга банка Marine M idland Bank. Первый бан комат появился в Лондоне у банка Barclays (июнь 1967 г.), пер вый универсальный банкомат (ATM) появился в Нью-Йорке, его установил Chemical B ank в сентябре 1969 года. Год рожде ния VISA — 1977, год рождения M asterCard — 1979. Первой золотой картой стала MasterCard в 1981 году. В 1980-е появились общенациональные сети банкоматов в развитых странах по всем миру — в СШ А, Европе и Японии. Единый международный стандарт для микросхемных банков ских карт появился в 1996 году, он получил название ЕМ У — по первым буквам Europay, MasterCard, VISA, благодаря кото рым он и возник. Бесконтактная карта появилась в декабре 2 0 0 2 года, а стандарт для таких карт был введен MasterCard и VISA в 2005 году. Первые платежные карты в истории были кредитными — Diners Club позволяли расплачиваться в кредит в ресторанах. Дебетовые появились позднее. Кредитные карты выгоднее бан ку, и их появление позволило банкам выйти на новый уровень развития — снизились операционные затраты, но при этом уда лось привлечь новых клиентов. Нет необходимости держать раз ветвленную сеть отделений и филиалов, количество работников банковского сектора резко сократилось. Банк один раз выдает карту, и клиент получает кредиты, используя карту в торговых и сервисных предприятиях или снимая наличные в банкоматах. Клиент погашает кредиты или пополняет счет тоже через бан коматы или путем безналичного перевода денег на банковский счет. Обработка операций по картам автоматизирована, это упрощает и удешевляет их обслуживание банком. Кредитные карты также выгоднее для банка, чем выдача обычных кредитов, поскольку тут еще дополняются комиссии — за обслуживание карты, за выдачу наличных, за предоставление выписок. Сумма комиссии обычно маленькая, и большинство клиентов просто
Глава 4. Б о л ь ш и е д а н н ы е и б а н к о в с к о е д е л о
не обращает на них внимания, но, если банк общенациональ ный, а то и имеет филиалы в разных странах, прибыль получает ся очень приличная. В чем плюс банковских карт для клиентов? М ы теперь мо жем носить с собой крупные суммы денег, не набивая карманы наличными, а в случае потери карты позвонить в банк и забло кировать ее. После этого мошенники не смогут совершать с ней никакие операции, а нам перевыпустят карту с той же суммой денег на счету (на момент блокировки). Вы заплатите только небольшую сумму за перевыпуск. И теперь не нужно оттяги вать карманы мелочью! Во-вторых, у вас не будет проблем с та можней при ввозе и вывозе средств. Законодательства многих не стран не позволяют ввозить или вывозить крупные суммы денег наличными. Банковские карты не подлежат таможенно му учету ни в одной стране. В-третьих, если у вас карта меж дународной платежной системы, то с ее помощью вы можете оплачивать товары и услуги в большинстве стран мира и через Интернет. Валюта карты постоянная. Платежи проходят бы стро в любой точке земного шара, где имеются соответствую щие терминалы. То есть вы и быстро платите в ресторане, ма газине, любой организации, и вам быстро поступают деньги на счет от друзей, если они у вас закончились. Но у банковских карт есть и существенные недостатки. Первый — это возможность использования денег с вашей карты мошенниками. Подсмотреть П И Н -код, который со стоит из четырех цифр, легко. Иногда для совершения плате жа не требуется ни ПИ Н -код, ни подтверждение кодом через СМ С -сообщ ение. В таком случае платежи возможны, даже если у вас стоит защита от интернет-мошенников 3D Secure. Мошеннику достаточно знать только данные, нанесенные непосредственно на вашу карту — ее номер, срок действия и код C W 2 . Помните, что иногда мошеннику достаточно про сто один раз увидеть вашу карту! Во-вторых, иногда за опла ту картой берется довольно приличная комиссия. В-третьих, ваши платежи становятся прозрачными. В-четвертых, вы м о жете терять деньги на курсовой разнице, например, ваша кар та выпущена в валюте вашей страны, а расплачиваетесь вы ею в другой стране. В-пятых, может сущ ествовать лимит на выда чу наличных.
П р о с то B ig Data
Помните, что банковские карты не предназначены для хранения денег! Это инструмент совершения платежа. Для защиты денег на карте я советую подключить приложе ние, которое позволяет управлять лимитами на карте через телефон в режиме онлайн. Вы идете в магазин, набираете про дуктов на неделю, совершаете платеж — и запрещаете любые операции по карте. В се! Мошенники не могут украсть ваши деньги. Правда, такие приложения есть только у крупных бан ков в развитых странах. О сновное назначение платежной системы, построенной на основе пластиковых карт, — это выполнение расчетов меж ду поставщиком товаров, работ, услуг и их потребителем, ко торый расплачивается картой. Объем безналичных платежей растет по всему миру каждый год, причем основная их доля приходится на банковские карты. Эта система включает, во-первых, центральный административный орган, который обеспечивает общее руководство платежной системой — определяет общую концепцию ее построения и развития, осу ществляет техническую и технологическую поддержку, прово дит мониторинг деятельности участников системы, разбирает конфликтные ситуации. В систему также входят банки-эмитенты, которые обслу живают клиентов. Они регистрируют держателей карт, ведут на них досье, открывают счета, выпускают и перевыпускают карты, проводят операции по картам, то есть обработку запро сов, поступающих из пунктов приема карт через процессинго вый центр, списывают средства с карточного счета и перечисля ют их на счет продавца. Банки-эквайеры обеспечивают зачисление средств получа телю, то есть торговому или сервисному предприятию по опе рациям, которые выполнены с помощью платежной карты, а также обслуживают пункты выдачи наличных. В их учетной системе регистрируются и ведутся пункты приема карт, они ведут банковские счета предприятий в соответствии с догово рами, обслуживают банкоматы. П р оц есси н говы й центр о су щ ествл я ет инф ормацион но-технологическое взаимодействие между всеми участниками платежной системы. Он регистрирует эмитентов и эквайеров, ведет стоп-листы, маршрутизирует авторизованные запросы.
Глава 4. Б о л ь ш и е д а н н ы е и б а н к о в с к о е д е л о
В систему также входят пункты приема карт. Также мо жет входить провайдер услуг при проведении платежей через Интернет, как отдельный участник системы. На конец 2015 года количество платежных карт всех ти пов, выпущенных в мире, составило 10,25 миллиарда, это рост на 8,2% по сравнению с 2 0 1 4 годом. Самым популярным ин струментом стали дебетовые карты Union Рау. Если говорить о доле карт в обращении в мире, то первое место по количеству карт занимает китайская Union Рау 53,7% (52,9% в 2 0 1 4 году), на втором месте VISA — 28,95% (3 0 ,2 3 % в 2 0 1 4 году), на третьем M asterCard — 15,35% (14,96% в 2 0 1 4 году). Международные платежные системы не раскрывают количество карт, выпущен ных на локальных рынках. В 2 015 году по банковским картам общего назначения, вы пущенных в мире под брендами VISA, MasterCard, American Express, Union Pay, JC B, Diners Club / Discover, было совершено 2 27,08 миллиона транзакций для оплаты товаров и услуг. Это увеличение на 16,1% по сравнению с 2 0 1 4 годом. Речь идет обо всех транзакциях, совершенных с помощью корпоратив ных и потребительских, кредитных, предоплаченных и дебето вых карт. Большинство транзакций было совершено с картой VISA — 55,52% , из них большинство по дебетовым картам 35,55% , как и в прошлые годы. Количество транзакций по де бетовым и кредитным картам Union Рау за год выросло на 47% , или на 9,28 миллиарда долларов СШ А. Из общего количества карт в обращении 75,94% дебе товые, их количество увеличилось за год на 716,3 миллио на. Количество кредитных карт в обращении увеличилось на 61 ,4 миллиона. По дебетовым и предоплаченным картам было совершено 54,63% транзакций. Объем приобретенных товаров и услуг без учета выдачи наличных вырос на 18%, или на 3 ,110 триллионадолларов. На протяжении всей этой главы, если исключить абзацы, посвященные истории, мы говорим о технологиях Big Data в банковской системе. Без Big Data это огромное количество платежей банковскими картами было бы просто невозможно. Это огромные объемы, невероятная скорость и самые совре менные технологии. И если вначале обязательно требовался ПИН-код, то теперь уже есть системы распознавания отпечатка
П р о с то B ig Data
пальца в вашем смартфоне, когда вы платите с помощью теле фона. Я думаю, что мы скоро придем к распознаванию всех биометрических данных при осуществлении платежей. Специ алисты по безопасности работают над этим, чтобы сократить количество случаев мошенничества — или вообще исключить. Мошенники могут узнать ваш ПИ Н-код, но подделать все биометрические данные невозможно. Давайте не вспоминать сцены из триллеров, когда негодяи отчленяли пальцы, чтобы воспользоваться отпечатками. Наверное, разработчики новых систем настроят их так, что они будут понимать, видят ли мерт вые или живые глаза, лицо живого человека или трупа. И техно логия Big D ata полностью заменит продавца из сельского мага зина, который знает всех своих покупателей в лицо. А пока автоматизированные системы только ловят нетипич ные для вас платежи. Это тоже технология Big Data. Например, в СШ А при нетипичном для вас платеже вам звонит провайдер вашей кредитной карты. Это может быть звонок как оператора-человека, так и автомата. Вас просят подтвердить или одну, или три последние транзакции. Системы безопасности — это тоже большие данные. О них мы говорили в предыдущей главе.
Большие данные на рынке ценных бумаг В наши дни много людей придерживаются мнения, что большие данные могут очень помочь при покупке и прода же ценных бумаг. С их помощью можно правильно покупать, правильно продавать и все делать вовремя. Здесь мы имеем нечто подобное сравнительному сайту, но такому, на котором покупателю не предоставляется никакой информации, а сайт просто покупает вам страховку, которую считает наиболее под ходящей или выгодной для вас. Цену такого подхода весь мир узнал в черный вторник. Черным вторником в финансовом мире имену ют 6 мая 2 0 1 0 года, когда индекс Доу-Джонса упал более чем на 1 0 00 пунктов за несколько минут, это падение повлек ло за собой падение всего валютного рынка. 3 6 минут, начиная с 14:32, — и рынок потерял более триллиона долларов. Слу чившееся в тот день также называют первой войной роботов
Глава 4. Б о л ь ш и е д а н н ы е и б а н к о в с к о е д е л о
и людей. Единой версии до сих пор нет. Наиболее распростра ненная состоит в том, что один из игроков сбросил больше, чем обычно, фьючерсов, а роботы (высокочастотные алгорит мические программы, написанные для работы на финансовых рынках) расценили это как резкий рост неопределенности на бирже и стали активно продавать, в результате индекс просел еще больше. Многие сделки на бирже уже проводятся не человеком, а специально написанными алгоритмами, которые реагируют на поступающие данные. А данных так много, что человек фи зически не может с ними справиться и никогда уже не сможет анализировать их так быстро, как это делают машины. В черный вторник дело было связано с высокочастотным трейдингом. Это использование современного оборудования и алгоритмов для быстрой торговли ценными бумагами. Компьютеры поку пают и продают ценные бумаги в течение долей секунды. Высокочастотная торговля началась в конце 1990-х годов после того, как в 1998 году Комиссия по ценным бумагам и бир жам СШ А разрешила работу электронных площадок. Алго ритмы, которые использовались в 2 0 1 0 году, явно были плохо написаны, и получилось так, что продажи в следующую минуту основывались на процентах от продаж в предыдущую минуту. Системы больших данных действуют гораздо быстрее, чем люди, поэтому людям потребовалось 36 минут, чтобы ра зобраться с происходящим и остановить работу алгоритмов. То есть большие данные хороши ровно настолько, насколько хо рошо написаны алгоритмы. И черный вторник показал, как до рого может обойтись ошибка. Алгоритм может принести очень много вреда до того, как люди обнаружат, что что-то идет не так, и еще больше времени пройдет перед тем, как они примут меры. Валютные фонды используют для принятия торговых ре шений и роботов, и людей. В последние годы люди победили только в 2 0 1 3 году — у те х фондов, где окончательное решение принимают люди, доходность оказалась выше. Эта статистика доходности ведется с 1986 года. Начиная с 2 0 0 8 года побеждают роботы. Аналитическая компания Parker Global Strategies L L C от слеживает 4 3 фонда, где 27 — «маш инные». В среднем роботы дают 10,7% годовых, люди — 8,6% годовых. Проигрыш роботов в 2 0 1 3 году объясняется неопределенностью — центробанки
П р о с то B ig Data
стали посылать участникам рынка противоречивую информа цию. Компьютерные модели выдают решения на основе усто явшихся корреляций. А в условиях неопределенности человек действует эффективнее. Проникновение роботов на финансовые рынки не оста новить. Оборот мирового валютного рынка вырос за три года на 4 триллиона долларов, или на 20%. Это большие данные, людям не справиться. Но люди должны регулировать работу роботов. И после нескольких крахов на рынках деятельность робо тов стали регулировать. Например, Германия ввела ограниче ния в сентябре 2 0 1 2 года. Теперь роботов надо регистрировать, платить повышенные комиссии, если они торгуют слишком активно, добавлять «аварийную кнопку», то есть возможность для регулятора экстренно отключить все автоматы, если пока жется, что роботы ведут биржу к краху. Также следует отметить, что объем высокочастотного трейдинга в СШ А в последние годы сократился.
Осторожные банкиры Как говорилось выше, большие данные играют огромную роль на рынках ценных бумаг и в других видах банковской деятельности, которые иногда, как кажется, больше похожи на игру в азартные игры, чем осторожное обращение с деньга ми. Но создается впечатление, что банкиры, занимающиеся, так сказать, повседневной банковской деятельностью, плохо пони мают важность больших данных. Я говорю о тех, кто занимает ся ежедневным ведением наших счетов. Да, банки очень быстро включились в широкомасштабную обработку трансакций, причем в режиме реального времени, и тут они не отстают от авиакомпаний, о которых говорилось в главе о шопинге. На первый взгляд банковское дело кажется идеальной средой для работы технологий Big Data, которые в этой сфере могут очень здорово помочь и самим банкам, и клиентам. Но результат использования больших данных в бан ковском деле следовало бы назвать смешанным. Банки на самом деле используют большие данные так, что это влияет на их клиентов. Раньше у нас у всех были собственные
Глава 4. Б о л ь ш и е д а н н ы е и б а н к о в с к о е д е л о
менеджеры в местных отделениях банков. Этот банковский ме неджер знал вас лично и принимал решение, дать вам кредит или не дать, а если дать, то на какую сумму, под какой процент и т. д. То есть решение принимал человек. Сейчас сбором данных занимаются машины. Это касается и движения денег по вашему счету или счетам, кредитной истории в целом, а также любой другой информации о вас, которую банк считает необходимым собрать, но поручает это соответствующей программе. Таким образом решения принимаются быстрее, чем если бы человек посылал запросы, а другие люди на них отвечали. Н о эти реше ния могут очень серьезно повлиять на жизнь конкретного чело века. Мы не хотим доверять наше будущее алгоритмам. Также соответствующие системы ведут постоянный мони торинг действий по пластиковым картам — как дебетовым, так и кредитным. Таким образом банки пытаются препятствовать мошенничеству и отмыванию денег. Это правильно. В о многих странах уже приняты законы, обязывающие банки связываться с клиентами в случае, если какая-то операция покажется систе ме подозрительной. Конечно, подобное может уловить только робот — человеку не справиться с тем огромным количеством карт, которые сейчас на руках у населения. Например, платеж по карте совершался утром в Нью-Йорке, а вечером уже в К о лумбии. Банк должен связаться с вами и уточнить, проводить ли этот платеж. Вы ведь на самом деле могли улететь в Колумбию. Перевод крупных сумм денег тоже привлекает внимание робо та, и у каждого банка установлены свои параметры. Система ловит многочисленные снятия наличных с карты в один день или несколько дней подряд. Но в некоторых банках до сих пор сохраняются архаичные методы работы. Вы наверняка удивлялись, почему ежемесячные постоянные платежи, которые должны совершаться, напри мер, 15 числа, запаздывают на два дня, если 15 число выпада ет на субботу, и на 3 - 4 дня, если на долгие праздники. Почему некоторые платежи идут несколько дней вместо нескольких секунд? Я вам отвечу: потому что новые банковские системы строились на основе старых, бумажных. Тогда задержки были неизбежны и необходимы, чтобы физически проверить все до кументы и передать их из банка в банк или из отделения в от деление. Банки решили не переписывать системы заново, это
П р о с то B ig D ata
означало бы большие дополнительные расходы. Вместо этого они добавили к старым системам новые возможности. Сейчас мы можем перекинуть деньги с карты на карту за несколько секунд. М ы можем расплачиваться картой 2 4 часа в сутки 7 дней в неделю. Но эта деятельность просто добавлена к старой системе, работавшей с бумажным гроссбухом и чека ми, которые требовалось возвращать в филиал банка покупате ля, который их выписал, перед тем как платеж пройдет. При та ком подходе создается впечатление, что банки считают большие данные в нашей жизни транзитной фазой. Но мне кажется, что Big Data — это навсегда. Нужно новое поколение систем, абсолютно новых, построенных на совре менном подходе к большим данным, и тогда все придет в норму, все будет делаться вовремя. Многие клиенты ждут от банков консервативности. Мы привыкли к их консервативности. Мы знаем поговорку «Д ен ь ги любят тишину». М ы хотим, чтобы они осторожно обраща лись с нашими деньгами. Но технологии Big Data открывают совершенно новые возможности, которыми мы должны поль зоваться. Ж изнь не стоит на месте. Нужно идти в ногу со вре менем.
Глава 5. Б о л ь ш и е д а н н ы е —
это н а ш босс
ГЛАВА 5. БОЛЬШИЕ ДАННЫЕ — ЭТО НАШ БОСС Дилемма: «умные» технологии Предполагаемую полезность больших данных в наши дни легко продают конечным пользователям, хотя на практике го раздо больше пользы получается для компании. Примером мо жет служить «ум ны й» электросчетчик. Традиционный электросчетчик — это простой прибор, который измеряет, сколько электричества было использовано. Он установлен у вас в доме, вы сами сообщаете в электросбытовую компанию показатели счетчика или к вам каждый месяц приходит представитель компании, записывает эти показания, а потом на их основании выставляется счет. В любом случае со трудники компании приходят к вам с проверками. Но в настоящее время во все большем количестве домо хозяйств в развитых странах устанавливают электросчетчики нового поколения. Например, в Великобритании запущена широкомасштабная программа по установке «ум н ы х» счетчи ков, и планируется установить их в 2 6 миллионах домохозяйств к 2 0 2 0 году. Продажи идут хорошо. Разработчики утверждают, что эти «ум н ы е» электросчетчики помогут нам снизить плату за электричество, потому что они показывают, сколько электро энергии используется и сколько это стоит. Видя эту информа цию, человек начнет экономить. Но дисплей может показывать вам, что стоимость в ту минуту, когда вы на него смотрите, низ кая (вы же не будете к нему бегать каждый час?). Я очень сомне ваюсь, что подобные дисплеи помогут существенно снизить потребление электроэнергии. Более того, нам говорят, что « у м ны е» электросчетчики знают, как пользоваться специальными
П р о с то B ig D ata
тарифами и, соответственно, поставлять гражданам более де шевую энергию в разное время дня. Они же умные! Но разве электросбытовым компаниям выгодно поставлять нам более дешевую энергию? Счетчики должны быть выгод ны, раз компании так активно выступают за их установку. Дело в том, что после установки таких счетчиков электросбытовым компаниям больше не потребуется нанимать людей, которые ходят по домам и записывают показания счетчиков. Это очень серьезное сокращение расходов. А меняющиеся тарифы впол не могут запутать обычного потребителя, особенно пожилого возраста, и вместо того чтобы экономить, придется платить по повышенной ставке за пользование электроэнергией, напри мер, в пиковые часы. Конечно, нельзя утверждать, что «ум н ая» технология опас на для потребителей, так как на самом деле обманет доверчивых граждан. Она может очень облегчать жизнь людей. Для приме ра приведу «ум ны й» термостат (умный с точки зрения потре бителя), которым можно управлять со смартфона. Такой тер мостат определяет, когда в доме никого нет, и автоматически снижает температуру в помещении. И вы платите меньше. И вы можете послать сигнал термостату о том, что приближаетесь к дому. «У мны е» электросчетчики — это примеры использования технологии Big Data на практике с фактически односторонней пользой (для компаний) и сомнительной для потребителя, которому еще нужно «о тб и ть» установку счетчика. Никто их бесплатно не ставит, а данных о реальном снижении платы за электроэнергию мало, хотя бы потому, что «ум н ы е» счетчи ки появились не так давно.
Большой босс М ы смело можем утверждать, что большие данные начи нают править нами в этом мире. Хотя только в СШ А порядка 800 0 0 0 человек получают деньги благодаря компаниям, рабо тающим с большими данными. Но технологии Big Data также контролируют найм на работу и то, как люди, нанятые компа ниями, выполняют свою работу. В компании liber, которая уже
Глава 5. Б о л ь ш и е д а н н ы е —
э то н а ш босс
упоминалась, по всему миру работает более миллиона водите лей, ими управляют большие данные. Эта компания ориентиру ется на потребителей, как и масса других. В магазинах в субботу работает больше людей, чем в понедельник. В ресторанах боль ше персонала в пятницу и субботу вечером, и в любом случае больше в 2 0 :0 0 , чем утром. И вообще утром многие рестораны закрыты. Они ориентируются на обеденный перерыв и ужин. Технологии Big Data позволяют оптимизировать исполь зование и расстановку персонала, часто даже поминутно! Это очень выгодно компании, но может иметь печальные послед ствия для сотрудников — неудобные часы работы, отсутствие стабильного графика, сокращение доходов. Если у вас стабильный график, вы можете планировать вашу жизнь вне работы. Н о если рабочий график строится с исполь зованием технологий Big Data , вы должны быть готовы к выходу на работу по звонку каждый день. Например, обещают плохую погоду, а в плохую погоду в ваш ресторан приходит больше на рода. Или, наоборот, приходит меньше. Выпускаемый вашей компанией товар в дождь лучше покупают или к вам в магазин в дождь не приходят вообще. Это все знают большие данные и выдают рекомендации вашему работодателю. А страдаете вы. Вы не сможете ничего планировать. Если в вашем контрак те не прописана минимальная заработная плата, минимальное количество рабочих часов, то может оказаться, что в некоторые месяцы вы даже не сможете заплатить за квартиру и при этом где-то подработать, потому что вынуждены находиться в состо янии боевой готовности. В Японии, а теперь и ряде других стран у некоторых произ водителей популярен так называемый JIT - подход, или «точно в ср ок ». Это система оперативного управления запасами. Все ресурсы, включая персонал, материалы, оборудование исполь зуются таким образом, чтобы обеспечить непрерывный про изводственный процесс. Здесь предполагается минимизация времени изделия (детали, материала) в пути и минимальные запасы сырья, материалов, комплектующих, соответственно нет расходов на их хранение, огромных складских помеще ний. В се поступает в производство « с колес». Система упро щает учет и контроль запасов, способствует рациональному использованию производственных мощностей и сокращению
П р о с то B ig D ata
затрат. To есть за хранение комплектующих и материалов пла тит их поставщик, а не фирма-изготовитель. Но для непрерыв но-поточного производства необходима согласованная работа всех участников процесса. Такое возможно в Японии, в которой впервые применили этот подход, но, например, невозможно в странах Латинской Америки. Такой подход очень упростился с применением технологий Big Data. Но компании, работающие таким образом, часто из бавляются от постоянных сотрудников, чтобы не оплачивать им больничные и отпускные. Люди становятся фрилансерами — и компания приглашает их только тогда, когда есть конкретный заказ. Подвозят комплектующие, материалы, работа распреде ляется между людьми, работающими по вызову, а не постоян но, и этим людям платят или за отработанные часы, или за ко личество штук произведенного товара. Так выгодно компании. Н о не людям. Против компании Uber было подано несколько исков, а в В е ликобритании даже прошла протестная демонстрация курье ров, нанятых подразделением UberEats, которые развозят заказы из ресторанов. Изначально курьерам предложили очень непло хую ставку — 2 0 фунтов стерлингов в час, а потом алгоритм стал гораздо сложнее. За каждую доставку полагалась небольшая сум ма, а потом предлагались доплаты за каждую милю, за доставку в час пик и т. д., но были и вычеты, например проценты компа нии за предоставление работы. В СШ А потребовали относиться к водителям как к постоянным работникам с соответствующими выплатами — платить фиксированную ставку за час независимо от того, поступил вызов или нет. Но решения зависят от штатов и силы организаций, отстаивающих права работников. Где-то ре шения принимаются в пользу компании, где-то в пользу работ ников. Но компания после этого вполне может уйти из этих шта тов, и сотрудники вообще лишатся работы. Теперь машины используют и для найма на работу, ино гда только на первом этапе, отсеивая резюме. Например, у вас великолепная квалификация, отличные рекомендации, но вас ни разу не пригласили на интервью, несмотря на то что вы от сылали резюме в несколько организаций. Дело может заклю чаться в том, что у вас пенсионный возраст, и машина отмела вас на первом этапе. На подробную информацию о вас никто
Глава 5. Б о л ь ш и е д а н н ы е —
это н а ш босс
не смотрел! Машины просматривают профили в социальных сетях. Например, машина оценила вас как интроверта и оди ночку — и все. Система решает, что вы компании не подхо дите, потому что работа подразумевает общение с клиентами. Но вполне может быть, что вы прекрасно работаете с людьми, а вне работы любите побыть в одиночестве. Однако алгоритм уже классифицировал вас соответствующим образом — и вы автоматически исключаетесь из кандидатов на должность. К сожалению, подобных случаев в наше время много, ни какой прозрачности оценок нет. Для человека поиск работы всегда стресс, но руководителям до этого нет дела. Наоборот, создается впечатление, что в современном мире менеджеры стараются этот стресс еще усилить. Людям предлагаются мно гочисленные тесты, результаты вводятся в машину, и она при нимает решение. Руководство готово положиться на оценку системой, просто принимает выданный машиной результат, не желая тратить время и углубляться в изучение поданных резюме. Зачем с кем-то разговаривать, если есть умные маши ны? Но в некоторых видах бизнеса ни одна машина не может заменить личное общение с человеком. На людей надо см о треть, на человеческом уровне оценивать их умение говорить, общаться. Машина не может понять, какое впечатление произ водит человек. В любом случае я советую вам очень внимательно и вдум чиво подходить к тому, что вы публикуете и загружаете на Facebook, Twitter, Instagram, Linkedln. Даже если в компании отбор кандидатов на должность проводят люди, они будут см о треть ваши аккаунты в социальных сетях. Что-то сыграет вам на пользу — например, потенциальный работодатель увидит, что вы активно занимаетесь спортом и даже купаетесь зимой в проруби. Значит, будете меньше болеть и пропускать работу. Отлично! Но если на ваших страничках то и дело встречаются оргии, серьезная компания отметет вашу кандидатуру. Потенциальных работодателей могут заинтересовать и ваши друзья. С кем вы общаетесь в Интернете? Как часто вы публикуете посты? Сколько комментариев к ним получаете? Сколько у вас подписчиков в Twitter? На основе собранной в со циальных сетях информации системы анализа Big Data могут сделать вывод о вашей способности работать в команде, умении
П р о с то B ig D ata
устанавливать связи, об общительности. То есть в современ ном мире доступные данные о вас позволяют дать вам оценку, определить ваш тип личности. Отсутствие данных — это тоже характеристика, и некоторые компании может насторожить как раз это. Но, как правило, нет механизма для проверки эффектив ности данных, использованных для предсказания результата. В данном случае — определения наилучшего кандидата на долж ность. Даже если найдено совпадение характеристик кандидата и требований к работе, не факт, что он подойдет идеально. О т бор вообще может происходить по прихоти создателя системы. Один из непринятых на работу кандидатов (из-за того, что его «парам етры » не совпали с введенными в систему параметра ми) опубликовал таблицу связи поставок сырой нефти в СШ А из Норвегии с гибелью водителей грузовиков в результате стол кновений с железнодорожными поездами, потреблением сыра моццарелла и количеством присвоенных степеней кандидатов технических наук. Кстати, после появления в Интернете той таблицы ему тут же предложили работу две другие компании, в которых люди оценили этого кандидата и изучили его послуж ной список.
Рейтинг С большими данными связан и рейтинг организаций и лю дей. И этот рейтинг может в буквальном смысле решить судь бу. Он может значительно увеличить количество клиентов и, соответственно, принести дополнительную прибыль, а может навсегда испортить репутацию. К настоящему времени мы уже привыкли ставить оценки онлайн — мы оцениваем гостиницы, в которых останавливались, рестораны, в которых ужинали, купленные товары самого разного рода и назначения, уровень сервиса и конкретных работников. Например, масса путешественников по всему миру учиты вает рейтинг TripAdvisor — американского сайта путешествий, созданного в 2 0 0 0 году. Он считается крупнейшим в мире, са мым узнаваемым и заслуживающим доверия сайтом путеше ствий. С помощью этого сайта вы можете спланировать поездку
Глава 5. Б о л ь ш и е д а н н ы е —
это н а ш босс
в любую страну мира. Для пользователей услуги сайта бесплат ны, а их очень много — 315 миллионов уникальных посетите лей каждый месяц! Сайт работает в 4 5 странах на 25 языках. Большую часть контента создают сами пользователи — остав ляют отзывы, загружают фотографии. Этот сайт можно назвать силой в мире путешествий. Эту силу дают ему опубликованные рейтинги. Сайт становится фильтром для доступа к организации. Возможно, вы также пользовались или, по крайней мере, слышали про онлайн-платформу Airbnb — это площадка для размещения предложений, поиска и аренды частного жилья на недолгий срок по всему миру (в 191 стране и 65 0 0 0 городов). Можно сдать и снять жилье целиком, можно частично. Сайт помогает хозяину и гостю установить контакт. С хозяев Airbnb берет 3% от суммы контракта, с арендаторов — от 6 до 12%. Профиль в Airbnb можно связать с аккаунтом в Facebook, и в та ком случае вы сможете увидеть, где останавливались ваши дру зья, и попросить их поделиться впечатлениями (если они этого еще не сделали). С 2008 года, когда эта платформа появилась, до 2 0 1 7 года с ее помощью нашли жилье более 150 миллионов человек. Заполнение профиля в Airbnb является обязательным. П ро фили пользователей (как хозяев, так и гостей) содержат рейтин ги, отзывы и рекомендации, оставленные другими пользовате лями. Сайт предоставляет возможность приватной переписки хозяина и потенциального гостя. Оплата производится через сайт. После выезда гостя и гость и хозяин оставляют отзывы друг о друге и выставляют оценки по определенному набору критериев. На основании их формируется рейтинг обоих. Подобное стало возможным благодаря технологиям Big Data. Подобные компании не любят открывать свои данные, но Airbnb это все-таки сделала, и выяснилось, что американцев с африканскими фамилиями готовы принять на 16% меньше хозяев, чем американцев с европейскими фамилиями, несмотря на рейтинг на сайте. В компании по предоставлению услуг такси Uber клиенты выставляют оценки водителям, а водители выставляют оцен ки пассажирам. С оответствует ли этот рейтинг действитель ности? Нет. И этот рейтинг приводит к таким последствиям,
П р о с то B ig D ata
о которых те, кто оценивал, и подумать не могли. Они не х о тели создавать проблем водителю. Люди просто не понима ли, к каким последствиям могут привести их оценки. Н о они не виноваты — виноваты те, кто придумывал критерии, на пример в Великобритании. Они просто не знают англичан. Англичанин никогда не будет впадать в крайности, такова природа нации. Англичан постарается избежать и самой луч шей, и самой худшей оценки. Всегда. О н поставит четыре звезды, если ему понравилось. Они будут означать «х о р о ш о » или даже «очен ь хор о ш о ». Но, по мнению компании Uber, приемлемый рейтинг для водителя — 4,6. И те водители, которые в среднем получают ниже, лишаются места, то есть их удаляют из базы данных. И здесь, так же как в случае афро американцев, желающих снять жилье через Airbnb, могут играть роль личные предубеждения. Вы смотрели британский телесериал «Черное зеркало», созданный Чарли Буккером? Уже прошли четыре сезона, объ явлено о пятом. «Черное зеркало» — это черные дисплеи электронных гаджетов, которые сейчас есть в каждом доме. Это холодные и блестящие экраны мониторов, смартфонов, телевизоров. Сериал — сатира на образ жизни современного общества. Сквозь него проходит тема влияния информацион ных технологий на человеческие отношения. Технологии — это наркотики, а если это наркотики, то каких побочных эффектов ждать? В этом сериале, в частности, высмеивается составление рейтингов, и рейтинги влияют на то, что герои могут сделать и куда пойти. Вначале телесериал показывали на одном из британских телеканалов, потом права купил американский стриминговый сервис (или Big D ata сервис) Netflix, который тоже использует оценочную систему. Приведу еще один пример рейтингов, на этот раз в системе образования. Эта система была придумана Мишель Рии, управ ляющей школами Вашингтона, округ Колумбия. Она решила оценить качество преподавания. Но если все делать правильно, будет очень дорого, а это деньги налогоплательщиков. Мишель Рии решила не тратиться на многие часы мониторинга экспер тами, а просто ввести в машину оценки учащихся. Эти данные есть во всех школах, не нужно напрягаться, их собирая.
Глава 5. Б о л ь ш и е д а н н ы е —
это н а ш босс
А ведь это непрямые показатели работы учителей. Оценки учеников совсем не обязательно свидетельствуют о том, на сколько хорош или плох тот или иной учитель. Четкой и прямой связи нет. Но так оценивать легко и дешево. В первый год ис пользования этой системы оценки учителей уволили 2% учи телей, оказавшихся внизу рейтинга. На следующий год работу потеряли уже 5 %. В общей сложности — свыше 2 0 0 профессио нальных преподавателей. Но это подход Big Data при использовании малого количе ства данных. Оценивали только учителей Вашингтона. Данных по стране, хотя бы по каким-то штатам, не было. А ведь худшие учителя Вашингтона вполне могли оказаться лучшими в Толедо. Не факт, что они работают на уровне 5% лучших в Толедо, мы этого просто не знаем. Система не учитывала ничего, кроме полученных оценок учениками. А среди учеников были и та кие, которые почти не посещали школу. Личные обстоятельства из жизни учеников не учитывались никак. В использованной системе не было достаточного количества данных и не была предусмотрена возможность корректировки. Хорошие совре менные алгоритмы, использующие большие данные, способны со временем сами по себе корректироваться. Нужно просто не доводить ситуацию до абсурда. Вы же не можете представить систему, которая, например, выдает зарплату тем, чья фамилия начинается с буквы « С » , но не вы дает, если фамилия начинается на « Р » , или которая рекоменду ет принять человека на работу, потому что он родился в штате Алабама (на « А » ) . Это просто смешно. Системы должны ба зироваться на параметрах, которые отражают квалификацию, эффективность, качество работы и т.д. И нельзя верить в то, что компьютер всегда прав, потому что беспристрастен. Он хо рош настолько, насколько хорошо написан алгоритм, насколько высоко квалифицирован человек, который его писал.
Кредитный рейтинг М ы уже говорили про то, что вас могут не взять на работу, потому что так решила машина. Но вы также можете не полу чить кредит. Раньше вы общались с банковским менеджером,
П р о с то B ig D ata
который знал вас лично, он составлял впечатление о вас и ре шал, рискует ли банк, выдавая вам кредит — и оправдан ли риск. Н о теперь решение о выдаче вам кредита принимает алгоритм, действующий на основе больших данных. Система собирает данные о кредитах, которые вы брали, о том, как вы их выплачивали, о том, были ли задержки и про пуски платежей, как вы платили штрафы. Конечно, учитывается информация о ваших доходах, об имеющемся имуществе и его стоимости, членах семьи, как работающих, так и иждивенцах. Алгоритм интерпретирует все эти данные и выносит вердикт, причем делает это быстро, в особенности в сравнении с тем вре менем, которое требовалось на одобрение кредита в те времена, когда технологий Big Data еще не существовало. И если личный банковский менеджер вам что-то объяснял, то теперь у вас нет никакой возможность узнать, почему система оценивала вас таким образом. И вы не можете указать на ошибку, как при об щении с личным банковским менеджером. Например, вы один раз задержали платеж не по своей вине, а по вине банка, ком пьютеры которого вышли из строя. Вам не был начислен штраф, потому что это не ваша вина, но в системе имеется информация о дате платежа, и алгоритм рассматривает ее как задержку пла тежа. А вам из-за этой задержки платежа по вине банка предла гают менее выгодные условия по кредиту, потому что к такому выводу пришла система. Самая известная в Великобритании микрофинансовая ор ганизация Wonga является не только лидером в кредитовании «д о зарплаты», но и имеет наименьший процент невозвращенных кредитов. Они очень рано поняли, насколько полезны тех нологии Big Data, и ими пользуются. Wonga собирает всю инфор мацию об обратившихся в компанию людях — все, что только можно найти в Интернете, и не скрывает этого. Они активно изучают социальные сети, друзей, их кредитную историю, тех нологию, которой вы воспользовались для обращения в Wonga (это онлайн-платформа), местность, где вы живете физически. Алгоритм, принимающий решение о выдаче краткосрочного кредита, действует по не совсем понятным правилам. Но это срабатывает! Например, изначально компания использовала предположение, что человек, друзья которого обычно возвра щают кредиты, тоже вернет кредит. Скорее да, чем нет. Человек,
Глава 5. Б о л ь ш и е д а н н ы е —
э то н а ш босс
который живет в той местности, где люди обычно возвращают кредиты, тоже вернет кредит. Скорее да, чем нет. Система на страивалась с течением времени и становилась все более и бо лее эффективной. Иногда критерии кажутся странными, иногда включение их в систему кажется безумием, но, если это сраба тывает, значит, компания работает правильно. Люди физически не смогли бы проверить все эти критерии, их связь с возвратом или невозвратом кредита, да, наверное, и не стали бы, если бы даже могли. А современные технологии позволяют это сделать. Компания успешна, пусть и действует на основании безумных (на первый взгляд) предположений. А это — самое главное. Но большие данные также испортили массу кредитных историй, поставили на людей черные метки, которые смыть невозможно. Они осложнили людям жизнь сейчас и в будущем, потому что информация навсегда останется где-то в дебрях Ин тернета, и другой алгоритм, через десять и двадцать лет, сможет вытянуть ее на свет и осложнить человеку проведение финан совых операций. Внести исправление крайне сложно, иногда невозможно. Так почему мы допускаем, что какой-то скрытый алгоритм может разрушить человеческую жизнь, повлиять на судьбу? Был ли предыдущий подход лучше? Трудно сказать. В о всем есть свои плюсы и минусы. Я считаю, что использование тех нологий Big Data все-таки лучше, чем личный банковский ме неджер, но при одном условии — открытые алгоритмы. Мы должны иметь возможность понять, почему получили именно такой кредитный рейтинг и как можно быстро исправить ошиб ки. Как избавиться от черной метки, которая влечет за собой другие проблемы и еще большее снижение рейтинга? Было бы прекрасно внести дополнения в законы о банковской деятель ности, обязывающие банки детально объяснять отказ в выдаче кредита. Сейчас они это делать не обязаны.
Белое или черное? Рейтинговые агентства сейчас работают по всему миру и используют большие данные. Это организации, присваиваю щие кредитные рейтинги, которые показывают способность
П р о с то B ig D ata
должника вернуть долг, своевременно уплатить проценты, а так же вероятность дефолта. Существуют не только кредитные рей тинги, но и рейтинг качества управления, надежности компании и т. д. О ценности кредитных рейтингов для ценных бумаг уже давно идут споры по всему миру. «Большая тройка» междуна родных рейтинговых агентств ( Moody’s, Standard & Poors, Fitch Ratings) контролирует примерно 95% рейтингового бизнеса. В последние годы в СШ А и Великобритании возникли са мые разные рейтинговые агентства, основатели которых поня ли, что появилось много потенциальных клиентов, желающих узнать как рейтинги организаций, так и частных лиц. Упомя нутая выше «большая тройка» никогда не интересовалась частными лицами. А новые агентства продают частным лицам доступ к их собственным данным. Люди не могут его получить сами, так как не имеют доступа к технологиям Big Data. В ряде стран вопрос уже обсуждается на законодательном уровне — мы должны иметь право доступа к данным о нас самих. Но рейтинговые агентства пока продолжают торговлю дан ными. Например, некоторые организации обращаются к ним за кредитным рейтингом людей, пытающихся устроиться к ним на работу. Но ведь если человек просрочил свой кредит, это со всем не значит, что он будет плохим администратором. Он мо жет быть очень щепетилен в плане чужих денег. Или недавний студент устраивается на работу, а у него не выплачен кредит на образование. Как он мог его выплатить, если еще не работал? Но у него уже плохой кредитный рейтинг. В целом трудность при работе с большими данными заклю чается в том, что кому-то они приносят большую пользу, а ко му-то — вред и могут даже сломать жизнь. М ы часто осуждаем использование технологий Big Data, если пользу получает толь ко государство или компания и при этом не получают отдель ные люди. Есть алгоритмы, в которых никто не видит смысла. В любом случае нужно взвешивать пользу технологий Big Data для большинства, учитывая последствия для меньшинства или даже отдельных людей. Есть много систем, работающих с большими данными, ко торые приносят пользу большинству из нас. Выше упоминал ся американский стриминговый сервис (или Big Data сервис) Netflix, который использует оценочную систему. Например,
Глава 5. Б о л ь ш и е д а н н ы е —
это н а ш босс
вы регулярно пользуетесь их рекомендациями и каждый раз про себя благодарите создателей. Вы можете себе позволить посмотреть вечером только один фильм, и система подсказыва ет вам, какой именно, и подсказывает правильно. А потом она ошибается. Например, она знает, что вы любите фильмы, дей ствие в которых происходит в СШ А , также вы любите экшн. И однажды вечером система предлагает вам посмотреть фильм, в центре которого судьба игрока в бейсбол. А вы терпеть не мо жете бейсбол и никогда не смотрите фильмы о спорте. Э то тра гедия? Нет. Эта ошибка не влияет на вашу судьбу. Мне кажется, нельзя говорить, что большие данные — это очень хорошо или что это очень плохо. Это не белое и черное. У больших данных много оттенков, и мы должны максимально использовать возможности, которые у нас появились благодаря им, и корректировать недостатки.
П р о с то B ig D ata
ГЛАВА б. БОЛЬШИЕ ДАННЫЕ И МЕДИЦИНА Обмен медицинскими данными Когда мы говорим о медицине, мы также думаем и о науке, но на самом деле эти две области не так уж сильно пересекают ся, как принято считать. Многие виды лечения не основывают ся на детальных научных данных. Лечат так, как принято лечить ту или иную болезнь. Но большие данные меняют положение вещей и в медицине. Одна и та же болезнь у разных людей протекает по-разному. Человек не живет в вакууме, и на него в целом, на его здоровье, протекание конкретной болезни оказывает влияние масса раз личных факторов. Иногда очень трудно определить, что именно вызвало ту или иную проблему со здоровьем, и не только. К на стоящему времени проведено множество исследований, дока зывающих пользу того или иногда продукта или того или иного образа жизни. Но нередко бывает, что исследования, проведен ные другими учеными, доказывают полностью противополож ные вещи. Например, считается, что люди, живущие в районе С ре диземного моря и придерживающиеся средиземноморского типа питания, меньше страдают от сердечнососудистых забо леваний, чем, например, жители северных стран. Это означа ет, что люди, потребляющие больше оливкового масла, менее склонны к проблемам с сердцем. Но мы не можем утверждать, что оливковое масло является причиной снижения вероятно сти сердечнососудистых заболеваний. Действует масса других факторов. Корреляцию не следует отождествлять с причин но-следственной связью ! Например, после окончания Второй
Глава 6. Б о л ь ш и е д а н н ы е и м е д и ц и н а
мировой войны в Великобритании была отмечена связь коли чества беременных женщин с поставками бананов. С увеличе нием импорта увеличивалось количество беременных. И з это го не следует, что бананы являются причиной беременности, но, возможно, у беременных возрастает потребность в бана нах. Да, беременность и бананы оказались связаны, но из это го не следует, что одно является причиной другого или на оборот. Есть и другие факторы, которые влияют на положение дел, например, доход семьи. Можно привести в пример массу подобных исследований из прошлого. Большие данные в первую очередь повлияли на медицинские исследования вполне определенным образом: все больше и больше увеличивается количество мета-анализов. Так называют объединение результатов нескольких исследова ний для анализа набора связанных между собой научных гипо тез. Мета-исследование — это исследование, имеющее объек том другие исследования. Чем больше данных, тем более надежными будут выводы и тем выше шанс, что можно будет вычленить какие-то новые потенциальные причины или отсечь другие. М ета-исследова ния объединяют результаты уже проведенных исследований и «взвеш иваю т» качество и надежность данных. Благодаря подходу с использованием технологий Big D ata уже было дока зано, что некоторые альтернативные средства не лучше плаце бо, а также удалось определить, какая диета улучшает здоровье. Главная проблема в медицине — это научиться и в первую очередь захотеть делиться данными. Тогда возможности Big Data помогут получить результаты, которые пойдут на пользу всем. Пока медицинские учреждения предпочитают держать данные пациентов у себя. Но только собирая эти данные вместе можно определить эффективность того или иного вида лечения и разработать новые. То есть необходим сбор максимально возможного количе ства данных и их анализ с помощью технологий Big Data. На кон ференции частного некоммерческого фонда «Технологии, развлечения, дизайн» в 2 0 1 4 году Ларри Пейдж, один из созда телей Google, объявил: «Р азве не будет поразительным доступ для всех проводящих исследование докторов к анонимным медицинским карточкам? Если мы сделаем наши медицинские
П р о с то B ig Data
карточки открытыми для обмена, это спасет 100 0 0 0 жизней в год». Я думаю, что это спасет миллионы. М ожно утверждать, что большинство (около 7 5 % ) людей в настоящее время готовы делиться своими медицинскими данными при условии, что это делается анонимно. Приведу конкретные цифры опросов. Ресурс PatientsLikeMe сообщил, что 9 4 % американских пользователей социальных сетей будут делиться своими данными, связанными с состоянием здоро вья, при условии должной деидентификации. В Великобрита нии цифра составляет 60% . О прос 12 0 0 0 человек из восьми стран, проведенный Intel Healthcare, показал, что более 76% хотят поделиться своими данными, связанными со здоровьем, анонимно. Самую высокую готовность делиться своими медицински ми данными показали люди с более высоким доходом, и пока затели увеличивались при ассоциации с потенциальной воз можностью исследования для помощи другим или снижением собственных расходов на здравоохранение. Некоторые люди готовы делиться такими данными даже не анонимно. Неком мерческая организация DataDonors («Д он ор ы данны х»), кото рой управляет The Wikilife Foundation, собрала данные, пожерт вованные более чем 5 00 0 0 0 человек. И от подобного может быть очень большая польза. Пациен ты стали делиться своими Д Н К для лечения болезней, в частно сти для борьбы с раком. Четыре американских института объ единили усилия. У каждого была своя роль и свои задачи, и они дополняли друг друга. В проекте участвовали Орегонский уни верситет медицинских наук, который выступал как координи рующее научное учреждение, Общ ество борьбы с лейкемией и лимфомой обеспечивало гранты и защищало права пациен тов, Illumina занималась секвентированием, a Intel — обработ кой данных и разработкой информационного ресурса. Этот консорциум работал с 9 0 0 пациентами, больными лейкемией или лимфомой (известными, как «ж и дки е» опухоли). Их ра ковые клетки секвентировали, и из всех полученных данных, объединенных с клиническими данными, данными по лечению и результатам, сформировали новый информационный ресурс. Это большие данные! Б ез современных технологий подобное было бы невозможно.
Глава 6. Б о л ь ш и е д а н н ы е и м е д и ц и н а
В се это делалось, чтобы, когда придет 901-й пациент, его или ее врач мог войти в базу данных и посмотреть, какое ле чение лучше всего сработало в случаях пациентов с такими же или похожими мутациями, информацию можно фильтровать по возрасту, полу и другим потенциально релевантным харак теристикам. Фонд исследования миелом тоже организовал подобное ис следование, в котором участвовала тысяча пациентов, а на под держку было выделено 4 0 миллионов долларов. Американское общество онкологов-клиницистов активно поддерживает такие инициативы, а его директор, радиолог-онколог Аллен Личтер, сказал: «Э ти случаи — сокровищница информации, если мы просто соединим их все вм есте». Проект Общ ества под названием CancerLinC) заключается в сборе данных по лече нию и его результатам по 100 тысячам пациенток с раком гру ди из 27 онкологических центров в разных частях СШ А . Это очень важное дело! Всего за несколько лет компания Flatiron Health, поддержи ваемая Google Ventures, смогла быстро собрать данные из более чем двухсот раковых центров в СШ А, по более чем 5 5 0 0 0 0 па циентов, с намерением анализировать и делиться данными для улучшения решений по лечению. Google Ventures сделала крупные инвестиции в компанию. Разработана облачная техно логическая платформа, которая объединяет около 2 6 0 онколо гических клиник. Идеальным решением для всех пациентов с диагнозом « р а к » было бы стать частью глобального информационного ресурса. В него можно было бы ввести данные каждого пациен та, сканограммы, виды использовавшегося лечения и результа ты. Там можно было бы собрать данные по сотням тысяч и даже миллионам людей с различной наследственностью и различны ми основными показателями. Сейчас, благодаря технологиям Big Data, уже возможно представить на одном ресурсе все виды и подвиды рака, каждую мутацию и путь развития, их комбина ции, ресурс можно автоматически обновлять и модернизиро вать по мере введения данных по каждому человеку, его лечению и результатам лечения. Такая база данных может служить важ нейшим ресурсом и улучшить результаты лечения пациентов. Жизнь нельзя растянуть навечно, но точное лечение, которое
П р о с то B ig D ata
ведется таким образом, может быть гораздо более эффектив ным в сохранении качества и продолжительности жизни. Да, это фантазия, мечта, но современные технологии по зволяют это сделать. Хотя пока еще нет никакого реального прецедента такого глобального кооперирования и гармониза ции данных. Для этого потребовалось бы преодолеть слишком много барьеров, разделяющих страны и культуры, а это на се годняшний день невозможно. В общем, технически возможно, но невозможно по другим причинам.
Фитнес-браслеты Сейчас в ходу много различных приспособлений, которые вы можете носить на себе для мониторинга состояния здоро вья. Для примера могу назвать iWatch, часы от компании Apple, которые выполняют роль «ум ны х» часов. Они измеряют пульс, подсчитывают шаги и калории. Они могут обнаружить диабет с 85% -ной точностью. Если вы еще приобретете специальный ремешок CardiaBand, то вам обеспечена 30-секундная Э К Г и вы сможете следить за своими сердечными сокращениями. Fitbit — это наименование американской корпорации, производителя потребительской электроники и устройств для фитнеса, которые человек носит на себе, под одноименным брендом. Самые популярные — это фитнес-браслеты (иногда именуемые смарт-браслетами или фитнес-трекерами). Эти приспособления можно синхронизировать с облаком через смартфон, планшет или ноутбук. Поэтому полученную инфор мацию можно анализировать на любых устройствах с доступом в Интернет, чаще всего это делается через мобильные прило жения к смартфону. Вообще все современные фитнес-брасле ты работают благодаря встроенным датчикам и специальному программному обеспечению, устанавливаемому на телефон, планшет или компьютер. Компания предлагает в своих устрой ствах пульсомер, шагомер, трекер сна, можно измерять кровя ное давление. Конечно, первыми анализировать данные о физическом со стоянии человека в режиме реального времени (но не онлайн) стали военные. Эта практика появилась в 1950-е годы, но тогда
Гл ава 6. Б о л ь ш и е д а н н ы е и м е д и ц и н а
требовалось подключать к телу много датчиков. Потом техно логией заинтересовались спортсмены. Следующий этап — это встраивание датчиков в тренажеры. Первыми стали велотре нажеры, которые измеряли пульс и рассчитывали потрачен ные калории. Теперь же информацию о состоянии организма во время занятий спортом можно получать с помощью малень ких аксессуаров, которые совершенно не мешают спортсмену. Фитнес-браслеты появились в 2011 году и сразу же стали очень популярны. Говорят, что фитнес-браслеты с пульсомером произвели настоящую революцию в фитнес-индустрии и изготовлении спортивных аксессуаров. Мало того, что это теперь модный аксессуар, так они еще и облегчают занятие фитнесом. Они выпускаются в разных цветовых гаммах и все время усовершен ствуются. Сейчас самая популярная модель имеет встроенный «ум ны й» будильник. Он позволяет нормировать время сна, анализирует фазы сна и будит владельца в самое подходящее время. Также он может подсказать, когда лучше ложиться спать. Фитнес-браслеты следят за работой систем организма. Главное достоинство — функциональность. Они умеют изме рять пульс, давление, температуру, потоотделение (количество функций зависит от модели). Они могут вовремя предупредить о перегрузке, и вы снизите активность. Пульс отслеживается оперативно и точно, и вы можете скорректировать интенсив ность занятия. Программное обеспечение помогает разрабо тать программу снижения веса. Вы наглядно видите, в каком ко личестве сжигаются калории, и получаете сильную мотивацию для дальнейших занятий. Расчет калорий производится на о с новании данных по росту, весу, полу, продолжительности и виду тренировок. В некоторых устройствах есть функция « П е р сональный диетолог» — и браслет напоминает, когда и какой калорийности пищу принимать. Он также сравнивает количе ство потраченной и восполненной энергии. Но данные по пи щевым продуктам надо вводить вручную. Есть специальные браслеты для плавания, а остальные имеют защиту от брызг. Фитнес-браслеты способны подсчитать, сколько шагов или ки лометров вы прошли. Они поддерживают мотивацию к заняти ям и помогают уберечь от чрезмерных нагрузок. Это полезное устройство и для спортсменов, и для новичков.
П р о с то B ig D ata
Теперь производители часто продают комплекты — смарт фон и фитнес-браслет, чтобы их можно было легко синхрони зировать. Данные с браслета передаются на мобильное устрой ство для их обработки, анализа и дальнейшего планирования занятий. Поскольку нет мощного процессора и большого мо нитора, браслет может долго работать без подзарядки. Человеку интересно проводить мониторинг своих занятий, большие данные вступают в игру, когда вы сравниваете свои по казатели с «эталонными» или показателями других людей, де литесь своими данными, отправляете их на специальные ресур сы. Создаются огромные базы данных пользователей, которые, как и в случае чисто медицинских баз данных, помогают вывести какие-то закономерности, предупредить вас о рисках для здоро вья, подобрать оптимальный для вас режим занятий. На осно вании уже существующих баз производители все время усовер шенствуют и сами браслеты, и программное обеспечение. Но я не могу не сказать и об опасности, связанной с фит нес-браслетами. В ряде стран высокопоставленным государ ственным служащим уже запрещено носить такие браслеты. Ведь по ним можно определить местоположение владельца, а также следить за параметрами его здоровья, даже когда человек спит. Если вы занимаете ответственную должность, допущены к коммерческой или государственной тайне, хорошо подумайте перед тем, как надевать такой браслет. Если нет, то браслет пой дет вам только на пользу.
Глава 7. Б о л ь ш и е д а н н ы е и р а з в л е ч е н и я
ГЛАВА 7. БОЛЬШИЕ ДАННЫЕ И РАЗВЛЕЧЕНИЯ Интернет Большие данные и развлечение с помощью больших данных пришли в нашу жизнь и появлением Интернета. Что это такое? Фактически это инфраструктура для связи компьютеров, « м еж компьютерная сеть». Википедия говорит, что это «всемирная система объединенных компьютерных сетей для хранения и пе редачи информации». Всемирная паутина — это не Интернет, она работает на основе Интернета, и их часто путают. Концепция связи компьютеров появилась в 1962 году. Но прошло несколько лет, перед тем как компьютеры удалось соединить. Считается, что Интернет вырос из военной сети APRANet, которая быстро переместилась в американские уни верситеты. Первый специальный кабель был проложен между Калифорнийским университетом в Лос-Анджелесе, в Сан та-Барбаре, Стэндфордским университетом и Университетом штата Юта для того, чтобы исследователи в одном универси тете могли быстро связаться с компьютером в другом, не тратя времени на дорогу. Первый сеанс связи между университетом в Лос-Анджелесе и Стэндфордским университетом был прове ден 29 октября 1969 года. Ухалось отправить всего два символа. Идея Всемирной паутины зародилась в недрах лаборато рии Ц ЕРН — Европейской организации по ядерным исследо ваниям — для связывания документов посредством гипертек стовых ссылок и для облегчения обмена информацией между группами исследователей, занимающихся проведением экспе риментов на Большом коллайдере. Идея принадлежит британ скому ученому Тиму Бернерсу-Ли (р. 1955), который работал
П р о с то B ig D ata
в Ц Е Р Н консультантом по программному обеспечению. Го дом рождения Всемирной паутины считается 1989-й. В экспе риментах на Большом коллайдере участвовали сотни ученых со всего мира, и им требовался быстрый, часто мгновенный обмен данными. Первоначально проект использовался только во внутренней сети Ц ЕРН . В 1991 году были созданы первые в мире веб-сервер и браузер, их «п ап о й » тоже является Тим Бернерс-Ли. Он же разместил первый сайт на первом сервере 6 августа 1991 года. В апреле 1993 года Ц ЕРН объявила, что си стема будет открыта для всех пользователей. В течение 1990-х годов Интернет объединил большин ство существовавших тогда сетей. В 1997 году Сеть включала уже 10 миллионов компьютеров и стала очень популярным средством обмена информацией. В течение пяти лет количе ство пользователей достигло 50 миллионов человек. Сейчас Интернет состоит из многих тысяч компьютерных сетей — на учных, правительственных, корпоративных, домашних. А В се мирная паутина вызвала настоящий взрыв в информационных технологиях и развитии Интернета. В повседневной речи, упо требляя слово «И н терн ет», мы обычно имеем в виду www —
World Wide Web. Про электронную почту можно говорить начиная с сентя бря 1973 года. И ее появлению мы обязаны бритве. Леонард Клейнрок (р. 1 9 3 4 ), американский инженер и ученый в области информационных технологий и компьютерных сетей, забыл свою бритву в Брайтоне, Великобритания, куда ездил на конфе ренцию по компьютерным сетям, которая проходила в Сассекском университете. Обнаружил он это только дома в Лос-Ан джелесе. В дни конференции была установлена временная связь с APRANet, сигнал передавался через станцию в Корнуолле и спутник — таким образом обеспечивалась трансатлантиче ская телефонная связь и передача телепрограмм. К моменту возвращения Клейнрока в Лос-Анджелес связь не была пре кращена, так как часть делегатов все еще оставалась в универ ситете. Он нашел коллегу, подключенного к сети (несмотря на то, что в Брайтоне в то время было 3 часа ночи), и отправил сообщение через программу, разработанную для связи телетай пов. Просьба Клейнрока найти его бритву — это первый email в истории.
Глава 7. Б о л ь ш и е д а н н ы е и р а зв л е ч е н и я
М ой первый модем работал в 1 0 0 0 раз медленнее, чем ны нешний. Когда я первый раз вошел в Интернет, еще не было Google (вы можете такое представить?). Первая поисковая система, AltaVista, появилась только в 1995 году. В основном там были тексты и немного фотографий, но не самого лучше го качества. Но можно было посмотреть на материалы прямо из Австралии! Сидя у себя дома, я одновременно находился и в ботаническом саду на этом далеком континенте. Ощущения были невероятные. Но тогда мы даже не могли представить, как Интернет и Всемирная паутина изменят нашу жизнь, жизнь каждого простого человека. Больших данных еще не было, а с их появлением жизнь изменилась еще больше.
Ответ на все Что было раньше? Представьте, что вы услышали в програм ме новостей информацию о каком-то человеке и вам захотелось узнать о нем побольше. Вы заглядывали в толстые тома энцикло педий, стоявших у вас дома. У всех (или у большинства) стояли дома какие-то энциклопедии. Если вы не находили нужную ин формацию дома, то отправлялись в библиотеку. Там было боль ше справочного материала. Если человек был из мира политики, то можно было посмотреть подшивки газет и журналов. Если это был киноактер, певица, спортсмен, то вы тоже просматри вали подшивки газет и журналов — соответствующие издания и разделы. Вы могли провести два дня за поисками и не найти ничего. Вообще ничего. Сегодня такое просто невозможно. Теперь вы просто достаете из кармана смартфон, набираете имя и фамилию — и информация оказывается у вас перед гла зами. Теперь Интернет иногда называют «оракулом больших данных», и это правильно, потому что он является источником всей информации, которая вам может потребоваться, и предо ставляет ее вам тогда, когда она вам нужна, и независимо от ме ста, в котором вы находитесь. Но Интернет — не энциклопедия. На ваш запрос (напри мер, введенные имя и фамилию) вы можете получить 5 0 0 тысяч ссылок, можете миллион, а то и больше. Это одна из самых впе чатляющих демонстраций работы больших данных. Вы просто
П р о с то B ig D ata
физически не сможете пройти по всем этим ссылкам, даже при легком и быстром доступе. А поскольку информации так много, вся она просто не может быть правильной. Так что нуж но критически подходить ко всей всплывающей информации. Никто не гарантирует, что все, что вы прочитаете в Интернете, соответствует действительности. Эту информацию легко опу бликовать, легко получить, но ее надо проверять. Несколько слов о Википедии, которая появилась в 2001 году. Изначально планировалось создать гигантскую ми ровую энциклопедию, причем бесплатную. И в самом начале она создавалась как обычные энциклопедии — статьи писали эксперты в каждой области. Но задача оказалась непосильной, и уже через несколько лет в проекте мог принять участие лю бой человек. Ни в одной энциклопедии в истории человечества не было столько информации, сколько в Википедии. По коли честву данных они даже к ней не приближались. Эта самая пол ная энциклопедия за всю историю человечества и по темати ческому охвату, и по объему сведений. Сравните с бумажным энциклопедическим словарем, который, возможно, до сих пор хранится у вас дома, или даже многотомной бумажной энци клопедией. К тому же это многоязычная энциклопедия (есть информация на 301 языке), что отличает ее от предыдущих. Википедия — это большие данные, причем и по количеству статей, и по количеству информации в каждой статье. В ней более 4 0 миллионов статей. Это пятый по посещаемости сайт в мире, при этом — самый популярный и самый крупный спра вочник. И это быстрый поиск, что тоже является одной из ха рактеристик технологии Big Data. Что и отражено отражено в названии. Английское слово wiki из гавайского языка, в кото ром означает « б ы ст р о » , то есть дословно Википедия — это «бы страя энциклопедия». Сейчас ее все больше и больше ругают за неточность, вспо минают, как раньше над энциклопедиями работали ученые и эксперты из разных областей знаний, проверяли и перепро веряли информацию. Статьи в Википедии не проходят эксперт ной оценки, что является, например, обязательным требовани ем для Encyclopaedia Britannica («Британской энциклопедии»). Но статьи могут редактировать другие участники Википедии, хотя нет гарантии, что они исправят неправильное на правильное.
Глава 7. Б о л ь ш и е д а н н ы е и р а зв л е ч е н и я
Не так давно британские ученые провели экспертную оцен ку ряда статей из Википедии, посвященных научной тематике. Можно ли считать информацию в Википедии надежной? Уче ные пришли к выводу, что в статьях на научные темы и статьях, посвященных различным технологиям, ошибок не больше, чем в «Британской энциклопедии», но в Википедии гораз до больше информации, чем в «Британской энциклопедии». Они же указали на предвзятое отношение авторов некоторых разделов, например статей на политические темы. Н о ведь если мы говорим о политике, мы всегда пристрастны, не правда ли? И информация в Википедии об одном и том же в политике, опу бликованная на английском и русском языках, может отличать ся, потому что к нему по-разному относятся в СШ А и России, а статьи на своих родных языках писали американец и русский. В любом случае мы можем сказать, что Интернет стал при чиной информационной революции, или революции данных. Теперь у нас есть легкий и быстрый доступ к огромным мас сивам самой разной информации. Одной из составляющих информационной революции стали поисковые системы. И это тоже невероятно впечатляющая демонстрация работы Big Data. Это невероятно быстрая обработка гигантских массивов дан ных по запросу. Скорость современных технологий поражает, как и их возможности. Google — это американская транснациональная публичная корпорация. Компания была зарегистрирована Ларри Пейджем и Сергеем Брином в 1996 году. Google управляет более чем мил лионом серверов в центрах обработки данных по всему миру. Каждый день они обрабатывают свыше миллиарда поисковых за просов со всего мира и 24 петабайт пользовательских данных (1 петабайт = 1 миллиону гигабайт). Главный продукт компании — это поисковая система, и, слыша или видя слово Google, мы в пер вую очередь думаем не о компании (о компании мы чаще всего вообще не думаем), а об очень удобной и мощной поисковой системе. Слово теперь используется и как глагол, обозначающий поиск с ее помощью. Эта поисковая система охватывает более 60% рынка. Поиск может вестись на 191 языке. Ежедневно реги стрируется около 50 миллионов запросов и индексируется более 8 миллиардов веб-страниц. У компании имеются и другие про дукты. Например, почтовый сервис (Gmail) и социальная сеть
П р о с то B ig D ata
( Google+ ). Основной сайт Google (google.com ) является самым посещаемым сайтом Интернета, показателя 1 миллиард уникаль ных пользователей в месяц компания добилась в мае 2011 года. Международные сайты компании (например, google.co.uk) входят в первую сотню по посещаемости. Это относится и к сайтам дру гих сервисов Google — YouTube, Blogger. Google называют и самым мощным, и самым дорогим брендом в мире. Это бренд больших данных. Если говорить о миллиардах страниц, то Google покрыва ет от 4 7 до 4 9 миллиардов. Но это не означает, что в Интерне те около 50 миллиардов страниц. Их гораздо больше, просто у Google нет к ним доступа, так как они являются коммерческой тайной или закрыты из соображений безопасности. Неужели при каждом запросе система проводит для нас поиск по всем этим миллиардам страниц, находящихся в ее распоряжении? Нет, это не так. У Google имеются свои поисковые роботы, кото рых также называют веб-кроулерами или веб-пауками, которые постоянно рыскают по Всемирной паутине в поисках нового материала. Он заносится в базу данных поисковика и прикреп ляется к каким-то указателям в базе данных. Только в одном ал фавитном указателе Google 100 петабайт данных. Чтобы найти ответы на вопросы, нам нужно так их форму лировать, чтобы слова совпали со словами на веб-страницах. Стоит нам начать печатать вопрос — тут же выходят подсказки и варианты для выбора. Почему одни страницы в ответ на наш вопрос выходят первыми, а другие, на которых мы на самом деле находим ответ, оказываются гораздо дальше? Во-первых, владельцы сайтов могли за это заплатить. Во-вторых, внача ле показывается недавняя или самая последняя информация. В-третьих, Google вначале показывает те сайты, которые систе ма считает высококачественными, или они связаны с другими важными сайтами. В памяти Google хранятся запросы каждого пользовате ля, и ответы на его запросы структурируются в соответствии с его прошлыми запросами. Уже немало людей пытались разо браться с рейтинговым алгоритмом Google, чтобы поднять свои сайты в их рейтинге. Н о инженеры Google всегда находят ответ, чтобы противостоять такой «оптимизации» поисковой систе мы, и усовершенствуют и ее, и рейтинговый алгоритм. Пока
Глава 7. Б о л ь ш и е д а н н ы е и р а зв л е ч е н и я
победить Google никому не удалось. Конечно, Google используют не только и не столько для раз влечений. Многие люди используют поисковую систему, чтобы что-то купить, в образовательных, исследовательских целях, для своего бизнеса. Но согласитесь, что это здорово — иметь возможность быстро и легко найти то, что нужно. В любых целях.
Звук и картинка Вначале цифровой мир оказал серьезное влияние на музы ку. Цифровые данные гораздо проще переписывать, чем сохра няемые на физических носителях аналоговые данные. Шоком был переход от пластинок к кассетам, потом появились CD, а цифровые файлы стали частью информационной революции. Такой файл можно переписать и представить миру за несколько секунд, например, с помощью сервиса бесплатного обмена типа Napster. Из-за таких сервисов доходы звукозаписывающих ком паний упали невероятно. Что представляет собой цифровая дистрибуция? В настоя щее время есть интернет-магазины, которые работают по клас сической схеме — продают альбомы или песни популярных исполнителей. Таким образом работают iTunes, Google Play. Вы покупаете альбом или песню, платите за них один раз и за качиваете себе на любые устройства. С другой стороны, есть так называемые стриминговые сервисы. Здесь вы не платите за конкретный альбом или конкретную песню, а оплачиваете подписку. То есть платите определенную сумму (небольшую) один раз в месяц и получаете на этот месяц доступ ко всему ка талогу мировой музыки. Если вы подписку не продлеваете, вас отключают от каталога. К стриминговым сервисам относятся, например, Apple Music и платформа Boom. Подобное положение дел очень помогает молодым неиз вестным исполнителям без связей и денег. Если они сделают актуальную и качественную работу, то могут попасть в топ и стрим-сервисов, и интернет-магазинов, а потом монетизи ровать успех. Достаточно двух хитов в год. Если они звучат со всех интернет-площадок, включая YouTube, Apple Music и дру гих, то реально получать порядка 50 тысяч долларов в месяц.
П р о с то B ig D ata
А потом уже можно живьем выходить к публике и получать не меньшие гонорары, чем звезды шоу-бизнеса. А можно не тра титься на масштабные шоу и турне. М ожно выступать только в Интернете, хотя это зависит от аудитории. Например, популярность стриминговых сер висов постоянно растет, а для поколения 15-20-летн и х они заменили радио, добавьте к этому реальную работу законов против пиратства. М ожно сказать, что сейчас конфликт от цов и детей — это конфликт старых звезд шоу-бизнеса и звезд стриминга. Исполнители новой волны стали новыми героя ми слушателей. Пока на пике хип-хоп, рэп, поп-музыка, лек сика улиц, которые интересны их 15-20-л етн ей аудитории. Что будет дальше, когда они все повзрослеют? Пока мы ответа не знаем. Н о эта молодежь, можно сказать, родилась с компью терами и смартфонами, это другое поколение, которое живет в Интернете и мире больших данных. Вероятно, они и дальше будут жить в этом мире. Музыкальный бизнес довольно быстро понял, что если сделать законные действия легкими и доступными, это будет гораздо более эффективным, чем трата огромных сумм денег на борьбу с пиратством. Вначале эта борьба активно велась, но как только закрывался один пиратский сайт, в других ме стах появлялись три новых. Вначале было предоставлено лег кое и дешевое скачивание с сервисов типа iTunes, потом по явился музыкальный стриминг от Spotify и их конкурентов, и среднестатистический любитель музыки понял, что нет о с нований нарушать закон. Конечно, всегда останутся и пираты, и пользователи пиратских сайтов, но их можно рассматривать как неизбежные потери, которые есть в любом бизнесе. Боль шинство, по крайней мере в СШ А , скачивает музыку легаль но. И снова главной причиной эффективного использования больших данных стало удобство. Компании используют силу и гибкость технологии Big Data. И это помогает им не нару шать закон и не платить штрафы. Открывающиеся перед нами сегодня возможности пора жают. Теперь мы можем смотреть фильмы не только по теле визору, но и через компьютер и смартфон. М ы можем в любое время посмотреть выпуски любимого ток-шоу, в любое время включить и в любое время остановить просмотр, если возникли
Глава 7. Б о л ь ш и е д а н н ы е и р а зв л е ч е н и я
неотложные дела. Это невероятно! Раньше так можно было останавливать DVD. Но на одном DVD хранится только не сколько гигабайтов данных. Представьте, сколько данных обра батывают стриминговые сайты, если обслуживают миллионы клиентов. Это невероятно большие данные. Большие данные в промышленных масштабах. Пока стриминговые сервисы не получили такого широкого распространения, как традиционное вещание. Данные в СШ А очень сильно отличаются от штата к штату, а в Великобрита нии примерно четверть домохозяйств подписана на лидера этих услуг Netflix. Н о людей все больше привлекают сервисы « п о требованию», а не традиционная программа передач, ко торая формируется на неделю вперед. Мне кажется, что через 20 лет останутся только часы прямых включений с мест собы тий. И крупнейшие телекомпании мира обязательно окажутся в тренде, отказавшись от устаревших способов предоставления доступа к телепрограммам. Каждый из нас, скорее всего, будет их заказывать — те, которые хотим, и тогда, когда хотим. Н е лю бишь спорт — у тебя в программе не будет спорта. Любишь фут бол — будет футбол. Любишь хоккей — будет хоккей. Видеоконтент с самого момента своего появления при влекал пиратов. Пиратство будет всегда, но его можно свести к минимуму, то есть сделать легальный стриминг и скачивание настолько легкими и удобными, насколько возможно. У компа ний типа Netflix это получилось. Они с самого начала сделали свой продукт доступным через большое количество платформ и добавили много полезных функций, например, остановку просмотра фильма или шоу в любое время и запуск с того же места после перерыва, причем это можно сделать и с другого устройства. В этом и заключалось отличие от «старой гвар дии». Л сама возможность появилась с появлением больших данных.
Книги Но если видеоиндустрия с трудом переходила и все еще продолжает переходить в мир больших данных, что го ворить о книгоиздании? Книги в виде цифровых данных
П р о с то B ig D ata
появились значительно позже цифровых музыкальных и виде офайлов. У книгоиздателей уже давно сформировалась модель получения максимальной прибыли от продаж каждой книги. Вначале на рынок традиционно выпускается вариант в твердой обложке. Огромного количества экземпляров в твердой облож ке не издашь, но даже первый тираж всегда приносил хорошую прибыль. Ведь есть люди, которые с нетерпением ждут книги любимого автора и готовы платить за то, чтобы получить новин ку как можно быстрее. Затем, для остальных читателей, не го товых платить лишнее за скорость, издается вариант в мягкой обложке. В СШ А период между изданием в твердой обложке и мягкой обложке может составлять и обычно раньше состав лял один год. Изначально большинство издателей рассматривали элек тронную книгу как некий вариант книги в мягкой обложке и задерживали ее выход на несколько месяцев, чтобы выжать максимум с твердой обложки. Они усложняли жизнь читателям, вместо того чтобы использовать подход, который требуют Big Data, — сделать доступ к легальной версии как можно проще. И в индустрии, ранее не сталкивавшейся с пиратством, оно расцвело пышным цветом. Но проведенные исследования по казали, что нелогично задерживать продажу электронных книг, потому что рынок книг в твердой обложке и рынок электрон ных книг практически не пересекаются. Фактически это пока зал конфликт Amazon с одним из издателей. Какое-то время они одновременно начинали продажу версий книг в твердой облож ке и электронной версии, а в 2 0 1 0 году из-за конфликта пред ложили посетителям сайта только версию в твердой обложке. Отсутствие электронной версии никак не повлияло на продажу книг в твердой обложке — те, кто покупал их обычно, купил их и в тот раз, те, кто не покупал, не купил. Проведенное чуть позже исследование показало, что за держка выхода на рынок электронной версии книги, наобо рот, существенно снижает продажи. Похоже, что покупатели электронных книг хотят получить их как можно раньше — од новременно с выходом книги в твердой обложке. Так что тра диционный подход к книготорговле, существовавший до эры больших данных, себя больше не оправдывает. Он снижает продажи.
Глава 7. Б о л ь ш и е д а н н ы е и р а зв л е ч е н и я
Через какое-то время большинство издателей это поняли и стали одновременно выпускать версию в твердой обложке (если она вообще публикуется) и электронную версию. Н о даже сейчас остается ряд издателей, преимущественно представите лей старшего поколения, которые не понимают современный рынок. У некоторых цена на электронную версию бывает всего лишь чуть-чуть ниже, чем на книгу в твердой обложке, и сни жают они ее только после выхода книги в мягкой обложке. Это опасная стратегия, она на руку пиратам, которые прекрасно по нимают «циф ровых» покупателей. Неудивительно, что доминирующим игроком на рынке электронных книг является Amazon, контролируя 75% рынка СШ А и 95% рынка Великобритании. Amazon, как и Netflix, со бирает данные о своих покупателях для того, чтобы правильно размещать продукцию на своем сайте и облегчить пользовате лям покупку книг. У них преимущество перед книгоиздателями, потому что они имеют прямой контакт с покупателями из своей базы. А в мире больших данных отсутствие прямого контакта ставит вас в невыгодное, а то и опасное положение. Но книгоиздатели могут получать информацию от своих чи тателей непрямым образом, используя большие данные. И они используют эту возможность, пытаясь понять, что сделало бест селлерами некоторые из опубликованных книг и что не сделало другие. Американский ученый М этью Джокере и бывший издатель Джоди Арчер даже написали об этом книгу «К од бестселлера». Издатели притворяются, будто умеют определять потенциаль ный бестселлер среди многочисленных рукописей, поступаю щих в издательства. Н о никто не ожидал такого успеха «Гарри П оттера» и « 5 0 оттенков сер о го ». Влияет слишком много фак торов, которые еще и взаимодействуют друг с другом. Чтобы сделать прогноз, нужно учитывать не только характеристики самой книги, но и общие тенденции, и социальные факторы. Джокере и Арчер решили, что технологии Big Data помогут им справиться с трудной задачей прогнозирования. Они раз работали программное обеспечение для анализа огромного количества бестселлеров и нахождения общих черт. По их мне нию, на основании полученных данных можно анализировать недавно написанные книги для определения потенциальных
П р о с то B ig D ata
бестселлеров. To есть большие данные становятся судьей чита тельских вкусов. Н о ... Их алгоритм отмечал использование определенных слов, построение фраз, фактически он находил книги, которые мы охарактеризуем как «хорош о написанные». Но бестсел лерами становились и те книги, которые, по мнению разрабо танного программного обеспечения, относились к «ужасно написанным». Например, этот алгоритм не определил в списки бестселлеров книги Дэна Брауна и « 5 0 оттенков серого». Да, многие книги попали в список бестселлеров New York Times. Да, они хорошо написаны. Но литературные критики обычно о с новывают свои оценки на других факторах. Нельзя написать книгу, которая понравится всем. Д ж о кере и Арчер дают советы тем, кто хочет написать бестселлер на основании изучения списков бестселлеров и выкладок сво его программного обеспечения. Например, следует не писать фантастику, избегать чисто британских тем и описания частей тела и полового акта. Я считаю, что их алгоритм выявляет пло хие книги (с описанием полового акта и частей тела отдельно), но не способен выявить настоящие бестселлеры. Количество проанализированных ими книг впечатляет, но они не сообщают нам, сколько раз алгоритм ошибся. Сколь ко раз он назвал бестселлерами книги, которые ими не были? Сколько настоящих бестселлеров пропустил? Насколько мне известно, издатели не восприняли исследование Джокерса и Арчера всерьез и не полагаются на него. А вот на технологии Big Data полагаются во все большей и большей степени.
Социальные сети Очень мало кто живет в изоляции от других людей. К о нечно, и в наше время есть отшельники, но социальные сети существовали и до появления Интернета. У нас у всех есть круг друзей, есть родственники, коллеги, соседи, есть люди, с которыми мы просто здороваемся, есть те, кому мы просто киваем. С кем-то мы каждый день едем на работу в электрич ке, но не решаемся первыми заговорить. Но технологии Big Data подняли социальные сети и социальные связи на новый
!
Глава 7. Б о л ь ш и е д а н н ы е и р а з в л е ч е н и я
уровень. О таком никто не мог и подумать и тем более предпо ложить. В наше время социальные сети называют по-разному, в част ности рассадником фейковых новостей. Об этом стали активно говорить после избрания Дональда Трампа президентом СШ А. Фейковыми новостями или просто фейками называют наме ренное распространение дезинформации в социальных медиа и традиционных С М И для получения выгоды, в особенности финансовой и политической, увеличения трафика и прибы ли. Фейковые новости имеют много общего с желтой прессой и политической пропагандой, которые существуют уже давно и сыграли свою роль в человеческой истории. Самой главной мишенью фейковых новостей на сегодняшний день считается Хилари Клинтон в период избирательной кампании — если говорить и о значимости фигуры, и о последствиях. Распро странение фальшивой информации о ней, дискредитирующей ее, и стало основной причиной ее поражения на президентских выборах. Хотя на самом деле они применялись против Трампа! Но теперь фейковые новости и их влияние — это глобальное явление. В бумажных С М И тоже, бывало, попадались непроверен ные новости, против желтых изданий возбуждались многочис ленные иски. Но все-таки раньше печатные издания старались проверять публикуемую информацию, откровенную ложь от сеивали. В социальных медиа такого фильтра нет. А мы имеем склонность верить тому, что нам сообщают друзья по социаль ным сетям, и скорее им, чем информации из какого-то далекого источника. Например, новостная лента Facebook оказалась самым эффектным средством распространения фейковых новостей во время президентской гонки в СШ А. Число репостов фаль шивых новостей в этой сети значительно превысило число достоверных сообщений. Возможно, причина заключается в том, что фальшивые новости больше соответствовали ожи даниям американцев или оказывались более захватывающими. Американцы отслеживают новости в основном через Facebook или Twitter. 64% взрослых американцев заявили после прези дентских выборов, что из-за фальшивых новостей возникло «много путаницы» в их представлении о происходящем. 23%
П р о с то B ig D ata
признали, что сознательно или несознательно участвовали в распространении фейковых новостей. Хотя после выборов компания заключила партнерское соглашение с независимыми факт-чекерами (теми, кто проверяет достоверность инфор мации, уже возникло соответствующее направление в жур налистике), которые помечают непроверенные сообщения для предупреждения пользователей. Имеются и целые поддель ные новостные сайты. Я очень надеюсь, что сеть Facebook всегда будет этичной и непредвзятой. Но представьте на минутку, что ее купили пред ставители другой страны. И им захочется повлиять на выборы в вашей стране. Сила и возможности будут в их руках, букваль но на кончиках пальцев, потому что мы даже не можем предпо ложить, как они станут выбирать то, что будет появляться у нас на экранах. Я отнес социальные сети к развлечениям, но это также и вопрос безопасности. Проблема фейковых новостей связана с появлением боль ших данных и легкостью распространения информации в соци альных сетях и Всемирной паутине в целом в сравнении с фи зическим миром. Если вы получаете какую-то шокирующую, ошеломляющую новость от вашего френда, от вас требуется всего пара кликов, чтобы поделиться ею с огромным количе ством людей. Сейчас информация распространяется как ви рус — один человек может «зарази ть» многих, именно так в человеческой истории начинались эпидемии. Виртуальную эпидемию начать еще проще, а остановить невозможно. Наши способности не успевают за возможностями соци альных сетей. М ы не можем проверять все новости. Да и про сто ленимся или не хотим. М ы верим нашему ближнему кругу; как правило, у американца средних лет, к которым отношусь я, в него входит около 10 человек, с которыми он общается в Сети. Но у молодежи таких наберется около 100 человек. А есть ак тивные пользователи Facebook, у которых по несколько сотен френдов. Нельзя проверить информацию, поступающую от них всех. В настоящее время наибольшее беспокойство вызывает влияние социальных сетей (и соответственно больших дан ных) на способность людей (в первую очередь молодых людей) сосредоточивать внимание и взаимодействовать с другими.
Глава 7. Б о л ь ш и е д а н н ы е и р а зв л е ч е н и я
Жизнь современных молодых людей, можно сказать, проходит в социальных сетях и Интернете. Они регулярно заглядывают в смартфоны или вообще не отрывают от них глаз. Э то даже приводит к несчастным случаям. В среднем современный моло дой человек проверяет телефон 100 раз в день! М ногие загляды вают в свои аккаунты или почту каждый раз, когда просыпают ся ночью. Да, социальные связи необходимы, но не в такой же степе ни! М асса молодых людей сейчас очень тщательно следит за тем, что они выставляют в Сеть, и еще более тщательно за тем, сколь ко лайков принесли их фотографии. Они постоянно проверяют Instagram, Facebook и другие сети на предмет количества лайков на свои недавние посты, они проверяют количество полученных ими лайков и количество лайков у других людей, сравнивают ко личество подписчиков. Это болезненная зависимость! Ученые разных стран, проводившие соответствующие исследования, обнаружили прямую связь между использованием социальных сетей и ощущением себя несчастными. То есть чем больше вре мени люди проводят в сетях, тем они менее счастливы. Связь здесь не односторонняя, а двухсторонняя. Счастливый человек не будет проводить много времени в социальных сетях, может ими воспользоваться, чтобы кого-то найти, а может быть, вооб ще не зарегистрирован нигде. Но все равно социальные сети — это большой плюс. Это развлечение стало возможным только после появления техно логии Big Data. Я сам регулярно пользуюсь социальными ме диа, фактически с самого начала их появления. Я работаю дома, и социальные сети — это один из способов общения с дру гими людьми. Я участвую в различных форумах, иногда мне требуется консультация специалиста, хочется что-то обсудить с коллегами, просто посоветоваться. Я регулярно захожу на пи сательский форум, созданный авторским обществом, который называется «Писательская биржа». На этом форуме писатели делятся своим опытом, дают советы и поддерживают друг дру га. Я считаю это и нужным, и полезным. Точно так же в рабочих целях я использую и Facebook, и Twitter. Это обратная связь с читателями, а также обще ние с учеными, другими писателями и издателями. Это помо гает мне и в работе, и в жизни. Хотя признаюсь, что иногда
П р о с то B ig Data
приходится буквально хватать себя за руку, чтобы не переклю читься на тот же Facebook и продолжать работать над книгой или статьей. Big Data все больше и больше вторгаются в нашу жизнь. Нужно стараться соблюдать разумное равновесие между удо вольствием, которое дают те же социальные сети, и формиру ющейся зависимостью от них. Нужно осознавать, что большие данные могут принести большие проблемы, и сознательно при лагать усилия, чтобы не уйти из мира реального в мир виртуаль ный. М ожно взять лучшее из обоих миров, если вы осознаете возможные проблемы и контролируете себя. Человек должен контролировать большие данные, а не наоборот. Если же мы действуем правильно, то большие данные помо гают нам решать проблемы. Если нет, то они их только добавля ют. Так давайте сделаем так, чтобы они приносили нам пользу и удовольствие.
Гл ава 8. Б о л ь ш и е д а н н ы е и б у д ущ е е
ГЛАВА 8. БОЛЬШИЕ ДАННЫЕ И БУДУЩЕЕ Что необходимо сделать Большие данные уже меняют мир. Нам от них не спрятать ся. Они просачиваются в наши страны, города, дома, квартиры и гаджеты. В скором времени эта технология захватит планету. Тема будущего больших данных очень активно обсуждается по всему миру. Ведь в основе любой коммерческой деятельности лежит информация, как и в основе обеспечения безопасности, и в основе государственного управления. Умные мужи обсуждают, как вводить в компьютеры огромные объемы данных и при этом заставить их отыскивать или разрабатывать типовые алгоритмы, недоступные человеку. Нужны суперкомпьютеры для масштабов данных, с которыми человек не справится никогда, с которыми не справляются уже многие современные машины. Большие данные дают огромные возможности, силу и власть. При этом не следует забывать, что с большой властью и силой приходит или должна приходить и большая ответствен ность. Большие данные — это потенциально большая поль за и одновременно большие риски как для пользователей, так и для владельцев систем и баз данных. Большие данные нейтральны, они ничего не могут сделать сами по себе. В се дело в алгоритмах, а если точнее, то в их каче стве. Алгоритмы могут успешно использовать данные или при вести какой-то проект к краху. Ведь никому не нужны просто данные, физически много данных, нужно умение правильно соединять эти данные вместе, объединять, разъединять, груп пировать, принимать решения, делать открытия на основании способности анализировать огромное количество введенной
П р о с то B ig D ata
информации. Нужны алгоритмы, способные справляться с го раздо большим количеством информации, чем любой человек. Н о нельзя забывать, что алгоритмы не обладают человеческими чувствами, у них нет симпатий и антипатий, а также человече ского здравого смысла. Какую программу заложили — так и ра ботают. Нужна прозрачность и четкое понимание происходяще го, если что-то идет не так. Владельцы систем больших данных должны обеспечить возможность субъектам этих систем ви деть, что делают системы, указать на ошибки. Нужно обеспе чить возможность внесения исправлений, причем оперативно. Нужны возможности быстрого ввода новых данных и замены старых. Однако многие владельцы больших данных не хотят брать на себя подобную ответственность. Например, утвер ждают, что алгоритмы являются их собственностью, их рабо ту нельзя объяснять конечным пользователям, а прозрачность принесет вред их бизнесу. Но это неприемлемо! Если система каким-то образом влияет на жизнь людей, нужна защита. А мно гие системы не приспособлены к корректировке. Это про сто не предусмотрено. Корректировка — это не разглашение коммерческих тайн, это обеспечение должной работы систе мы для правильного использования больших данных во благо, а не во вред. На самом деле системы корректировки не добавля ются в алгоритмы из-за стоимости и простой лени. Например, устанавливается программа, которая находит всех граждан страны, которые зарабатывают свыше одного миллиона долларов в год. Цель — обнаружить тех, кто не пла тит налоги в больших размерах. Но ведь совершенно необяза тельно те, кто зарабатывает свыше одного миллиона долларов в год, являются неплательщиками. Подавляющее большинство как раз платит. Это неправильное использование больших дан ных. А зачем просто так выявлять тех, кто имеет свыше опре деленной суммы? Это означает неполный, недоработанный алгоритм. Системы больших данных как раз дают возможность обработать физически большой объем данных с определенны ми целями. Нужно быть осторожными и максимально правиль но интерпретировать результаты. Если владельцы больших данных будут считать, что эти большие данные — их собственность и никого нельзя к ним
Глава 8. Б о л ь ш и е д а н н ы е и б у д у щ е е
подпускать, это примерно то же самое, как не позволять про верять выпускаемые автомобили сторонним лицам. Вы можете себе представить, чтобы владелец автомобилестроительного завода заявил подобное? Как будто бы это раскрытие коммер ческой тайны. В ся продукция, выпускаемая в СШ А, проверяет ся на безопасность. Хотя положение дел с большими данными еще не урегулировано законодательно, как должно бы быть. Это дело будущего. В настоящее время владельцам систем больших данных многое сходит с рук. Например, их алгоритмы решают, что нам продавать, большие данные, в частности, очень помо гают маркетологам, которые очень активно используют соот ветствующие системы для изучения спроса и предложения. Они узнают своих потребителей, привлекают целевую аудито рию из новых потребителей, оценивают их удовлетворенность, реализуют проекты, которые должны пользоваться спросом, усиливают лояльность клиентов, используя новые способы. Но если вы не маркетолог, вы хотите, чтобы они использовали ваши данные? Использовали вас, и вы не знали, как и не могли внести никакую корректировку?..
Неприятное М ы слышим много неприятных вещей о больших данных, хотя, как и в любом деле, здесь есть свои плюсы и свои мину сы. Давайте вначале поговорим об отрицательных сторонах больших данных. Самое неприятное возможное последствие, которое я вижу, — это подавление и угнетение. Большие дан ные в системе государственного управления очень легко могут стать средством контроля за своим населением или просто из лишнего контроля и инструментом давления. Как дела обстояли раньше? Если говорить о тоталитарных режимах, то государство старалось противопоставить или стол кнуть людей друг с другом, использовало информаторов, чтобы, так сказать, держать руку на пульсе. И население знало, что ин форматоры работают, и неизвестно, кто это. Такой информатор мог быть вашим соседом, вашим коллегой и просто школьным другом. Но подобные методы контроля не очень эффективны, не всегда надежны и часто дорогостоящи. Ведь информаторам
П р о с то B ig D ata
надо платить, хотя всегда были те, кто работал «и з любви к ис кусству». На наблюдение, составление отчетов и проверки тра тится много времени. Да и люди, живущие в постоянном стра хе, не верящие никому из друзей и знакомых, не очень полезны для государства. Они всегда будут работать менее эффективно, чем люди в свободном обществе, которые не чувствуют давле ния на себя и не живут в постоянном страхе. Системы больших данных дают все преимущества контроля государством своего населения, при этом избавляясь от многих отрицательных ха рактеристик тоталитарного режима. Поясню подробнее на примере Китая. Контроль за населе нием с помощью системы больших данных вполне может стать реальностью в этой стране. Население в Китае довольно спо койно относится к ограничению личной свободы. Это не СШ А, не Великобритания, не Европа. В настоящее время по приказу китайского руководства ведется разработка системы больших данных, целью которой является автоматическое составление досье на всех граждан, оценка их деятельности, финансов, по ведения в целом. Система должна охватить все — траты, кре дитоспособность, переход улицы в неположенном месте, отказ платить в общественном транспорте, нарушение установлен ных ограничений по количеству детей в семье. Возможно, бу дут выставляться какие-то оценки или присваиваться баллы. Тем, кто ведет себя правильно, будут доступны награды от ка ких-то сервисов, контролируемых государством. В зависимости от «благонадежности» граждане будут получать тот или иной уровень услуг при любой деятельности, например заказе блюд в ресторане, знакомствах в Интернете. Если китаец будет дей ствовать правильно с точки зрения государства и демонстриро вать благонадежность, все у него будет хорошо. Но он должен правильно вести себя во всем — в общественной и личной ж из ни! И за этим будет следить система. Но если он что-то сделает не так, то пострадает. Китайское руководство считает, что такая система необхо дима, чтобы взять под контроль экономику, где много обмана, где продолжают давать взятки, несмотря на предусмотренные законом суровые наказания, компании то и дело продают про дукты питания, которые невозможно есть, или опасные под дельные лекарства. Китайское правительство борется со всем
Глава 8. Б о л ь ш и е д а н н ы е и б у д у щ е е
этим и намерено продолжать борьбу. М ожно не сомневаться, что большие данные помогут решить эти проблемы, но плани руемый масштаб предложенной системы охватывает не только мошенников, жуликов и обманщиков. В Китае в настоящее время живет свыше 1,3 миллиарда человек. Система, охватывающая их всех, все-таки кажется не практичной, даже при современных технологиях. Она может успешно работать в стране с меньшим населением, но не с та ким. Сейчас ее проверяют в региональных пределах. Неизвест но, заработает ли она в масштабах страны, и при этом сложно предсказать все возможные проблемы, которые могут возник нуть при ее применении. Я уже говорил, что при работе с боль шими данными иногда возникают проблемы, которые нельзя было предусмотреть и предотвратить. Нужно очень тщательно подходить к разработке алгоритмов, ведь подобная система может сломать чью-то жизнь, испортить репутацию. Это пред ставляется страшным для людей проектом. Но мы живем в демократической стране и должны требо вать прозрачности от своего правительства, как и люди в других демократических странах. Нужно строго контролировать гра ницы дозволенного правительству, когда речь идет о больших данных, даже когда говорят о вполне законных основаниях, на пример о борьбе с терроризмом. Да, бывают особые ситуации и особые обстоятельства, когда правительству нужен доступ к данным сверх обычных лимитов, но это должны быть имен но особые случаи и особые обстоятельства, а не полный доступ ко всем данным. Нельзя навсегда навешивать на человека ярлык правонарушителя, если он в 18 лет перешел дорогу в неполо женном месте, а в 21 поехал на красный свет. У него не долж но быть из-за этого проблем в 3 0 лет при устройстве на работу в другом штате. А китайская система предусматривает как раз такой подход. Человек не является неблагонадежным в 4 0 лет, если он чудил в 20. А система больших данных как раз сохраня ет эту информацию и может выдать характеристику (плохую) без должных оснований. Станет потенциальный работодатель копаться в основаниях, после того как система преподнесла ему вывод? Маловероятно. Также государственные системы больших данных должны работать и, так сказать, в обратном направлении. Должен быть
П р о с то B ig D ata
легкий и свободный доступ для граждан, желающих получить информацию о государстве, его деятельности и чиновниках. В настоящее время у нас есть доступ к государственным услу гам, но свобода информации о государственной деятельности слишком ограничена, а содержание чиновников дорого обхо дится налогоплательщикам. Система больших данных должна предоставлять любому гражданину доступ к интересующей его информации. Также граждане должны иметь возможность кон тролировать работу крупных корпораций, и общество должно регулярно проверять, как корпорации используют возможно сти больших данных. Другой неприятный аспект, связанный с большими данны ми, — хакеры. М ы не хотим, чтобы нашими данными пользова лись корпорации, и точно так же не хотим, чтобы ими пользо вались хакеры, способные ободрать нас как липку. Они могут разрушить нашу жизнь, взять под контроль «ум ны й» дом, хотя, конечно, их в первую очередь интересуют деньги. Системы больших данных все больше используются в авиа ции и больницах. Это иногда пугает. Продвинутые террористы вполне могут проникнуть в базы данных, не взрывая никаких бомб физически, но самолетом станет невозможно управлять, или вдруг исчезнет вся информация о пациентах. С ростом количества данных должна проводиться рабо та и по усилению их защиты от террористов и хакеров. М ы не должны позволить им одержать над нами победу! Нужно быть бдительными, усиливать безопасность и защиту систем больших данных. Поэтому каждый современный человек дол жен знать, что такое большие данные и учиться с ними взаимо действовать. Появилась и новая религия больших данных — датаизм. Ее основные постулаты сформулировал ученый из Израиля Юваль Ной Харари (р. 1 9 7 6 ), который учился в Еврейском универси тете в Иерусалиме, где в настоящее время преподает всемир ную историю, и защитил диссертацию в Оксфордском уни верситете. Он прославился книгой «Sapiens: Краткая история человечества». Его последняя работа — «H om o Deus: Краткая история будущего». В ней он рассказывает о приходе датаизма и об угрозе, стоящей перед человечеством: люди, как мамонты, могут уйти в вечность.
Гл ава 8. Б о л ь ш и е д а н н ы е и б у д у щ е е
Приверженцы этой «религии» говорят, что за ней будущее, называют ее и идеологией будущего. Основной постулат: В се ленная состоит из потоков данных, и ценность любого явления или субъекта определяется его вкладом в обработку данных. Приверженцы поклоняются большому всемирному потоку дан ных. Высшее призвание человека, по их мнению, — создать все объемлющую систему обработки данных, а потом в нее влиться. Они считают, что при достаточном количестве биометрических данных эта система, обладающая огромной мощностью, спо собна лучше понять человека, чем он понимает себя сам. Гуру, как вы догадываетесь, проживают в Силиконовой долине. С одной стороны, это хорошо, с другой — страшно. Расшифровываются тайны человеческого тела, в частности головного мозга, и возникновения чувств. Данные обрабаты ваются с беспрецедентной мощностью, и в один прекрасный (или ужасный) день появятся системы, которые смогут пони мать и контролировать человеческие чувства лучше, чем мы сами. А когда система больших данных станет понимать нас луч ше, чем мы сами, власть перейдет от человека к искусственному интеллекту и алгоритмам. Сам человек при этом сольется с не прерывным потоком данных. Хотя нельзя отрицать тот факт, что «датаизм» все больше и больше внедряется в нашу жизнь независимо от того, хотим мы этого или не хотим. Билл Гейтс, который на протяжении 16 лет возглавлял спи сок богачей планеты по версии Forbes, очень высоко оценил по следнюю книгу Харари — об этом он рассказал на своем сай те. Гейтс говорит, что у Харари очень умный взгляд на будущее человечества. Правда, он согласен далеко не со всеми вывода ми автора, поскольку смотрит на жизнь более оптимистично. Искусственный интеллект становится все более изощренным, но задача людей состоит в том, чтобы он служил человечеству, а не наоборот. Большими данными должны управлять люди.
Полезное Е сли рассматривать большие данные с точки зрения выго ды, то они напоминают «кольцо всевластия» из книги «В л а стелин колец» Толкиена. Современные технологии позволяют
П р о с то B ig D ata
централизованно собирать и обрабатывать данные, обычные люди получают информацию для большей экономической сво боды. Мы можем сравнивать цены на интересующий нас товар в режиме онлайн перед тем, как совершить покупку, мы можем делать покупки, не выходя из дома, для этого достаточно кос нуться экрана смартфона — и вам все привезут по указанному адресу. М ожно работать «н а удаленке», то есть онлайн, вести активную социальную жизнь, не посещая никаких мероприя тий физически. Люди массово используют виртуальные платформы для об щения и обмена информацией. В се это было невозможно рань ше. Вы уже живете в «у м н ом » доме или пока еще нет? Но вы, конечно, слышали, что такие дома уже есть во многих странах, возможно, посещали их и удивлялись «ум н ой » системе осве щения — лампочки включаются, когда вы возвращаетесь домой, будто приветствуя вас. И это только одна из функций. Все тех нологии «у м н ого » дома подключены к базе данных. Это пока затель того, как большие данные все больше внедряются в нашу жизнь. Бизнес получает информацию о предпочтениях пользова телей, об их поведении, желаниях и интересах. Данные о поль зователях собираются в одно большое информационное поле, обрабатываются и анализируются. Правильная работа с боль шими данными может принести невероятную выгоду компани ям. Компании уже работают с данными пользователей, приме рами могут служить рекламные акции. Но пока никто не знает, что ожидает нас завтра. Какие откроются новые возможности? Какие появятся маркетинговые инструменты? О т больших данных получает пользу и наука. Становится возможным легко получать данные из смежных областей, одно временно анализировать данные, полученные учеными из раз ных стран и работающих в разных направлениях. Некоторые ученые говорят, что у них сейчас столько данных, что им просто не справиться. Точно так же большие данные помогают и меди цине, они помогают отделить факты от догадок, мифы от истин ных способов лечения. С помощью больших данных политика может стать по-настоящему демократичной, а мы будем принимать лучшие для себя решения относительно жизни в своей стране, своем
Гл ава 8. Б о л ь ш и е д а н н ы е и б у д у щ е е
городе. При наличии большего количества информации и пра вильно и понятно структурированной информации мы скорее сделаем правильный выбор. В конце концов, мы просто любим получать информацию. Это интересно, это развлекает, приносит удовольствие, возбу ждает. Большие данные могут обеспечить невиданный ранее информационный бум. Правда, необходимым условием являет ся легкий доступ к информации, у нас должны иметься инстру менты для управления данными и понимания информации. М ы должны научиться быстро исправлять ошибки и корректиро вать неправильные алгоритмы. Да, конечно, от любых инноваций и, в частности, от боль ших данных сразу все не выиграют. В первую очередь рынок всегда ориентируется на обеспеченных людей, и только потом на всех остальных. Например, разрабатывается какая-то вакцина, и в первую очередь на протяжении истории ею могли пользоваться богачи, до массового внедрения могли пройти десятилетия. Но мож но сказать, что уже сейчас все люди в развитых странах в той или иной степени связаны с Big Data и пользуются ими. Одна ко системы больших данных, вероятно, никогда не станут обще ственной собственностью. Следует внести изменения в систему образования — что бы она учитывала мир больших данных. Нашим детям предсто ит жить в мире больших данных, и они должны быть к этому готовы. В настоящее время система образования дает базовые знания для выбранной карьеры, молодым людям во время под готовки к экзаменам приходится заучивать массу информа ции, которая им потом в жизни не потребуется никогда, а если и потребуется, то ее можно легко найти, а не забивать ею го лову. Не нужно запоминать больше необходимого для после дующей жизни только для того, чтобы успешно сдать экзаме ны. Наша система образования строилась в мире, в котором еще не было больших данных, и ориентировалась на жизнь и работу без Big Data. Сейчас возникла необходимость дать молодым людям инструменты для управления данными и понимания их, но при этом сделать так, чтобы система Big Data не стала на вязчивой идеей, чтобы у молодых людей не появилось новой
П р о с то B ig D ata
зависимости. Мы уже знаем про интернет-зависимость, игроманию с зависимостью от онлайн-лотерей с мгновенным вы игрышем, мы видим, как молодые люди не могут оторваться от смартфонов и им физически плохо, если они даже на чет верть часа лишаются возможности оставаться на связи с мно гочисленными френдами. Многие одновременно смотрят теле визор, работают на компьютере и общаются с друзьями через смартфон, иногда в течение одной минуты переключая внима ние между тремя источниками. Они не знают, что это опасно для здоровья, в первую очередь психики. Уроки информатики сейчас уже есть во всех развитых стра нах, но детей нужно также учить сосредоточивать внимание на одном деле и правильно уметь обращаться с данными. Нуж но обучать молодежь навыкам работы с большими данными — как их собирать, обрабатывать и анализировать. Они должны уметь и их корректировать, и распознавать неправильное ис пользование, а в целом — получать максимум пользы от новых технологий. На экзаменах нужно тестировать не память, а на выки. Если не научить молодых людей, которым предстоит жить в мире больших данных, правильному обращению с ними, у че ловечества в целом могут возникнуть проблемы. Но давайте все-таки думать позитивно о возможностях, ко торые открывают перед нами большие данные. Они могут при нести нам всем много пользы, если мы научимся их понимать и правильно с ними обращаться, если мы обеспечим прозрач ность и возможность корректировки алгоритмов. На протяжении своей истории человечество сталкивалось со многими открытиями и разработками, которые были и оста ются одновременно и позитивными, и негативными, то есть на них можно смотреть как с одной, так и с другой стороны. На пример, огонь позволил нашим предкам готовить пищу, обогре ваться, но, с другой стороны, пожары уничтожали целые дерев ни и даже города. То есть если огонь использовать правильно, он приносит пользу, если неправильно, он приводит к трагеди ям. Физика дала нам фантастические знания об устройстве В се ленной и технологии, но при этом люди получили возможность быстро и легко уничтожать себе подобных. Энергия атома мо жет быть использована во благо человечества, а может и во вред. Точно так же дело обстоит и с Big Data.
Гл ава 8. Б о л ь ш и е д а н н ы е и б у д у щ е е
М ы не можем сказать: лучше бы этой технологии не было. Она есть. Она существует в том мире, где мы живем. М ы не мо жем повернуться к ней спиной или жить так, будто ее нет. Большие данные здесь и никуда не исчезнут. Джинн выпущен из бутылки, обратно его загнать не получится, так что нужно думать о том, что пожелать. Нужно научиться желать правиль но. У больших данных, как, впрочем, и у всего в этом мире, есть плюсы и минусы, о которых рассказано в этой книге. О т нас са мих зависит, как мы будем их использовать и насколько светлым будет наше будущее в мире Big Data.
СОДЕРЖАНИЕ Глава 1. Что такое данные и большие данны е?..................... 4 Просто данные............................................................... 4 Появление больших данных..............................................7 Выборочный метод против анализа больших данных...........11 Прошлое, настоящее и будущее...................................... 16 Прогноз погоды............................................................ 19 Образцы и самообман....................................................24 Экстраполяция..............................................................27 Термин и характеристики................................................ 32 Немного истории.......................................................... 39
Глава 2. Большие данные и ш опинг................................. 45 В командировку со смартфоном...................................... 45 Система управления взаимоотношениями с клиентами . . . .48 Карты лояльности..........................................................52 Сравнительный шопинг.................................................. 56 Целевая реклам а..........................................................60 Amazon........................................................................62 Авиакомпании..............................................................64
Глава 3. Большие данные и безопасность..........................67 История и современность.............................................. 67 За нами наблюдают........................................................ 72 Предсказывание наших действий.................................... 76 Что наше, а что не наше.................................................. 82 Советы простому человеку............................................ 86
Глава 4. Большие данные и банковское д е л о ...................... 88 Платежные пластиковые карты........................................ 88 Большие данные на рынке ценных бумаг.......................... 94 Осторожные банкиры.................................................... 96
Глава 5. Большие данные — это наш босс..........................99 Дилемма: «умные» технологии........................................ 99 Большой б о с с .............................................................100 Рейтинг...................................................................... 104 Кредитный рейтинг.......................................................107 Белое или черное?.......................................................109
Глава 6. Большие данные и м ед и ци на............................ 112 Обмен медицинскими данны м и..................................... 112 Фитнес-браслеты........................................................ 116
Глава 7. Большие данные и развлечения.......................... 119 Интернет.................................................................... 119 Ответ на все................................................................ 121 Звук и картинка.......................................................... 125 Книги........................................................................ 127 Социальные с е т и ........................................................ 130
Глава 8. Большие данные и будущ ее.............................. 135 Что необходимо сделать...............................................135 Неприятное................................................................ 137 П о л е зн ое .................................................................. 141
П РО СТО BIG DATA Автор идеи и научный редактор серии « П Р О С Т О » Сергей Деменок
Р ед а к т о р Светлана Волкова К о р р ек т о р О льга С м ирнова В ер с т к а Ю рий Костицин О б л о ж к а Светлана Ш ачнева
Н астоящ ее издание не имеет возрастных ограничений, предусмотренных Федеральным законом РФ « О защите детей о т информации, причиняющей вред их здоровью и развитию » (№ 4 3 6 -Ф З ). О хр ан яется закон ом РФ об авторском праве.
И здательство « С т р а т а » 1 9 5 1 1 2 , С анкт-П етербург, Заневский пр., 6 5 , корпус 5 Т ел.: + 7 ( 8 1 2 ) 3 2 0 -5 6 -5 0 , 3 2 0 -6 9 -6 0 www.strata.spb.ru П одписано в печать 2 5 .0 2 .2 0 1 8 Ти раж 1 0 0 экз.
Анализ больших данных позволяет увидеть скрытые закономерности, незаметные ограниченному человече скому восприятию. Это дает беспрецедентные возмож ности оптимизации всех сфер нашей жизни: государ ственного управления, медицины, телекоммуникаций, финансов, транспорта, производства.
Серия книг «Просто...» — это наука, не зажатая в тиски формул, скрупулезность цифр и объемы пробирок. Не нужно надевать очки и белый халат, дабы понять, как что работает. Нейронные связи человеческого мозга и смартфоны, напичкан ные нанотехнологиями, микрочастицы в коллай дере и квантовые биты, фрактальное искусство, стратегия игры и теория Большого взрыва — все это не сложнее яичницы-глазуньи, если толь ко увидеть соль. В серии «Просто...» мы готовим наши научные блюда так вкусно и сервируем так изысканно, что вам наверняка захочется добавки. Большие данные потому и есть «большие», что люди сами по себе никогда не смогут сам ост оят ельно охват ить все их м ногооб разие и хоть как-то обуздать себе во благо. Эт им укрощением заним аю т ся роботы. Они находят уникальные от крыт ия и инсайты, работ ая с информацией, кот орая десятилетиями была у нас под носом, но до кот орой нам самим не было никакого дела. Большие данные говорят обо всех нас вместе и о каждом по от дельности. Андрей Черногоров, Генеральный директор компании Cognitive Technologies