конспект: Big Data

Билл Фрэнкс

 

Недавно я добрался до книги Билла Фрэнкса «Укрощение больших данных» — давно хотел разобраться c Big Data, что это и с чем это едят.

Узнал о книге на cossa.ru, из описания было понятно, что книгу поймет даже чайник: ну, думаю, ура — сложная тема будет раскрыта простыми словами а-ла Стивен Хокинг.

По факту — не очень-то «ура». В книге очень много воды и рекомендаций по организации работы аналитиков и изменению бизнес-процессов. Для топ-менеджера книга будет в самый раз. Но я хотел разобраться в вопросе, а не читать управленческие советы, поэтому довольно быстро забил на последовательное чтение, открыл заключение, в котором перечислено «вы узнали о том, что», выписал ключевые термины и находил их через алфавитный указатель. Такая работа с книгой мне очень понравилась, теперь будет применять этот алгоритм. Уделяя книге буквально 20-30 минут в день, примерно за неделю я написал для себя неплохой конспект.

Однако в книге достаточно полезного материала. Сразу скажу, что это голая теория и на практике я ничего с Большими Данными с ходу не сделаю. Но при случае эта теория даст возможность понять аналитика, который будет что-то объяснять/обучать на реальных данных.

Всем мир и да пребудут с вами Большие Данные.

 


КОНСПЕКТ


 

БолДанные — это наборы данных, размеры которых выходят за пределы возможностей по сбору/хранению/управлению/анализу, присущих обычному современному ПО баз данных.

 

— НО, большинство новых источников данных поначалу считались большими и сложными. БолДанные — просто очередная волна данных, которая раздвигает существующие пределы —

 

Большие данные — разрозненные, чаще всего полуструктурированные (реже — неструктурированные) данные, большая часть которых бесполезна. Самое важное при обработке БолДанных — определить полезную часть этих данных.

 

ETL — процесс извлечения (E-extracted), преобразования (T -transformed) и загрузки в среду анализа данных (L — loaded). ETL всегда предшествует анализу (спасибо, КЭП).

 

Обычно 70-80% времени уходит на сбор и подготовку данных, и только 20-30% — на анализ.

 

Веб-данные — очевидный пример БолДанных
 

 

При анализе веб-данных используются т.н. модели склонности = модели откликов. Например, модель оттока — частный пример модели склонности.

 

Технически работу с БолДанными облегчают специализированные решения, например MapReduce от Google.

 

— MapReduce — модель распределенных вычислений, используемая для параллельных вычислений над очень большими наборами данных (в несколько петабайт) —

 

MapReduce помогает справиться с неструктурированными или полуструктурированными данными.

 

Принцип:

 

1. ДО ЗАПУСКА MapReduce: весь объем данных равномерно распределяется на все имеющиеся серверные узлы MapReduce. Причем данные находятся в файлах того формата, какой определил пользователь.

 

2. Затем данные проходят через программы map и reduce. Сначала мэппинг данных, затем сортировка и агрегация полезного. Эти процессы происходят обособленно на каждом сервере.

 

3. Результаты помещаются в файла заранее определенного формата. PROFIT!

 

НО! очень часто необходимо запускать этот цикл более одного раза.

 

+ MapReduce работает на стандартном оборудовании, т.е. легко внедрять и расширять
+ лучше, чем реляционные БД справляется с обработкой текста, данных веб-журналов и с необработанными данными.
+ т.е. MapReduce отлично подходит для случая, когда есть большой объем данных, бОльшая часть которых не нужна для анализа.

 

—  MapReduce — это не БД, поэтому у него нет встроенной системы безопаности
— нет системы индексирования
— нет оптимизатора запросов/процессов
— нет истории выполненных заданий
— неизвестно, что происходит за пределами модели

ADS — analytic data set, ADS — аналитический набор данных. Это данные, собранные с целью создания аналитического процесса (или модели) и представленные в формате, необходимом для решения конкретной аналитической задачи. ADS имитирует т.н. «плоский файл» — упрощенную БД с простой структурой.

 

Есть проблема: каждый аналитик создает свой собственный ADS, из-за этого может возникнуть риск несоответствия в анализах/отчетах.
Чтобы решить проблему, создан EADS (enterprise analytic data set) — аналитический набор данных предприятия. Это набор общих, стандартизированных ADS. EADS так же, как и ADS, сжимает тысячи переменных до небольшого набора таблиц и представлений, которые будут доступны для всех аналитиков.

 

Вывод: ADS очень часто уникален и может создаваться несколько раз заново, если изменилась задача. EADS создается один раз, после чего многократно используется — это сокращает время для решения задач. ADS = разобщенность , EADS = согласованность.

АНАЛИЗ ТЕКСТА.

 

Текст — это неструктурированные данные. Исходный текст не анализируется, сперва ему придается некоторая структура (=мэппинг) и уже она подвергается анализу. Правда, есть

 

ГРУППОВЫЕ И ЭКСПРЕСС-МОДЕЛИ
(ensemble methods & commodity models)

 

Когда для принятия решения используются данные от нескольких моделей, то это метод групповых моделей. Можно провести аналогию с т.н. «мудростью толпы» — усредненный ответ, основанный не предсказаниях множества людей, может оказаться близким к правильному. Для объединения различных результатов можно использовать что угодно, от простого среднего показателя до сложной формулы.

 

Когда необходимо быстро создать модель, которая даст не лучший, но приемлемый результат, то это метод экспресс-моделей. Такая модель создается без особых попыток полностью реализовать весь ее предсказательный потенциал. Пример: если предстоит сделать рассылку из 30-40 млн писем, то имеет смысл вложиться в создание высококачественной модели. Но если рассылка из 20-30 тысяч писем, то хватит экспресс-модели.

Оставить ответ

Ваш e-mail не будет опубликован. Обязательные поля помечены *

This blog is kept spam free by WP-SpamFree.