Совсем недавно мне казалось, что термин Big Data - исключительно маркетинговый. Мне казалось, при обработке больших данных используются те же методы, что и при работе с любыми другими. Только методы эти требуют оптимизации и распараллеливания для работе на больших кластерных компьютерах. Из этого я делал вывод, что безопасность и большие данные существуют в перпендикулярных плоскостях, то есть, конечно, защищать большие данные нужно, но особенных методов защиты для этого использовать не нужно. Ну, а сами большие данные использовать для безопасности бессмысленно, поскольку они все-равно долго считаются.
Однако, как оказалось моё первое впечатление о технологиях, объединяемых термином "Большие данные", оказалось ошибочным. Под ними подразумевают такие методы обработки сырой информации, которые позволяют оперативно делать массовые операции над большим массивом данных. При этом технологии по прежнему не позволяют обработать все данные - они предназначены для выделения из большого массива неструктурированных данных ключевых сведений и оперативного принятия решений по такому беглому анализу.
Для примера рассмотрим систему видеонаблюдения, которая генерирует достаточно большой объём данных. Просто, обычно большая часть информации теряется - систему настраивают на фиксацию и запоминание только определенных действий. Однако полностью обработать видеопоток со всех камер в гипермаркете и выявить по нему вора система пока не в состоянии. Дело в том, что для автоматического предотвращения краж нужно, чтобы система обработки могла проследить путь каждого посетителя по магазину, зафиксировать какие товары он брал, какие товары у него в коляске лежат, за какие он заплатил, а какие где-нибудь выложил. Причем сделать это система должна за то время пока покупатель рассчитывается, чтобы успеть предупредить сотрудника безопасности о возможном воровстве. Именно для решения примерно таких задачи и предназначены технологии из набора больших данных.
Дело в том, что для решения описанной задачи нужно не просто записывать в видеоархив определенные действия посетителей, но успевать распознавать их, их действия по наполнению корзины, их действия по выкладыванию товаров, а главное успеть сверить сведения о взятых товарах и об оплаченных. Конечно, мне возразят, что подобную систему защиты нужно делать не так - нужны радиометки на каждом товаре, считыватели на каждом коридоре и финальный считыватель после кассы - именно для этого и придумана технология RFID. Это будет правда - ту же задачу можно решить проще, но будет ли она при этом решена эффективнее, а, главное, универсальнее?