Що таке Big Data?
Що це за технологія, як вона працює та кому це потрібно
Сьогодні світ перетворився на величезний цифровий простір. Ми управляємо, ділимося та фактично зберігаємо всі аспекти нашого життя онлайн.
Дані зі всіх наших пристроїв - комп'ютерів, планшетів та смартфонів - постійно збираються та передаються в мережу, та насправді це лише початок процесу. Незабаром вся інформація буде потрапляти онлайн навіть з таких пристроїв, як годинники, телевізори, датчики в розумних будинках, авто, обладнання на виробництві та з безлічі інших девайсів. Крім того, ми самостійно продукуємо гігабайти інформації, коли спілкуємося з друзями в соцмережах, робимо покупки онлайн, користуємося пошуком, та навіть коли звантажуємо музику чи додатки.
Цікавий факт: якщо зібрати всю інформацію, яку накопичило людство з початку часів включно до 2000-го року, то виявиться, що її менше, ніж ми продукуємо зараз протягом лише одної хвилини. Цей феномен повністю змінює розуміння світу та нашого місця в ньому. Він також відомий під назвою Big Data.

Які ключові характеристики Big Data?

Терміном Big Data ("великі дані") окреслюють групу технологій та методів, за допомогою яких аналізують та обробляють величезну кількість даних, як структурованих так і неструктурованих, для отримання якісно нових знань. Якщо підсумувати, то це інформація, що не піддається обробці класичними способами через її величезний об'єм.
Photo: Depositphotos
Давайте детальніше розберемося, які характеристики мають дані, які можна віднести в категорію Big Data. Ось п'ять ключових умов, які ще називають "п'ять V":

Volume (об'єм) – накопичена база даних охоплює настільки великий обсяг інформації, що його практично нереально обробляти та зберігати традиційними способами. Для них потрібен зовсім новий підхід та вдосконалені інструменти.

Velocity (швидкість) – ця характеристика вказує на швидкість накопичення даних, яка постійно збільшується. Наприклад, 90 відсотків всієї інформації, якою оперує людство, зібрано за останні два роки. Також ця характеристика має на увазі швидкість обробки даних. Останнім часом збільшується попит на технології, що дозволяють використовувати обробку даних в режимі реального часу.

Variety (різноманітність) – можливість одночасно обробляти структуровану та неструктуровану інформацію. Структурована інформація – це така, яку можна класифікувати. Наприклад, це може бути інформація з банківської бази даних, де чітко вказаний перелік клієнтів та їхні фінансові транзакції.

Неструктурована інформація охоплює різноманітні масиви даних, такі як фото, відео, текстові записи та інші дані. Найкращим прикладом є соціальні мережі. Її об'єм складає приблизно 80 відсотків від всієї інформації. Неструктурована інформація потребує комплексного аналізу перед можливістю її використання.

Veracity (достовірність) – оскільки обсяг інформації постійно збільшуються, важливе місце займає виокремлення достовірних даних. Якість зафіксованих даних може сильно відрізнятися, тим самим впливаючи на точний аналіз.

Variability (мінливість) – невідповідність інформації ускладнює та подекуди заважає процесам обробки та управління даними.

Як це працює?
Big Data працює за принципом чим більшою кількістю інформації ми володіємо, тим точніший прогноз можливо зробити. Також можливість порівняння певних даних та взаємозв'язків між ними дозволяє знайти закономірності, які були приховані до цього. Все це забезпечує глибинне розуміння проблем та, в кінцевому результаті, дозволяє знайти рішення, або можливості керування потрібними процесами.

Найчастіше процес обробки великих об'ємів даних включає в себе побудову моделей та запуск симуляцій, під час яких постійно змінюються ключові налаштування, при цьому система постійно відслідковує, як ці зміни впливають на можливий результат. Це все відбувається в автоматичному режимі, допоки не буде знайдено ключовий момент, який допоможе вирішити поставлену задачу.

Оскільки переважна більшість даних є неструктурована, то для перетворення їх у такі, що сприйматимуться людьми, використовуються найсучасніші технології аналізу. До них можна віднести штучний інтелект (AI) та машинне навчання.

Що може Big Data та яких сферах їх застосовують?

Нескінченно великий інформаційний потік, який складає основу Big Data, дозволяє нам отримувати кардинально нові знання, які були недоступні ще кілька років тому. Наприклад, вже зараз проекти, що базуються на Big Data допомагають:
Лікувати хвороби. Завдяки аналізу величезної кількості медичних записів та обробки медичних знімків можливо точніше і раніше ставити діагнози, краще розуміти природу різноманітних захворювань та винаходити нові ліки та методи лікування.

Боротися з голодом. Сільське господарство переживає справжню революцію Big Data, яка допомагає використовувати ресурси так, щоб максимально збільшити врожаї при мінімальному втручанні в екосистему. А також здешевити вирощені продути внаслідок оптимального використання обладнання та добрив.
Відкривати нові далекі планети. НАСА завдяки аналізу великої кількості даних отриманих з телескопів має змогу визначати хімічні склади атмосфер планет, що знаходяться на відстані багатьох світлових років, та робити припущення про їх придатність для життя.

Прогнозувати надзвичайні ситуації. Наприклад, завдяки даним з численних сенсорів та супутників науковці можуть передбачати де і коли можуть відбутися землетруси або природні катаклізми, чи змоделювати людську поведінку під час надзвичайних ситуацій, завдяки чому збільшаться шанси на виживання.

Запобігати злочинам. Внаслідок використання нових технологій та аналізу обширних даних з'явилася можливість автоматично попереджувати фінансові махінації з пластиковими картками та відмиванням грошей.
Оптимізувати прибутки. Торгові мережі можуть випускати нові продути з високим попитом та впроваджувати глобальні маркетингові компанії, які будуть орієнтовані під окремий сегмент покупців.

Покращити ефективність держави. Міністерство праці Німеччини використовує Big Data для аналізу заявок на отримання допомоги по безробіттю. При початковому аналізі виявилося, що 20 відсотків допомог виплачувалися незаслужено. Завдяки цьому уряд скоротив видатки на 10 мільярдів євро.

Це лише декілька прикладів. Насправді сфер, в яких використовується Big Data на сьогодні дуже велика кількість, яка з кожним днем буде збільшуватися допоки не охопить всі наявні.

Які ризики може мати використання Big Data?

Попри величезні можливості цієї технології ми маємо розповісти про проблеми, які з'являються з розповсюдженням використання Big Data.
Персональні дані та їхня недоторканість. Big Data збирає неймовірну кількість інформації, що стосується нашого приватного життя, яку ми б воліли зберігати в таємниці. Тому резонно постає питання балансу між тим, чим ми готові ділитися, та тим, наскільки комфортнішим може стати наше життя завдяки відкритості. Великі корпорації можуть маніпулювати цими даними роблячи нас певною мірою своїми заручниками. Хорошим прикладом цього є науково-фантастичний фільм "Сфера", в якому піднімаються подібні питання.

Безпека. Навіть якщо припустити, що Big Data буде використовуватися лише в шляхетних цілях, немає ніякої гарантії, що персональні дані зможуть бути надійно захищені від зловмисників та хакерів.

Дискримінація. Коли все відомо завдяки Big Data, окремі люди можуть обмежуватися наприклад в доступі до банківських кредитів через можливу недостатню надійність, або переплачувати за медстрахування через можливості певних захворювань пов'язаних зі схильністю до генетичних хвороб, або через несприятливі умови проживання в певних місцевостях. Або навіть державні структури та приватні компанії захочуть обмежити нас в доступі до певних сервісів та ресурсів.

Автор: Сергій Кравчук
Photo: Depositphotos

Made on
Tilda