Методи за обработка на големи количества данни. Как технологиите за големи данни помагат на градовете да се развиват

Само мързеливите не говорят за големи данни, но едва ли разбират какво е това и как работи. Да започнем с най-простото - терминологията. Говорейки на руски, големите данни са различни инструменти, подходи и методи за обработка както на структурирани, така и на неструктурирани данни, за да се използват за конкретни задачи и цели.

Неструктурираните данни са информация, която няма предварително определена структура или не е организирана в определен ред.

Терминът „големи данни“ беше въведен от редактора на списание Nature Клифърд Линч през 2008 г. в специален брой, посветен на експлозивното нарастване на световните обеми информация. Въпреки че, разбира се, самите големи данни съществуваха и преди. Според експерти категорията Big data включва повечето потоци от данни над 100 GB на ден.

Прочетете също:

Днес този прост термин крие само две думи – съхранение и обработка на данни.

Големи данни - с прости думи

В модерните Голям святданните са социално-икономически феномен, който се свързва с появата на нови технологични възможности за анализиране на огромни количества данни.

Прочетете също:

За по-лесно разбиране си представете супермаркет, в който всички стоки не са в реда, в който сте свикнали. Хляб до плодове доматена пастаблизо до замразената пица, течност за запалване пред стойката за тампони, която съдържа, между другото, авокадо, тофу или гъби шийтаке. Големите данни поставят всичко на мястото си и ви помагат да намерите ядково мляко, да разберете цената и срока на годност, а също и - кой освен вас купува това мляко и за какво е по-добре от млякотокравешки

Кенет Кукиър: Големите данни са по-добри данни

Технология за големи данни

Обработват се огромни обеми данни, за да може човек да получи конкретни и необходими резултати за по-нататъшното им ефективно използване.

Прочетете също:

Всъщност Big data е решение на проблеми и алтернатива на традиционните системи за управление на данни.

Техники и методи за анализ, приложими към големи данни според McKinsey:

Краудсорсинг;

Смесване и интегриране на данни;

Машинно обучение;

Изкуствени невронни мрежи;

Разпознаване на шаблон;

Прогностичен анализ;

Симулационно моделиране;

Пространствен анализ;

Статистически анализ;
Визуализация на аналитични данни.

Хоризонталната мащабируемост, която позволява обработката на данни, е основният принцип на обработката на големи данни. Данните се разпределят между изчислителни възли и обработката се извършва без влошаване на производителността. McKinsey също включи системи за релационно управление и Business Intelligence в контекста на приложимостта.

Технологии:

NoSQL;
MapReduce;
Hadoop;
Хардуерни решения.

Прочетете също:

За големите данни има традиционни дефиниращи характеристики, разработени от Meta Group през 2001 г., които се наричат „ Три V»:

Сила на звука- размерът на физическия обем.
Скорост- темп на растеж и необходимост от бърза обработка на данните за получаване на резултати.
Разнообразие- възможност за едновременна обработка Различни видоведанни.

Големи данни: приложения и възможности

Невъзможно е да се обработват обемите от разнородна и бързо пристигаща цифрова информация с традиционни инструменти. Самият анализ на данни ви позволява да видите определени и незабележими модели, които човек не може да види. Това ни позволява да оптимизираме всички сфери на живота си – от контролирани от правителствотокъм производството и телекомуникациите.

Например, някои компании преди няколко години защитиха клиентите си от измами и да се грижиш за парите на клиента означава да се грижиш за собствените си пари.

Сюзън Етлигер: Какво ще кажете за големите данни?

Решения, базирани на големи данни: Sberbank, Beeline и други компании

Beeline разполага с огромно количество данни за абонатите, които те използват не само за работа с тях, но и за създаване на аналитични продукти, като външни консултации или IPTV анализи. Beeline сегментира базата данни и защити клиентите от финансови измами и вируси, използвайки HDFS и Apache Spark за съхранение и Rapidminer и Python за обработка на данни.

Прочетете също:

Или нека си спомним Сбербанк със стария им случай, наречен AS SAFI. Това е система, която анализира снимки, за да идентифицира банковите клиенти и да предотврати измами. Системата е въведена през 2014 г., системата се основава на сравняване на снимки от базата данни, които стигат до там от уеб камери на щандове благодарение на компютърното зрение. В основата на системата е биометрична платформа. Благодарение на това случаите на измами са намалели 10 пъти.

Големи данни в света

До 2020 г. според прогнозите човечеството ще генерира 40-44 зетабайта информация. А до 2025 г. ще нарасне 10 пъти, според доклада The Data Age 2025, изготвен от анализатори от IDC. Докладът отбелязва, че повечето от данните ще бъдат генерирани от самите фирми, а не от обикновените потребители.

Анализаторите вярват, че данните ще се превърнат в жизненоважен актив, а сигурността в критична основа в живота. Авторите на работата също са уверени, че технологията ще промени икономическия пейзаж и средният потребител ще комуникира със свързани устройства около 4800 пъти на ден.

Пазар на големи данни в Русия

Големите данни обикновено идват от три източника:

Интернет (социални мрежи, форуми, блогове, медии и други сайтове);
Архив на корпоративни документи;
Показания от сензори, инструменти и други устройства.

Големи данни в банките

В допълнение към описаната по-горе система, стратегията на Сбербанк за 2014-2018 г. включва: говори за важността на анализирането на супер данни за качествено обслужване на клиенти, управление на риска и оптимизиране на разходите. Сега банката използва големи данни за управление на рисковете, борба с измамите, сегментиране и оценка на кредитоспособността на клиентите, управление на персонала, прогнозиране на опашки в клонове, изчисляване на бонуси за служители и други задачи.

VTB24 използва големи данни, за да сегментира и управлява изходящите потоци на клиенти, да генерира финансови отчети и да анализира отзиви в социални мрежи и форуми. За целта той използва решения от Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Постоянното ускоряване на растежа на данните е неразделна част от съвременните реалности. Социална медия, мобилни устройства, данни от измервателни уреди, бизнес информация - това са само няколко вида източници, които могат да генерират гигантски количества данни.

Понастоящем терминът Big Data стана доста разпространен. Все още не всеки е наясно колко бързо и дълбоко технологиите за обработка на големи количества данни променят най-различни аспекти на обществото. Настъпват промени в различни области, които пораждат нови проблеми и предизвикателства, включително и в областта информационна сигурност, където най-важните му аспекти като конфиденциалност, интегритет, наличност и т.н. трябва да бъдат на преден план.

За съжаление, много съвременни компании прибягват до технологията Big Data, без да създадат подходяща инфраструктура за сигурно съхранение на огромните количества данни, които събират и съхраняват. От друга страна, в момента бързо се развива блокчейн технологията, която е предназначена да реши този и много други проблеми.

Какво е Big Data?

Всъщност дефиницията на термина е ясна: „големи данни“ означава управление на много големи обеми от данни, както и техния анализ. Ако погледнем по-широко, това е информация, която не може да бъде обработена с класически методи поради големия си обем.

Самият термин Big Data се появи сравнително наскоро. Според Google Trends активният ръст на популярността на термина е настъпил в края на 2011 г.:

През 2010 г. започнаха да се появяват първите продукти и решения, пряко свързани с обработката на големи данни. До 2011 г. повечето от най-големите ИТ компании, включително IBM, Oracle, Microsoft и Hewlett-Packard, активно използват термина Big Data в своите бизнес стратегии. Постепенно анализаторите на пазара на информационни технологии започват активно проучване на тази концепция.

В момента този термин придоби значителна популярност и се използва активно в различни области. Въпреки това не може да се каже със сигурност, че Big Data е някакъв принципно нов феномен - напротив, източниците на големи данни съществуват от много години. В маркетинга те включват бази данни за покупки на клиенти, кредитна история, начин на живот и т.н. През годините анализаторите са използвали тези данни, за да помогнат на компаниите да предскажат бъдещите нужди на клиентите, да оценят рисковете, да оформят потребителските предпочитания и др.

В момента ситуацията се е променила в два аспекта:

— появиха се по-сложни инструменти и методи за анализиране и сравняване на различни масиви от данни;
— инструментите за анализ бяха допълнени с много нови източници на данни поради широко разпространения преход към цифрови технологии, както и нови методи за събиране и измерване на данни.

Изследователите прогнозират, че технологиите за големи данни ще се използват най-активно в производството, здравеопазването, търговията, държавната администрация и в други различни области и индустрии.

Big Data не е конкретен масив от данни, а набор от методи за тяхната обработка. Определящата характеристика на големите данни е не само техният обем, но и други категории, които характеризират трудоемките процеси за обработка и анализ на данни.

Изходните данни за обработка могат да бъдат например:

— дневници на поведението на интернет потребителите;
— интернет на нещата;
- социална медия;
— метеорологични данни;
— дигитализирани книги от големи библиотеки;
— GPS сигнали от превозни средства;
— информация за транзакции на банкови клиенти;
— данни за местоположението на абонатите на мобилни мрежи;
— информация за покупки в големи търговски вериги и др.

С течение на времето обемът на данните и броят на техните източници непрекъснато нараства и на този фон се появяват нови методи за обработка на информация и се усъвършенстват съществуващите.

Основни принципи на Big Data:

— Хоризонтална мащабируемост – масивите от данни могат да бъдат огромни и това означава, че системата за обработка на големи данни трябва да се разширява динамично с нарастването на техния обем.
— Устойчивост на грешки – дори ако някои елементи на оборудването се повредят, цялата система трябва да остане работеща.
— Локалност на данните. В големите разпределени системи данните обикновено се разпределят между значителен брой машини. Въпреки това, когато е възможно и за спестяване на ресурси, данните често се обработват на същия сървър, където се съхраняват.

За стабилна работа на трите принципа и съответно висока ефективност на съхранение и обработка на големи данни са необходими нови пробивни технологии, като например блокчейн.

Защо се нуждаем от големи данни?

Обхватът на Big Data непрекъснато се разширява:

— Големите данни могат да се използват в медицината. По този начин може да се постави диагноза за пациент не само въз основа на данни от анализ на медицинската история на пациента, но и като се вземе предвид опитът на други лекари, информация за екологичната ситуация в района на пребиваване на пациента и много други фактори.
— Технологиите за големи данни могат да се използват за организиране на движението на безпилотни превозни средства.
— Като обработвате големи количества данни, можете да разпознавате лица в снимки и видеоклипове.
— Технологиите за големи данни могат да се използват от търговците на дребно – търговските компании могат активно да използват масиви от данни от социалните мрежи, за да конфигурират ефективно своите рекламни кампании, които могат да бъдат максимално насочени към определен потребителски сегмент.
— Тази технология се използва активно при организирането на предизборни кампании, включително за анализ на политическите предпочитания в обществото.
— Използването на технологии за големи данни е уместно за решения от класа за осигуряване на доходи (RA), които включват инструменти за откриване на несъответствия и задълбочен анализ на данните, позволяващи своевременно идентифициране на вероятни загуби или изкривявания на информация, които биха могли да доведат до намаляване на финансови резултати.
— Доставчиците на телекомуникационни услуги могат да събират големи данни, включително геолокация; от своя страна тази информация може да бъде от търговски интерес за рекламните агенции, които могат да я използват за показване на целева и местна реклама, както и за търговци на дребно и банки.
— Големите данни могат да играят важна роля при вземането на решение за отваряне на търговски обект на определено място въз основа на данни за наличието на мощен целеви поток от хора.

По този начин най-очевидното практическо приложение на технологията Big Data е в областта на маркетинга. Благодарение на развитието на интернет и разпространението на всички видове комуникационни устройства, данните за поведението (като броя на обажданията, навиците за пазаруване и покупките) стават достъпни в реално време.

Технологиите за големи данни могат също така да бъдат ефективно използвани във финансите, за социологически изследвания и в много други области. Експертите твърдят, че всички тези възможности за използване на големи данни са само видимата част от айсберга, тъй като тези технологии се използват в много по-големи обеми в разузнаването и контраразузнаването, във военното дело, както и във всичко, което обикновено се нарича информационна война.

IN общо очертаниеПоследователността на работа с Big Data се състои от събиране на данни, структуриране на получената информация с помощта на отчети и табла за управление и след това формулиране на препоръки за действие.

Нека разгледаме накратко възможностите за използване на технологиите за големи данни в маркетинга. Както знаете, за маркетолог информацията е основният инструмент за прогнозиране и разработване на стратегия. Анализът на големи данни отдавна се използва успешно за определяне на целевата аудитория, интересите, търсенето и активността на потребителите. Анализът на големи данни, по-специално, прави възможно показването на реклами (на базата на RTB аукционния модел - Real Time Bidding) само на онези потребители, които се интересуват от продукт или услуга.

Използването на Big Data в маркетинга позволява на бизнесмените да:

— опознайте по-добре вашите потребители, привлечете подобна аудитория в интернет;
— оценка на степента на удовлетвореност на клиента;
— разбере дали предложената услуга отговаря на очакванията и нуждите;
— намиране и прилагане на нови начини за повишаване на доверието на клиентите;
— създаване на проекти, които се търсят и т.н.

Например услугата Google.trends може да посочи на маркетолог прогноза за сезонна активност на търсенето за конкретен продукт, колебания и география на кликванията. Ако сравните тази информация със статистическите данни, събрани от съответния плъгин на вашия собствен уебсайт, можете да съставите план за разпределение на рекламния бюджет, като посочите месеца, региона и други параметри.

Според много изследователи успехът на предизборната кампания на Тръмп се крие в сегментирането и използването на Big Data. Екипът на бъдещия президент на САЩ успя правилно да раздели публиката, да разбере нейните желания и да покаже точно посланието, което избирателите искат да видят и чуят. По този начин, според Ирина Белишева от Data-Centric Alliance, победата на Тръмп до голяма степен е възможна благодарение на нестандартния подход към интернет маркетинга, който се основава на големи данни, психологически и поведенчески анализ и персонализирана реклама.

Политическите стратези и търговци на Тръмп използваха специално разработен математически модел, който направи възможно задълбочено анализиране на данните на всички гласоподаватели в САЩ и тяхното систематизиране, което направи свръхпрецизно таргетиране не само по географски характеристики, но и по намерения, интереси на избирателите, техния психотип, поведенчески характеристики и т.н. След Ето защо търговците организираха персонализирана комуникация с всяка група граждани въз основа на техните нужди, настроения, Политически възгледи, психологически характеристикии дори цвета на кожата, използвайки различно послание за почти всеки отделен избирател.

Що се отнася до Хилари Клинтън, в кампанията си тя използва „проверени във времето” методи, базирани на социологически данни и стандартен маркетинг, като разделя електората само на формално хомогенни групи (мъже, жени, афро-американци, латиноамериканци, бедни, богати и т.н.) .

В резултат на това победител беше този, който оцени потенциала на новите технологии и методи за анализ. Трябва да се отбележи, че разходите за кампанията на Хилари Клинтън бяха два пъти повече от тези на нейния опонент:

Данни: Pew Research

Основни проблеми при използването на Big Data

В допълнение към високата цена, един от основните фактори, възпрепятстващи прилагането на Big Data в различни области, е проблемът с избора на данните, които да бъдат обработени: т.е. определянето кои данни трябва да бъдат извлечени, съхранени и анализирани и кои трябва не се вземат предвид.

Друг проблем с големите данни е етичен. С други думи, възниква логичен въпрос: може ли такова събиране на данни (особено без знанието на потребителя) да се счита за нарушение на поверителността?

Не е тайна, че информацията, съхранявана в търсачките Google и Yandex, позволява на ИТ гигантите непрекъснато да подобряват услугите си, да ги правят лесни за използване и да създават нови интерактивни приложения. За да направят това, търсачките събират потребителски данни за потребителска активност в Интернет, IP адреси, данни за геолокация, интереси и онлайн покупки, лични данни, имейл съобщения и т.н. Всичко това ви позволява да демонстрирате контекстна рекламав съответствие с поведението на потребителите в Интернет. В този случай обикновено не се иска съгласието на потребителите за това и не се дава възможност да изберат каква информация за себе си да предоставят. Тоест по подразбиране всичко се събира в големи данни, които след това ще се съхраняват на сървърите за данни на сайтовете.

Това води до следващия важен проблем относно сигурността на съхранението и използването на данни. Например, защитена ли е определена аналитична платформа, към която потребителите автоматично прехвърлят своите данни? Освен това много представители на бизнеса отбелязват недостиг на висококвалифицирани анализатори и търговци, които могат ефективно да обработват големи обеми данни и да решават конкретни бизнес проблеми с тяхна помощ.

Въпреки всички трудности с внедряването на Big Data, бизнесът възнамерява да увеличи инвестициите в тази област. Според проучването на Gartner лидерите в индустриите, инвестиращи в големи данни, са медии, търговия на дребно, телекомуникации, банкиране и компании за услуги.

Перспективи за взаимодействие между блокчейн и Big Data технологиите

Интеграцията с Big Data има синергичен ефект и отваря широка гама от нови възможности за бизнеса, включително позволявайки:

— получавате достъп до подробна информация за потребителските предпочитания, въз основа на която можете да изградите подробни аналитични профили за конкретни доставчици, продукти и продуктови компоненти;
— интегриране на подробни данни за транзакции и статистически данни за потреблението на определени групи стоки от различни категории потребители;
— получаване на подробни аналитични данни за веригите за доставка и потребление, контрол на загубите на продукти по време на транспортиране (например загуба на тегло поради изсушаване и изпаряване на определени видове стоки);
— противодействие на фалшифицирането на продукти, повишаване на ефективността на борбата с прането на пари и измамите и др.

Достъпът до подробни данни за използването и потреблението на стоки значително ще разкрие потенциала на технологията Big Data за оптимизиране на ключови бизнес процеси, намаляване на регулаторните рискове, разкриване на нови възможности за монетизация и създаване на продукти, които най-добре ще отговарят на текущите потребителски предпочитания.

Както е известно, представители на най-големите финансови институции вече проявяват значителен интерес към блокчейн технологията, включително и т.н. Според Оливър Бусман, ИТ мениджър на швейцарския финансов холдинг UBS, блокчейн технологията може да „намали времето за обработка на транзакции от няколко дни до няколко минути" .

Потенциалът за анализ от блокчейн с помощта на технологията Big Data е огромен. Технологията на разпределената книга гарантира целостта на информацията, както и надеждно и прозрачно съхранение на цялата история на транзакциите. Големите данни от своя страна предоставят нови инструменти за ефективен анализ, прогнозиране, икономическо моделиране и съответно разкриват нови възможности за вземане на по-информирани управленски решения.

Тандемът между блокчейн и Big Data може успешно да се използва в здравеопазването. Както е известно, несъвършените и непълни данни за здравословното състояние на пациента значително увеличават риска от неправилна диагноза и неправилно предписано лечение. Критичните данни за здравето на клиентите на лечебните заведения трябва да бъдат максимално защитени, да имат свойствата на неизменност, да могат да бъдат проверявани и да не подлежат на никакви манипулации.

Информацията в блокчейна отговаря на всички горепосочени изисквания и може да служи като висококачествен и надежден източник на данни за задълбочен анализ с помощта на новите технологии за големи данни. Освен това, с помощта на блокчейн, медицинските институции биха могли да обменят надеждни данни със застрахователни компании, правосъдни органи, работодатели, научни институции и други организации, които се нуждаят от медицинска информация.

Големи данни и информационна сигурност

В широк смисъл информационната сигурност е защитата на информацията и поддържащата инфраструктура от случайни или умишлени отрицателни въздействия от естествен или изкуствен характер.

В областта на информационната сигурност Big Data е изправен пред следните предизвикателства:

— проблеми със защитата на данните и гарантирането на тяхната цялост;
— риска от външна намеса и изтичане на поверителна информация;
— неправилно съхранение на поверителна информация;
— риск от загуба на информация, например поради нечии злонамерени действия;
— риск от злоупотреба с лични данни от трети страни и др.

Един от основните проблеми с големите данни, които блокчейнът е предназначен да реши, е в областта на информационната сигурност. Осигурявайки спазването на всички свои основни принципи, технологията на разпределения регистър може да гарантира целостта и надеждността на данните, а поради липсата на една точка на повреда, блокчейнът прави работата на информационните системи стабилна. Технологията на разпределената книга може да помогне за решаването на проблема с доверието в данните, както и да даде възможност за универсално споделяне на данни.

Информацията е ценен актив, което означава, че осигуряването на основните аспекти на информационната сигурност трябва да бъде на преден план. За да оцелеят в конкуренцията, компаниите трябва да са в крак с времето, което означава, че не могат да пренебрегнат потенциалните възможности и предимства, които блокчейн технологията и инструментите за големи данни съдържат.

Колона от преподаватели по HSE за митове и случаи на работа с големи данни

Към отметки

Преподавателите в Училището по нови медии към Националния изследователски университет Висше училище по икономика Константин Романов и Александър Пятигорски, който е и директор на дигиталната трансформация в Beeline, написаха колона за сайта за основните погрешни схващания за големите данни - примери за използване технологията и инструментите. Авторите предполагат, че изданието ще помогне на мениджърите на компаниите да разберат тази концепция.

Митове и погрешни схващания за големите данни

Големите данни не са маркетинг

Терминът Big Data стана много модерен - използва се в милиони ситуации и в стотици различни интерпретации, често нямащи нищо общо с това, което е. Понятията често се подменят в главите на хората и Big Data се бърка с маркетингов продукт. Освен това в някои компании Big Data е част от маркетинговия отдел. Резултатът от анализа на големи данни наистина може да бъде източник за маркетингова дейност, но нищо повече. Нека да видим как работи.

Ако идентифицирахме списък с тези, които са закупили стоки на стойност над три хиляди рубли в нашия магазин преди два месеца и след това изпратиха на тези потребители някаква оферта, тогава това е типичен маркетинг. Ние извличаме ясен модел от структурните данни и го използваме за увеличаване на продажбите.

Въпреки това, ако комбинираме CRM данни с поточна информация от, например, Instagram, и я анализираме, откриваме модел: човек, който е намалил активността си в сряда вечерта и чиято последна снимка показва котенца, трябва да направи определена оферта. Това вече ще е Big Data. Намерихме тригер, предадохме го на търговците и те го използваха за собствените си цели.

От това следва, че технологията обикновено работи с неструктурирани данни и дори данните да са структурирани, системата продължава да търси скрити модели в тях, което маркетингът не прави.

Големите данни не са ИТ

Втората крайност на тази история: Големите данни често се бъркат с ИТ. Това се дължи на факта, че в руските компании ИТ специалистите по правило са двигателите на всички технологии, включително големите данни. Следователно, ако всичко се случва в този отдел, компанията като цяло остава с впечатлението, че това е някаква ИТ дейност.

Всъщност тук има фундаментална разлика: Big Data е дейност, насочена към получаване на конкретен продукт, който изобщо не е свързан с ИТ, въпреки че технологията не може да съществува без него.

Big Data не винаги е събиране и анализ на информация

Има още едно погрешно схващане за големите данни. Всеки разбира, че тази технология включва големи количества данни, но не винаги е ясно какъв вид данни има предвид. Всеки може да събира и използва информация; сега това е възможно не само във филми, но и във всяка, дори много малка компания. Единственият въпрос е какво точно да съберете и как да го използвате в своя полза.

Но трябва да се разбере, че технологията Big Data няма да бъде събиране и анализ на абсолютно всякаква информация. Например, ако събирате данни за конкретен човек в социалните мрежи, това няма да е Big Data.

Какво всъщност е Big Data?

Big Data се състои от три елемента:

данни;
анализи;
технологии.

Big Data не е само един от тези компоненти, а комбинация от трите елемента. Хората често заместват понятията: някои вярват, че Big Data са само данни, други смятат, че това са технологии. Но всъщност, без значение колко данни събирате, няма да можете да направите нищо с тях без подходящата технология и анализи. Ако има добри анализи, но няма данни, е още по-лошо.

Ако говорим за данни, това не са само текстове, но и всички снимки, публикувани в Instagram, и като цяло всичко, което може да се анализира и използва за различни цели и задачи. С други думи, Data се отнася до огромни обеми вътрешни и външни данни от различни структури.

Нужен е и анализ, защото задачата на Big Data е да изгради някакви модели. Тоест анализът е идентифициране на скрити зависимости и търсене на нови въпроси и отговори въз основа на анализа на целия обем от разнородни данни. Освен това Big Data поставя въпроси, които не могат да бъдат директно извлечени от тези данни.

Когато става въпрос за изображения, фактът, че публикувате снимка, на която сте облечени със синя тениска, не означава нищо. Но ако използвате фотография за моделиране на големи данни, може да откриете, че точно сега трябва да предложите заем, защото във вашия социална групатакова поведение показва определено явление в действията. Следователно „голи“ данни без анализи, без идентифициране на скрити и неочевидни зависимости не са Big Data.

Така че имаме големи данни. Масивът им е огромен. Имаме и анализатор. Но как можем да сме сигурни, че от тези необработени данни ще стигнем до конкретно решение? За целта се нуждаем от технологии, които ни позволяват не само да ги съхраняваме (а това беше невъзможно преди), но и да ги анализираме.

Просто казано, ако имате много данни, ще ви трябват технологии, например Hadoop, които правят възможно съхраняването на цялата информация в оригиналната й форма за по-късен анализ. Този вид технология възникна в интернет гигантите, тъй като те бяха първите, които се сблъскаха с проблема със съхраняването на голямо количество данни и анализирането им за последваща монетизация.

В допълнение към инструментите за оптимизирано и евтино съхранение на данни, имате нужда от аналитични инструменти, както и добавки към използваната платформа. Например, цяла екосистема от свързани проекти и технологии вече се е формирала около Hadoop. Ето някои от тях:

Pig е декларативен език за анализ на данни.
Hive - анализ на данни с помощта на език, подобен на SQL.
Oozie - работен процес на Hadoop.
Hbase е база данни (нерелационна), подобна на Google Big Table.
Mahout - машинно обучение.
Sqoop - прехвърляне на данни от RSDB към Hadoop и обратно.
Flume - прехвърляне на регистрационни файлове към HDFS.
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и т.н.

Всички тези инструменти са достъпни за всички безплатно, но има и редица платени добавки.

Освен това са необходими специалисти: разработчик и анализатор (т.нар. Data Scientist). Необходим е и мениджър, който да разбере как да приложи този анализ за решаване на конкретен проблем, защото сам по себе си той е напълно безсмислен, ако не е интегриран в бизнес процесите.

И тримата служители трябва да работят в екип. Мениджър, който дава на специалист по Data Science задачата да намери определен модел, трябва да разбере, че не винаги ще намери точно това, от което се нуждае. В този случай мениджърът трябва да слуша внимателно какво е открил Data Scientist, тъй като често неговите открития се оказват по-интересни и полезни за бизнеса. Вашата работа е да приложите това към бизнес и да направите продукт от него.

Въпреки факта, че сега има много различни видове машини и технологии, крайното решение винаги остава за човека. За да направите това, информацията трябва да бъде визуализирана по някакъв начин. Има доста инструменти за това.

Най-показателният пример са геоаналитичните доклади. Компанията Beeline работи много с правителствата на различни градове и региони. Много често тези организации поръчват доклади като „Задръстване на определено място“.

Ясно е, че такъв доклад трябва да достигне до държавните органи в проста и разбираема форма. Ако им предоставим огромна и напълно неразбираема таблица (т.е. информация във вида, в който я получаваме), те едва ли ще купят такъв отчет - той ще бъде напълно безполезен, те няма да получат от него знанието, че искаха да получат.

Следователно, колкото и добри да са специалистите по данни и каквито и модели да открият, вие няма да можете да работите с тези данни без добри инструменти за визуализация.

Източници на данни

Масивът от получени данни е много голям, така че може да се раздели на няколко групи.

Вътрешни фирмени данни

Въпреки че 80% от събраните данни принадлежат към тази група, този източник не винаги се използва. Често това са данни, които на пръв поглед изобщо не са необходими на никого, например регистрационни файлове. Но ако ги погледнете от различен ъгъл, понякога можете да откриете неочаквани модели в тях.

Shareware източници

Това включва данни от социални мрежи, интернет и всичко, което може да бъде достъпно безплатно. Защо е безплатна за споделяне? От една страна, тези данни са достъпни за всеки, но ако сте голяма компания, тогава получаването им в размер на абонатна база от десетки хиляди, стотици или милиони клиенти вече не е лесна задача. Следователно на пазара има платени услуги за предоставяне на тези данни.

Платени източници

Това включва компании, които продават данни за пари. Това може да са телекоми, DMP, интернет компании, кредитни бюра и агрегатори. В Русия телекомите не продават данни. Първо, това е икономически неизгодно, и второ, това е забранено от закона. Следователно те продават резултатите от тяхната обработка, например геоаналитични доклади.

Отворени данни

Държавата се съобразява с бизнеса и му дава възможност да използва данните, които събира. Това е развито в по-голяма степен на Запад, но Русия в това отношение също е в крак с времето. Например, има Портал за отворени данни на правителството на Москва, където се публикува информация за различни съоръжения на градската инфраструктура.

За жителите и гостите на Москва данните се представят в таблична и картографска форма, а за разработчиците - в специални машинночетими формати. Докато проектът работи в ограничен режим, той се развива, което означава, че е и източник на данни, които можете да използвате за вашите бизнес задачи.

Проучване

Както вече беше отбелязано, задачата на Big Data е да намери модел. Често изследванията, проведени по света, могат да се превърнат в опорна точка за намиране на конкретен модел - можете да получите конкретен резултат и да се опитате да приложите подобна логика за вашите собствени цели.

Големите данни са област, в която не са приложими всички закони на математиката. Например "1" + "1" не е "2", а много повече, защото чрез смесване на източници на данни ефектът може да бъде значително подобрен.

Примери за продукти

Много хора са запознати с услугата за избор на музика Spotify. Страхотен е, защото не пита потребителите какво е настроението им днес, а по-скоро го изчислява въз основа на източниците, с които разполага. Той винаги знае какво ви трябва сега - джаз или хард рок. Това е ключовата разлика, която му осигурява фенове и го отличава от другите услуги.

Такива продукти обикновено се наричат сетивни продукти – такива, които усещат своите клиенти.

Технологията Big Data се използва и в автомобилната индустрия. Например Tesla прави това - в техните последен моделима автопилот. Компанията се стреми да създаде кола, която сама ще отведе пътника там, където трябва. Без Big Data това е невъзможно, защото ако използваме само данните, които получаваме директно, както прави човек, тогава колата няма да може да се подобри.

Когато сами караме кола, ние използваме нашите неврони, за да вземаме решения въз основа на много фактори, които дори не забелязваме. Например, може да не осъзнаваме защо сме решили да не ускоряваме веднага на зелен светофар, но след това се оказва, че решението е било правилно - кола е профучала покрай вас с бясна скорост и сте избегнали инцидент.

Можете също така да дадете пример за използване на Big Data в спорта. През 2002 г. генералният мениджър на бейзболния отбор на Оукланд Атлетикс, Били Бийн, решава да разчупи парадигмата как да набира спортисти - той подбира и обучава играчи "по числа".

Обикновено мениджърите гледат на успеха на играчите, но в този случай всичко беше различно - за да постигне резултати, мениджърът проучи какви комбинации от спортисти са му необходими, като обърна внимание на индивидуалните характеристики. Освен това той избра спортисти, които сами по себе си нямаха голям потенциал, но отборът като цяло се оказа толкова успешен, че спечели двадесет мача подред.

Режисьорът Бенет Милър впоследствие направи филм, посветен на тази история - „Човекът, който промени всичко“ с участието на Брад Пит.

Технологията Big Data също е полезна във финансовия сектор. Нито един човек в света не може самостоятелно и точно да определи дали си струва да даде заем на някого. За да се вземе решение, се извършва скоринг, тоест изгражда се вероятностен модел, от който може да се разбере дали този човек ще върне парите или не. След това точкуването се прилага на всички етапи: можете например да изчислите, че в определен момент дадено лице ще спре да плаща.

Големите данни ви позволяват не само да печелите пари, но и да ги спестявате. По-специално, тази технология помогна на германското министерство на труда да намали разходите за обезщетения за безработица с 10 милиарда евро, тъй като след анализ на информацията стана ясно, че 20% от обезщетенията са изплатени незаслужено.

Технологии се използват и в медицината (това е особено характерно за Израел). С помощта на Big Data можете да извършите много по-точен анализ, отколкото може да направи лекар с тридесет години опит.

Всеки лекар, когато поставя диагноза, разчита само на собствения си опит. Когато една машина прави това, това идва от опита на хиляди такива лекари и всичко останало съществуващи историизаболявания. Той взема предвид от какъв материал е направена къщата на пациента, в кой район живее жертвата, какъв вид дим има и т.н. Тоест отчита много фактори, които лекарите не отчитат.

Пример за използването на големи данни в здравеопазването е проектът Artemis, който се изпълнява от Детската болница в Торонто. Това е информационна система, която събира и анализира данни за бебетата в реално време. Машината ви позволява да анализирате 1260 здравни показателя на всяко дете всяка секунда. Този проект е насочен към прогнозиране на нестабилното състояние на детето и предотвратяване на заболявания при децата.

Големите данни също започват да се използват в Русия: например Yandex има подразделение за големи данни. Компанията, съвместно с AstraZeneca и Руското дружество по клинична онкология RUSSCO, стартира платформата RAY, предназначена за генетици и молекулярни биолози. Проектът ни позволява да подобрим методите за диагностициране на рак и идентифициране на предразположеността към онкологични заболявания. Платформата ще стартира през декември 2016 г.

По материали от Research&Trends

Големите данни са предмет на разговори в ИТ и маркетинг пресата от няколко години. И е ясно: цифровите технологии са проникнали в живота модерен човек, „всичко е написано“. Обемът на данните за различни аспекти на живота нараства, а в същото време възможностите за съхранение на информация нарастват.

Глобални технологии за съхранение на информация

Източник: Хилбърт и Лопес, „Световният технологичен капацитет за съхраняване, предаване и изчисляване на информация“, Наука, 2011 г. в световен мащаб.

Повечето експерти са съгласни, че ускоряването на растежа на данните е обективна реалност. Социални мрежи, мобилни устройства, данни от измервателни уреди, бизнес информация – това са само няколко вида източници, които могат да генерират гигантски обеми информация. Според изследването IDCЦифрова вселена, публикуван през 2012 г., през следващите 8 години количеството данни в света ще достигне 40 ZB (зетабайта), което се равнява на 5200 GB за всеки жител на планетата.

Разрастване на събирането на цифрова информация в САЩ

Източник: IDC

Голяма част от информацията се създава не от хора, а от роботи, взаимодействащи както помежду си, така и с други мрежи за данни, като сензори и смарт устройства. При този темп на растеж количеството данни в света, според изследователите, ще се удвоява всяка година. Броят на виртуалните и физически сървъри в света ще се увеличи десетократно поради разширяването и създаването на нови центрове за данни. В резултат на това има нарастваща нужда от ефективно използване и монетизиране на тези данни. Тъй като използването на Big Data в бизнеса изисква значителни инвестиции, трябва ясно да разберете ситуацията. И по същество е просто: можете да увеличите ефективността на бизнеса чрез намаляване на разходите и/или увеличаване на обема на продажбите.

Защо се нуждаем от големи данни?

Парадигмата на големите данни дефинира три основни типа проблеми.

Съхраняване и управление на обеми от данни от стотици терабайти или петабайти, които са типични релационни бази данниданните не могат да се използват ефективно.
Организирайте неструктурирана информация, състояща се от текстове, изображения, видеоклипове и други видове данни.
Big Data анализ, който поставя въпроса за начините за работа с неструктурирана информация, генериране на аналитични отчети, както и внедряване на прогнозни модели.

Пазарът на проекти за големи данни се пресича с пазара на бизнес анализи (BA), чийто глобален обем, според експерти, възлиза на около 100 милиарда долара през 2012 г. Включва компоненти на мрежови технологии, сървъри, софтуери технически услуги.

Също така, използването на технологии за големи данни е от значение за решения от класа за осигуряване на доходи (RA), предназначени да автоматизират дейностите на компаниите. Съвременни системигаранциите за доходи включват инструменти за откриване на несъответствия и задълбочен анализ на данните, позволяващи своевременно откриване на възможни загуби или изкривяване на информация, които биха могли да доведат до намаляване на финансовите резултати. На този фон руските компании, потвърждавайки наличието на търсене на технологии за големи данни на вътрешния пазар, отбелязват, че факторите, които стимулират развитието на големи данни в Русия, са растежът на данните, ускоряването на вземането на управленски решения и подобряването на тяхното качество.

Какво ви пречи да работите с големи данни

Днес само 0,5% от натрупаните цифрови данни се анализират, въпреки факта, че има обективни проблеми в цялата индустрия, които могат да бъдат разрешени с помощта на аналитични решения от клас Big Data. Развитите ИТ пазари вече имат резултати, които могат да се използват за оценка на очакванията, свързани с натрупването и обработката на големи данни.

Разглежда се един от основните фактори, които забавят изпълнението на проекти с големи данни, в допълнение към високата цена проблем при избора на обработени данни: тоест определяне кои данни трябва да бъдат извлечени, съхранени и анализирани и кои трябва да бъдат игнорирани.

Много представители на бизнеса отбелязват, че трудностите при реализирането на проекти за големи данни са свързани с липсата на специалисти - маркетолози и анализатори. Скоростта на възвръщаемост на инвестициите в Big Data пряко зависи от качеството на работа на служителите, ангажирани в задълбочени и прогнозни анализи. Огромният потенциал на данните, които вече съществуват в една организация, често не може да бъде използван ефективно от самите търговци поради остарели бизнес процеси или вътрешни разпоредби. Поради това проектите за големи данни често се възприемат от бизнеса като трудни не само за изпълнение, но и за оценка на резултатите: стойността на събраните данни. Специфичният характер на работата с данни изисква търговците и анализаторите да пренасочат вниманието си от технологиите и създаването на отчети към решаването на конкретни бизнес проблеми.

Поради големия обем и високата скорост на потока от данни, процесът на събиране на данни включва ETL процедури в реално време. За справка:ETL – отАнглийскиЕкстракт, Трансформирайте, Заредете- буквално "извличане, трансформиране, зареждане") - един от основните процеси в управлението складове за данни, което включва: извличане на данни от външни източници, тяхната трансформация и почистване за задоволяване на нуждите ETL трябва да се разглежда не само като процес на преместване на данни от едно приложение в друго, но и като инструмент за подготовка на данни за анализ.

И тогава въпросите за гарантиране на сигурността на данните, идващи от външни източници, трябва да имат решения, които съответстват на обема на събраната информация. Тъй като методите за анализ на големи данни се развиват само след нарастването на обема на данните, способността на аналитичните платформи да използват нови методи за подготовка и агрегиране на данни играе важна роля. Това предполага, че например данни за потенциални купувачи или масивно хранилище с данни с хронологията на кликванията върху сайтове за онлайн пазаруване могат да представляват интерес за решаване на различни проблеми.

Трудностите не спират

Въпреки всички трудности с внедряването на Big Data, бизнесът възнамерява да увеличи инвестициите в тази област. Както следва от данните на Gartner, през 2013 г. 64% от най-големите компании в света вече са инвестирали или планират да инвестират в внедряването на технологии за големи данни за своя бизнес, докато през 2012 г. те са били 58%. Според изследването на Gartner лидерите в индустриите, инвестиращи в Big Data, са медийни компании, телекомуникации, банки и компании за услуги. Успешни резултати от прилагането на Big Data вече са постигнати от много големи играчи в областта на дребноотносно използването на данни, получени с помощта на инструменти за радиочестотна идентификация, логистика и системи за преместване (от англ. попълване- натрупване, попълване - R&T), както и от програми за лоялност. Успешният опит в търговията на дребно насърчава други пазарни сектори да намерят нови ефективни начинимонетизиране на големи данни, за да превърне анализа им в ресурс, който работи за развитието на бизнеса. Благодарение на това, според експертите, в периода до 2020 г. инвестициите в управление и съхранение на гигабайт данни ще намалеят от $2 на $0,2, но за изследване и анализ на технологичните свойства на Big Data ще се увеличат само с 40%.

Представените разходи в различни инвестиционни проекти в областта на Big Data са от различно естество. Разходните позиции зависят от видовете продукти, които се избират въз основа на определени решения. Най-голяма част от разходите в инвестиционните проекти според експерти се падат на продукти, свързани със събиране, структуриране на данни, почистване и управление на информация.

Как се прави

Има много комбинации от софтуер и хардуер, които ви позволяват да създавате ефективни решения за големи данни за различни бизнес дисциплини: от социални медии и мобилни приложения, до извличане на бизнес данни и визуализация. Важно предимство на Big Data е съвместимостта на новите инструменти с бази данни, широко използвани в бизнеса, което е особено важно при работа с междудисциплинарни проекти, като организиране на многоканални продажби и поддръжка на клиенти.

Последователността на работа с Big Data се състои от събиране на данни, структуриране на получената информация с помощта на отчети и табла за управление, създаване на прозрения и контексти и формулиране на препоръки за действие. Тъй като работата с Big Data е свързана с големи разходи за събиране на данни, резултатът от обработката на които е предварително неизвестен, основната задача е ясно да се разбере за какво са данните, а не колко от тях са налични. В този случай събирането на данни се превръща в процес на получаване на информация, изключително необходима за решаване на конкретни проблеми.

Например доставчиците на телекомуникационни услуги събират огромно количество данни, включително геолокация, която се актуализира постоянно. Тази информация може да бъде от търговски интерес за рекламните агенции, които могат да я използват за предоставяне на целева и местна реклама, както и за търговци на дребно и банки. Такива данни могат да играят важна роля при вземането на решение за откриване на търговски обект на определено място въз основа на данни за наличието на мощен целеви поток от хора. Има пример за измерване на ефективността на рекламата върху външни билбордове в Лондон. Сега обхватът на такава реклама може да се измери само чрез поставяне до рекламни конструкциихора със специален уред, който брои минувачите. В сравнение с този тип измерване на ефективността на рекламата, мобилният оператор има много повече възможности - той знае точно местоположението на своите абонати, знае техните демографски характеристики, пол, възраст, семейно положение и др.

Въз основа на тези данни в бъдеще има перспектива да се промени съдържанието на рекламното съобщение, като се използват предпочитанията на конкретно лице, минаващо покрай билборда. Ако данните покажат, че преминаващ човек пътува много, тогава може да му се покаже реклама на курорт. Организаторите на футболен мач могат само да преценят броя на феновете, когато дойдат на мача. Но ако можеха да поискат от доставчика на мобилни телефони информация за това къде са били посетителите един час, ден или месец преди мача, това би дало възможност на организаторите да планират рекламни места за бъдещи мачове.

Друг пример е как банките могат да използват големи данни за предотвратяване на измами. Ако клиентът съобщи за загуба на картата и при извършване на покупка с нея, банката вижда в реално време местоположението на телефона на клиента в зоната за покупка, където се извършва транзакцията, банката може да провери информацията в приложението на клиента за да види дали се опитва да го измами. Или обратната ситуация, когато клиент прави покупка в магазин, банката вижда, че картата, използвана за транзакцията, и телефонът на клиента са на едно и също място, банката може да заключи, че собственикът на картата я използва. Благодарение на тези предимства на Big Data, границите на традиционните хранилища за данни се разширяват.

За да вземе успешно решение за внедряване на решения за големи данни, една компания трябва да изчисли инвестиционен случай, а това създава големи трудности поради много неизвестни компоненти. Парадоксът на анализа в такива случаи е предсказване на бъдещето въз основа на миналото, данни за което често липсват. В този случай важен фактор е ясното планиране на вашите първоначални действия:

Първо, необходимо е да се определи един конкретен бизнес проблем, за който ще се използват технологиите за големи данни; тази задача ще бъде в основата на определянето на правилността на избраната концепция. Трябва да се съсредоточите върху събирането на данни, свързани с тази конкретна задача, и по време на доказването на концепцията можете да използвате различни инструменти, процеси и техники за управление, които ще ви позволят да вземате по-добри решения в бъдеще.
Второ, малко вероятно е компания без умения и опит за анализ на данни да може успешно да реализира проект за големи данни. Необходимите знания винаги произтичат от предишен опит в анализите, който е основният фактор, влияещ върху качеството на работа с данни. Културата на данните е важна, защото често анализът на данни разкрива трудни истини за бизнеса и са необходими практики за данни, за да приемете и да работите с тези истини.
Трето, стойността на технологиите за големи данни се състои в предоставянето на прозрения на пазара. Те обикновено се наричат специалисти, които имат дълбоко разбиране за търговското значение на данните и знаят как да ги използват правилно. Анализът на данни е средство за постигане на бизнес цели и за да разберете стойността на Big Data, трябва да се държите съответно и да разбирате действията си. В този случай големите данни ще осигурят много полезна информацияза потребителите, въз основа на които могат да се вземат решения, полезни за бизнеса.

Въпреки факта, че руският пазар на големи данни едва започва да се оформя, отделни проекти в тази област вече се изпълняват доста успешно. Някои от тях са успешни в областта на събирането на данни, като проекти за Федералната данъчна служба и Tinkoff Credit Systems Bank, други - по отношение на анализа на данни и практическото приложение на резултатите от него: това е проектът Synqera.

Tinkoff Credit Systems Bank реализира проект за внедряване на платформата EMC2 Greenplum, която е инструмент за масови паралелни изчисления. По време на последните годиниБанката има повишени изисквания към бързината на обработка на натрупаната информация и анализиране на данните в реално време, поради високия темп на нарастване на броя на потребителите на кредитни карти. Банката обяви планове за разширяване на използването на технологиите за големи данни, по-специално за обработка на неструктурирани данни и работа с корпоративна информация, получена от различни източници.

В момента Федералната данъчна служба на Русия създава аналитичен слой за федералното хранилище на данни. На негова основа се създава единно информационно пространство и технология за достъп до данъчни данни за статистическа и аналитична обработка. По време на изпълнението на проекта се работи за централизиране на аналитична информация от повече от 1200 източника на местно ниво на Федералната данъчна служба.

Друг интересен пример за анализ на големи данни в реално време е руският стартъп Synqera, който разработи платформата Simplate. Решението се основава на обработка на големи количества данни; програмата анализира информация за клиентите, тяхната история на покупки, възраст, пол и дори настроение. Сензорни екрани със сензори, разпознаващи емоциите на клиентите, бяха монтирани на касите във верига магазини за козметика. Програмата определя настроението на човек, анализира информация за него, определя времето на деня и сканира базата данни с отстъпки на магазина, след което изпраща целеви съобщения до купувача за промоции и специални оферти. Това решение повишава лоялността на клиентите и увеличава продажбите на търговците.

Ако говорим за чуждестранни успешни случаи, тогава опитът от използването на технологиите за големи данни в компанията Dunkin`Donuts, която използва данни в реално време за продажба на продукти, е интересен в това отношение. Цифровите дисплеи в магазините показват оферти, които се променят всяка минута, в зависимост от времето на деня и наличността на продукта. С помощта на касовите бележки компанията получава данни кои оферти са получили най-голям отзвук от клиентите. Този подход за обработка на данни ни позволи да увеличим печалбите и оборота на стоките в склада.

Както показва опитът от изпълнението на проекти за големи данни, тази област е предназначена за успешно решаване на съвременни бизнес проблеми. В същото време важен фактор за постигане на търговски цели при работа с големи данни е изборът на правилната стратегия, която включва анализи, които идентифицират потребителските заявки, както и използването иновативни технологиив областта на Big Data.

Според глобално проучване, провеждано ежегодно от Econsultancy и Adobe от 2012 г. сред корпоративни търговци, „големите данни“, които характеризират действията на хората в Интернет, могат да направят много. Те могат да оптимизират офлайн бизнес процесите, да помогнат да се разбере как собствениците на мобилни устройства ги използват за търсене на информация или просто да „направят маркетинга по-добър“, т.е. по-ефикасно. Освен това последната функция става все по-популярна от година на година, както следва от диаграмата, която представихме.

Основните области на работа на интернет търговците по отношение на връзките с клиентите

Източник: Econsultancy и Adobe, изд– emarketer.com

Имайте предвид, че националността на респондентите от голямо значениене притежава. Както показва проучване, проведено от KPMG през 2013 г., делът на „оптимистите“, т.е. тези, които използват Big Data при разработване на бизнес стратегия, са 56%, а вариациите от регион на регион са малки: от 63% в страните от Северна Америка до 50% в EMEA.

Използване на големи данни в различни региони на света

Източник: KPMG, изд– emarketer.com

Междувременно отношението на търговците към такива „модни тенденции“ донякъде напомня на добре позната шега:

Кажи ми, Вано, обичаш ли домати?
- Обичам да ям, но не така.

Въпреки факта, че маркетолозите устно „обичат“ Big Data и изглежда дори ги използват, в действителност „всичко е сложно“, както пишат за сърдечните си привързаности в социалните мрежи.

Според проучване, проведено от Circle Research през януари 2014 г. сред европейски търговци, 4 от 5 респонденти не използват Big Data (въпреки че те, разбира се, „го обичат“). Причините са различни. Малко са закоравелите скептици - 17% и точно толкова са техните антиподи, т.е. онези, които уверено отговарят: „Да“. Останалите се колебаят и съмняват, „блатото“. Те избягват директен отговор под правдоподобни предлози като „още не, но скоро“ или „ще изчакаме, докато другите започнат“.

Използване на големи данни от търговци, Европа, януари 2014 г

източник:dnx, публикувано –emarketer.com

Какво ги обърква? Чисти глупости. Някои (точно половината от тях) просто не вярват на тези данни. Други (има също доста от тях - 55%) намират за трудно да съпоставят набори от „данни“ и „потребители“ един с друг. Някои хора просто имат (политически коректно казано) вътрешна корпоративна бъркотия: данните се лутат без надзор между отделите по маркетинг и ИТ структурите. За други софтуерът не може да се справи с наплива от работа. И така нататък. Тъй като общите дялове значително надхвърлят 100%, е ясно, че ситуацията на „множество бариери“ не е необичайна.

Бариери пред използването на Big Data в маркетинга

източник:dnx, публикувано –emarketer.com

По този начин трябва да признаем, че докато „Големи данни“ е голям потенциал, който все още трябва да се използва. Между другото, това може би е причината Big Data да губи ореола си на „модна тенденция“, както показват данните от проучване на компанията Econsultancy, за което вече споменахме.

Най-значимите тенденции в дигиталния маркетинг 2013-2014

Източник: Econsultancy и Adobe

На тяхно място идва друг цар – контент маркетинга. Колко дълго?

Не може да се каже, че Big Data е някакво фундаментално ново явление. Големи източници на данни съществуват от много години: бази данни за покупки на клиенти, кредитна история, начин на живот. И години наред учените използват тези данни, за да помогнат на компаниите да оценят риска и да предскажат бъдещите нужди на клиентите. Днес обаче ситуацията се промени в два аспекта:

Появиха се по-сложни инструменти и техники за анализиране и комбиниране на различни набори от данни;

Тези аналитични инструменти се допълват от лавина от нови източници на данни, водени от цифровизацията на почти всички методи за събиране на данни и измерване.

Обхватът на наличната информация е едновременно вдъхновяващ и плашещ за изследователите, израснали в структурирана изследователска среда. Настроенията на потребителите се улавят от уебсайтове и всякакви социални медии. Фактът на гледане на реклама се записва не само от декодери, но и с помощта на цифрови етикети и мобилни устройствакомуникация с телевизора.

Данните за поведението (като обем на разговорите, навици за пазаруване и покупки) вече са достъпни в реално време. По този начин голяма част от това, което преди можеше да бъде получено чрез изследване, сега може да се научи с помощта на големи източници на данни. И всички тези информационни активи се генерират постоянно, независимо от каквито и да е изследователски процеси. Тези промени ни карат да се чудим дали големите данни могат да заменят класическото пазарно проучване.

Не става въпрос за данните, а за въпросите и отговорите.

Преди да ударим смъртния звън за класическото изследване, трябва да си напомним, че не наличието на определени активи от данни е критично, а нещо друго. Какво точно? Способността ни да отговаряме на въпроси, ето какво. Едно забавно нещо в новия свят на големите данни е, че резултатите, получени от нови активи от данни, водят до още повече въпроси и тези въпроси обикновено намират най-добър отговор от традиционните изследвания. По този начин, с нарастването на големите данни, виждаме паралелно увеличаване на наличността и нуждата от „малки данни“, които могат да дадат отговори на въпроси от света на големите данни.

Помислете за ситуацията: голям рекламодател непрекъснато следи трафика на магазина и обемите на продажбите в реално време. Съществуващите изследователски методологии (в които анкетираме участниците в панела относно техните мотивации за покупка и поведение на място за продажба) ни помагат да се насочваме по-добре към специфични сегменти на купувачите. Тези техники могат да бъдат разширени, за да включат по-широк набор от активи с големи данни, до точката, в която големите данни се превръщат в средство за пасивно наблюдение, а изследването се превръща в метод за текущо, тясно фокусирано разследване на промени или събития, които изискват проучване. Ето как големите данни могат да освободят изследванията от ненужната рутина. Първичните изследвания вече не трябва да се фокусират върху случващото се (големите данни ще направят това). Вместо това първичните изследвания могат да се фокусират върху обяснението защо наблюдаваме определени тенденции или отклонения от тенденциите. Изследователят ще може да мисли по-малко за получаване на данни и повече за това как да ги анализира и използва.

В същото време виждаме, че големите данни могат да решат един от най-големите ни проблеми: проблемът с прекалено дългите проучвания. Проверката на самите проучвания показа, че прекалено раздутите изследователски инструменти имат отрицателно въздействие върху качеството на данните. Въпреки че много експерти отдавна са признали този проблем, те неизменно отговарят с фразата „Но имам нужда от тази информация за висшето ръководство“ и дългите интервюта продължават.

В света на големите данни, където количествените показатели могат да бъдат получени чрез пасивно наблюдение, този въпрос става спорен. Отново, нека помислим за всички тези проучвания относно консумацията. Ако големите данни ни дават представа за потреблението чрез пасивно наблюдение, тогава първичните проучвания вече не трябва да събират този вид информация и най-накрая можем да подкрепим нашата визия за кратки проучвания с нещо повече от пожелателно мислене.

Big Data се нуждае от вашата помощ

И накрая, „голям“ е само една характеристика на големите данни. Характеристиката „голям“ се отнася до размера и мащаба на данните. Разбира се, това е основната характеристика, тъй като обемът на тези данни надхвърля всичко, с което сме работили преди. Но други характеристики на тези нови потоци от данни също са важни: те често са лошо форматирани, неструктурирани (или в най-добрия случай частично структурирани) и пълни с несигурност. Нововъзникваща област на управление на данни, уместно наречена анализ на обекти, се занимава с проблема с пресичането на шума в големите данни. Неговата работа е да анализира тези набори от данни и да разбере колко наблюдения се отнасят за едно и също лице, кои наблюдения са текущи и кои са използваеми.

Този тип почистване на данни е необходимо за премахване на шум или грешни данни при работа с големи или малки активи от данни, но не е достатъчно. Трябва също така да създадем контекст около активи с големи данни въз основа на нашия предишен опит, анализи и знания за категориите. Всъщност много анализатори посочват способността за управление на несигурността, присъща на големите данни, като източник на конкурентно предимство, тъй като позволява вземането на по-добри решения.

Това е мястото, където първичните изследвания не само се оказват освободени от големи данни, но също така допринасят за създаването и анализа на съдържание в рамките на големи данни.

Основен пример за това е приложението на нашата нова фундаментално различна рамка за капитал на марката към социалните медии (говорим за разработен вМилуърд кафявонов подход за измерване на капитала на маркатаThe Смислено Различен рамка– „Парадигмата на значимата разлика“ –Р & T ). Този модел е тестван за поведение в рамките на конкретни пазари, приложен на стандартна основа и лесно се прилага в други маркетингови области и информационни системиза подкрепа при вземане на решения. С други думи, нашият модел на капитала на марката, базиран на (макар и не изключително въз основа) на проучване, има всички характеристики, необходими за преодоляване на неструктурирания, несвързан и несигурен характер на големите данни.

Помислете за данните за потребителските настроения, предоставени от социалните медии. В необработена форма пиковете и спадовете в потребителските настроения много често са минимално свързани с офлайн измерванията на капитала и поведението на марката: просто има твърде много шум в данните. Но ние можем да намалим този шум, като приложим нашите модели за потребителско значение, диференциация на марката, динамика и отличителност към необработени данни за потребителските настроения – начин за обработка и агрегиране на данни от социалните медии по тези измерения.

След като данните са организирани според нашата рамка, идентифицираните тенденции обикновено се привеждат в съответствие с офлайн стойността на марката и поведенческите мерки. По същество данните от социалните медии не могат да говорят сами за себе си. Използването им за тази цел изисква нашия опит и модели, изградени около марки. Когато социалните медии ни предоставят уникална информация, изразена на езика, който потребителите използват, за да опишат марките, ние трябва да използваме този език, когато създаваме нашите изследвания, за да направим първичните изследвания много по-ефективни.

Предимства на освободените изследвания

Това ни връща към това как големите данни не толкова заместват изследванията, колкото ги освобождават. Изследователите ще бъдат освободени от необходимостта да създават ново проучване за всеки нов случай. Постоянно растящите активи с големи данни могат да се използват за различни изследователски теми, което позволява последващи първични изследвания да навлязат по-дълбоко в темата и да запълнят съществуващите пропуски. Изследователите ще бъдат освободени от необходимостта да разчитат на прекалено завишени проучвания. Вместо това те могат да използват кратки анкети и да се фокусират върху най-важните параметри, което подобрява качеството на данните.

С това освобождаване изследователите ще могат да използват установените си принципи и идеи, за да добавят прецизност и значение на активите с големи данни, което води до нови области за проучвания. Този цикъл трябва да доведе до по-добро разбиране на редица стратегически въпроси и, в крайна сметка, движение към това, което винаги трябва да бъде нашата основна цел - да информираме и да подобрим качеството на марката и комуникационните решения.

Терминът Big Data обикновено се отнася до всяко количество структурирани, полуструктурирани и неструктурирани данни. Вторият и третият обаче могат и трябва да бъдат поръчани за последващ анализ на информацията. Големите данни не се равняват на действителен обем, но когато говорим за големи данни в повечето случаи имаме предвид терабайти, петабайти и дори екстрабайтове информация. Всеки бизнес може да натрупа това количество данни с течение на времето или, в случаите, когато компанията трябва да получи много информация, в реално време.

Анализ на големи данни

Когато говорим за анализ на Big Data, имаме предвид преди всичко събирането и съхранението на информация от различни източници. Например данни за клиенти, които са направили покупки, техните характеристики, информация за стартирани рекламни кампании и оценка на тяхната ефективност, данни от контактния център. Да, цялата тази информация може да бъде сравнена и анализирана. Възможно е и необходимо. Но за да направите това, трябва да настроите система, която ви позволява да събирате и трансформирате информация, без да я изкривявате, да я съхранявате и накрая да я визуализирате. Съгласете се, с големи данни таблиците, отпечатани на няколко хиляди страници, не са много полезни за вземане на бизнес решения.

1. Пристигане на големи данни

Повечето услуги, които събират информация за действията на потребителите, имат възможност за експортиране. За да се гарантира, че те пристигат в компанията в структурирана форма, се използват различни системи, например Alteryx. Този софтуер ви позволява автоматично да получавате информация, да я обработвате, но най-важното, да я конвертирате в желаната форма и формат, без да я изкривявате.

2. Съхранение и обработка на големи данни

Почти винаги при събирането на голямо количество информация възниква проблемът с нейното съхранение. От всички платформи, които проучихме, нашата компания предпочита Vertica. За разлика от други продукти, Vertica е в състояние бързо да „върне“ съхраняваната в него информация. Недостатъците включват дълъг запис, но при анализ на големи данни скоростта на връщане излиза на преден план. Например, ако говорим за компилация с петабайт информация, скоростта на качване е една от най-важните характеристики.

3. Визуализация на Big Data

И накрая, третият етап от анализа на големи обеми данни е . За да направите това, имате нужда от платформа, която може визуално да отразява цялата получена информация в удобна форма. Според нас само един софтуерен продукт може да се справи със задачата - Tableau. Разбира се, едно от най-добрите решения днес, което може визуално да показва всяка информация, превръщайки работата на компанията в триизмерен модел, събирайки действията на всички отдели в една взаимозависима верига (можете да прочетете повече за възможностите на Tableau).

Вместо това нека отбележим, че почти всяка компания вече може да създаде свои собствени големи данни. Анализът на големи данни вече не е сложен и скъп процес. От ръководството на компанията вече се изисква правилно да формулира въпроси към събраната информация, докато практически не остават невидими сиви зони.

Изтеглете Tableau