Didelio duomenų kiekio apdorojimo metodai. Kaip didelių duomenų technologijos padeda miestams vystytis

Tik tinginys nekalba apie Big data, bet vargiai supranta, kas tai yra ir kaip tai veikia. Pradėkime nuo paprasčiausio – terminologijos. Kalbant rusiškai, „Big data“ – tai įvairūs įrankiai, požiūriai ir metodai, skirti apdoroti struktūrizuotus ir nestruktūruotus duomenis, siekiant juos naudoti konkrečioms užduotims ir tikslams.

Nestruktūruoti duomenys – tai informacija, kuri neturi iš anksto nustatytos struktūros arba nėra sutvarkyta tam tikra tvarka.

Terminą „didieji duomenys“ sukūrė gamtos redaktorius Cliffordas Lynchas dar 2008 m. specialiame numeryje apie spartų pasaulio informacijos apimčių augimą. Nors, žinoma, patys big data egzistavo anksčiau. Ekspertų teigimu, didžioji dalis duomenų srautų, viršijančių 100 GB per dieną, priklauso Big data kategorijai.

Taip pat skaitykite:

Šiandien šis paprastas terminas slepia tik du žodžius – duomenų saugojimas ir apdorojimas.

Dideli duomenys – paprastais žodžiais

Šiuolaikiniame pasaulyje dideli duomenys yra socialinis ir ekonominis reiškinys, kuris siejamas su tuo, kad atsirado naujų technologinių galimybių analizuoti didžiulį duomenų kiekį.

Taip pat skaitykite:

Kad būtų lengviau suprasti, įsivaizduokite prekybos centrą, kuriame visos prekės yra ne tokia tvarka, prie kurios esate įpratę. Duona prie vaisių, pomidorų pasta prie šaldytos picos, žiebtuvėlis prie tamponų, kuriuose yra avokadų, tofu ar šitake grybų, ir kt. Big Data viską sustato į savo vietas ir padeda rasti riešutų pieną, sužinoti kainą ir galiojimo datą, taip pat kas, be jūsų, perka tokį pieną ir kaip jis yra geriau nei pienas karvė.

Kenneth Cookier: Dideli duomenys yra geresni duomenys

Didelių duomenų technologija

Apdorojami didžiuliai duomenų kiekiai, kad žmogus gautų konkrečius ir reikalingus rezultatus tolesniam jų efektyviam pritaikymui.

Taip pat skaitykite:

Tiesą sakant, dideli duomenys yra problemų sprendimas ir alternatyva tradicinėms duomenų valdymo sistemoms.

Didiesiems duomenims taikomi analizės metodai ir metodai pagal McKinsey:

minios tiekimas;

Sumaišymas ir duomenų integravimas;

Mašininis mokymasis;

Dirbtiniai neuroniniai tinklai;

Rašto atpažinimas;

Nuspėjamoji analitika;

imitacinis modeliavimas;

Erdvinė analizė;

Statistinė analizė;
Analitinių duomenų vizualizavimas.

Horizontalus mastelio keitimas, leidžiantis apdoroti duomenis, yra pagrindinis didelių duomenų apdorojimo principas. Duomenys paskirstomi skaičiavimo mazgams, o apdorojimas vyksta nesumažinant našumo. „McKinsey“ pritaikomumo kontekste taip pat įtraukė santykių valdymo sistemas ir verslo žvalgybą.

Technologijos:

NoSQL;
MapReduce;
Hadoop;
Techninės įrangos sprendimai.

Taip pat skaitykite:

Didžiųjų duomenų atveju yra tradicinės apibrėžiančios charakteristikos, kurias „Meta Group“ sukūrė dar 2001 m., kurios vadinamos „ Trys V»:

Apimtis- fizinio tūrio vertė.
Greitis- augimo tempas ir greito duomenų apdorojimo poreikis norint gauti rezultatus.
Įvairovė- galimybė vienu metu apdoroti įvairių tipų duomenis.

Dideli duomenys: pritaikymas ir galimybės

Įvairios ir greitai gaunamos skaitmeninės informacijos kiekiai negali būti apdoroti tradiciniais įrankiais. Pati duomenų analizė leidžia pamatyti tam tikrus ir nepastebimus šablonus, kurių žmogus nemato. Tai leidžia optimizuoti visas savo gyvenimo sritis – nuo viešojo administravimo iki gamybos ir telekomunikacijų.

Pavyzdžiui, kai kurios įmonės prieš keletą metų saugojo savo klientus nuo sukčiavimo, o rūpinimasis kliento pinigais – tai rūpinimasis savo pinigais.

Susan Atliger: O kaip su dideliais duomenimis?

Sprendimai, pagrįsti dideliais duomenimis: Sberbank, Beeline ir kitos įmonės

„Beeline“ turi daug duomenų apie abonentus, kuriuos jie naudoja ne tik dirbdami su jais, bet ir kurdami analitinius produktus, tokius kaip išorinės konsultacijos ar IPTV analizė. „Beeline“ suskirstė duomenų bazę į segmentus ir apsaugojo klientus nuo pinigų sukčiavimo ir virusų naudodama HDFS ir „Apache Spark“ saugojimui, o „Rapidminer“ ir „Python“ – duomenų apdorojimui.

Taip pat skaitykite:

Arba prisiminkite „Sberbank“ su senu dėklu, vadinamu AS SAFI. Tai sistema, kuri analizuoja nuotraukas, siekdama atpažinti banko klientus ir užkirsti kelią sukčiavimui. Sistema buvo pristatyta dar 2014 m., Sistema paremta duomenų bazės nuotraukų, patekusių iš stelažų internetinių kamerų kompiuterinio matymo dėka, palyginimu. Sistemos pagrindas yra biometrinė platforma. Dėl šios priežasties sukčiavimo atvejų sumažėjo 10 kartų.

Dideli duomenys pasaulyje

Iki 2020 m., remiantis prognozėmis, žmonija suformuos 40–44 zettabaitus informacijos. O iki 2025 m. jis išaugs 10 kartų, rodo „The Data Age 2025“ ataskaita, kurią parengė IDC analitikai. Ataskaitoje pažymima, kad didžiąją dalį duomenų sugeneruos pačios įmonės, o ne paprasti vartotojai.

Tyrimo analitikai mano, kad duomenys taps gyvybiškai svarbiu turtu, o saugumas – esminiu gyvenimo pagrindu. Taip pat darbo autoriai įsitikinę, kad technologija pakeis ekonominį kraštovaizdį, o vidutinis vartotojas su prijungtais įrenginiais bendraus apie 4800 kartų per dieną.

Didelė duomenų rinka Rusijoje

Paprastai dideli duomenys gaunami iš trijų šaltinių:

Internetas (socialiniai tinklai, forumai, dienoraščiai, žiniasklaida ir kitos svetainės);
Įmonių dokumentų archyvai;
Daviklių, prietaisų ir kitų prietaisų indikacijos.

Dideli duomenys bankuose

Be aukščiau aprašytos sistemos, „Sberbank“ strategijoje 2014–2018 m. kalbama apie super-duomenų rinkinių analizės svarbą kokybiškam klientų aptarnavimui, rizikos valdymui ir išlaidų optimizavimui. Dabar bankas naudoja Big Data rizikai valdyti, kovoti su sukčiavimu, segmentuoti ir vertinti klientų kreditingumą, valdyti personalą, prognozuoti eiles filialuose, skaičiuoti priedus darbuotojams ir atlikti kitus darbus.

VTB24 naudoja didelius duomenis, kad segmentuotų ir valdytų klientų trūkumą, sudarytų finansines ataskaitas ir analizuotų atsiliepimus socialiniuose tinkluose ir forumuose. Tam jis naudoja „Teradata“, „SAS Visual Analytics“ ir „SAS Marketing Optimizer“ sprendimus.

Nuolat spartėjantis duomenų augimas yra neatsiejama šių dienų realybės dalis. Socialiniai tinklai, mobilieji įrenginiai, duomenys iš matavimo prietaisų, verslo informacija – tai tik keli šaltiniai, galintys generuoti didžiulius duomenų kiekius.

Šiuo metu terminas dideli duomenys(Big data) tapo gana įprasta. Toli gražu ne visi žino, kaip greitai ir giliai didelio duomenų kiekio apdorojimo technologijos keičia pačius įvairiausius visuomenės aspektus. Įvairiose srityse vyksta pokyčiai, keliantys naujų problemų ir iššūkių, taip pat ir informacijos saugumo srityje, kur pirmiausia turėtų būti akcentuojami tokie svarbūs aspektai kaip konfidencialumas, vientisumas, prieinamumas ir kt.

Deja, daugelis šiuolaikinių įmonių naudojasi „Big Data“ technologija, nesukurdamos tam tinkamos infrastruktūros, kuri galėtų užtikrinti patikimą didžiulių jų renkamų ir saugomų duomenų kiekių saugojimą. Kita vertus, šiuo metu sparčiai vystosi „blockchain“ technologija, kuri skirta išspręsti šią ir daugelį kitų problemų.

Kas yra dideli duomenys?

Tiesą sakant, sąvokos apibrėžimas slypi paviršiuje: „didieji duomenys“ reiškia labai didelių duomenų kiekių valdymą, taip pat jų analizę. Jei pažvelgsite plačiau, tai yra informacija, kurios negalima apdoroti klasikiniais metodais dėl didelės apimties.

Pats terminas „Big Data“ (didieji duomenys) pasirodė palyginti neseniai. „Google Trends“ paslaugos duomenimis, aktyvus termino populiarumo augimas krenta 2011 m. pabaigoje:

2010 metais pradėjo pasirodyti pirmieji produktai ir sprendimai, tiesiogiai susiję su didžiųjų duomenų apdorojimu. Iki 2011 m. dauguma didžiausių IT įmonių, įskaitant IBM, Oracle, Microsoft ir Hewlett-Packard, savo verslo strategijose aktyviai naudoja terminą Big Data. Pamažu informacinių technologijų rinkos analitikai pradeda aktyvius šios koncepcijos tyrimus.

Šiuo metu šis terminas įgijo nemažą populiarumą ir yra aktyviai naudojamas įvairiose srityse. Tačiau negalima tvirtai teigti, kad „Big Data“ yra kažkoks iš esmės naujas reiškinys – priešingai, dideli duomenų šaltiniai egzistuoja jau daug metų. Rinkodaros srityje tai gali būti klientų pirkinių, kredito istorijų, gyvenimo būdo ir kt. duomenų bazės.. Bėgant metams analitikai naudojo šiuos duomenis, kad padėtų įmonėms numatyti būsimus klientų poreikius, įvertinti riziką, formuoti vartotojų pageidavimus ir kt.

Šiuo metu situacija pasikeitė dviem aspektais:

— Atsirado sudėtingesnių įrankių ir metodų, skirtų analizuoti ir palyginti skirtingus duomenų rinkinius;
— Analizės priemones papildė daug naujų duomenų šaltinių, kuriuos paskatino plačiai paplitęs skaitmeninimas, taip pat nauji duomenų rinkimo ir matavimo metodai.

Mokslininkai prognozuoja, kad didžiųjų duomenų technologijos bus aktyviausiai naudojamos gamyboje, sveikatos apsaugos, prekybos, viešojo administravimo ir kitose labai įvairiose srityse bei pramonės šakose.

Didieji duomenys – tai ne konkretus duomenų rinkinys, o jų apdorojimo metodų rinkinys. Didžiuosius duomenis lemia ne tik jų apimtis, bet ir kitos kategorijos, apibūdinančios daug darbo reikalaujančius duomenų apdorojimo ir analizės procesus.

Pradiniai apdorojimo duomenys gali būti, pavyzdžiui:

— interneto vartotojų elgesio žurnalai;
— daiktų internetas;
- socialiniai tinklai;
— meteorologiniai duomenys;
— suskaitmenintos didžiausių bibliotekų knygos;
– GPS signalai iš transporto priemonių;
— informacija apie banko klientų operacijas;
— duomenys apie mobiliojo ryšio tinklų abonentų buvimo vietą;
— informacija apie pirkinius dideliuose prekybos tinkluose ir kt.

Laikui bėgant duomenų kiekis ir jų šaltinių skaičius nuolat auga, todėl atsiranda naujų informacijos apdorojimo būdų bei tobulinami esami informacijos apdorojimo metodai.

Pagrindiniai didelių duomenų principai:

- Horizontalus mastelio keitimas – duomenų masyvai gali būti didžiuliai, o tai reiškia, kad didžiųjų duomenų apdorojimo sistema turi dinamiškai plėstis didėjant jų apimčiai.
- Gedimų tolerancija – net jei kai kurios įrangos dalys sugenda, visa sistema turi veikti.
— Duomenų vieta. Didelėse paskirstytose sistemose duomenys paprastai paskirstomi dideliam skaičiui mašinų. Tačiau, kai tik įmanoma ir siekiant taupyti išteklius, duomenys dažnai apdorojami tame pačiame serveryje, kuriame ir saugomi.

Kad visi trys principai veiktų stabiliai ir, atitinkamai, būtų aukštas didelių duomenų saugojimo ir apdorojimo efektyvumas, reikalingos naujos proveržio technologijos, tokios kaip, pavyzdžiui, blockchain.

Kam skirti dideli duomenys?

Didžiųjų duomenų apimtis nuolat plečiasi:

— Didelius duomenis galima panaudoti medicinoje. Taigi diagnozę pacientui galima nustatyti ne tik remiantis ligos istorijos analizės duomenimis, bet ir atsižvelgiant į kitų gydytojų patirtį, informaciją apie paciento gyvenamosios vietos ekologinę situaciją. , ir daug kitų veiksnių.
— Didžiųjų duomenų technologijos gali būti naudojamos organizuojant nepilotuojamų transporto priemonių judėjimą.
— Apdorojant didelius duomenų kiekius galima atpažinti veidus foto ir vaizdo medžiagoje.
– „Big Data“ technologijas gali naudoti mažmenininkai – prekybos įmonės gali aktyviai naudoti duomenų masyvus iš socialinių tinklų, kad galėtų efektyviai susikurti savo reklamines kampanijas, kurios gali būti maksimaliai orientuotos į konkretų vartotojų segmentą.
— Ši technologija aktyviai naudojama organizuojant rinkimų kampanijas, taip pat ir analizuojant visuomenės politines nuostatas.
— Didžiųjų duomenų technologijų naudojimas aktualus pajamų užtikrinimo (RA) klasės sprendimams, apimantiems neatitikimų aptikimo ir išsamios duomenų analizės priemones, leidžiančias laiku nustatyti galimus nuostolius ar informacijos iškraipymus, dėl kurių gali sumažėti finansiniai rezultatai. .
— Telekomunikacijų paslaugų teikėjai gali kaupti didelius duomenis, įskaitant geografinės padėties duomenis; savo ruožtu ši informacija gali būti komerciškai įdomi reklamos agentūroms, kurios gali ją naudoti tikslinei ir vietinei reklamai rodyti, taip pat mažmenininkams ir bankams.
„Didieji duomenys gali atlikti svarbų vaidmenį sprendžiant, ar atidaryti mažmeninės prekybos vietą konkrečioje vietoje, remiantis duomenimis apie galingą tikslinį žmonių srautą.

Taigi akivaizdžiausias praktinis Big Data technologijos pritaikymas slypi rinkodaros srityje. Dėl interneto plėtros ir daugybės įvairių ryšio priemonių, elgsenos duomenys (pvz., skambučių skaičius, apsipirkimo įpročiai ir pirkimai) tampa prieinami realiu laiku.

Didžiųjų duomenų technologijos taip pat gali būti efektyviai naudojamos finansuose, sociologiniuose tyrimuose ir daugelyje kitų sričių. Ekspertai teigia, kad visos šios didžiųjų duomenų panaudojimo galimybės yra tik matoma ledkalnio dalis, nes šios technologijos daug plačiau naudojamos žvalgyboje ir kontržvalgyboje, kariniuose reikaluose, taip pat visame kame, kas paprastai vadinama informaciniu karu. .

AT bendrais bruožais darbo su „Big Data“ seka susideda iš duomenų rinkimo, gautos informacijos struktūrizavimo naudojant ataskaitas ir prietaisų skydelius, o tada – veiksmų rekomendacijų formulavimą.

Trumpai panagrinėkime Big Data technologijų panaudojimo rinkodaroje galimybes. Kaip žinia, rinkodaros specialistui informacija yra pagrindinė prognozavimo ir strategijos kūrimo priemonė. Didžiųjų duomenų analizė jau seniai sėkmingai naudojama vartotojų tikslinei auditorijai, interesams, paklausai ir aktyvumui nustatyti. Didžiųjų duomenų analizė, visų pirma, leidžia rodyti reklamą (remiantis RTB aukciono modeliu – Real Time Bidding) tik tiems vartotojams, kurie domisi preke ar paslauga.

Didžiųjų duomenų naudojimas rinkodaroje leidžia verslininkams:

- geriau atpažinti savo vartotojus, pritraukti panašią auditoriją internete;
- įvertinti klientų pasitenkinimo laipsnį;
— suprasti, ar siūloma paslauga atitinka lūkesčius ir poreikius;
- rasti ir įgyvendinti naujus būdus, kaip padidinti klientų pasitikėjimą;
— kurti paklausius projektus ir pan.

Pavyzdžiui, paslauga Google.trends gali nurodyti rinkodaros specialistui sezoninės tam tikro produkto paklausos veiklos prognozę, svyravimus ir paspaudimų geografiją. Jei palyginsite šią informaciją su atitinkamo papildinio savo svetainėje surinkta statistika, galite sudaryti reklamos biudžeto paskirstymo planą, nurodydami mėnesį, regioną ir kitus parametrus.

Daugelio tyrinėtojų nuomone, būtent Didžiųjų duomenų segmentavime ir panaudojime D. Trumpo kampanijos sėkmė slypi. Būsimo JAV prezidento komanda sugebėjo teisingai suskirstyti auditoriją, suprasti jos troškimus ir parodyti būtent tokią žinią, kurią nori matyti ir išgirsti rinkėjai. Taigi, pasak Irinos Belyshevos iš „Data-Centric Alliance“, D.Trumpo pergalę daugiausia lėmė nestandartinis požiūris į internetinę rinkodarą, kuris buvo paremtas „Big Data“, psichoelgesio analize ir personalizuota reklama.

D.Trumpo polittechnologai ir rinkodaros specialistai panaudojo specialiai sukurtą matematinį modelį, kuris leido giliai išanalizuoti visų JAV rinkėjų duomenis ir juos susisteminti, padarant itin tikslų taikymą ne tik pagal geografines ypatybes, bet ir pagal rinkėjų ketinimus, interesus. Jų psichotipas, elgesio ypatumai ir kt. Po Šiuo tikslu rinkodaros specialistai organizavo asmeninį bendravimą su kiekviena piliečių grupe, atsižvelgdami į jų poreikius, nuotaikas, politines pažiūras, psichologines savybes ir net odos spalvą, naudodami savo žinią beveik kiekvienam. individualus rinkėjas.

Kalbant apie Hillary Clinton, ji savo kampanijoje naudojo „laiko patikrintus“ metodus, pagrįstus sociologiniais duomenimis ir standartine rinkodara, suskirstydama elektoratą tik į formaliai homogeniškas grupes (vyrus, moteris, afroamerikiečiai, ispanai, vargšai, turtingi ir kt.).

Dėl to laimėjo tas, kuris įvertino naujų technologijų ir analizės metodų potencialą. Pažymėtina, kad Hillary Clinton kampanijos išlaidos buvo dvigubai didesnės nei jos oponentės:

Duomenys: Pew Research

Pagrindinės Big Data naudojimo problemos

Be didelių sąnaudų, vienas pagrindinių veiksnių, trukdančių diegti didžiuosius duomenis įvairiose srityse, yra tvarkomų duomenų pasirinkimo problema: tai yra nustatant, kokius duomenis reikia išgauti, saugoti ir analizuoti, o kokius. neturėtų būti atsižvelgta.

Kita didelių duomenų problema yra etinė. Kitaip tariant, kyla natūralus klausimas: ar toks duomenų rinkimas (ypač be vartotojo žinios) gali būti laikomas privatumo ribų pažeidimu?

Ne paslaptis, kad „Google“ ir „Yandex“ paieškos sistemose sukaupta informacija leidžia IT gigantams nuolat tobulinti savo paslaugas, padaryti jas patogias ir kurti naujas interaktyvias programas. Tam paieškos sistemos renka vartotojo duomenis apie vartotojų veiklą internete, IP adresus, geografinės vietos duomenis, pomėgius ir pirkinius internetu, asmeninius duomenis, el. pašto žinutes ir kt. Visa tai leidžia rodyti kontekstinę reklamą pagal vartotojo elgesį internete. Tuo pačiu dažniausiai tam neprašoma vartotojų sutikimo ir nepasirenkama, kokią informaciją apie save pateikti. Tai yra, pagal numatytuosius nustatymus viskas renkama į Big Data, kurie vėliau bus saugomi svetainių duomenų serveriuose.

Iš to seka kitas svarbus klausimas, susijęs su duomenų saugojimo ir naudojimo saugumu. Pavyzdžiui, ar yra saugi analizės platforma, su kuria vartotojai automatiškai dalijasi savo duomenimis? Be to, daugelis verslo atstovų pastebi, kad trūksta aukštos kvalifikacijos analitikų ir rinkodaros specialistų, kurie galėtų efektyviai valdyti didelius duomenų kiekius ir jų pagalba išspręsti konkrečias verslo problemas.

Nepaisant visų sunkumų diegiant Big Data, verslas ketina didinti investicijas į šią sritį. „Gartner“ tyrimo duomenimis, į „Big Data“ investuojančių pramonės šakų lyderiai yra žiniasklaidos, mažmeninės prekybos, telekomunikacijų, bankininkystės ir paslaugų įmonės.

Blockchain technologijų ir didžiųjų duomenų sąveikos perspektyvos

Integracija su dideliais duomenimis turi sinerginį poveikį ir atveria daug naujų galimybių verslui, įskaitant galimybę:

— gauti prieigą prie išsamios informacijos apie vartotojų pageidavimus, kurios pagrindu galite sukurti išsamius konkrečių tiekėjų, produktų ir produktų komponentų analitinius profilius;
- integruoti išsamius duomenis apie sandorius ir statistiką apie tam tikrų prekių grupių vartojimą pagal įvairių kategorijų naudotojus;
- gauti išsamius analitinius duomenis apie tiekimo ir vartojimo grandines, kontroliuoti produktų nuostolius transportavimo metu (pavyzdžiui, svorio mažėjimą dėl tam tikrų prekių rūšių susitraukimo ir išgaravimo);
– kovoti su padirbtais gaminiais, didinti kovos su pinigų plovimu ir sukčiavimu veiksmingumą ir kt.

Prieiga prie išsamių duomenų apie prekių naudojimą ir vartojimą iš esmės atvers „Big Data“ technologijos potencialą optimizuojant pagrindinius verslo procesus, sumažins reguliavimo riziką ir atvers naujas galimybes užsidirbti pinigų ir kurti produktus, kurie geriausiai atitiks dabartinius vartotojų pageidavimus.

Kaip žinia, didžiausių finansų institucijų atstovai jau dabar rodo didelį susidomėjimą blockchain technologija, įskaitant ir kt. Pasak Šveicarijos finansinio holdingo UBS IT vadovo Oliverio Bussmanno, „blockchain“ technologija gali „sumažinti operacijų apdorojimo laiką nuo kelių dienų iki kelių dienų. minutes“.

„Blockchain“ analizės potencialas naudojant „Big Data“ technologiją yra didžiulis. Paskirstyta registro technologija užtikrina informacijos vientisumą, taip pat patikimą ir skaidrų visos operacijų istorijos saugojimą. „Big Data“ savo ruožtu suteikia naujų įrankių efektyviai analizei, prognozavimui, ekonominiam modeliavimui ir atitinkamai atveria naujas galimybes priimti labiau pagrįstus valdymo sprendimus.

„Blockchain“ ir „Big Data“ tandemas gali būti sėkmingai naudojamas sveikatos priežiūros srityje. Kaip žinia, netobuli ir neišsamūs duomenys apie paciento sveikatą kartais padidina neteisingos diagnozės ir neteisingai paskirto gydymo riziką. Kritiniai duomenys apie gydymo įstaigų klientų sveikatą turi būti kuo saugesni, turėti nekintamumo savybių, būti patikrinami ir ne manipuliuojami.

Blockchain informacija atitinka visus aukščiau išvardintus reikalavimus ir gali pasitarnauti kaip kokybiški ir patikimi šaltinio duomenys giliai analizei naudojant naujas Big Data technologijas. Be to, naudodamos blokų grandinę, medicinos įstaigos galėtų keistis patikimais duomenimis su draudimo bendrovėmis, teisingumo institucijomis, darbdaviais, akademinėmis institucijomis ir kitomis organizacijomis, kurioms reikalinga medicininė informacija.

Dideli duomenys ir informacijos saugumas

Plačiąja prasme informacijos saugumas yra informacijos ir pagalbinės infrastruktūros apsauga nuo atsitiktinio ar tyčinio natūralaus ar dirbtinio neigiamo poveikio.

Informacijos saugumo srityje Big Data susiduria su šiais iššūkiais:

— Duomenų apsaugos ir jų vientisumo užtikrinimo problemos;
— išorinio įsikišimo ir konfidencialios informacijos nutekėjimo rizika;
— netinkamas konfidencialios informacijos saugojimas;
- informacijos praradimo rizika, pavyzdžiui, dėl kieno nors piktavališkų veiksmų;
— rizika, kad trečiosios šalys netinkamai naudos asmens duomenis ir kt.

Viena iš pagrindinių didelių duomenų problemų, kuriai išspręsti yra sukurta blokų grandinė, yra informacijos saugumo srityje. Užtikrinant visų pagrindinių principų laikymąsi, paskirstytų knygų technologija gali garantuoti duomenų vientisumą ir patikimumą, o dėl to, kad nėra vieno gedimo taško, blokų grandinė daro informacines sistemas stabilias. Paskirstytos knygos technologija gali padėti išspręsti pasitikėjimo duomenimis problemą, taip pat suteikti galimybę universaliai keistis duomenimis.

Informacija yra vertingas turtas, o tai reiškia, kad pagrindiniai informacijos saugumo aspektai turėtų būti svarbiausi. Įmonės, norėdamos išlikti konkurencinėje kovoje, turi žengti koja kojon su laiku, o tai reiškia, kad jos negali ignoruoti potencialių galimybių ir pranašumų, kuriuos suteikia blockchain technologija ir Big Data įrankiai.

HSE dėstytojų skiltis apie mitus ir darbo su dideliais duomenimis atvejus

Į žymes

HSE School of New Media dėstytojai Konstantinas Romanovas ir Aleksandras Pyatigorsky, kuris taip pat yra „Beeline“ skaitmeninės transformacijos direktorius, svetainei parašė stulpelį apie pagrindines klaidingas nuomones apie didžiuosius duomenis – technologijų naudojimo ir įrankių pavyzdžius. Autoriai siūlo, kad leidinys padės įmonių vadovams suprasti šią sąvoką.

Mitai ir klaidingos nuomonės apie didžiuosius duomenis

„Big Data“ nėra rinkodara

Terminas „Big Data“ tapo labai madingas – jis vartojamas milijonuose situacijų ir šimtuose skirtingų interpretacijų, dažnai nesusijusių su tuo, kas tai yra. Dažnai žmonių sąmonėje yra pakeičiamos sąvokos, o dideli duomenys yra painiojami su rinkodaros produktu. Be to, kai kuriose įmonėse „Big Data“ yra rinkodaros skyriaus dalis. Didžiųjų duomenų analizės rezultatas iš tiesų gali būti rinkodaros veiklos šaltinis, bet nieko daugiau. Pažiūrėkime, kaip tai veikia.

Jei mes nustatėme sąrašą tų, kurie prieš du mėnesius mūsų parduotuvėje nusipirko prekių, kurių vertė didesnė nei trys tūkstančiai rublių, ir tada šiems vartotojams išsiuntėme kažkokį pasiūlymą, tai yra tipinė rinkodara. Iš struktūrinių duomenų gauname aiškų modelį ir naudojame jį pardavimams didinti.

Tačiau sujungus CRM duomenis su srautine informacija, pavyzdžiui, iš Instagram, ir analizuojant, randame dėsningumą: trečiadienio vakarą aktyvumą sumažinęs žmogus, kurio paskutinėje nuotraukoje matyti kačiukai, turėtų pateikti tam tikrą pasiūlymą. Tai jau bus Big Data. Radome trigerį, atidavėme jį rinkodaros specialistams, o jie panaudojo savo tikslams.

Iš to išplaukia, kad technologija dažniausiai dirba su nestruktūrizuotais duomenimis, o jei duomenys yra struktūrizuoti, sistema vis tiek toliau ieško juose paslėptų šablonų, ko nedaro rinkodara.

Didieji duomenys nėra IT

Antrasis šios istorijos kraštutinumas: dideli duomenys dažnai painiojami su IT. Taip yra dėl to, kad Rusijos įmonėse IT specialistai paprastai yra visų technologijų, įskaitant didžiuosius duomenis, varovai. Todėl, jei viskas vyksta šiame skyriuje, visai įmonei atrodo, kad tai yra tam tikra IT veikla.

Tiesą sakant, čia yra esminis skirtumas: „Big Data“ – tai veikla, nukreipta į tam tikro produkto gavimą, kuri visiškai netaikoma IT, nors technologijos be jų negali egzistuoti.

Didieji duomenys ne visada yra informacijos rinkimas ir analizė

Yra dar viena klaidinga nuomonė apie didelius duomenis. Visi supranta, kad ši technologija yra susijusi su dideliais duomenų kiekiais, tačiau ne visada aišku, kokie duomenys turimi galvoje. Informaciją rinkti ir naudoti gali kiekvienas, dabar tai įmanoma ne tik filmuose apie, bet ir bet kurioje, net ir labai mažoje įmonėje. Vienintelis klausimas, ką tiksliai rinkti ir kaip tai panaudoti savo naudai.

Tačiau reikia suprasti, kad Big Data technologija nebus absoliučiai bet kokios informacijos rinkimas ir analizė. Pavyzdžiui, jei socialiniuose tinkluose rinksite duomenis apie konkretų asmenį, tai nebus Big Data.

Kas iš tikrųjų yra dideli duomenys

Big Data susideda iš trijų elementų:

duomenys;
analitika;
technologija.

Didieji duomenys yra ne tik vienas iš šių komponentų, bet ir visų trijų elementų derinys. Dažnai žmonės pakeičia sąvokas: kažkas mano, kad dideli duomenys yra tik duomenys, kažkas mano, kad tai yra technologija. Tačiau iš tikrųjų, nesvarbu, kiek duomenų renkate, nieko negalite su jais padaryti be tinkamos technologijos ir analizės. Jei yra gera analizė, bet nėra duomenų, tuo blogiau.

Jei kalbėsime apie duomenis, tai ne tik tekstai, bet ir visos nuotraukos, patalpintos Instagram, ir apskritai viskas, ką galima analizuoti ir panaudoti įvairiems tikslams bei užduotims. Kitaip tariant, duomenys reiškia didžiulius įvairių struktūrų vidinių ir išorinių duomenų kiekius.

Analizė taip pat reikalinga, nes didžiųjų duomenų užduotis yra sukurti tam tikrus modelius. Tai yra, analitika – tai paslėptų priklausomybių identifikavimas ir naujų klausimų bei atsakymų paieška remiantis viso nevienalyčių duomenų kiekio analize. Be to, „Big Data“ kelia klausimų, kurie nėra tiesiogiai gauti iš šių duomenų.

Kalbant apie vaizdus, tai, kad paskelbėte savo nuotrauką su mėlynais marškinėliais, nieko nesako. Bet jei naudosite nuotrauką Big Data modeliavimui, gali pasirodyti, kad būtent dabar turėtumėte pasiūlyti paskolą, nes jūsų socialinėje grupėje toks elgesys rodo tam tikrą veiksmų reiškinį. Todėl „pliki“ duomenys be analitikos, neatskleidžiantys paslėptų ir neakivaizdžių priklausomybių nėra dideli duomenys.

Taigi turime didelius duomenis. Jų masyvas didžiulis. Taip pat turime analitiką. Tačiau kaip galime užtikrinti, kad iš šių neapdorotų duomenų gimtų konkretus sprendimas? Tam mums reikalingos technologijos, leidžiančios jas ne tik saugoti (o anksčiau tai buvo neįmanoma), bet ir analizuoti.

Paprasčiau tariant, jei turite daug duomenų, jums reikės tokių technologijų kaip Hadoop, kurios leidžia išsaugoti visą informaciją pradine forma, kad būtų galima vėliau analizuoti. Tokios technologijos atsirado interneto milžinams, nes jie pirmieji susidūrė su didelio duomenų kiekio saugojimo ir analizavimo problema, kad vėliau būtų galima gauti pajamų.

Be optimizuoto ir pigaus duomenų saugojimo įrankių, reikalingi analitiniai įrankiai, taip pat naudojamos platformos priedai. Pavyzdžiui, aplink Hadoop jau susiformavo visa susijusių projektų ir technologijų ekosistema. Štai keletas iš jų:

Pig yra deklaratyvi duomenų analizės kalba.
Avilys – duomenų analizė naudojant SQL artimą kalbą.
„Oozie“ yra „Hadoop“ darbo eiga.
Hbase – duomenų bazė (neseliacinė), Google Big Table analogas.
Mahout – mašininis mokymasis.
Sqoop – duomenų perdavimas iš RSDDB į Hadoop ir atvirkščiai.
Flume - rąstų perkėlimas į HDFS.
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS ir pan.

Visi šie įrankiai yra prieinami visiems nemokamai, tačiau yra ir mokamų priedų rinkinys.

Be to, reikalingi specialistai: tai kūrėjas ir analitikas (vadinamasis Data Scientist). Taip pat reikia vadovo, kuris sugebėtų šią analitiką pritaikyti konkrečiai užduočiai, nes savaime ji visiškai beprasmiška, jei ji neįmontuota į verslo procesus.

Visi trys darbuotojai turi dirbti kaip komanda. Vadovas, davęs duomenų mokslininkui užduotį surasti tam tikrą modelį, turi suprasti, kad ne visada įmanoma rasti būtent tai, ko jam reikia. Tokiu atveju vadovas turėtų atidžiai klausytis, ką Duomenų mokslininkas rado, nes dažnai jo išvados būna įdomesnės ir naudingesnės verslui. Jūsų užduotis yra pritaikyti jį verslui ir sukurti iš jo produktą.

Nepaisant to, kad dabar yra daug įvairių mašinų ir technologijų, galutinis sprendimas visada lieka žmogui. Norėdami tai padaryti, informaciją reikia kažkaip vizualizuoti. Tam yra nemažai įrankių.

Labiausiai iliustruojantis pavyzdys yra geoanalitinės ataskaitos. „Beeline“ įmonė daug dirba su skirtingų miestų ir regionų vyriausybėmis. Labai dažnai šios organizacijos užsako ataskaitas, pvz., „Eismo apkrova konkrečioje vietoje“.

Akivaizdu, kad tokia ataskaita turėtų pasiekti valstybines įstaigas paprasta ir suprantama forma. Jei pateiksime jiems didžiulę ir visiškai nesuprantamą lentelę (tai yra informaciją tokia forma, kokia ją gauname), vargu ar jie nusipirks tokią ataskaitą – ji bus visiškai nenaudinga, iš jos nepasiims žinių. kad jie norėjo gauti.

Todėl, kad ir kokie geri būtų duomenų mokslininkai ir kokius modelius jie rastų, be kokybiškų vizualizavimo įrankių negalėsite dirbti su šiais duomenimis.

Duomenų šaltinis

Gaunamų duomenų masyvas yra labai didelis, todėl juos galima suskirstyti į kai kurias grupes.

Įmonės vidiniai duomenys

Nors šiai grupei priklauso 80% surinktų duomenų, šis šaltinis ne visada naudojamas. Dažnai tai yra duomenys, kurie, atrodytų, niekam nereikalingi, pavyzdžiui, žurnalai. Tačiau pažvelgus į juos kitu kampu, kartais galima rasti netikėtų raštų.

Shareware šaltiniai

Tai apima duomenis iš socialinių tinklų, interneto ir viską, į ką galima patekti nemokamai. Kodėl shareware? Viena vertus, šie duomenys yra prieinami visiems, tačiau jei esate didelė įmonė, tada gauti juos dešimčių tūkstančių, šimtų ar milijonų klientų abonentų bazėje nebėra lengva užduotis. Todėl rinkoje yra mokamų paslaugų šiems duomenims teikti.

Mokami šaltiniai

Tai apima įmones, kurios parduoda duomenis už pinigus. Tai gali būti telekomunikacijos, DMP, interneto bendrovės, kredito biurai ir agregatoriai. Rusijoje telekomunikacijos duomenų neparduoda. Pirma, tai ekonomiškai nenaudinga, antra, tai draudžiama įstatymu. Todėl jie parduoda savo apdorojimo rezultatus, pavyzdžiui, geoanalitines ataskaitas.

atviri duomenys

Valstybė tenkina verslo poreikius ir suteikia galimybę panaudoti jų surinktus duomenis. Didesniu mastu tai plėtojama Vakaruose, tačiau Rusija šiuo atžvilgiu taip pat žengia koja kojon su laiku. Pavyzdžiui, yra Maskvos vyriausybės atvirų duomenų portalas, kuriame skelbiama informacija apie įvairius miesto infrastruktūros objektus.

Maskvos gyventojams ir svečiams duomenys pateikiami lentelių ir kartografine forma, o kūrėjams - specialiais mašininio skaitymo formatais. Kol projektas veikia ribotu režimu, bet vystosi, vadinasi, tai taip pat yra duomenų šaltinis, kurį galite naudoti savo verslo užduotims.

Tyrimas

Kaip jau minėta, Big Data užduotis yra rasti modelį. Dažnai studijos visame pasaulyje gali tapti atskaitos tašku ieškant konkretaus modelio – galite gauti konkretų rezultatą ir pabandyti taikyti panašią logiką savo tikslams.

Didieji duomenys yra sritis, kurioje veikia ne visi matematikos dėsniai. Pavyzdžiui, „1“ + „1“ yra ne „2“, o daug daugiau, nes maišant duomenų šaltinius efektas gali būti gerokai sustiprintas.

Produktų pavyzdžiai

Daugelis žmonių yra susipažinę su „Spotify“ muzikos pasirinkimo paslauga. Jo grožis yra tai, kad jis neklausia vartotojų, kokia jų nuotaika šiandien, o apskaičiuoja ją pagal turimus šaltinius. Jis visada žino, ko tau dabar reikia – džiazo ar kietojo roko. Tai yra pagrindinis skirtumas, suteikiantis jam gerbėjų ir išskiriantis jį iš kitų paslaugų.

Tokie produktai dažniausiai vadinami jausminiais produktais – tais, kurie jaučia savo klientą.

„Big Data“ technologija taip pat naudojama automobilių pramonėje. Pavyzdžiui, Tesla tai daro – savo Naujausias Modelis yra autopilotas. Įmonė stengiasi sukurti automobilį, kuris nuvežtų keleivį ten, kur jam reikia. Be Big Data tai neįmanoma, nes jei naudosime tik tuos duomenis, kuriuos gauname tiesiogiai, kaip tai daro žmogus, tai automobilio tobulėti nepavyks.

Kai vairuojame automobilį patys, savo neuronais priimame sprendimus, remdamiesi daugeliu veiksnių, kurių net nepastebime. Pavyzdžiui, galime nesuvokti, kodėl nusprendėme iš karto nedegti žalios šviesos, o tada paaiškėja, kad sprendimas buvo teisingas – pro jus didžiuliu greičiu pralėkė automobilis, ir jūs išvengėte avarijos.

Taip pat galite pateikti „Big Data“ naudojimo sporte pavyzdį. 2002-aisiais „Oakland Athletics“ beisbolo komandos generalinis direktorius Billy'is Beanas nusprendė sulaužyti sportininkų paieškos paradigmą – žaidėjus atrinko ir treniravo „pagal skaičius“.

Paprastai vadovai žiūri į žaidėjų sėkmę, tačiau šiuo atveju buvo kitaip – norėdamas gauti rezultatą, vadovas tyrė, kokių sportininkų derinių jam reikia, atkreipdamas dėmesį į individualias savybes. Be to, jis pasirinko sportininkus, kurie patys savaime neatspindėjo didelio potencialo, tačiau visa komanda pasirodė tokia sėkminga, kad laimėjo dvidešimt rungtynių iš eilės.

Režisierius Bennettas Milleris vėliau sukūrė šiai istorijai skirtą filmą „Žmogus, kuris viską pakeitė“ su Bradu Pittu.

„Big Data“ technologija taip pat naudinga finansų sektoriuje. Ne vienas žmogus pasaulyje gali savarankiškai ir tiksliai nustatyti, ar verta kam nors duoti paskolą. Tam, kad būtų priimtas sprendimas, atliekamas balų skaičiavimas, tai yra, sudaromas tikimybinis modelis, pagal kurį galima suprasti, ar šis asmuo grąžins pinigus, ar ne. Be to, balų skaičiavimas taikomas visuose etapuose: galite, pavyzdžiui, apskaičiuoti, kad tam tikru momentu asmuo nustos mokėti.

Dideli duomenys leidžia ne tik užsidirbti pinigų, bet ir juos sutaupyti. Visų pirma, ši technologija padėjo Vokietijos darbo ministerijai 10 milijardų eurų sumažinti bedarbio pašalpų išlaidas, nes išanalizavus informaciją paaiškėjo, kad 20% išmokų buvo išmokėta nepelnytai.

Technologijos naudojamos ir medicinoje (tai ypač pasakytina apie Izraelį). Naudodamiesi „Big Data“ galite atlikti daug tikslesnę analizę, nei gali padaryti trisdešimties metų patirtį turintis gydytojas.

Bet kuris gydytojas, nustatydamas diagnozę, remiasi tik savo patirtimi. Kai aparatas tai daro, tai kyla iš tūkstančių tokių gydytojų patirties ir kitų esamas istorijas liga. Atsižvelgiama į tai, iš kokios medžiagos pagamintas ligonio namas, kokioje vietovėje gyvena nukentėjusysis, kokie ten dūmai ir pan. Tai yra, atsižvelgiama į daugybę veiksnių, į kuriuos gydytojai neatsižvelgia.

Didžiųjų duomenų naudojimo sveikatos priežiūros srityje pavyzdys yra projektas „Artemis“, kurį įgyvendino Toronto vaikų ligoninė. Tai informacinė sistema, kuri realiu laiku renka ir analizuoja duomenis apie kūdikius. Aparatas leidžia kas sekundę išanalizuoti 1260 kiekvieno vaiko sveikatos rodiklių. Šiuo projektu siekiama numatyti nestabilią vaiko būklę ir užkirsti kelią vaikų ligoms.

Didieji duomenys pradedami naudoti ir Rusijoje: pavyzdžiui, „Yandex“ turi didžiųjų duomenų padalinį. Bendrovė kartu su AstraZeneca ir Rusijos klinikinės onkologijos draugija RUSSCO pristatė RAY platformą genetikams ir molekuliniams biologams. Projektu tobulinami vėžio diagnostikos ir polinkio sirgti vėžiu nustatymo metodai. Platforma pradės veikti 2016 m. gruodžio mėn.

Pagal tyrimus ir tendencijas

Didieji duomenys, „Big Data“ IT ir rinkodaros spaudoje jau ne vienerius metus yra kalbama apie miestą. Ir aišku: skaitmeninės technologijos persmelkė šiuolaikinio žmogaus gyvenimą, „viskas parašyta“. Duomenų apie įvairius gyvenimo aspektus apimtys auga, o kartu didėja ir informacijos saugojimo galimybės.

Pasaulinės informacijos saugojimo technologijos

Šaltinis: Hilbert ir Lopez, „Pasaulio technologinis pajėgumas saugoti, bendrauti ir skaičiuoti informaciją“, „Science“, 2011 m. „Global“.

Dauguma ekspertų sutinka, kad spartesnis duomenų augimas yra objektyvi realybė. Socialiniai tinklai, mobilieji įrenginiai, matavimo prietaisų duomenys, verslo informacija – tai tik keli šaltinių tipai, galintys generuoti didžiulius informacijos kiekius. Remiantis tyrimais IDCSkaitmeninė Visata, paskelbtas 2012 m., ateinančius 8 metus duomenų kiekis pasaulyje sieks 40 Zb (zetabaitų), o tai prilygsta 5200 GB vienam planetos gyventojui.

Surinktos skaitmeninės informacijos augimas JAV

Šaltinis: IDC

Nemažą dalį informacijos sukuria ne žmonės, o robotai, sąveikaujantys tiek tarpusavyje, tiek su kitais duomenų tinklais, tokiais kaip, pavyzdžiui, jutikliai, išmanieji įrenginiai. Esant tokiam augimo tempui, duomenų kiekis pasaulyje, pasak mokslininkų, kasmet padvigubės. Plečiantis ir kuriant naujus duomenų centrus virtualių ir fizinių serverių skaičius pasaulyje išaugs dešimteriopai. Šiuo atžvilgiu didėja poreikis efektyviai naudoti šiuos duomenis ir gauti iš jų pinigus. Kadangi Big Data naudojimas versle reikalauja nemažų investicijų, būtina aiškiai suprasti situaciją. Ir tai iš esmės paprasta: galite padidinti verslo efektyvumą sumažindami išlaidas ir (arba) padidindami pardavimus.

Kam skirti dideli duomenys?

Didžiųjų duomenų paradigma apibrėžia tris pagrindinius užduočių tipus.

Saugokite ir tvarkykite šimtus terabaitų arba petabaitų duomenų, kurie yra įprasti santykių pagrindai duomenys neleidžia efektyviai naudoti.
Nestruktūruotos informacijos, susidedančios iš tekstų, vaizdų, vaizdo įrašų ir kitų duomenų, organizavimas.
Big Data analizė, kuri kelia klausimą, kaip dirbti su nestruktūrizuota informacija, analitinių ataskaitų generavimas ir nuspėjamųjų modelių diegimas.

Big Data projektų rinka kertasi su verslo žvalgybos (BA) rinka, kurios apimtys pasaulyje, ekspertų teigimu, 2012 metais siekė apie 100 mlrd. Tai apima tinklo technologijų komponentus, serverius, programinę įrangą ir technines paslaugas.

Taip pat Big Data technologijų naudojimas aktualus pajamų užtikrinimo (RA) klasės sprendimams, skirtiems įmonių veiklai automatizuoti. Šiuolaikinės sistemos pajamų garantijos apima neatitikimų aptikimo ir išsamios duomenų analizės priemones, leidžiančias laiku nustatyti galimus nuostolius ar informacijos iškraipymą, dėl kurio gali sumažėti finansiniai rezultatai. Atsižvelgdamos į tai, Rusijos įmonės, patvirtindamos Big Data technologijų paklausą vidaus rinkoje, pažymi, kad veiksniai, skatinantys didžiųjų duomenų plėtrą Rusijoje, yra duomenų augimas, valdymo sprendimų priėmimo pagreitis ir jų tobulėjimas. kokybės.

Kas trukdo dirbti su dideliais duomenimis

Šiandien analizuojama tik 0,5% sukauptų skaitmeninių duomenų, nepaisant to, kad objektyviai yra visos pramonės užduočių, kurias būtų galima išspręsti naudojant Big Data klasės analitinius sprendimus. Išsivysčiusiose IT rinkose jau yra rezultatų, kuriais remiantis galima įvertinti lūkesčius, susijusius su didžiųjų duomenų kaupimu ir apdorojimu.

Vienas iš pagrindinių veiksnių, lėtinančių Big Data projektų įgyvendinimą, be didelių išlaidų, yra tvarkomų duomenų pasirinkimo problema: tai yra apibrėžimas, kokius duomenis reikia išgauti, saugoti ir analizuoti, o į kuriuos – ne atsižvelgti.

Daugelis verslo atstovų pastebi, kad sunkumai įgyvendinant Big Data projektus siejami su specialistų – rinkodaros specialistų ir analitikų – trūkumu. Investicijų į „Big Data“ grąža tiesiogiai priklauso nuo gilioje ir prognozuojamoje analizėje dalyvaujančių darbuotojų darbo kokybės. Didžiulio duomenų potencialo, kuris jau egzistuoja organizacijoje, dažnai patys rinkodaros specialistai negali efektyviai panaudoti dėl pasenusių verslo procesų ar vidinių taisyklių. Todėl Big Data projektus verslas dažnai suvokia kaip sudėtingus ne tik įgyvendinant, bet ir įvertinant rezultatus: surinktų duomenų vertę. Darbo su duomenimis specifika reikalauja, kad rinkodaros specialistai ir analitikai nukreiptų dėmesį nuo technologijų ir ataskaitų teikimo prie konkrečių verslo problemų sprendimo.

Dėl didelės duomenų srauto apimties ir didelio greičio duomenų rinkimo procesas apima realaus laiko ETL procedūras. Nuoroda:ETL - nuoAnglųIštrauka, Transformuoti, apkrova– pažodžiui „išgavimas, transformavimas, pakrovimas“) – vienas pagrindinių valdymo procesų duomenų saugyklos, kuri apima: duomenų ištraukimą iš išorinių šaltinių, jų transformavimą ir valymas pagal poreikius Į ETL reikia žiūrėti ne tik kaip į duomenų perkėlimo iš vienos programos į kitą procesą, bet ir kaip į įrankį duomenų paruošimui analizei.

Ir tada duomenų, gaunamų iš išorinių šaltinių, saugumo užtikrinimo klausimai turėtų turėti sprendimus, atitinkančius surinktos informacijos kiekį. Kadangi Big Data analizės metodai kol kas tobulinami tik išaugus duomenų apimčiai, svarbus vaidmuo tenka analitinių platformų galimybėms panaudoti naujus duomenų paruošimo ir agregavimo metodus. Tai leidžia manyti, kad, pavyzdžiui, duomenys apie potencialius pirkėjus ar didžiulė duomenų saugykla, turinti paspaudimų internetinių parduotuvių svetainėse istoriją, gali būti įdomūs sprendžiant įvairias problemas.

Sunkumai nesibaigia

Nepaisant visų sunkumų diegiant Big Data, verslas ketina didinti investicijas į šią sritį. „Gartner“ duomenimis, 2013 metais į „Big Data“ technologijų diegimą savo verslui jau investavo arba planuoja investuoti 64% didžiausių pasaulio įmonių, o 2012 metais tokių įmonių buvo 58%. „Gartner“ tyrimo duomenimis, į „Big Data“ investuojančių pramonės šakų lyderiai yra žiniasklaidos įmonės, telekomunikacijos, bankų sektorius ir paslaugų įmonės. Sėkmingų Didžiųjų duomenų diegimo rezultatų jau pasiekė daugelis pagrindinių mažmeninės prekybos žaidėjų, naudojančių duomenis, gautus naudojant RFID įrankius, logistikos ir perkėlimo sistemas (iš anglų k. papildymas- kaupimas, papildymas - R&T), taip pat iš lojalumo programų. Sėkminga mažmeninės prekybos patirtis skatina kitus rinkos sektorius ieškoti naujų. veiksmingi būdai pinigų gavimas iš didelių duomenų, kad jų analizė taptų ištekliais, tinkančiais verslo plėtrai. Dėl to, anot ekspertų, laikotarpiu iki 2020 m. investicijos į valdymą ir saugojimą kiekvienam duomenų gigabaitui sumažės nuo 2 USD iki 0,2 USD, o Big Data technologinių savybių tyrimui ir analizei išaugs tik 40 USD. %.

Įvairiuose Big Data srities investiciniuose projektuose pateikiamos išlaidos yra skirtingo pobūdžio. Išlaidų straipsniai priklauso nuo produktų rūšių, kurios parenkamos pagal tam tikrus sprendimus. Didžiausia išlaidų dalis investiciniuose projektuose, ekspertų teigimu, tenka produktams, susijusiems su duomenų rinkimu, struktūrizavimu, valymu ir informacijos valdymu.

Kaip tai daroma

Yra daugybė programinės ir techninės įrangos derinių, leidžiančių sukurti efektyvius Big Data sprendimus įvairioms verslo sritims: nuo socialinės žiniasklaidos ir mobiliųjų programų iki verslo duomenų gavybos ir vizualizacijos. Svarbus Big Data privalumas – naujų įrankių suderinamumas su plačiai versle naudojamomis duomenų bazėmis, o tai ypač svarbu dirbant su tarpdisciplininiais projektais, pavyzdžiui, organizuojant kelių kanalų pardavimą ir klientų aptarnavimą.

Darbo su „Big Data“ seka susideda iš duomenų rinkimo, gautos informacijos struktūrizavimo naudojant ataskaitas ir prietaisų skydelius (dashboard), įžvalgų ir kontekstų kūrimą bei veiksmų rekomendacijų formulavimą. Kadangi darbas su „Big Data“ reikalauja didelių duomenų rinkimo, kurių apdorojimo rezultatas nėra iš anksto žinomas, sąnaudas, todėl pagrindinė užduotis yra aiškiai suprasti, kam tie duomenys skirti, o ne kiek jų yra. Šiuo atveju duomenų rinkimas virsta informacijos gavimo procesu, kuris itin reikalingas konkrečioms problemoms spręsti.

Pavyzdžiui, telekomunikacijų paslaugų teikėjai kaupia didžiulį duomenų kiekį, įskaitant geografinę vietą, kuri nuolat atnaujinama. Ši informacija gali būti komerciškai svarbi reklamos agentūroms, kurios gali ją naudoti tikslinei ir lokalizuotai reklamai teikti, taip pat mažmenininkams ir bankams. Tokie duomenys gali atlikti svarbų vaidmenį sprendžiant, ar atidaryti mažmeninės prekybos vietą tam tikroje vietoje, remiantis duomenimis apie galingą tikslinį žmonių srautą. Londone yra reklamos lauko stenduose efektyvumo matavimo pavyzdys. Dabar tokios reklamos aprėptį galima išmatuoti tik pastačius žmones prie reklaminių konstrukcijų specialiu prietaisu, skaičiuojančiu praeivius. Palyginti su tokio tipo reklamos efektyvumo matavimu, mobiliojo ryšio operatorius turi daug daugiau galimybių – jis tiksliai žino savo abonentų buvimo vietą, žino jų demografines charakteristikas, lytį, amžių, šeimyninę padėtį ir kt.

Remiantis tokiais duomenimis, ateityje atsiveria perspektyva keisti reklaminio pranešimo turinį, pasinaudojant konkretaus, einančio pro reklaminį stendą, asmens pageidavimais. Jei duomenys rodo, kad pro šalį važiuojantis žmogus daug keliauja, tuomet jam gali būti rodomas kurorto skelbimas. Futbolo rungtynių organizatoriai gali tik įvertinti sirgalių skaičių atvykę į rungtynes. Bet jei jie galėtų paprašyti mobiliojo ryšio operatoriaus informacijos, kur lankytojai buvo likus valandai, dienai ar mėnesiui iki rungtynių, tai organizatoriams suteiktų galimybę planuoti kitų rungtynių reklamos vietas.

Kitas pavyzdys yra tai, kaip bankai gali naudoti didelius duomenis, kad išvengtų sukčiavimo. Klientui pranešus apie kortelės praradimą, o perkant ja naudojantis, bankas realiu laiku mato kliento telefono vietą pirkimo zonoje, kurioje atliekama operacija, bankas gali patikrinti informaciją kliento išraše. ar jis bandė jį apgauti. Arba priešinga situacija, kai klientas perka parduotuvėje, bankas mato, kad kortelė, kurioje atliekama operacija, ir kliento telefonas yra toje pačioje vietoje, bankas gali daryti išvadą, kad kortelės savininkas ja naudojasi. . Dėl šių Big Data pranašumų plečiasi tradicinių duomenų saugyklų ribos.

Kad priimtų sėkmingą sprendimą diegti Big Data sprendimus, įmonė turi apskaičiuoti investicinį atvejį, o tai sukelia didelių sunkumų dėl daugybės nežinomų komponentų. Analitikos paradoksas tokiais atvejais yra numatyti ateitį remiantis praeitimi, apie kurią dažnai trūksta informacijos. Šiuo atveju svarbus veiksnys yra aiškus pradinių veiksmų planavimas:

Pirmiausia reikia apibrėžti vieną konkrečią verslo problemą, kuriai spręsti bus naudojamos Big Data technologijos, ši užduotis taps kertiniu pagrindu nustatant pasirinktos koncepcijos teisingumą. Turite sutelkti dėmesį į duomenų, susijusių su šia konkrečia užduotimi, rinkimą, o koncepcijos patikrinimo metu galėsite naudoti įvairius įrankius, procesus ir valdymo metodus, kurie leis ateityje priimti labiau pagrįstus sprendimus.
Antra, mažai tikėtina, kad įmonė, neturinti duomenų analitikos įgūdžių ir patirties, galės sėkmingai įgyvendinti Big Data projektą. Būtinos žinios visada gaunamos iš ankstesnės patirties analitikoje, kuri yra pagrindinis veiksnys, turintis įtakos darbo su duomenimis kokybei. Duomenų naudojimo kultūra vaidina svarbų vaidmenį, nes dažnai informacijos analizė atskleidžia aršią tiesą apie verslą, o norint šią tiesą priimti ir dirbti su ja, reikalingi sukurti darbo su duomenimis metodai.
Trečia, „Big Data“ technologijų vertė slypi įžvalgose.Gerų analitikų rinkoje vis dar trūksta. Jie vadinami specialistais, kurie giliai supranta komercinę duomenų reikšmę ir moka juos teisingai pritaikyti. Duomenų analizė yra priemonė verslo tikslams pasiekti, o norint suprasti Big Data vertę, reikia tinkamo elgesio modelio ir savo veiksmų supratimo. Šiuo atveju dideli duomenys duos daug Naudinga informacija apie vartotojus, kurių pagrindu galite priimti naudingus verslo sprendimus.

Nepaisant to, kad Rusijos didžiųjų duomenų rinka dar tik pradeda formuotis, kai kurie projektai šioje srityje jau įgyvendinami gana sėkmingai. Vieni iš jų sėkmingi duomenų rinkimo srityje, pavyzdžiui, Federalinės mokesčių tarnybos ir Tinkoff Credit Systems projektai, kiti – duomenų analizės ir praktinio rezultatų pritaikymo prasme: tai yra Synqera projektas.

Tinkoff Credit Systems Bank įgyvendino EMC2 Greenplum platformos, kuri yra masinio lygiagrečio skaičiavimo įrankis, diegimo projektą. Per Pastaraisiais metais banko reikalavimai sukauptos informacijos apdorojimo greičiui ir duomenų analizei realiuoju laiku išaugo dėl didelio kredito kortelių vartotojų skaičiaus augimo. Bankas paskelbė apie planus plėsti didžiųjų duomenų technologijų naudojimą, ypač apdorojant nestruktūrizuotus duomenis ir dirbant su iš įvairių šaltinių gaunama įmonių informacija.

Rusijos federalinė mokesčių tarnyba šiuo metu kuria federalinio duomenų saugyklos analitinį sluoksnį. Ja remiantis vieninga informacinė erdvė ir mokesčių duomenų prieigos technologija statistiniam ir analitiniam apdorojimui. Įgyvendinant projektą dirbama siekiant centralizuoti analitinę informaciją daugiau nei 1200 Federalinės mokesčių tarnybos vietinio lygio šaltinių.

Kitas įdomus didelių duomenų analizės realiuoju laiku pavyzdys – Rusijos startuolis „Synqera“, sukūręs „Simplate“ platformą. Sprendimas pagrįstas didelių duomenų masyvų apdorojimu, programa analizuoja informaciją apie klientus, jų pirkimo istoriją, amžių, lytį ir net nuotaiką. Kosmetikos parduotuvių tinkle esančiose kasose buvo sumontuoti jutikliniai ekranai su jutikliais, atpažįstančiais pirkėjų emocijas. Programa nustato žmogaus nuotaiką, analizuoja informaciją apie jį, nustato paros laiką ir nuskaito parduotuvės nuolaidų duomenų bazę, po kurios pirkėjui siunčia tikslines žinutes apie akcijas ir specialius pasiūlymus. Šis sprendimas padidina klientų lojalumą ir didina mažmenininkų pardavimus.

Jei kalbėtume apie užsienio sėkmingus atvejus, tai šiuo atžvilgiu įdomi Big Data technologijų naudojimo patirtis įmonėje Dunkin` Donuts, kuri realaus laiko duomenis naudoja parduodant produktus. Parduotuvėse esantys skaitmeniniai ekranai rodo pasiūlymus, kurie keičiasi kas minutę, priklausomai nuo paros laiko ir prekių prieinamumo. Pagal kasos kvitus įmonė gauna duomenis, kurie pasiūlymai sulaukė didžiausio pirkėjų atgarsio. Toks duomenų apdorojimo metodas leido padidinti pelną ir prekių apyvartą sandėlyje.

Kaip rodo Big Data projektų įgyvendinimo patirtis, ši sritis skirta sėkmingai spręsti šiuolaikinio verslo problemas. Kartu svarbus veiksnys siekiant komercinių tikslų dirbant su dideliais duomenimis yra tinkamos strategijos pasirinkimas, apimantis vartotojų poreikius identifikuojančią analizę, taip pat inovatyvių technologijų panaudojimą Big Data srityje.

Remiantis pasauline „Econsultancy“ ir „Adobe“ nuo 2012 m. kasmet atliekama įmonių rinkodaros specialistų apklausa, „didieji duomenys“, apibūdinantys žmonių veiksmus internete, gali labai daug. Jie geba optimizuoti neprisijungus veikiančius verslo procesus, padėti suprasti, kaip mobiliųjų įrenginių savininkai juos naudoja ieškant informacijos arba tiesiog „padaryti geresnę rinkodarą“, t.y. efektyvesnis. Be to, paskutinė funkcija kasmet populiarėja, kaip matyti iš mūsų diagramos.

Pagrindinės interneto rinkodaros specialistų darbo sritys, kalbant apie santykius su klientais

Šaltinis: „Econsultancy“ ir „Adobe“, paskelbtaemarketer.com

Atkreipkite dėmesį, kad respondentų tautybė didelės svarbos neturi. 2013 metais KPMG atliktos apklausos duomenimis, „optimistų“ dalis, t.y. tų, kurie naudoja Big Data kurdami verslo strategiją, yra 56%, o svyravimai tarp regionų yra nedideli: nuo 63% Šiaurės Amerikos šalyse iki 50% EMEA.

Didžiųjų duomenų naudojimas įvairiuose pasaulio regionuose

Šaltinis: KPMG, paskelbtaemarketer.com

Tuo tarpu rinkodaros specialistų požiūris į tokias „mados tendencijas“ šiek tiek primena gerai žinomą anekdotą:

Pasakyk man, Vano, ar tau patinka pomidorai?
– Mėgstu valgyti, bet ne.

Nepaisant to, kad rinkodaros specialistai sako, kad jie „myli“ Big Data ir netgi, atrodo, juos naudoja, iš tikrųjų „viskas yra sudėtinga“, nes jie rašo apie savo nuoširdžius priedus socialiniuose tinkluose.

2014 m. sausio mėn. „Circle Research“ atliktos Europos rinkodaros specialistų apklausos duomenimis, 4 iš 5 respondentų nenaudoja „Big Data“ (nepaisant to, kad jiems, žinoma, tai patinka). Priežastys įvairios. Įkyrių skeptikų nedaug – 17% ir lygiai tiek pat, kiek jų antipodų, t.y. tie, kurie užtikrintai atsako „Taip“. Likusieji dvejoja ir abejoja, „pelkė“. Jie vengia tiesioginio atsakymo remdamiesi patikimais pasiteisinimais, tokiais kaip „dar ne, bet greitai“ arba „lauksime, kol prasidės kiti“.

Didžiųjų duomenų naudojimas rinkodaros specialistų, Europa, 2014 m. sausio mėn

Šaltinis:dnx, paskelbta -elektroninės rinkodaros specialistas.com

Kas juos klaidina? Visiška nesąmonė. Kai kurie (lygiai pusė jų) šiais duomenimis tiesiog netiki. Kitiems (jų taip pat yra nemažai – 55 proc.) sunku tarpusavyje koreliuoti „duomenų“ ir „vartotojų“ rinkinius. Kažkas tiesiog (tarkime politiškai korektiškai) turi vidinę korporacinę netvarką: duomenys be savininko vaikšto tarp rinkodaros skyrių ir IT struktūrų. Kitiems programinė įranga negali susidoroti su darbo antplūdžiu. ir kt. Kadangi bendros akcijos gerokai viršija 100 proc., akivaizdu, kad „kelių kliūčių“ situacija nėra neįprasta.

Kliūtys, neleidžiančios naudoti didelių duomenų rinkodaroje

Šaltinis:dnx, paskelbta -elektroninės rinkodaros specialistas.com

Taigi, turime konstatuoti, kad kol kas „Big Data“ yra didelis potencialas, kurį dar reikia išnaudoti. Beje, tai gali būti priežastis, kodėl „Big Data“ praranda savo „mados tendencijų“ aureolę, liudija mūsų jau minėti „Econsultancy“ bendrovės atliktos apklausos duomenys.

Ryškiausios skaitmeninės rinkodaros tendencijos 2013-2014 m

Šaltinis: konsultacijos ir „Adobe“.

Juos keičia kitas karalius – turinio rinkodara. Kiek ilgai?

Negalima sakyti, kad dideli duomenys yra iš esmės naujas reiškinys. Didieji duomenų šaltiniai egzistuoja jau daugelį metų: klientų pirkinių, kredito istorijų, gyvenimo būdo duomenų bazės. Ir daugelį metų mokslininkai naudojo šiuos duomenis, kad padėtų įmonėms įvertinti riziką ir numatyti būsimus klientų poreikius. Tačiau šiandien situacija pasikeitė dviem aspektais:

Atsirado sudėtingesnių įrankių ir metodų, skirtų analizuoti ir derinti skirtingus duomenų rinkinius;

Šias analizės priemones papildo naujų duomenų šaltinių lavina, kurią lemia praktiškai kiekvieno duomenų rinkimo ir matavimo metodo skaitmeninimas.

Turimos informacijos įvairovė įkvepia ir gąsdina tyrėjus, kurie užaugo struktūrizuotoje tyrimų aplinkoje. Vartotojų nuotaikas fiksuoja svetainės ir visos socialinės žiniasklaidos priemonės. Skelbimų žiūrėjimo faktas fiksuojamas ne tik priedėliais, bet ir skaitmeninių žymų bei su televizoriumi bendraujančių mobiliųjų įrenginių pagalba.

Elgesio duomenys (pvz., skambučių skaičius, apsipirkimo įpročiai ir pirkimai) dabar pasiekiami realiuoju laiku. Taigi daugumą to, ką anksčiau buvo galima išmokti atliekant tyrimus, dabar galima sužinoti iš didelių duomenų šaltinių. Ir visi šie informaciniai ištekliai yra nuolat generuojami, neatsižvelgiant į jokius tyrimo procesus. Šie pokyčiai verčia susimąstyti, ar dideli duomenys gali pakeisti klasikinius rinkos tyrimus.

Kalbama ne apie duomenis, o apie klausimus ir atsakymus

Prieš užsakydami mirties klaidą klasikiniams tyrimams, turime priminti, kad lemiamas yra ne vieno ar kito duomenų aktyvo buvimas, o kažkas kita. Kas tiksliai? Mūsų gebėjimas atsakyti į klausimus, štai kas. Juokingas dalykas, susijęs su nauju didžiųjų duomenų pasauliu, yra tai, kad dėl naujų duomenų išteklių kyla dar daugiau klausimų, o į šiuos klausimus dažniausiai atsako tradiciniai tyrimai. Taigi, augant dideliems duomenims, matome lygiagrečiai didėjantį „mažų duomenų“, galinčių pateikti atsakymus į didžiųjų duomenų pasaulio klausimus, prieinamumą ir paklausą.

Panagrinėkime situaciją: didelis reklamuotojas nuolat stebi parduotuvių srautą ir pardavimų apimtis realiu laiku. Esamos tyrimo metodikos (kuriose tyrimo grupės dalyvių klausiame apie jų pirkimo motyvaciją ir elgesį pardavimo vietoje) padeda geriau orientuotis į konkrečius klientų segmentus. Šios metodikos gali būti išplėstos įtraukiant platesnį didelių duomenų išteklių spektrą iki taško, kai dideli duomenys tampa pasyvaus stebėjimo priemone, o tyrimo – nuolatinio, siaurai orientuoto pokyčių ar įvykių, kuriuos reikia ištirti, tyrimo metodu. Taip dideli duomenys gali išlaisvinti tyrimus nuo nereikalingos rutinos. Pirminiai tyrimai nebeturėtų būti sutelkti į tai, kas vyksta (didieji duomenys bus). Vietoj to, pirminiai tyrimai gali būti sutelkti į paaiškinimą, kodėl matome tam tikras tendencijas arba nukrypimus nuo tendencijų. Tyrėjas galės mažiau galvoti apie duomenų gavimą ir daugiau apie tai, kaip juos analizuoti ir naudoti.

Kartu matome, kad didieji duomenys sprendžia vieną didžiausių mūsų problemų – pernelyg ilgų studijų problemą. Išnagrinėjus pačius tyrimus paaiškėjo, kad pernelyg išpūstos tyrimo priemonės turi neigiamą poveikį duomenų kokybei. Nors daugelis ekspertų šią problemą pripažino ilgą laiką, jie visada atsakė fraze: „Bet man reikia šios informacijos vyresniajai vadovybei“, ir tęsėsi ilgi interviu.

Didžiųjų duomenų pasaulyje, kur kiekybinius rodiklius galima gauti pasyviai stebint, ši problema tampa ginčytina. Vėlgi, prisiminkime visą šį vartojimo tyrimą. Jei didieji duomenys suteikia įžvalgų apie vartojimą per pasyvų stebėjimą, tai atliekant pirminius tyrimus apklausų forma tokios informacijos rinkti nebereikia, ir galiausiai galime paremti savo trumpų apklausų viziją ne tik gerais linkėjimais, bet ir kažkas tikro.

„Big Data“ reikia jūsų pagalbos

Galiausiai, „didelis“ yra tik viena iš didelių duomenų savybių. Charakteristika „didelis“ reiškia duomenų dydį ir mastą. Žinoma, tai yra pagrindinė savybė, nes šių duomenų apimtis nepatenka į viską, su kuo mes dirbome anksčiau. Tačiau svarbios ir kitos šių naujų duomenų srautų charakteristikos: jie dažnai yra prastai suformatuoti, nestruktūruoti (arba, geriausiu atveju, iš dalies struktūrizuoti) ir pilni neapibrėžtumo. Besiformuojanti duomenų valdymo sritis, taikliai pavadinta „esių analitika“, siekia išspręsti didelių duomenų triukšmo įveikimo problemą. Jos užduotis yra išanalizuoti šiuos duomenų rinkinius ir išsiaiškinti, kiek stebėjimų yra tam pačiam asmeniui, kurie stebėjimai yra dabartiniai ir kurie iš jų tinkami naudoti.

Toks duomenų valymas yra būtinas norint pašalinti triukšmą ar klaidingus duomenis dirbant su dideliais ar mažais duomenų ištekliais, tačiau to nepakanka. Taip pat turime sukurti kontekstą apie didelius duomenų išteklius, remdamiesi ankstesne patirtimi, analize ir žiniomis apie kategorijas. Tiesą sakant, daugelis analitikų atkreipia dėmesį į gebėjimą valdyti neapibrėžtumą, būdingą dideliems duomenims, kaip konkurencinio pranašumo šaltinį, nes tai leidžia geriau priimti sprendimus.

Būtent čia pirminiai tyrimai ne tik atleidžiami nuo rutinos dėl didelių duomenų, bet ir prisideda prie didelių duomenų turinio kūrimo ir analizės.

Puikus to pavyzdys yra mūsų visiškai naujos prekės ženklo nuosavybės sistemos taikymas socialinėje žiniasklaidoje. (kalbame apie sukurtąMillwardas Rudanaujas požiūris į prekės ženklo vertės matavimąThe Prasmingai Skirtingas Sistema– „Svarbių skirtumų paradigma“ –R & T ). Šis modelis yra patikrintas pagal elgseną konkrečiose rinkose, įdiegtas standartiniu pagrindu ir gali būti lengvai pritaikytas kitoms rinkodaros disciplinoms ir sprendimų palaikymo informacinėms sistemoms. Kitaip tariant, mūsų prekės ženklo vertės modelis, pagrįstas apklausų tyrimais (nors ir ne tik apklausos tyrimais), turi visas savybes, reikalingas nestruktūrizuotam, atskirtam ir neapibrėžtam didžiųjų duomenų pobūdžiui įveikti.

Atsižvelkite į vartotojų nuotaikų duomenis, kuriuos pateikia socialinė žiniasklaida. Neapdorota forma vartotojų nuotaikos viršūnės ir slėniai labai dažnai yra minimaliai koreliuojami su prekės ženklo vertės ir elgsenos neprisijungus matais: duomenyse tiesiog per daug triukšmo. Tačiau šį triukšmą galime sumažinti taikydami vartotojų prasmės, prekės ženklo diferenciacijos, dinamikos ir tapatybės modelius neapdorotiems vartotojų nuotaikų duomenims, o tai yra būdas apdoroti ir kaupti socialinės žiniasklaidos duomenis pagal šiuos aspektus.

Sutvarkius duomenis pagal mūsų pagrindų modelį, nustatytos tendencijos paprastai atitinka prekės ženklo nuosavybės ir elgesio matavimus, gautus neprisijungus. Tiesą sakant, socialinės žiniasklaidos duomenys negali kalbėti patys už save. Norint juos naudoti šiam tikslui, reikalinga mūsų patirtis ir modeliai, sukurti pagal prekės ženklus. Kai socialinė žiniasklaida suteikia mums unikalios informacijos, išreikštos ta kalba, kurią vartotojai vartoja prekių ženklams apibūdinti, mes turime naudoti šią kalbą kurdami savo tyrimą, kad pirminiai tyrimai būtų daug veiksmingesni.

Neapmokestinamų studijų privalumai

Tai sugrąžina mus prie fakto, kad dideli duomenys ne tiek pakeičia mokslinius tyrimus, kiek atlaisvina juos. Tyrėjai bus atleisti nuo kiekvieno naujo atvejo naujo tyrimo. Nuolat augantis didžiųjų duomenų turtas gali būti naudojamas įvairioms tyrimų temoms, todėl vėlesniuose pirminiuose tyrimuose galima giliau įsigilinti į temą ir užpildyti spragas. Tyrėjai bus atleisti nuo būtinybės pasikliauti pernelyg išpūstomis apklausomis. Vietoje to jie galės naudoti trumpas apklausas ir sutelkti dėmesį į svarbiausius parametrus, o tai pagerina duomenų kokybę.

Su šiuo leidimu tyrėjai galės naudotis savo nustatytais principais ir įžvalgomis, kad padidintų didelių duomenų išteklių tikslumą ir prasmę, todėl atsiras naujų tyrimų tyrimų sričių. Šis ciklas turėtų padėti giliau suprasti įvairius strateginius klausimus ir galiausiai pereiti prie to, kas visada turėtų būti pagrindinis mūsų tikslas – informuoti ir gerinti prekės ženklo ir komunikacijos sprendimų kokybę.

Terminas „didieji duomenys“ paprastai reiškia bet kokį struktūrizuotų, pusiau struktūrizuotų ir nestruktūruotų duomenų kiekį. Tačiau antrasis ir trečiasis gali ir turėtų būti užsakyti vėlesnei informacijos analizei. Dideli duomenys neprilygsta jokiam faktiniam kiekiui, tačiau kalbant apie didžiuosius duomenis daugeliu atvejų turime omenyje terabaitus, petabaitus ir net ekstrabaitus informacijos. Toks duomenų kiekis gali kauptis bet kuriame versle laikui bėgant arba, tais atvejais, kai įmonei reikia gauti daug informacijos, realiuoju laiku.

Didžiųjų duomenų analizė

Kalbėdami apie didžiųjų duomenų analizę, pirmiausia turime omenyje informacijos iš įvairių šaltinių rinkimą ir saugojimą. Pavyzdžiui, duomenys apie pirkusius klientus, jų charakteristikas, informacija apie pradėtas reklamines kampanijas ir jų efektyvumo įvertinimas, kontaktų centro duomenys. Taip, visą šią informaciją galima palyginti ir analizuoti. Tai įmanoma ir būtina. Tačiau tam reikia sukurti sistemą, kuri leistų rinkti ir transformuoti informaciją neiškraipant informacijos, ją saugoti ir galiausiai vizualizuoti. Sutikite, su dideliais duomenimis, kelių tūkstančių puslapių atspausdintos lentelės nelabai padės priimti verslo sprendimus.

1. Didelių duomenų atėjimas

Dauguma paslaugų, renkančių informaciją apie vartotojo veiksmus, turi galimybę eksportuoti. Kad jie į įmonę patektų struktūrizuota forma, naudojami įvairūs, pavyzdžiui, Alteryx. Ši programinė įranga leidžia automatiškai gauti informaciją, ją apdoroti, bet svarbiausia konvertuoti į norimą formą ir formatą jos neiškraipant.

2. Didžiųjų duomenų saugojimas ir apdorojimas

Beveik visada, renkant didelius informacijos kiekius, iškyla jos saugojimo problema. Iš visų mūsų studijuotų platformų mūsų įmonė teikia pirmenybę Vertica. Skirtingai nuo kitų gaminių, Vertica sugeba greitai „duoti“ joje sukauptą informaciją. Trūkumai – ilgas įrašymas, tačiau analizuojant didžiuosius duomenis išryškėja grįžimo greitis. Pavyzdžiui, jei kalbame apie kompiliavimą naudojant petabaitą informacijos, įkėlimo greitis yra viena iš svarbiausių savybių.

3. Didžiųjų duomenų vizualizavimas

Ir galiausiai trečiasis didelio duomenų kiekio analizės etapas yra . Tam reikalinga platforma, galinti patogia forma vizualiai atspindėti visą gautą informaciją. Mūsų nuomone, tik vienas programinės įrangos produktas „Tableau“ gali susidoroti su užduotimi. Neabejotinai vienas geriausių sprendimų šiandien, galintis vizualiai parodyti bet kokią informaciją, paverčiantis įmonės darbą trimačiu modeliu, surenkantis visų padalinių veiksmus į vieną tarpusavyje susijusią grandinę (daugiau apie Tableau galimybes galite pasiskaityti).

Vietoj santraukos pažymime, kad beveik bet kuri įmonė dabar gali generuoti savo didelius duomenis. Didelių duomenų analizė nebėra sudėtingas ir brangus procesas. Įmonės vadovybė dabar privalo teisingai suformuluoti klausimus pagal surinktą informaciją, o nematomų pilkųjų zonų praktiškai nėra.

Atsisiųskite „Tableau“.