Zer da datu lakua eta nola sortu bat zure negozioarentzat

Datu zientziaren joerei jarraituz, litekeena da big data, data lake, analytics, machine learning bezalako terminoak entzunak izatea. Gaur egun, mundu guztiak datuen zientziaren arlo honetan sartu nahi du eta Google, Amazon, Microsoft, etab. bezalako enpresa erraldoiek bidea zuzentzen dute.

Hala ere, ez da hain erraza negozio berri batentzat espezializazio-esparru honetan sartzea. Arazo nagusietako bat datuak nonahi sakabanatuta egotea da hainbat sistema eta datu baseetan. Gainera litekeena da datu multzo horiek urte askoan bizi izana, negozioei ia balioa eman gabe.

Zergatik ez sortu datu biltegi bat horren ordez?

Zoragarria izango litzateke, dena den, datu biltegi bat sortu ahal izango bagenu, baina erronka praktiko ugari dago datu biltegi bat sortzerakoan eta baliteke enpresa askorentzat oso goiz izatea. Arrazoi nagusienetako bat, negozio arazo desberdinak konpontzeko zehatz-mehatz zein datu multzo diren garrantzitsu, nola garbitu behar diren, aberastu eta eraldatu behar diren jakitea da.

Imajina ezazu zer egin behar duzun sistema guztietako datu multzoak identifikatu eta datu horiek atera, garbitu, aberastu eta eraldatzeko, lehen etapa batean. Enpresako datu zientzialariak negozioan adituak ez badira, baliteke bigarren etapa batean datu multzoak edo tratamenduak eraldatu behar izatea eta hori esfortzu handia izan daiteke, askotan ezinezkoa.

Zer da Data Lake bat?

Datu laku bat biltegi zentralizatua da, datu egituratu eta ez-egituratu guztiak gordetzeko. Datu laku baten benetako abantaila datuak diren bezala gorde daitezkeela da, inongo aurre-prozesamendu edo estrukturaziorik gabe eta berehala has daiteke sistema desberdinetako datuak jasotzen.

Datu horiek fitxategi bizietan, Excel fitxategietan, datu basea kontsultetan, erregistro fitxategietan eta beste hainbat formatutan egon daitezke. Datu horiek datu lakuan gorde daitezke, inongo egiturarik eman gabe.

Behin datuak denbora zatibatetan lakuan aurkitzen direlarik, datu horiek prozesamendurako erabili daitezke, mota ezberdinetan analisiak egiteko edo mota ezberdinetako bistaratzeak egiteko. Gainera posible da datu horien gainean Machine Learning edo Deep Learning bezalako algoritmoak aplikatzea gidatutako erabakiak eskeintzeko.

Datu Lakua

Zure negozioarentzako datu laku bat sortzea

Negozio batentzat, datu laku bat sortzea eta datu multzo ezberdinak modu trinko batean denbora luzez gordeko direla ziurtatzeak prozesu eta automatizazio baten beharra du. Norabide horretan jarraitzeko, lehenik eta behin data lake teknologia eta tresna egokiak aukeratu beharra daude, datu laku soluzio bat ezartzeko.

Data Lake soluzio bat konfiguratu

Laino batean datu laku bat sortzeko asmoa baduzu, AWS S3 bucket bat zabaldu dezakezu parquet fitxategiak erabiliz, zerbitzaririk gabeko zerbitzuak erabiliz, aldez aurretik kostu handia izan gabe eta datu lakuaren kudeaketan esfortzu handirik egin beharrik gabe.

Lokalean zerbait montatu nahi izanez gero inbertsio handiago bat egin behar da, NFS disko bat izan daiteke baina prozesamendu beharrak igo ahala Hadoop-en HDFS motako biltegiratze sistemak erabiltzea egokiagoa izango litzateke.

Datu iturriak identifikatu

Behar beharrezkoa da datu lakuan sartuko diren datu iturriak identifikatu eta eguneratze maiztasunak ezartzea. Behin datu iturriak identifikatuta erabaki ezberdinak hartu behar dira datu horiei aplikatuko zaizkien garbiketa maila, aurre-transformazioa edo normalizaziorik jasango duten. Gainera oso garrantzitsua da datu multzo ezberdinen metadatuak ezartzea: iturburua, maiztasuna, blokean edo osorik prozesatu behar diren, streamingean edo ez, datu motak…

Prozesuak eta automatizazioa ezarri

Baliteke datuak sistema ezberdinetatik etortzea eta gainera enpresako departamentu ezberdineak izatea, horregatik oso garrantzitsua da prozesuek koherentzia izatea.

Datuak hainbat multzo ezberdinetan sakabana daitezke, tratamentuan zehar jasango dituen fase ezberdinak ezberdintzeko. Gainera txertatuko diren datuak banan-banan edo blokean badira, prozesu ezberdinak aplikatu daitezke.

Gobernagarritasuna egokia dela ziurtatu

Datu lakua konfiguratu ondoren, garrantzitsua da datu lakuak ondo funtzionatzen duela ziurtatzea. Prozesuak ondo exekutatzen direla, akatsik ez dutela eta berriz exekutatu daitezkeela. Kontua ez da lakuan datuak jartzea soilik, baizik eta datuak berreskuratzeko aukera ematea edo erraztea, beste sistema batzuek informatutako eta datuetan oinarritutako negozio erabakiak sor ditzaten. Bestela, datu lakua epe luzerako datu urtegia izaten amaituko du.

Lakuko datuen erabilera

Behin lakua ongi konfiguratuta dagoela eta akatsik gabe funtzionatzen duela, prozesuetan eta fase ezberdinetako datuak erabiliz, datu horiek beste sistema batetara garraia daitezke ETL (Extract Transform and Load) bezalako teknikak erabiliaz, Warehouse batean adibidez, beste negozioko datuekin nahasteko edo BI (Business Inteligent) bezalako bistaratze aplikazioekin datuak ikusi konparatu eta metrikak ateratzeko.

Ongi, eta orain zer?

Garrantzitsuena negozioko galdera egokiak egitea da, datuen erabilgarritasuna oinarri hartuta horiek erantzuteko. Baliteke bistakoa izatea baina negozio askok puntu honetan egiten dituzte akatsik handienak.

Nahiz eta datu laku bat funtzionamenduan izan, garrantzitsua da haratago joatea. Datu laku baten boterea, jarraikako garapenean eta soluzioen ebaluazioan datza.

Web orri honek cookiek erabiltzen ditu erabiltzailearen nabigazioa errazteko