Buzzword: Big Data.


Tecnologia Big Data




Aquesta és una de les paraules del moment, Big Data, qualsevol servei que ens volen vendre està basat en tecnologia Big Data i es clar ningú no s’explica com hem pogut sobreviure fins el dia d’avui sense tenir una implantació de Big Data a l’empresa. Però què és exactament Big Data?




Aquesta és una de les paraules del moment, Big Data, qualsevol servei que ens volen vendre està basat en tecnologia Big Data i es clar ningú no s’explica com hem pogut sobreviure fins el dia d’avui sense tenir una implantació de Big Data a l’empresa. Però què és exactament Big Data?
Explicat de manera fàcil i senzilla darrera de Big Data hi ha el que abans es deia datamining, és a dir, recollir un conjunt de dades de diverses fonts i analitzar-les conjuntament per extreure’n informació util per a l'empresa. Això és pot fer amb les vendes de l’empresa, els clients, les hores a les que es fan les comandes, etc. I de l’anàlisi d’aquest conjunt de dades obtenim informació, un coneixement, com ara quins productes es compren més a unes hores determinades o quins productes compren uns clients d’una determinada zona geogràfica, etc. Aquests anàlisi poden aportar informació que no coneixíem d’aquestes dades i prediccions per al futur, com per exemple fer una projecció de les compres d’un producte per al mes que ve.

Què diferencia Big Data de datamiming?

En els darrers anys la tecnologia ens ha posat a l’abast una quantitat de dades impressionant, actualment tenim dispositius que generen dades de manera continuada ( smartphones, Internet de les coses, sondes de monitorització, piulades, contingut de xarxes socials, ...). Podem interpretar com a dades coses que abans estaven fora del nostre abast, imatges, sons, geolocalització, text, etc. Tot això ha fet que el volum de dades que es poden analitzar sigui enorme. En qualsevol empresa i en qualsevol moment tenim un munt de dades tant internes com externes a les quals podem accedir i analitzar.

Normalment per definir la tecnologia Big Data es parla de les 3 V per definir Big data, Volum, Velocitat i Variació. És a dir, tenim una gran quantitat de dades, de diferents tipus i que canvien ràpidament. Algunes vegades s’afegeix una quarta V, a la definició, Valor.

Curiosament és aquest darrer concepte, el Valor de les dades el que dona sentit a Big Data, i a les altres Vs de la definició. Parlar d’un volum molt gran d’informació no ens porta directament a Big Data, si no a un munt d’informació, cal que li vulguem buscar valor a aquestes dades per parlar pròpiament de Big Data.

Totes les dades que podem recollir i posteriorment analitzar han de tenir un objectiu, ens han de servir per obtenir respostes o informació que no teníem prèviament i amb aquesta nova informació prendre decisions i actuar. Hem de poder combinar diferents fluxos de dades i analitzar-los per finalment obtenir la resposta que estem buscant i actuar en funció d’aquesta resposta. Ja no estem parlant de guardar les dades en un magatzem, per si de cas l'empresa les necessita més endavant. És informació, és acció i és ara. Hem de tenir respostes i les hem de tenir en el mínim temps possible, fins i tot en temps real, en cas contrari Big Data no aporta valor a l'empresa, no augmenta la productivitat i per tant no és Big Data.

Fins aquí la definició bàsica del concepte Big Data, però hi ha més coses darrera d’aquesta Buzzword que cal tenir presents.

Big Data és un concepte, una idea, una manera de veure les coses, però no és una tecnologia, hi ha un munt de tecnologies diferents que es basen en el concepte de Big Data.  En aquesta adreça http://www.bigdatalandscape.com/ podem veure un resum de totes aquestes tecnologies. Cadascuna de les eines que es presenten com a Big Data serveix per solucionar un determinat problema. I de la mateixa manera que no farem servir un tornavís per treure un clau, hem de veure quina de les eines de Big Data és l’adequada per a nosaltres. No podem parlar d’una tecnologia Big Data genèrica que serveixi per tot, hi haurà coses per les que una determinada eina anirà millor i coses per les que anirà no tant bé o fins i tot coses per les que anirà molt malament.

Una altra cosa que cal tenir present quan es parla de Big Data. Molts cops es presenta Big Data com l’anàlisi de les dades per les dades, sense cap mena de base teòrica. És a dir, com que tenim totes les dades podem realitzar anàlisis d’elles i obtenir respostes, “les dades parlen per si mateixes”, el coneixement absolut. Aquesta idea seria correcte només en un entorn tancat, sense influència de l’exterior i on poguéssim recollir totes les dades que es generen en aquest entorn per analitzar-les. En aquest cas, no estaríem agafant mostres sinó tota la població i per tant no ens caldria fer ús de la teoria estadística.

Generalment, però aquest escenari no és el que ens trobem, i acabem treballant amb mostres i no pas amb tota la població.

Per una banda doncs, haurem de contemplar  la possibilitat que l’anàlisi de les dades no sigui encertat doncs hi ha factors que no s’han valorat a l’hora de realitzar l’estudi.

Per altra banda, donat que no estem treballant amb la població completa sinó amb mostres, es fa imprescindible l’ús de la teoria estadística per a realitzar anàlisis acurats. Si només es busquen correlacions entre les dades, sense tenir en compte conceptes de l’estadística com el biax de les mostres, l’error de mostreig o les hipòtesis de treball ens podrem trobar resultats incoherents totalment degut a correlacions entre les dades sense sentit. Fa poc vaig veure una correlació entre l’ús d’Internet Explorer i el nombre d’assassinats a Estats Units i segons aquesta correlació, quan es deixi de fer servir aquest navegador, s’acabaran els assassinats.

Cal doncs usar amb precaució resultats procedents d’aquest tipus d’anàlisi que només busquen correlacions i no estan basats en teories estadístiques, doncs ens poden portar a conclusions sense sentit.

Respecte a la necessitat de l’ús de teories estadístiques dins de Big Data, podeu llegir aquest article, Big data: are we making a big mistake?


Comentaris