Big Data

Big Data não se trata apenas de Volume de dados

O primeiro uso oficial do termo Big Data foi feito em 1997 pela NASA, ao chamar o desafio de desenvolver sistemas computacionais que suportem bancos de dados muito grandes, como um problema de Big Data.

Hoje, 20 anos depois, Big Data é uma das maiores tendências da tecnologia. Entretanto, Big Data é muito mais do que apenas um “monte de dados”.

Como todos sabemos, há dados, muitos dados: dados históricos, com certeza, mas também novos dados gerados a partir de redes sociais, aplicativos mobile, cliques pela Web, dados de sensores de IoT e assim por diante.

A quantidade de dados é maior do que nunca, chegando a taxas cada vez maiores e em formatos cada vez mais diferentes.

O valor comercial nos dados vem do significado que podemos colher deles, e derivar o valor comercial de tanta informação é um grande problema.

O Big Data é uma maneira de colher dados brutos de múltiplas fontes de dados diferentes, armazenar os dados para uso por programas analíticos e usar os dados brutos para derivar o valor dos dados de uma maneira totalmente inovadora.

Assim como a filosofia não é sobre palavras, Big Data não é sobre dados. Big Data é sobre o valor e significado que podem ser extraídos dos dados.

Há muitos documentos e bancos de dados no mundo. Ainda que essas fontes contribuam para o Big Data, eles não são em si Big Data.

As variedades de dados que estão sendo coletados hoje estão mudando, e isso é o que está movendo o Big Data. Alguns dos dados são estruturados, como bancos de dados tradicionais, mas a maioria é semi-estruturada ou não estruturada, e são gerados numa velocidade extremamente rápida.

Em 2001, Doug Laney, analista da Gartner, introduziu o conceito dos 3 V’s em sua pesquisa 3D data management: controlling data volume, variety and velocity.

Ainda não há uma definição formal para Big Data, mas em geral, define-se pelos três V’s fundamentais: Volume, Variedade e Velocidade.

 

Muitos autores atribuem outros V’s para definir Big Data, como Veracidade, Valor, Visualização, etc.

Mas os três V’s de Doug Laney são os conceitos básicos e fundamentais para a definição de Big Data. Neste artigo, entrarei em detalhes sobre cada um deles, o problema que eles trouxeram e quais as soluções existentes:

 

Volume

 

Big Data implica enormes volumes de dados. Agora que os dados são gerados por máquinas, redes e interações humanas dentro de sistemas como mídias sociais, o volume de dados a serem analisados é enorme.

Volumes de dados que podem alcançar alturas sem precedentes.

Estima-se que sejam criados 2.5 quintilhões de bytes de dados por dia, e, como resultado, haverá 40 zettabytes de dados criados até 2020 – o que evidencia um aumento de 300 vezes em relação a 2005.

Como resultado, agora não é incomum para as empresas terem Terabytes – e até Petabytes – de dados em seus dispositivos de armazenamento e servidores.

 

O problema de tanto volume: o aumento do volume de dados requer um poder de computação cada vez maior para poder se realizar o armazenamento e o processamento de tanta informação.

Solução: os dados devem ser armazenados em algum lugar, porque sem um lugar para armazenar os dados, eles não podem ser disponibilizados para análise. Felizmente, o armazenamento está se tornando cada vez mais barato, mais confiável e – graças à nuvem – mais acessível do que nunca. O Hadoop é o principal sistema para armazenar e processar Big Data. Neste artigo, eu entro em mais detalhes sobre como funciona a arquitetura do Hadoop.

Variedade

 

Variedade refere-se à muitas fontes e tipos de dados estruturados e não estruturados.

Nós costumávamos armazenar dados de fontes como planilhas e bancos de dados, agora, os dados vêm na forma de e-mails, fotos, vídeos, GPS, dispositivos de monitoramento, PDFs, áudio, etc.

O problema da variedade: esta variedade de dados não estruturados cria problemas para armazenamento, mineração e análise. Embora esses dados sejam extremamente úteis, eles criam mais trabalho e requerem mais habilidades analíticas para decifrá-los e torná-los gerenciáveis.

Solução: os bancos de dados não-relacionais, como o MongoDB, são uma das principais formas para o armazenamento de diferentes tipos de dados. Além disso, algoritmos de Machine Learning e redes de aprendizagem profunda podem descobrir como dar sentido aos vários formatos de entrada dos dados e alimentá-los em outras redes para colher significado dessas informações.

Você pode ler mais sobre Machine Learning e seus principais algoritmos neste artigo.

 

Velocidade

 

A velocidade trata do ritmo no qual os dados fluem das fontes, tal fluxo é maciço e contínuo.

Em sistemas de Big Data, alguns dados entrarão em tempo real, enquanto outros virão em ajustes, enviados por lotes.

Os dados em tempo real podem ajudar pesquisadores e empresas a tomar decisões valiosas que ofereçam vantagens competitivas e estratégicas, se forem capazes de lidar com a velocidade em que estes dados são gerados.

O problema da velocidade: a velocidade e as direções a partir das quais os dados estão sendo gerados são mais rápidas do que podemos fazer sentido. E quanto mais rápido é o fluxo de dados, mais difícil é derivar o seu valor.

Solução: sistemas automáticos inteligentes que executam os dados 24 horas por dia, 7 dias por semana e 365 dias por ano, se fazem necessários visto que seria impossível o processamento dos dados manualmente. Os avanços nas técnicas de Machine Learning também ajudam a lidar com o problema da velocidade. As redes neurais artificiais, por exemplo, podem ser treinadas para detectar padrões, aplicar esse conhecimento para fazer previsões e até mesmo se adaptarem à mudança de dados gerados em tempo real.

 

Para exemplificar o Volume, a Variedade e a Velocidade de dados que são gerados atualmente, veja no infográfico a seguir a quantidade de informação gerada por minuto na Internet, no ano de 2017:

 

O termo Big Data realmente significa capturar significado de dados, que vêm mais rápidos, de mais fontes e em formatos mais variados do que nunca.

Ao invés de ser uma tecnologia única, o Big Data é um ecossistema de técnicas e tecnologias coordenadas que derivam o valor comercial das montanhas de dados produzidas no mundo de hoje.

Big Data é muito mais do que simplesmente “muitos dados”, é uma forma de proporcionar oportunidades para utilizar dados novos e existentes e descobrir novas maneiras de capturar dados futuros que geram insights, solucionam problemas e desenvolvem produtos e serviços.