Big Data, Data Science, Startups

Uber: o uso inteligente de dados é o que define o seu sucesso

Se você já fez alguma viagem com a Uber, sabe como o processo é simples: aperte um botão, escolha o local de destino, peça um carro, faça a viagem e pague com um clique. Mas apesar da simplicidade, há muita coisa acontecendo nos bastidores.

O segredo do sucesso da startup de US$60 bilhões, é a forma com que dados são coletados e estes geram informações altamente úteis e poderosas para a empresa.

Enquanto a Uber transporta pessoas pelo mundo, dados transportam a Uber.

Com uma base para construir a empresa mais inteligente do planeta ao resolver os problemas de motoristas e usuários, Ciência de Dados é o coração para tudo o que a Uber faz, como por exemplo monitoramento de tráfego, demanda, definição de preço, melhoramento dos carros e detecção de viagens, cartões e avaliações falsas.

Uber e Big Data


Coleta dos dados

 

Uber vive ou morre pelos dados. Sua missão geral e sua sustentabilidade é completamente dependente sobre a qualidades dos dados.

Quanto mais dados se pode coletar, mais padrões e comportamentos são possíveis de se encontrar nessas informações. A capacidade de aumentar os lucros é totalmente dependente disto.

A Uber é bastante ambiciosa com os dados que coleta. Tendo opções de armazenamento como Hadoop e Spark, ela armazena cada ponto GPS de cada viagem realizada com o seu serviço.

A Uber também armazena logs do próprio sistema, assim os desenvolvedores da empresa podem realizar levantamentos sobre absolutamente qualquer coisa em qualquer período de tempo, numa perspectiva de clientes, motoristas ou fornecedores.

 

Como os dados são utilizados

 

Ao saber quais áreas os usuários tendem a ir e quais locais eles gostam de visitar, a Uber pode levar o seu serviço à um nível que empresas de táxis não podem sequer sonhar, como parcerias com redes de hoteis e ofertas de cupons de desconto.

Esse nível de serviço e ofertas pode ser expandido para ainda mais negócios, tais como destinos turísticos, restaurantes e aeroportos. Esse é o potencial que a Uber pode fornecer, o que acabou deixando muitas empresas de transporte para trás.

Dados é o maior ativo para a Uber e o seu modelo de negócios é totalmente baseado no princípio do Crowdsourcing: qualquer pessoa com um carro que esteja disposta a ajudar alguém a chegar à um local desejado, pode se oferecer para transportá-la.

Com uma base gigantesca de motoristas, assim que um usuário solicita um carro, os algoritmos da Uber combinam o usuário com o motorista mais apropriado. O algoritmo mantém um intervalo de 15 segundos para o motorista mais próximo e trabalha para que o usuário não espere mais do que 5 minutos.

A Uber armazena e analisa dados de cada viagem com a finalidade de prever a demanda por carros, definir a tarifa e alocar recursos suficientes.

A equipe de Ciência de Dados da Uber também realiza profundas análises do sistema de transporte público de diferentes cidades, assim eles podem focar nas cidades que tenham transporte público mais fraco e com isso elevar a experiência dos usuários.

Na frente do produto, a equipe de dados da Uber está por trás dos modelos preditivos que empoderam a informação de que “o seu motorista chegará em 2 minutos”, com a finalidade de estimar tarifas, mostrar aumento de preços e gerar mapas para os motoristas com as melhores posições para eles se posicionarem dentro da cidade.

O sucesso da Uber depende da habilidade em criar uma experiência positiva para o usuário através de análises estatísticas de dados.

O que faz da Uber uma empresa única é que os insights gerados pela equipe de dados não se limitam à tabelas e relatórios internos da empresa, os insights são implementados em tempo real para criar uma experiência positiva para usuários e motoristas.

A Uber é bem claro sobre como utiliza os dados coletados dos usuários. Esses dados são usados de forma anônima e agregada e você pode conferir a Política de Privacidade da empresa neste link.

 

GeoSurge

 

Muitos dos modelos preditivos da Uber têm como objetivo o monitoramento sobre a oferta e demanda do serviço.

O GeoSurge se baseia na geo-localização e na demanda de viagens para posicionar os motoristas eficientemente pela cidade.

Análises são feitas para verificar efeitos de curto prazo para atender demandas e de longo prazo para reter usuários.

A Uber depende de análises de regressão e de algoritmos de Machine Learning para saber quais bairros/áreas/zonas possuem maior demanda e assim enviar mais motoristas para as ruas.

O modelo Geosurge da Uber é similar às estratégias de oferta e demanda utilizadas por hotéis e companhias aéreas em altas temporadas, a diferença é que a Uber usa um modelo preditivo feito em tempo real com base nos padrões do tráfego da cidade.

O GeoSurge, inclusive, foi patenteado pela empresa.

A equipe de dados da Uber desenvolveu uma forma de mapear o ritmo” de uma cidade. Esse mapeamento permite conectar motoristas e usuários de forma mais eficiente. Entretanto, dados de oferta e demanda não são os mesmos para todas as cidades.

Um exemplo disso é a comparação entre Nova Iorque e Londres.

O gráfico abaixo mostra a demanda por corridas de Uber nas duas cidades, por dia da semana e horário. Quanto mais clara a célula, maior a demanda:

Demanda por corridas de Uber - Nova Iorque e Londre

Duas coisas podemos observar no gráfico:

1) Nova Iorque possui uma maior demanda no intervalo entre 07 e 09 da manhã de segunda a sexta-feira;

2) A demanda noturna em Nova Iorque é maior no início da noite, enquanto Londres se extende mais pela madrugada.

Essas particularidades demonstram que algo que funciona para a Uber em uma cidade não necessariamente funcionará em outra cidade. Esta flexibilidade permite potencializar o desempenho do serviço e consequentemente os lucros da empresa.


Visualização de dados

 

Coletar dados é somente uma etapa na análise de Big Data.

A real questão é: como a Uber determina a melhor forma de tomar decisões usando essas informações? Como eles coletam insights dos dados que coletam?

Por exemplo, a Uber administra bilhões de localizações GPS. A cada minuto, a plataforma recebe milhões de eventos. Como é possível usar essas informações para aperfeiçoar o transporte de pessoas?

A resposta é: Visualização de Dados.

De acordo com o blog da Uber, a equipe de Visualização de Dados da empresa vai desde programadores à designers de informação. Eles lidam com tudo, desde mapeamento e desenvolvimento de frameworks até dados públicos coletados de outras fontes.

Boa parte dessa manipulação gráfica nunca havia sido produzida antes, o que fez com que muitas das visualizações tenham sido criadas dentro da própria empresa.

Uma das aplicações consiste em mostrar a distribuição das viagens à medida que você movimenta o cursor pelo mapa. 

Esta aplicação permite entender o fluxo de uma cidade com base por dia e horário. Além disso, é uma rica informação para profissionais de marketing que precisam de dados para planejar uma campanha.

O gráfico exibe os destinos das viagens de Uber que tiveram como origem o ponto onde o cursor se localiza:

Distribuicao viagens - Nova Iorque - Uber

Outra importante visualização, em especial para grandes cidades, é a de entender a densidade de uma determinada área.

Isso permite, por exemplo, determinar mudanças dinâmicas da tarifa.

A Uber exibe isso em uma combinação de camadas que permitem extender a visualização para áreas específicas:

Densidade - Nova Iorque - Uber

Entretanto, essas aplicações de visualizações de dados não se limitam somente à equipe interna da empresa.

Visualização de dados também permite ao público entender melhor o que a Uber faz e como a empresa funciona.

O UberPOOL é um modelo de viagens compartilhadas entre diferentes usuários. Este modelo reúne em uma só viagem as pessoas que estão próximas e que tem destino semelhante ou rotas similares.

Esta próxima aplicação exibe o efeito do UberPOOL no volume de tráfego no centro de São Francisco:

UberPOOL

 

Outros exemplos de visualizações podem ser encontrados na página do deck.gl, framework para visualização de dados desenvolvido pela Uber. Gráficos sobre acidentes em rodovias, fluxo de vôos, valorização imobiliária e até sobre histórico de meteoritos (ver Gallery).


Ferramentas utilizadas pela Uber

 

É complicado fornecer detalhes sobre toda a infraestrutura de Big Data da Uber, mas pude encontrar algumas informações bastante úteis e interessantes.

Os dados do Uber são coletados em um data lake do Hadoop e se utiliza o Hadoop e o Apache Spark para processamento dos dados.

O armazenamento de dados em streaming (tempo real) é feito pelo Hive, aplicativo que compõe o ecossistema do Hadoop.

A linguagem de programação mais amplamente utilizada é Python, com vasto uso das bibliotecas NumPy, SciPy, Matplotlib e Pandas.

A equipe da Uber também usa a linguagem de programação R, Octave ou Matlab para protótipos ou para projetos especiais de Ciência de dados, em especial para modelagem estatística.

O D3 é uma ferramenta bastante utilizada para visualização de dados e o PostgreSQL é amplamente utilizado como sistema gerenciador de banco de dados objeto relacional.


O que podemos aprender com a Uber

 

A Uber nos ensina sobre o potencial do uso de Big Data, e não apenas sobre como se apoiar nessa imensidão de informações.

Eles também nos ensinam a buscar conexões e insights em qualquer traço de dados. Toda vez que você coleta informações mas não se aproveita ao máximo delas, há boas chances que você perca oportunidades de crescer e melhorar o seu negócio.

Além disso, a lição de que se não há uma ferramenta para explorar os dados da forma que você queira, tome a iniciativa de fazer acontecer, ainda que isso signifique programação rudimentar em ferramentas já existentes. Muito do que a Uber fez foi retrabalhar sistemas já existentes, de modo à encaixá-los no modelo que desejavam.

Também vale a pena perceber que, a Uber modela o fluxo das cidades que opera de forma independente para cada cidade. Reunir e analisar dados de forma independente (e não como eles combinam ou não combinam com alguma outra coleção) pode fazer com que insights e oportunidades apareçam.

E finalmente, a inspiração. Apesar de terem começado pequenos, eles enxergaram o potencial naquilo que idealizaram e souberam se expandir para o planeta.


Para ir além

 

Caso você queira se aprofundar no tema e ler em termos mais técnicos, recomendo assistir à palestra do Praveen Murugesan. No Data Driven NYC de 2016, Praveen conta uma breve história da infraestrutura de dados da empresa e compartilha alguns dos problemas que a empresa resolveu, bem como de problemas que vem trabalhando e resolvendo:

Também recomendo acessar o GitHub do Uber e ler os artigos do Blog de engenharia do Uber

 

Conclusão

 

Na próxima vez que solicitar uma viagem com a Uber, pense na Ciência de Dados que está ocorrendo nos bastidores.

A boa qualidade do serviço que você usufrui é devida à uma quantidade enorme de dados sendo analisados.

Você pode estar se perguntando: toda essa tecnologia e dados sendo usados somente para uma curta viagem de carro?

Na verdade, a Uber é muito mais que isso.

O serviço deles está mudando a forma com que as pessoas se movem pelo mundo e consequentemente colabora na redução de congestionamentos e poluição.

A Uber está tendo um forte impacto em nossa economia, em nosso sistema de transportes e em nossa cultura. Este impacto só foi possível graças ao poder da Ciência de Dados.