Data Science, Machine Learning

Uma abordagem sobre as diferenças entre Machine Learning e Estatística

Com a popularidade e valorização da Ciência de Dados, a procura por Machine Learning e por Estatística vêm crescendo.

Não há dúvida de que ambas as áreas são essenciais quando falamos sobre Analytics, no entanto, há uma diferença significativa na abordagem, aplicações e filosofias dos dois campos, muitas vezes ignorados.


O que é Machine Learning

Machine Learning é um ramo da Inteligência Artificial que visa a descoberta automática de regularidades em dados através do uso de algoritmos. O foco principal é o estudo e o design de sistemas que podem “aprender com dados” e seu foco é a aprendizagem indutiva (aprendendo através de exemplos).

Neste artigo, explico com mais detalhes sobre Machine Learning e dou alguns exemplos dos algoritmos principais.

As primeiras aplicações comerciais de Machine Learning surgiram no início dos anos 90, com detecção de fraude em tempo real, reconhecimento de caracteres e sistemas de recomendação.

Machine Learning também está intimamente relacionado ao “Reconhecimento de Padrões”. Enquanto o ML surgiu da Ciência da Computação, o Reconhecimento de Padrões tem raízes da engenharia, entretanto, os dois tem um foco em comum que é aprender com dados.

Hoje, o ressurgimento do ML é o principal impulso da próxima grande onda de inovação, em especial quando aplicado à Big Data.

Os algoritmos de Machine Learning podem ser classificados em Supervisionados e Não-Supervisionados.

A aprendizagem supervisionada inclui:

  • Classificação: Previsão de qual classe discreta pertence uma entidade. Por exemplo, se um cliente será de alto risco.
  • Regressão: Previsão de valores contínuos da característica de uma entidade. Por exemplo, quanto um indivíduo irá gastar no mês que vem no seu cartão de crédito, com todas as outras informações disponíveis.
  • Previsão: estimativa de variáveis macro (agregadas), como as vendas mensais totais de um determinado produto.
  • Importância do Atributo: Identificando as variáveis que são as mais importantes na previsão de diferentes resultados de classificação ou regressão.

A aprendizagem não-supervisionada inclui:

  • Clustering: Encontrando agrupamentos naturais nos dados.
  • Modelos de associação: Analisando “cestas de mercado” (por exemplo, novas combinações de produtos que geralmente são comprados juntos em carrinhos de compras).

Alguns exemplos de aplicações de Machine Learning são:

  • Mineração de dados e análises preditivas;
  • Detecção de fraude, colocação de anúncios, pontuação de crédito, recomendadores, negociação de ações, relacionamento com clientes e experiência do usuário;
  • Processamento e análise de texto;
  • Pesquisa na Web, filtragem de spam, análise de sentimentos;
  • Gráfico de mineração
  • Reconhecimento de fala, genoma humano, bioinformática, reconhecimento óptico de caracteres (OCR), reconhecimento facial, carros autônomos;
  • Entre outros …

 


Machine Learning vs Estatística

Historicamente, as técnicas e abordagens de Machine Learning dependem fortemente do poder de computação. Por outro lado, as técnicas estatísticas foram principalmente desenvolvidas, onde o poder de computação ainda não era uma opção.
.
O Machine Learning em geral tende a fazer menos suposições sobre o problema e é liberal em suas abordagens e técnicas para encontrar uma solução. O método de aprendizagem preferido é a aprendizagem indutiva.

Em seu extremo, na aprendizagem indutiva, os dados são abundantes e, muitas vezes, não existe muito conhecimento prévio sobre o problema e as distribuições de dados. O outro lado do espectro de aprendizagem é chamado de aprendizagem analítica (dedutivo), onde se há um conhecimento prévio sobre os dados, e estes geralmente são escassos, assim trabalha-se com pequenas amostras. No mundo real, muitas vezes opera-se entre estes dois extremos.

Por outro lado, a Estatística é mais conservadora em suas abordagens e técnicas, e muitas vezes faz suposições apertadas sobre o problema, especialmente sobre as distribuições de dados, ao atribuir um modelo sobre eles.

A tabela a seguir mostra algumas das diferenças de abordagem e filosofia entre os dois campos:

 


Ciência de Dados une Machine Learning com a Estatística

Historicamente, os estatísticos têm sido céticos sobre Machine Learning e foram resistentes a aceitá-la. Isso tem sido devido à abordagem liberal do ML, que menos enfatiz as provas teóricas.

Entretanto, a Ciência de Dados quebrou esta lacuna e hoje é uma Ciência onde ambos os lados podem colaborar e operar.

  • Fanny Mary Jane

    Otimo artigo, ficou bem explicado ; )