Data Science

15 excelentes sites de fontes de dados abertos

Seja você um programador buscando datasets para colocar em prática seus conhecimentos, um empreendedor querendo estudar seu mercado e sua concorrência ou um pesquisador buscando novas fontes de informações para seus estudos, encontrar bons dados é fundamental.

Neste artigo apresento diversos portais e plataformas que fornecem fontes de dados publicamente. Confira:

1 – Governo brasileiro e instituições públicas

Pelo Portal da Transparência, é possível encontrar dados em escala municipal, estadual e federal. Instituições como MPF, Polícia Federal e Ministério da Cultura divulgam os detalhes de suas gestões por meio deste portal.

No Portal Brasileiro de Dados Abertos, estão disponíveis mais de 3 mil datasets. Acesse por meio deste link.

Instituições como o IPEA e o IBGE divulgam dados econômicos, demográficos, sociais, entre outros indicadores.

O GovData é uma plataforma que abrange diversas ferramentas para análise e mineração de dados, como o RStudio e o MicroStrategy.

 

2 – Data.World

Um repositório com milhares de datasets dos mais diversos formatos e temas. O site traz ainda um ambiente colaborativo entre os usuários e a possibilidade de integração com outras plataformas e linguagens, como por exemplo a integração com o R.

 

3 – Data.gov

O portal de dados abertos do Governo americano possui mais de 190 mil datasets dos mais diversos tipos.

 

4 – Kaggle

Um dos meus favoritos, possui datasets fornecidos por empresas e pelos próprios usuários.

Eu criei um artigo somente para falar sobre o Kaggle, confira aqui.

 

5 – UCI repositório de Machine Learning

O UCI disponibiliza datasets destinados para Machine Learning. É possível pesquisar por tipo (regressão, classificação ou clustering), indústria, tamanho dos dados, etc.

Em geral, para cada dataset, o UCI fornece também uma grande quantidade de informações a respeito dos dados disponibilizados.

 

6 – TIGER

Com os dados oriundos do Censo americano (US Census Bureau), o TIGER traz dados geográficos.

Muito útil para utilização em softwares de mapeamento e georreferenciamento.

 

7 – UNdata – Organização das Nações Unidas

No UNdata, é possível encontrar datasets das diferentes entidades que compõem a ONU. Possui muitas informações úteis, em especial sobre saúde e índices de desenvolvimento.

 

8 – Amazon Web Services

Na página public datasets da AWS, é possível encontrar um riquíssimo repositório de dados. Muitos destes datasets podem ser extensos ao ponto de ocuparem 1 gigabyte ou até 1 terabyte de dados.

Inclui-se entre os datasets:

  • o projeto 1000 Genome; 
  • uma excelente e completa base de dados sobre genética humana;
  • base sobre imagens da Terra obtidas por satélites da NASA;
  • bancos de dados destinados à Machine Learning; entre outros.

 

9 – CrunchBase

CrunchBase é um grande recurso para descobrir novas empresas e startups, além de aprender sobre as pessoas por trás dessas companhias.

Fundada em 2007, o CrunchBase começou como uma simples base de dados sobre as startups citadas no blog TechCrunch. Atualmente, as bases de dados contém insights do mercado de tecnologia, atividades, notícias, investimentos, IPOs, aquisições e diversas outras informações obtidas por mais de 400 fontes diferentes.

Entretanto, é necessário cadastrar-se e enviar uma mensagem citando quais são as suas intenções no uso dos dados e assim obter a permissão para acessá-los.

 

10 – Portal de dados da União Europeia

Assim como o Data.gov, mas com dados das instituições da União Europeia.

 

11 – The CIA World Factbook

Informações sobre história, população, economia, governo, infraestrutura e forças armadas de 267 países.

 

12 – Facebook API

Conectando-se à API do Facebook, é possível fazer a extração de muitos dados públicos da rede social.

Elaborei um post com um tutorial sobre como minerar dados do Facebook com o R, confira aqui.

 

13 – Gapminder

Uma compilação de dados de diferentes fontes, como os da Organização Mundial da Saúde e do Banco Mundial.

 

14 – Google Finance

Com dados de mais de 40 anos sobre o mercado de ações, sendo atualizado em tempo real.

 

15 – DBPedia

O Wikipedia é composto por milhões de dados, estruturados e não-estruturados, sobre os mais diversos assuntos. O DBPedia é um ambicioso projeto que cataloga essas informações e cria uma base de dados pública, permitindo a qualquer pessoa analisar estes dados.


Espero que este artigo lhe tenha sido útil e que você possa encontrar informações valiosas nos endereços aqui citados.

Até a próxima!