Introdução à Raspagem de Dados

Quem eu sou:

Nossa Trilha

  1. O que é raspagem de dados / webscraping?
  2. Como eu posso começar?
  3. Projetos Legais Com Raspagem de Dados.

O que é raspagem de dados / webscraping?

Raspagem de dados (ou colheita / extração de dados) é a técnica de extrair dados de websites.

O triste caso da jornalista e do site da Assembleia Legislativa da Bahia
Alba

http://www.al.ba.gov.br/transparencia/prestacao-de-contas

Alba
Alba

Categorias de Gastos da Alba

  • Aquisição ou locação de software; serviços postais e de segurança; assinaturas de publicações; TV a cabo ou similar; acesso à Internet; e locação de móveis e equipamentos. Telefones.
  • Aluguel de imóveis para escritório; despesas concernentes a eles
  • Locomoção, hospedagem
  • Divulgação da atividade parlamentar
  • Aquisição de material de expediente
  • Consultorias, assessorias, pesquisas e trabalhos técnicos

O Tamanho do Problema

  • 70 deputados
  • 6 categorias + Total Reembolsado e Apresentado
  • 12 meses
  • 8 anos

53760 dados!!

... esse seria o fim da história, não fosse por...

Python Hero

Crédito da Imagem: Zero to Hero with Python Professional Python

Como eu posso começar?

Escolha Uma Linguagem de Programação

R vs Python
Logo Scrapy Beautiful Soup 4 Requests Selenium
Alba
Print da Alba
Print da Alba
Print da Alba
Print da Alba
 Web inspect Alba

Por que é importante saber isso?

Por causa dos seletores!

Exemplos!


Texto Num Parágrafo

Texto num header

Texto Em Outro Parágrafo

Beautiful Soup

find_all('p')

Selenium

find_elements_by_tag_name('p')

Div mãe com elemento filho.
Div interna com algumas informações.
Div ainda mais interna.

Beautiful Soup

find_all("div", class_="interno")

Selenium

find_elements_by_class_name('interno')


Link dentro de parágrafo

Beautiful Soup

select("p > a")

Selenium

find_elements_by_css_selector("p > a")

Moral da história:

Ter noções de desenvolvimento web é uma mão na roda na hora de raspar dados.

Projetos Legais Com Raspagem de Dados.

Serenata de Amor
https://serenata.ai/
Rosie

Coletivo Interface

http://interface.jor.br/ https://github.com/Interface-Jornalismo https://www.facebook.com/interface.jor/
Coletivo Interface

Custo Parlamentar

https://deputados-da-bahia.herokuapp.com/
Custo Parlamentar

Contatos

Email: edely.gomes@gmail.com

Twitter: @edelyla

Github: https://github.com/Edely

Os slides estão disponíveis em: https://edely.github.io/cpba-raspagem

Obrigada!