Imagine que quer vender uma bicicleta usada. Imprime um papel com a fotografia da bicicleta, o seu nome e o seu número de telemóvel, e vai colá-lo no quadro de anúncios do supermercado lá do bairro. Você sabe que as pessoas que lá forem fazer compras vão ver o seu número. Está confortável com isso.
Agora, imagine que, a meio da noite, entra no supermercado um robô invisível. Ele lê o seu anúncio, tira uma fotografia, guarda o seu nome e o seu número, e vai-se embora. Em menos de um segundo, esse robô faz o mesmo em todos os supermercados do país. No dia seguinte, o robô junta os milhões de números de telemóvel que recolheu e vende a lista a empresas de telemarketing.
De repente, começa a receber chamadas para mudar de operadora de televisão e não percebe como é que eles arranjaram o seu número.
No mundo da internet, esse robô invisível tem um nome: chama-se scraping.
O que é, afinal, o Scraping?
A palavra scraping (que em inglês significa "raspar" ou "extrair") é o termo técnico para descrever a extração automática de dados.
Em termos muito simples, o scraping é um programa de computador (um robô ou bot) concebido para navegar na internet milhares de vezes mais rápido do que um ser humano. Em vez de ler as páginas web como nós lemos, ele "suga" toda a informação que encontra: nomes, moradas, números de telemóvel, e-mails e preços.
Nem todo o scraping é mau. Por exemplo, o Google utiliza robôs de scraping para ler os sites de todo o mundo para que, quando pesquisa "restaurantes perto de mim", ele saiba o que mostrar. Os sites de comparação de viagens usam scraping para ver o preço dos voos em várias companhias aéreas ao mesmo tempo.
O problema grave surge quando estes "aspiradores digitais" são usados para sugar dados de pessoas.
Como é que os seus dados são "aspirados" em Portugal?
Muitas vezes pensamos que os nossos dados estão seguros só porque não os publicamos no Facebook ou no Instagram. Mas a internet está cheia de pequenos buracos por onde a nossa informação escapa.
- Trabalhadores independentes e Recibos Verdes: quando abre atividade nas Finanças ou cria uma Unipessoal, a sua morada fiscal fica em bases de dados governamentais. Robôs de scraping de diretórios como o Racius ou eInforma aspiram esses dados diariamente.
- Sites de anúncios (OLX, CustoJusto, Idealista): colocou o seu carro à venda ou quer arrendar um quarto? Os robôs varrem esses sites 24 horas por dia, recolhem o seu telemóvel e cruzam-no com o seu nome.
- Fóruns e clubes locais: uma associação desportiva que publica online um PDF com a lista de sócios, ou um clube de futebol que partilha horários com os e-mails dos pais. Os robôs encontram esses ficheiros em segundos e aspiram tudo.
O perigo da "Agregação"
O maior perigo do scraping é que a sua vida inteira é tratada como um puzzle, e estes robôs são peritos em juntar as peças.
Um robô encontra o seu e-mail num site de passatempos. Outro encontra o seu LinkedIn onde diz onde trabalha. Outro descobre o seu número de telemóvel num site de classificados antigo.
Empresas chamadas Corretores de Dados (data brokers) usam o scraping para juntar estas peças e criar um perfil detalhado sobre si. E é este pacote completo que é vendido às cegas e sem o seu consentimento.
O Scraping é legal?
A legalidade do scraping é uma zona cinzenta. Extrair dados públicos para fins estatísticos pode ser permitido, mas recolher, guardar e vender dados pessoais de cidadãos sem consentimento é uma violação direta do RGPD na Europa.
Apesar de ser ilegal, centenas de empresas continuam a fazê-lo, esperando que o cidadão comum não tenha o conhecimento nem a paciência para lhes exigir que apaguem a informação.
Como travar o scraping dos seus dados
Como não pode impedir que a internet exista, a única forma de se proteger é atacar o problema na fonte: exigir a remoção dos dados que já foram recolhidos e expostos.
Em vez de lutar contra robôs manualmente, uma abordagem automatizada e legal permite identificar as empresas que usam scraping para recolher e expor informação, e invocar o Artigo 17.º do RGPD para forçar o apagamento permanente dos seus dados dessas listas.
A internet tem um aspirador gigante, mas com as ferramentas certas e a lei europeia do seu lado, os seus dados já não fazem parte do lixo que eles recolhem.