Imagem: stockcatalog on VisualHunt.com / CC BY

Quem me lê certamente já gastou algum tempo com uma revistinha da Coquetel. Seja numa viagem longa ou enquanto toma sol na praia. Certamente todos lembram dos cruzadinhas e dos caça-palavras e com algum esforço hão de lembrar também dos menos populares jogos de lógica. Eles tinham um formato assim:

“Zélia e outras duas mulheres ficaram muito bonitas com seus vestidos de ano novo. Cada uma usou um vestido diferente e fez um brinde com uma bebida diferente: 1) Regina usou vestido branco, 2) Mariana fez um brinde com champanhe e 3) quem usou vestido azul brindou com vinho branco”

A brincadeira era descobrir com essas informações parciais a cor do vestido e a bebida de cada uma. Neste caso a resposta é bem fácil. Considere agora um jogo semelhante. O Censo dos EUA disponibiliza dados sobre seus habitantes: de sexo, cor, idade, estado civil, entre outras. Para preservar a privacidade dos cidadãos, os microdados são divulgados agregados no nível de um quarteirão e qualquer estatística com contagem menor que 3 é omitida (D). A tabela abaixo exemplifica com dados de um fictício pequeno quarteirão:

  Idade
Grupo Total Mediana Média
Total 7 30 38
Mulheres 4 30 33,5
Homens 3 30 44
Negros 4 51 48,5
Brancos 3 24 24
Solteiros D D D
Casados 4 51 54
Mulheres negras 3 36 36,5
Homens negros D D D
Mulheres brancas D D D
Homens brancos D D D

 

Esse jogo é bem mais difícil. Ele teria 6.755 variáveis e uma pessoa certamente não seria capaz de resolvê-lo com lápis e papel. Um computador comum hoje, porém, é capaz de resolver esse problema em um décimo de segundo. Apresentando esse exemplo, representantes do US Census Bureau concluem que “com a dramática melhoria tanto na rapidez dos computadores quanto na eficiência [de algoritmos de solução de problemas lógicos, a desanonimização] de bases de dados estatísticas não é mais um perigo apenas teórico.”

Os responsáveis pelo Censo dos EUA tem um dilema para enfrentar: eles devem preservar a privacidade dos cidadãos, mas ao mesmo tempo desejam disponibilizar estatísticas úteis para a implementação de políticas públicas e para um sem número de estudos científicos. Em outras palavras, eles desejam disponibilizar dados anonimizados, mas aparentemente para isso não basta agregá-los.

Anonimizar uma base de dados não é um problema trivial. O problema começa na definição: o que exatamente queremos garantir? O estado da arte desse debate científico passa hoje pelo conceito de privacidade diferencial cunhado no excelente trabalho da computóloga Cynthia Dwork. Se o resultado de cada consulta a uma base de dados for obtido após a inserção de algum ruído, o resultado não será um valor exato mas uma distribuição de probabilidades. A ideia desenvolvida por Dwork é que, para preservar a privacidade de um indivíduo, a estatística gerada por uma consulta deve ter uma probabilidade próxima da mesma consulta caso ela fosse feita em uma base em que os dados do indivíduo não estivessem presentes. Mais do que isso, a diferença entre essas duas probabilidades representa a quantidade de privacidade que foi “vazada” em uma consulta – há consultas que vazam mais e outras que vazam menos. Ou seja, seu trabalho indica uma forma de mensurar a quantidade de privacidade vazada por cada consulta.

Hoje não são apenas representantes do estado que estão enfrentando o problema da anonimização de bases de dados. Uma enorme quantidade de dados pessoais estão sob controle de empresas. Em todos os ramos, de farmácias a seguradoras e, claro, na internet, empresas possuem bases de dados de grande interesse público. A teoria permite que esses atores estabeleçam um valor máximo de privacidade a ser vazado no compartilhamento de dados estatísticos com terceiros, um “orçamento” de privacidade. Por um lado, esse controle pode incentivar os atores a disponibilizar suas bases de dados para pesquisas científicas. O que se poderia descobrir sobre epidemias com dados massivos sobre saúde? Ou sobre interações sociais com dados do Facebook? Por outro, as informações sobre as bases de dados de posse desses atores passam a ser um bem escasso mensurado por esse “orçamento da privacidade” cujo valor pode ser computado com uma métrica objetiva e respaldada pela comunidade acadêmica. Onde há bens escassos, há competição. Competição essa que será mediada pelos detentores dos dados.

Márcio Moretto Ribeiro

Doutor em ciências da computação, professor do curso de sistemas de informação da Escola de Artes, Ciências e Humanidades da USP (EACH-USP) e cocoordenador do Monitor do Debate Político no Meio Digital.