Fazia sentido. Na década de 1960, quando os militares estavam lidando com uma avalanche de dados e precisavam de novas ferramentas para digerir e analisar as informações, a ARPA foi incumbida da tarefa de encontrar uma solução. Três décadas depois, a Iniciativa Biblioteca Digital evoluiu para uma extensão do mesmo projeto, impulsionada pelas mesmas necessidades. E, como nos velhos tempos, a DARPA esteve envolvida.22 De fato, em 1994, apenas um ano antes de Page ter chegado a Stanford, o financiamento da DARPA para a Iniciativa Biblioteca Digital na Carnegie Mellon University produziu um sucesso notável: o Lycos, um mecanismo de busca cujo nome se refere a Lycosidae, o nome científico da família das aranhas-lobo.23
O interesse de Larry Page em busca digital se alinhava perfeitamente com os objetivos da Iniciativa Biblioteca Digital, e sua pesquisa foi realizada sob seu guarda-chuva.24 Quando ele finalmente publicou seu primeiro artigo em 1998, apresentava uma frase familiar: “financiado pela DARPA”. A agência que criou a Internet continuava sendo um ator central.
Larry Page conheceu Sergey Brin em seu primeiro dia em Stanford, na reunião de orientação de pós-graduação. Os dois eram ao mesmo tempo semelhantes e completos opostos. Rapidamente se tornaram amigos.
Page era reservado e quieto; algumas pessoas pensaram que talvez ele fosse um pouco autista. Ele falava com um estranho suspiro que algumas pessoas confundiram com um sotaque do Leste Europeu.25 Brin era o oposto. Ele era social e falador, e gostava de esportes. Quando seus colegas pensam no seu tempo em Stanford, eles se lembram de Brin andando de patins pelos corredores e constantemente passando pelos escritórios de seus professores para jogar conversa fora. Ao contrário de Page, Brin vinha realmente do leste europeu. Um grande interesse uniu os dois futuros bilionários: suas primeiras experiências com computadores e a Internet.
A família de Sergey Brin emigrou de Moscou para os Estados Unidos na década de 1970 e se integrou com muito sucesso ao mundo acadêmico de engenharia. Sua mãe, Eugenia, era uma cientista da NASA. Seu pai, Michael, era um professor titular de matemática na Universidade de Maryland.
Brin era um prodígio da matemática. Quando tinha nove anos, descobriu aquela Internet incipiente e passava seu tempo nas salas de chat e jogando jogos de fantasia medieval multiusuário, ou MUDs.26 Passou horas imerso nessa nova tecnologia de comunicação, acabando por irritar-se quando percebeu que estava cheia de pessoas como ele, “garotos de dez anos tentando falar sobre sexo”.27
Brin terminou o ensino médio em 1990, um ano antes do esperado, e se matriculou na Universidade de Maryland com especialização em matemática e ciências da computação. Ele se formou com honras em 1993 e mudou-se para Palo Alto para continuar seus estudos em Stanford com uma bolsa de pesquisa de pós-graduação da Fundação Nacional de Ciências.28 Em Stanford, interessou-se pela mineração de dados: construiu algoritmos de computador que poderiam prever o que as pessoas fariam com base em suas ações passadas. O que elas comprariam? Quais filmes elas se interessariam?29 Ele até fundou um grupo de estudantes chamado MIDAS: “Mining Data at Stanford”. Mais recentemente, a mineração comportamental de dados provaria ser o toque de Midas da Google. Mas isso estava bem além no futuro. Como Brin ficou entediado com o foco restrito de sua pesquisa de mineração de dados, decidiu se juntar a um novo projeto com seu amigo, Larry Page. “Conversei com muitos grupos de pesquisa, e esse foi o projeto mais empolgante, tanto por abordar a Web, que representa o conhecimento humano, quanto por gostar de Larry”, lembrou Brin numa entrevista.30
O principal problema da pesquisa era a relevância. Algumas páginas da web eram mais importantes e tinham mais autoridade do que outras, mas os primeiros mecanismos de pesquisa não sabiam identificar essa diferença. O ponto central, entendeu Page, era encontrar uma maneira de incorporar um sistema de classificação nos resultados da pesquisa. Era uma ideia simples, mas poderosa, baseada no mundo acadêmico, onde a importância de um trabalho de pesquisa era medida por quantas vezes ele havia sido citada por outros trabalhos de pesquisa. Um artigo citado mil vezes era considerado mais importante do que um artigo citado apenas dez vezes. Devido ao seu design com hiperlinks – com todas as páginas vinculadas a outras páginas -, a Internet era essencialmente uma máquina gigante de citações. Esta foi a inovação de Page. Ele chamou o projeto experimental resultante de “PageRank” e, com a ajuda de Brin, começou a costurar tudo.
Eles primeiro programaram um bot para rastrear toda a Internet, vasculhar seu conteúdo e salvar tudo em seu servidor em Stanford. Eles então refinaram o algoritmo PageRank para produzir resultados relevantes. Como links diferentes carregavam valores diferentes – um link de um jornal como o New York Times tinha muito mais autoridade do que um link da página pessoal de alguém – eles ajustaram seus cálculos para que as páginas fossem pontuadas pelo número de links e pela pontuação dos próprios links. No final, a classificação de qualquer página da web seria a soma total de todos os links e seus valores que apontam para ela. Depois que os valores de algumas páginas da web iniciais entraram no algoritmo PageRank, novas classificações propagaram-se recursivamente por toda a web. “Convertemos toda a web em uma grande equação com várias centenas de milhões de variáveis, que são as classificações de todas as páginas da web”, explicou Brin pouco depois de lançar o Google.31 Era um modelo matemático dinâmico da Internet. Se um valor fosse alterado, tudo teria que ser recomputado.32
Eles juntaram isso num mecanismo de pesquisa experimental chamado “BackRub” e o colocaram na rede interna de Stanford. O logotipo do BackRub era assustador: mostrava uma foto em preto e branco de uma mão presa a um braço peludo esfregando as costas nuas. Mas não importava. À medida que a notícia se espalhou, os alunos começaram a usá-lo – e ficaram surpresos. Esse projeto estudantil era melhor do que qualquer mecanismo de pesquisa comercial disponível na época, como Excite ou AltaVista. As empresas de busca dominantes foram avaliadas em bilhões de dólares, mas não entendiam seus próprios negócios. “Eles estavam olhando apenas para o texto e não considerando esse outro sinal”, disse Page.33
O mecanismo de busca, que rapidamente foi renomeado para Google, tornou-se tão popular que sobrecarregou a largura de banda da conexão de rede de Stanford. Brin e Page perceberam que tinham encontrado algo muito especial. O Google era muito maior que um projeto de pesquisa.
Mesmo no estágio inicial, eles percebiam que o algoritmo de busca do Google não era apenas matemática abstrata. Ele catalogou e analisou páginas da web, leu seu conteúdo, analisou links de saída e classificou as páginas por importância e relevância. Como as páginas da Web foram escritas e construídas por pessoas, os dois criadores do Google entenderam que seu sistema de indexação dependia essencialmente de um tipo de vigilância da Internet pública. “O processo pode parecer completamente automatizado, mas, em termos de quanta contribuição humana entra no produto final, há milhões de pessoas que passam o tempo projetando suas páginas da Web, determinando a quem vincular e como, e esse elemento humano faz parte do mecanismo, Disse Brin.34
Mas houve mais coisas envolvidas.
Brin ficou profundamente fascinado pela arte e ciência de extrair informações do comportamento das pessoas, a fim de prever suas ações futuras. Catalogar o conteúdo da Internet foi apenas o primeiro passo. O próximo foi entender a intenção da pessoa que pesquisava. Era adolescente? Um cientista da computação? Masculino, feminino ou trans? Onde moravam? Onde eles compraram? Se eles procuravam por “filhotes”, eram amantes da natureza ou fãs de beisebol? Quando digitaram “comprar roupas íntimas”, estavam interessados em calcinhas rendadas ou cuecas boxer? Quanto mais o Google soubesse de alguém, melhores seriam os resultados da pesquisa.
Enquanto Page e Brin trabalhavam para aperfeiçoar o algoritmo de relevância do Google, começaram a pensar em como personalizar os resultados da pesquisa para os interesses e hábitos de uma pessoa. Algumas de suas ideias iniciais foram rudimentares, incluindo a digitalização dos marcadores de navegador de uma pessoa ou a leitura do conteúdo de sua página inicial acadêmica, que geralmente listava interesses pessoais e também uma história acadêmica e profissional. “Esses mecanismos de busca podem economizar uma grande quantidade de dificuldades aos usuários, adivinhando eficientemente uma grande parte de seus interesses”, escreveram os dois no artigo original de 1998 que descrevia os métodos de busca do Google.35
Esta frase curta definiria a futura empresa. A coleta de dados e a criação de perfis de usuários tornaram-se uma obsessão para os dois. Isso os tornaria absurdamente ricos e transformaria o Google de um mero mecanismo de pesquisa em uma ampla plataforma global, projetada para capturar o máximo de informações possível sobre as pessoas que entrarem em contato com ela.
Garimpando o cérebro
Em 1998, Larry Page e Sergey Brin se mudaram para a garagem de uma casa de propriedade de Susan Wojcicki, irmã da futura esposa de Brin, Anne Wojcicki. Eles receberam um cheque inicial de US $ 100.000 de Andy Bechtolsheim, co-fundador da Sun Microsystems, uma poderosa empresa de computadores que havia saído de um programa de pesquisa em computação da década de 1970, financiado pela ARPA na Universidade de Stanford.36 O pequeno investimento inicial foi seguido por uma parcela de US $ 25 milhões de duas empresas poderosas de capital de risco, Sequoia Capital e Kleiner Perkins.37
Brin e Page não poderiam estar mais felizes. Cheios de dinheiro, os dois jovens empreendedores contrataram alguns de seus colegas da Iniciativa Biblioteca DIgital de Stanford e investiram sua energia para melhorar o mecanismo de pesquisa ainda rudimentar do Google.
Todas as primeiras empresas de mecanismos de pesquisa, do Lycos ao Yahoo!, do AltaVista à AOL, perceberam que estavam sentadas em algo novo e mágico. “As pessoas vinham aos nossos servidores e deixavam rastros. Todos os dias podíamos ver exatamente o que as pessoas achavam que era importante na Internet”, disse Tim Koogle, primeiro CEO do Yahoo.38 “A Internet tem tudo a ver com conexão.… Nós sentamos no meio, conectando pessoas.” Yahoo! tentou aproveitar esses dados para obter informações sobre a demanda dos consumidores, mas seus engenheiros mal arranharam a superfície dos dados valiosos que estavam acumulando. Os registros de pesquisa do Google não foram diferentes. O que separou a empresa das outras foi a sofisticação e agressividade que Page e Brin colocaram sobre a mineração e monetização do rastro de dados.
Inicialmente, a equipe do Google focou na mineração do comportamento do usuário para melhorar o mecanismo de pesquisa e adivinhar melhor a intenção dele. “Se as pessoas digitarem algo e depois mudarem sua consulta, você pode dizer que elas não estão felizes. Se elas forem para a próxima página de resultados, é um sinal de que não estão felizes. Você pode usar esses sinais de que alguém não está satisfeito com o que demos a elas para voltar e estudar esses casos e encontrar pontos para melhorar a pesquisa”, explicou um engenheiro da Google.39 Estudando os registros em busca de padrões, os engenheiros da Google transformaram o comportamento do usuário em um sistema de mão de obra gratuita de crowdsourcing. Ele agia como um loop de feedback que ensinava o mecanismo de busca a ser “mais inteligente”. Um recurso de verificação ortográfica de sugestão automática permitiu ao Google reconhecer peculiaridades menores, mas importantes, na maneira como as pessoas usavam o idioma para adivinhar o significado do que elas digitaram, em vez de apenas combinar texto com texto. “Hoje, se você digitar ‘Gandhi bio’, sabemos que ‘bio’ significa ‘biografia’. E se você digitar ‘guerra bio’, significa ‘biológica’”, explicou outro engenheiro da Google.
Steven Levy, um jornalista veterano da área de tecnologia, cuja carreira incluiu uma passagem pelo Catálogo de Softwares A Terra Toda de Stewart Brand na década de 1980, obteve acesso privilegiado sem precedentes para escrever a história da Google. O resultado foi In the Plex: Como o Google pensa, funciona e molda nossas vidas. Era uma história hagiográfica, mas altamente informativa, da ascensão da Google à posição dominante. O livro demonstra que Page e Brin entenderam desde o início que o sucesso do Google dependia de obter e manter controle proprietário sobre os dados comportamentais que eles capturavam por meio de seus serviços. Este foi o maior patrimônio da empresa. “Ao longo dos anos, o Google tornaria os dados em seus registros a chave para desenvolver seu mecanismo de busca”, escreveu Levy. “Ele também usaria esses dados em praticamente todos os outros produtos que a empresa desenvolveria. Não apenas anotava o comportamento do usuário em seus produtos lançados, mas também media esse comportamento em inúmeras experiências para testar novas ideias e várias melhorias. Quanto mais o sistema do Google aprendesse, mais novos sinais poderiam ser incorporados ao mecanismo de busca para determinar melhor a relevância.”40
Melhorar a usabilidade e a relevância do Google ajudou a torná-lo o mecanismo de pesquisa mais popular da Internet. No final de 1999, a empresa recebia em média sete milhões de buscas diárias, um aumento de aproximadamente 70.000% em relação ao ano anterior.41 Agora que o Google dominava o mercado, era hora de ganhar dinheiro. Não demorou muito tempo para a empresa descobrir como.
No ano 2000, logo após mudar para seu novo escritório expandido no número 2400 da Bayshore em Mountain View, ao lado do Centro Ames NASA e a uma curta distância do campus de Stanford, Page e Brin lançaram o primeiro gerador de dinheiro do Google. Chamava-se AdWords, um sistema de publicidade direcionada que permite ao Google exibir anúncios com base no conteúdo de uma consulta de pesquisa. Era simples, mas eficaz: um anunciante selecionava palavras-chave e, se essas palavras-chave aparecessem em uma sequência de pesquisa, o Google exibia o anúncio ao lado dos resultados da pesquisa e só seria pago se um usuário clicasse no link.
Os registros de pesquisa do Google foram vitais para o Google AdWords. A empresa descobriu que, quanto melhor conhecia a intenção e os interesses dos usuários quando pressionavam o botão de pesquisa, mais efetivamente a empresa podia alinhá-los com um anunciante relevante, aumentando assim a chance de os usuários clicarem em links de anúncios. O Google AdWords foi inicialmente rudimentar, correspondendo palavra-chave a palavra-chave. Nem sempre era possível adivinhar os interesses de uma pessoa com precisão, mas estava quase lá. Com o tempo, o Google melhorou em atingir a meta, resultando em anúncios mais relevantes, mais cliques e mais lucros para o Google. Multiplicado por centenas de milhões de pesquisas por dia, até um pequeno aumento na probabilidade de um usuário clicar em um link de publicidade aumentou drasticamente a receita da empresa. Nos anos seguintes, a Google sentiu fome de mais e mais dados para refinar a eficácia do programa de anúncios. “Os registros de busca eram dinheiro – recebíamos dos anunciantes com base nos dados desses registros”, explicou Douglas Edwards.42
De fato, o dinheiro começou a chover do céu. Em 2001, a Google contratou Sheryl Sandberg, ex-chefe de gabinete do secretário do Tesouro do presidente Bill Clinton, Larry Summers. Ela foi incumbida de desenvolver e administrar o lado dos negócios de publicidade e conseguiu superar as expectativas de todo mundo. Com um sistema direcionado baseado no comportamento do usuário, a receita de publicidade aumentou de US $ 70 milhões em 2001 para US $ 3,14 bilhões em 2004, a maior parte resultante da simples exibição do anúncio certo no momento certo e para os olhos certos.43 Era como uma nova forma de alquimia: a Google estava transformando fragmentos inúteis de dados em montanhas de ouro.44
Carne de menina assada
Enquanto os engenheiros da Google extraíam informações pessoais de milhões de usuários, os executivos temiam que a menor divulgação sobre essa operação pudesse causar um desastre fatal nas relações públicas da empresa. Pagae percebeu que a Google poderia potencialmente perder usuários se as pessoas entendessem como a empresa usava seus fluxos de pesquisa.45 Proteger esse segredo tornou-se uma política corporativa fundamental.46
Page estava incrivelmente paranoico sobre a possibilidade de vazamento de qualquer informação desse tipo. Por insistência dele, a política de privacidade da empresa foi mantida vaga e breve, lembrou Douglas Edwards no livro I’m Feeling Lucky. “A recusa de Larry em iniciar a discussão de privacidade com o público sempre me frustrou. Eu seguia convencido de que poderíamos começar com informações básicas e depois montar um centro de informações que fosse claro e direto sobre o que os usuários entregavam quando faziam suas consultas no Google ou em qualquer outro mecanismo de pesquisa”, escreveu. “Quem realmente se importava veria que estávamos sendo transparentes. Mesmo que não gostassem das nossas políticas de coleta ou retenção de dados, saberiam o quais eram. Se eles acabassem indo para outro buscador, estariam arriscando que as práticas de nossos concorrentes fossem muito piores que as nossas.”47
Mas Page não via as coisas dessa maneira.
O fundador queria total sigilo. Sua paranoia chegou a tal ponto que ele começou a se preocupar com uma tela de rolagem no lobby do escritório em Mountain View, na Google, que exibia pesquisas aleatórias do Google em todo o mundo em tempo real. “Os jornalistas que vinham à Google ficavam no lobby, hipnotizados por essa espiada na gestalt global e depois imaginavam coisas sobre o impacto internacional do Google e o aprofundamento do papel da pesquisa em todas as nossas vidas. Os visitantes ficavam tão fascinados que olhavam para a tela enquanto assinavam seus crachás temporários, sem se preocupar em ler os acordos restritivos de confidencialidade com os quais concordavam”, escreveu Edwards. “Larry nunca se importou com a tela de consultas do lobby. Ele monitorava constantemente as tendências da paranoia pública sobre abuso informacional, e as consultas que apareciam no lobby dispararam seu alarme. Page acreditava que o letreiro rolante dava aos visitantes muitas informações sobre o que sua empresa realmente estava fazendo.
Ironicamente, a Internet daquela época já proporcionava ao público uma visão rara e inadvertida do tipo de informações íntimas que os mecanismos de busca estavam armazenando em seus registros de pesquisa. Em agosto de 2006, a AOL, a gigante pré-histórica provedora de rede, lançou no domínio público alguns gigabytes de registros de pesquisa anônimos: 20 milhões de consultas feitas por 657.000 de seus clientes durante um período de três meses. Os resultados da pesquisa foram baseados no Google, que possuía 5% da AOL e administrava o mecanismo de pesquisa da empresa.48
Page viu esses registros como um ativo lucrativo, mas volátil, que ameaçava o negócio principal da empresa se viesse a se tornar público. Uma equipe de pesquisa da AOL pensou de maneira diferente: eles lançaram o lote de logs como uma boa ação em nome da promoção da pesquisa social. Para o público, foi uma boa ação. Mas para a AOL e, por extensão, à Google, os registros foram um fiasco de relações públicas, iluminando a intromissão maciça e sistêmica da privacidade na qual a economia de buscas se baseava.
Respondendo ao alvoroço, a AOL alegou que seus engenheiros haviam anonimizado os logs, substituindo as informações pessoais da conta de usuário por números aleatórios. Mas os jornalistas descobriram rapidamente que as identidades dos usuários poderiam ser facilmente modificadas com apenas meia dúzia de buscas. Um desses usuários – conhecido nos registros como “4417749” – foi facilmente desmascarado por dois repórteres ousados do New York Times como uma vovozinha da zona rural da Geórgia:
O nº 4417749 realizou centenas de buscas em um período de três meses sobre tópicos que vão de “dedos dormentes” a “60 homens solteiros” a “cães que urinam em tudo”. E, pesquisa por pesquisa, clique por clique, tornou-se mais fácil discernir a identidade do usuário da AOL nº 4417749. Há consultas para “paisagistas em Lilburn, Geórgia”, várias pessoas com o sobrenome Arnold e “casas vendidas no lago sombreado, subdivisão gwinnett, county georgia”. Não demorou muito tempo para investigar essa trilha de dados para Thelma Arnold, uma viúva de 62 anos moradora de Lilburn, Geórgia, que frequentemente pesquisa as doenças médicas de suas amigas e ama seus três cães.49
Os dados de log da AOL revelaram outra coisa. Muitas das consultas de pesquisa eram extremamente privadas, humilhantes, perturbadoras e possivelmente incriminatórias. Intercaladas em pesquisas sobre tópicos mundanos, como restaurantes, programas de televisão e resenhas de câmeras digitais, foram feitas buscas de doenças médicas e conselhos sobre o que fazer “na manhã seguinte ao estupro” e, em alguns casos, consultas que pareciam mostrar indivíduos instáveis à beira de fazer algo violento e perigoso. Para entender completamente a natureza pessoal das pesquisas agora públicas, eis uma amostra dos logs brutos:
Usuário 2281868
“Como destruir demônios que vivem no apto acima”
“O hip hop e o rap são uma forma de satanismo”
“Os negros são satanás ou demônios ou gremlins?”
“Sexo animal”
“Os negros têm visão de raio-x?”
Usuário 6416389
“Garotas engordadas para abate”
“Carne tenra e cozida de meninas”
“Cortando bifes de nádegas de meninas”
“Garotas estranguladas e comidas”
“Garotas cortadas em bifes”
Usuário 1879967
“Comer minha ejaculação e quanto tempo ela pode permanecer fresca”
“vivendo no limite”
“Eu uso meu esperma como creme pós-barbear”
“É insalubre armazenar semem ou esperma em um copo e beber em uma semana”
“Eu coloco esperma no rosto como perfume para atrair garotas”
Vasculhei os logs e um fluxo de pesquisa chamou minha atenção. Pertencia ao usuário 5342598 e apresentava várias consultas sobre um assassinato não resolvido de uma mulher em San Jose, seguidas de pesquisas de recursos que poderiam ajudar uma pessoa a determinar se ela era um serial killer. Aqui está uma amostra do fluxo:
Usuário 5342598
“Assassinatos não resolvidos em san jose”
“Tara marowski”
“Assassinato não resolvido de tara marowski”
“Tara marowski encontrada morta no carro”
“Tara encontrada morta no carro”
“Mistérios não resolvidos tara marowski”
“Departamentos de polícia de san jose casos frios”
“Teste psicológico dado aos prisioneiros”
“Teste para ver se você é um serial killer”
Essa pessoa matou alguém? Será que ela era um assassino em série? O outro pesquisador era canibal? O outro usuário realmente acreditava que os vizinhos eram demônios? Ou essas pessoas estavam apenas procurando coisas estranhas na Internet? É impossível dizer. Quanto às buscas por assassinato, eles eram um assunto para a polícia e, de fato, os registros de buscas se tornaram um componente cada vez mais importante das investigações criminais.
Uma coisa era certa após a AOL publicar os logs: os registros de pesquisa forneceram uma visão não adulterada dos detalhes da vida interior das pessoas, com toda a estranheza, peculiaridades embaraçosas e angústia pessoal que esses detalhes mostravam. E a Google possuía tudo isso.