Rankings e relevâncias

A cada dia, cerca de trinta milhões de pessoas acessa o youtube para assistir um total de cinco bilhões de vídeos. A cada minuto, os criadores fazem upload de trezentas horas de vídeo no site.

Faça uma pesquisa no Google, na Wikipédia. Acesse o Facebook, o Twitter, o Instagram. Veja os sites alternativos, Vimeo, Twitch, Reddit, Imgur. As suas queries, suas pesquisas, e os seus feeds, as listas de conteúdos atualizadas para você, organizam um conteúdo quase infinito, em constante criação e mutação. Tudo em uma prática listinha de links enumerados.

Como isso funciona? Ora, primeiro se constrói uma base de dados na qual as pesquisas serão feitas. Depois você monta índices a partir do conteúdo das páginas, eles são compostos de palavras que apontam para as páginas na base de dados. Ao receber termos de pesquisa, cruze-os com os índices e voi-lá! Você tem os seus resultados…

Não é uma coisa nada simples.

A palavra-chave aqui é relevância, um termo bem complicado que é usada para dizer o que o que é importante, o que chama a atenção, o que afeta todo mundo, ou o que me afeta como indivíduo. Relevante é aquilo que exige minha atenção, exige minha resposta, é um ponto-chave. E essa é a questão que está posta.

Pesquisar é encontrar resultados relevantes para suas pesquisas, e isso depende completamente dos índices que mencionamos, montados automaticamente pelas plataformas que você usa.

O Cadê, fundado em 1994, foi um dos primeiros buscadores no Brasil. Ele se organizava por meio um grupo de categorias, um índice temático para os sites: Ciência e Tecnologia; Compras Online; Cultura; Educação/ Esportes; Finanças; Governo; Indústria e Comércio; Informática; Internet; Lazer; Notícias; Referência/Saúde; Serviços e Sociedade. Cada um destes tinha suas próprias sub-categorias.

Snapshot do Cade em 1998, tirado pela Wayback Machine

Se quiser ver melhor como funcionava esta relíquia da internet, recomendo usar o Way Back Machine, do Internet Archive que te permite ver snapshots de várias páginas a internet no decorrer dos anos. Este é um link para o Cadê em 1999.

Então, ao se inscrever no Cadê, o dono de um site tinha que colocar um pequeno texto que descrevia o seu conteúdo. Nas sub-categorias, os sites eram listados em ordem alfabética. Explorá-las era uma aventura.

Ora esta organização é simples e histórica. A cópia da enciclopédia Barsa dos meus pais divide o “conhecimento humano” em verbetes alfabéticos. A lista telefônica, que contém mais informações, precisa de um segundo nível de classificação, e se divide em páginas brancas, com números pessoais, e páginas amarelas, com números de serviços e negócios em uma subclassificação (advogados, dentistas, arquitetos…). Foram soluções práticas de como organizar uma série de informações para consulta.

A internet apresentava um novo problema, suas páginas não são construídas apenas como uma forma de contato, mas de publicação. Os usuários escreviam suas fanfics, publicavam seus relatos de viagens, seus textos, suas ideias, manuais e histórias. O conteúdo se diversificava, ficava cada vez mais dinâmico, e o número de páginas crescia rapidamente*.

Se, no Cadê, houvessem pouco menos de quatrocentas páginas na categoria de Cultura, como o serviço poderia garantir que as páginas cujo nome começassem com a letra Z teriam a mesma visibilidade que as que começam com a letra A, se o usuário as recebe ordenadas alfabeticamente? Isso não diminuiria o número de visitas nos sites mais embaixo? E se eu não soubesse, mas o site que eu estava procurando começasse com a letra Z, eu não teria que perder muito tempo procurando o seu nome na lista? E se o número de páginas continuar a crescer?

O problema foi resolvido pelas buscas por termo, ou queries. O usuário digita um termo ou uma frase que busca, o sistema busca em um índice quais páginas correspondem a este termo. Esta forma permite uma maior automação, pois pode usar crawlers automáticos, programas que buscam por novas páginas nos servidores da internet e as inserem na base de dados sem precisar que o dono do site tenha que descrevê-lo. As técnicas são diversas, mas as tags HTML de metadados se tornaram bem menos importantes. Essa busca também permite isolar artigos dentro de páginas – se um jornal de economia decide publicar um texto sobre moda, você poderá identificá-lo sendo deste assunto através da query, o que não aconteceria no índice temático.

A primeira busca por queries que eu usei foi o Altavista, para buscas mais específicas, ao mesmo tempo que usava o Cadê, para surfar na internet. O modelo de query mais bem comum é o tf-idf, ou frequência de termo – frequência inversa de documento. Cada página encontrada pelo crawler passa por um pré-processamento, no qual ela preprocessa os textos (retira, por exemplo, artigos e coloca todos os verbos no infinitivo) para depois contar as palavras, anotando quantas vezes elas aparecem no texto. Daí se cruza esta pontuação do documento com a de sua base de dados, multiplicando essa quantidade de cada palavra pela sua raridade no banco de dados total, dado pela proporção de documentos que contém o termo. A palavra “casa” com certeza é menos rara do que “escritura”, então tem um valor menor para as buscas. Isso é bastante trabalhoso, mas é automático, feito por programas e algoritmos.

Usando estes índices de pesos e valoração das palavras, é possível fazer alguns pequenos, ou grandes, ajustes nas buscas misturando-os a outros.

O boom dos buscadores aconteceu quando lançaram o Google, que adicionou outras métricas para as buscas além do tf-idf. Sua mais famosa é o número de links que apontam para as páginas, quanto maior o número de links apontando para a página, mais importante ela seria. Oura métrica importante, e pouco falada, é o seu AdWords, que relaciona buscas de termos específicos a propagandas pagas de empresas. Isso foi fundamental para que a empresa se tornasse rentável, e não apenas desse retorno aos seus grandes investidores, mas atraísse ainda mais (#1).

Lembre-se que, nos primórdios, a propaganda na internet se dava unicamente por meio de banners e pop-ups, áreas do seu site que você vendia para alguém anunciar alguma coisa. Agora, os buscadores descobriram que podiam não só buscar conteúdos para seus usuários, mas consumidores para as empresas!

E podiam fazer várias recortes sobre a população, poderiam segmentá-la de diversas maneiras. A língua e o local do usuário são índices muito relevantes no Google, podemos ver isso facilmente usando VPNs para fazer as mesmas buscas em países diferentes.

Os buscadores não eram mais uma simples curiosidade acadêmica, ou uma facilidade – era um negócio provado, que vinha em boa hora. A partir da metade do ano 2000, o setor de tecnologia digital passou por uma forte recessão, mas este “estouro da bolha dot com”, como ficou conhecido, não pareceu afetar o número crescente de pessoas que acessavam a internet. Enquanto uma série de negócios faliam, a infraestrutura ainda recebia investimentos, novas tecnologias estavam sendo desenvolvidas, e muitos investidores procuravam novos lugares para colocar seu dinheiro.

Demorou anos, mas o crescimento do mercado social da internet foi crescendo sobre as fortes bases da AdWords. Hoje, o Youtube, o Twitter e o Facebook se consolidaram como as grandes plataformas sociais da web, com milhões de usuários acessando-os diariamente (também temos a Amazon, o gigante oculto da internet). Seu modelo de negócio se dá, principalmente, pela propaganda.

Foto de um escriba em Xangai, 1900 – 1919. Retirado da Wikimedia.

Um passo além do AdWords é a criação de perfis dos usuários. Como cada usuário tem um universo de desejos e significados próprios, saber quais termos ele usa pessoalmente, quais as suas queries mais comuns, onde ele mora, que língua fala, são todas informações que permitem direcionar a propaganda com ainda mais precisão. A sua rede de contatos também pode ser comercializada, o Facebook Social Graph é um exemplo de como uma empresa pode usar a propaganda boca-a boca a partir de simples cliques e likes.

Mas, nesses últimos anos, passamos por uma crise nesse casamento de forças que tem organizado a infosfera. Um estudo recente mostrou que usuários que deixam o Facebook tem uma melhora significativa em seu estado mental (#3), as experiências pessoais parecem confirmar que essas plataformas estão exigindo um pouco mais do que gostaríamos.

Talvez os próprios índices estejam se voltando contra os usuários. Ao buscar maior participação e envolvimento dos usuários, o Facebook pode ter apelado para certos aspectos das nossas personalidades que não gostamos. (#4, #5) são alguns exemplos acadêmicos que apontam como a raiva é um sentimento extremamente viral e como as comunidades virtuais são propícias para o espalhamento de notícias falsas.

Mas nos mantemos nas redes sociais, elas chegaram para ficar.

No seu livro Religião para Ateus, o filósofo Alan de Botton enumera várias virtudes das práticas religiosas tradicionais sob um ponto de vista sociológico. Apontando os papéis da religião na formação das comunidades antigas, ele nos mostra alguns pontos bem interessantes que podem explicar porque gostamos tanto das redes sociais, mesmo que elas nos desapontem e nos traiam.

Segundo Botton, as igrejas locais não tinham apenas uma função religiosa e não eram só uma forma de se controlar a população por meio da religião. Elas não serviam como um espaço de referência e de organização, um lugar ao redor do qual a comunidade se articula. Indo um passo além, as missas semanais eram uma forma de comemorar e lembrar as pessoas, fazê-las retomar o que é importante. Isso seria importante porque as pessoas tendem a se esquecer com a rotina, ter suas atenções capturadas por pequenos problemas e pelas dificuldades do dia-a dia, se desviando da identidade que une a comunidade. Exercer a lembrança, comunalmente, reforça laços de comunidade e identidade, essenciais para qualquer ser humano.

Talvez este seja o segredo por trás das redes, elas são uma lembrança e um modo de exercer. São uma forma de se formar comunidades distantes e distribuídas, onde trocamos mais informações em um ritmo mais rápido. Não é de se impressionar que memes sejam uma forma tão popular de conteúdo.

Também há alguns paralelos entre os movimentos da televisão e das redes sociais. Lá em 2000 e pouco, quantos programas apelativos não apareciam, criando fórmulas que quase todos os canais seguiam? O jornalismo policialesco diário, programas de auditório, reality shows, a banheira do Gugu e as dançarinas… São receitas para se aumentar a audiência, e olhando os vídeos recomendados e em trending no youtube, dá pra ver um pouco do mesmo.

Ao invés de nos focarmos nos indivíduos, os consumidores e propagadores, vale a pena olhar os produtores nas redes, os que fazem e distribuem a informação, especialmente os mais bem-sucedidos – esta é a dica de Noam Chomsky em “Fabricando o Consenso” (1988). Para ele, temos que ter uma leitura mais crítica da mídia observando-a estruturalmente, que tipos de conteúdos são publicados, como os seus editoriais se comportam, como elas distribuem os seus recursos (repórteres e linhas das suas reportagens).

Chomsky conclui que a mídia não necessariamente controla a opinião das pessoas, mas, no melhor estilo capitalista, as segmenta. Ela arregimenta grupos de pessoas como audiências comuns, tornando mais fácil para escritores (comentaristas) prepararem textos que irão vender, assim como criando uma plataforma viável de propaganda. Pense nas revistas que existem, elas representam muito bem ideologias específicas, uma pessoa as compra pensando que vai ler matérias de seu interesse e que lhe ajudem a formar uma visão de mundo – a sua visão de mundo.

Vamos fazer um exercício. Você é o editor de uma revista diante de uma dezena de reportagens, e tem que escolher qual delas irá para a capa. Agora, qual imagem será colocada? Uma charge inspirada? A foto de um personagem? Uma imagem que invoca um sentido de nostalgia? De raiva e injustiça? E mais, como será a chamada? Quais termos serão destilados e colocados nela? O que você quer invocar e relevar? E se você tem que vender esta revista, quais artifícios vai usar para chamar atenção? Como vai fazê-la saltar à vista na banca? Como você vai ser relevante para o comprador?

O fator é duplo: como chamar atenção do leitor e como oferecer algo que ele quer ler – ou, numa leitura mais maquiavélica, como convencer ele de que ler a revista é importante? Assim fica fácil entender não só as revistas, mas as propagandas e até a apelativa programação das televisões acima.

O que acontece nas redes sociais é uma subversão dessa ideia. A troca é submetida a um sistema econômico de reações. Não só há uma maior participação e maior viralidade do público, mas os feeds acabam formando uma zona de competição entre “editoras” e as redes de contato podem ser um vetor de difusão de suas notícias. Como tudo é contado a partir de cliques, o maior número de pessoas que receber e clicar na sua mensagem, mais valiosa ela foi. Isso é medido, quantificado. A promessa era simples, de que os algoritmos iriam selecionar assuntos que queremos ler, é uma faca de dois gumes, porque torna o serviço uma propaganda individual. O algoritmo também reúne, sob um mesmo termo, buscas de significados completamente diferentes: se eu procurar por gato Willis, receberei fotos de gatos ou do ator Bruce Willis, resultados completamente diferentes de que se eu estivesse procurando pelas charges políticas usadas na Tunísia. Claro, ainda há segmentações, pelo menos pela língua, mas elas são diferentes, até porque os feeds são algoritmos, não uma estande de revistas.

O caso dos trolls** russos nas eleições estadunidenses de 2016, que conhecemos por uma narrativa ainda incompleta e parcial, é um exemplo para esta análise. Acredita-se que há um programa estatal, uma fábrica de mentiras e de sensacionalismo, que atice os maiores medos das populações e as façam se extremar. Claro, a eficiência destes ataques é uma questão em aberto, mas eles são um fato tão importante que se tornaram centrais na discussão sobre as eleições. As polêmicas que eles geraram, e os grupos de pessoas que eles arregimentaram, tomaram conta dos debates.

Uma ferramenta essencial para esses casos são os bots, contas fantasmas, de pessoas falsas, operadas por um mesmo usuário ou automaticamente por programas, formam redes de divulgação dentro das redes sociais, criando caminhos entre diferentes comunidades, para além das amizades, dando um alcance maior a certas postagens. Nós interagimos com eles, e muitas vezes nem percebemos.

As redes sociais políticas são eficientes porque espalham conteúdo em grupos organizados em vários níveis. Atores menores utilizam-se de notícias e artigos (além das fake-news) reformando-as e redistribuindo-as para seus públicos específicos. Nos escândalos da eleição estadunidense, democratas e republicanos usaram uma polêmica envolvendo o hacking de e-mails dos partidos para tentar enquadrar o outro como um incompetente – e foi uma estratégia bastante eficiente nas primárias. As infinitas leituras desses casos são um exemplo do quão prolífico é este campo de interpretação política.

“Falem mal, mas falem de mim” diz a sabedoria popular. As polêmicas são interessantes não porque convenceram as pessoas a serem contra um ou outro candidato, mas marcavam, martelavam os erros. Elas nem precisam se darem ao redor de informações corretas, análises inteligentes, ou racionalidade. Ela não é importante pelas respostas que ela traz, mas pela questão que ela coloca. Não pela quantidade de informações que envolve, mas pela quantidade de gente que a discute. Um debate costuma ter apenas um assunto por vez, e se temos um debate público gigantesco então a sociedade está olhando para uma questão em si, a polêmica. Controlar o assunto das conversas (não suas conclusões), é isso que uma boa polêmica pode fazer.

Gui Debord discorreu sobre o assunto no seu livro de 1967 “A Sociedade do Especáculo”. Ele criticava tanto o Stalinismo, quanto o Capitalismo ocidental por serem sistemas que criaram mundos de fantasia, descolando a informação da realidade. Nas suas 221 teses, ele tenta descrever várias relações entre os cidadãos e o espetáculo, esta coisa que acaba por substituir a participação democrática por uma luta virtual por valores que, em última instância, acaba nos impedindo de reais mudanças e participação. O espetáculo, dizia, é uma confusão que mistura coisas de lugares diferentes em tempos diferentes, e sua máxima realização é a ofuscação do outro – é quando me impede de entender quem se opõe a mim.

Debord, um marxista, se impressionava como os modos de produção conseguiam hegemonizar a comunicação, como eles conseguiam construir uma história a partir de sua própria narrativa, criando uma plataforma sobre a qual as pessoas discutiriam, sem efetivamente serem capazes de ir além da dicotomia, sem aumentar seus conhecimentos, sem ir além da questão (tese 217). Isso se ergue a tal ponto que as polêmicas, como vemos hoje, geram fatos alternativos, narrativas que poderiam competir com qualquer outra, mesmo que não se sustentassem em estudos verdadeiros.

E nisso há uma contradição que Debord aponta. O nosso tempo se torna uma moeda que nós investimos, nossa atenção seria a moeda do espetáculo, mas não podemos colocá-la onde queremos. Tudo se torna uno, classificado por relevâncias, colocado no mesmo feed, nossas opiniões são reduzidas à questão, e a informação tem que a ela responder. Quando uma questão é relevante, nós acabamos sendo posicionados nela. Ser um isento, colocar-se no meio, pode até ser um esforço honesto de resolver a contradição, mas também é tentar dizer que ela não tem esse valor divisivo, tentar relativizá-la, ir contra a polêmica. Como já discutimos antes, nem toda questão pode ser intermediada pela razão, ainda mais se está no domínio da persuasão.

Sonhos de uma Noite de Verão, a peça de Shakespeare onde fadas controlam um grupo de pessoas para o seu entretenimento. Ilustração do Doré, retirada da Wikimédia.

Mas a internet sem os buscadores e sem as grandes plataformas não seria a mesma e nem teria a sua utilidade e alcance. Somos muito mais capazes de nos comunicar via Facebook e Whatsapp, mas eles se tornam um espaço onde a peça do filho de uma amiga compete por “atenção” com o próximo filme dos vingadores. E ambos usados para medir como é minha interação com meus amigos e com marcas. Estar conectado é isso, estar ligado, ser colocado em um mesmo espaço, poder compartilhar, mas também concorrer. Concorrência tem ganhadores e perdedores (e uma função de otimização, mas isso fica para outro dia). Como podemos proteger e exercer a variedade?

Se a esfera virtual fosse apenas um grande sistema de controle e vigilância, dificilmente a usaríamos. Ela realmente nos empodera e muda nossas vidas, mas nossas insatisfações costumam ficar sem respostas. Mudar as plataformas pelas quais fazem as “nossas coisas” tem grandes custos cognitivos e sociais, assim como os estados de antigamente, talvez haverá um momento em que estaremos lutando por democracia nesse mundo.

Isaac Asimov, um dos mestres da ficção científica positivista, deu uma entrevista em 1989 onde afirmou que a adoção dos computadores ligados em rede levaria a uma revolução no ensino. As pessoas poderiam se capacitar gratuitamente, tendo acesso a grandes bibliotecas, estudando o que quisessem (#6). Isso abriria as portas para um novo estilo de profissionalização, bem mais fluído que o nosso. O que o visionário não conseguiu capturar na época, e que é um sapo difícil de engolir para qualquer um, é que a internet não é um espaço livre e individualista, onde cada um procura apenas o que quer e o que lhe interessa e o que lhe aprimora. Graças às plataformas, seus feeds e algoritmos de relevância, a internet também é um espaço de competição de entretenimento por público e visibilidade – assim como as televisões.

Tive muitas dificuldades para escrever este texto, para escolher as tecnologias e os casos que dessem um texto coerente. Apesar disso, este texto não aborda muitas coisas, como o estruturalismo dos algoritmos de big data, as possibilidades dos sistemas de descoberta de conhecimento e IA, sobre outros autores das teorias das mídias e até a administração da infraestrutura digital, que se tornou vital! Enfim, este é um assunto ao qual vamos ter que voltar.

* Por exemplo, a wikipédia foi lançada em 2001, e desde lá já era construída sobre a tecnologia wiki, páginas web que podem ser editadas e alteradas online. Antes das wikis, você tinha que ter passar por longo processo para editar o conteúdo online: tinha que escrever a página no seu computador (algumas vezes em html nativo!), conectar-se ao seu servidor por meio do protocolo FTP, fazer um lentíssimo upload da página e encerrar a conexão antes de ver o seu material no ar. Isso poderia demorar horas!

** Termo um tanto antigo para se referir a usuários que costumavam escorraçar novos usuários nas redes de computadores, e que acabou evoluindo para denominar usuários que tentam exercer um controle do conteúdo de uma rede, postando continuamente ou atacando outros usuários, geralmente movidos por patrulhamento ideológico.

Bibliografia / Filmografia

#1 – Download: The True Story of the internet. Criado por John Heilemann e produzido pela Oxford Scientific Films.

#2 – A wikipédia tem um artigo fascinante sobre a bolha dot com, com uma lista de empresas que faliram ou que sofreram uma forte perda de valores.
https://en.wikipedia.org/wiki/Dot-com_bubble#Companies_significant_to_the_bubble

#3 – Não tenho acesso ao estudo completo, infelizmente :(, li sobre ele na forbes:

https://www.forbes.com/sites/alicegwalton/2016/12/23/want-mental-health-for-the-holidays-take-a-break-from-facebook-study-says/#574812485ce6

#4 – http://robingandhi.com/wp-content/uploads/2011/11/Social-Transmission-Emotion-and-the-Virality-of-Online-Content-Wharton.pdf

#5 – https://pdfs.semanticscholar.org/cffe/d190dc8b9180c7be2867c210791ba7597551.pdf

#6 – http://www.openculture.com/2012/04/isaac_asimov_digital_learning_in_the_electronic_age.html

Internet World Stats, onde tem uma boa quantidade de dados sobre a expansão da internet nos seus primórdios: https://www.internetworldstats.com/emarketing.htm

Botton, Alain de. Religião para Ateus. Editora Intrinseca, 2011.

Debord, Gui. A Sociedade do Espetáculo.

Manufacturing Consent: Noam Chomsky and the Media. Documentário de 1992, dirigido por Mark Achbar e Peter Wintonick.