Pesquisadores da Universidade Rice (EUA) descobriram uma maneira mais eficiente para as empresas de mídia social evitarem que informações incorretas se espalhem online, a partir do uso de filtros probabilísticos treinados com inteligência artificial.

A nova abordagem para escanear mídia social é delineada em um estudo apresentado na semana passada na Conferência 2020 sobre Sistemas de Processamento de Informação Neural (NeurIPS 2020), pelo cientista da computação Anshumali Shrivastava e o estudante graduado em estatística Zhenwei Dai. O método deles aplica o aprendizado de máquina de uma forma mais inteligente para melhorar o desempenho dos filtros Bloom, uma técnica amplamente usada desenvolvida há meio século.

Utilizando bancos de dados de teste de notícias falsas e vírus de computador, Shrivastava e Dai mostraram que seu filtro Bloom adaptado (Ada-BF) exigia 50% menos memória para atingir o mesmo nível de desempenho que os filtros Bloom empregados.

Dez mil tuítes por segundo

Para explicar sua abordagem de filtragem, Shrivastava e Dai citaram alguns dados do Twitter. O gigante da mídia social revelou recentemente que seus usuários adicionavam cerca de 500 milhões de tuítes por dia, e os tuítes normalmente apareciam online um segundo depois que o usuário clicava em “enviar”.

“Na época da eleição [americana], eles estavam recebendo cerca de 10 mil tuítes por segundo, e com uma latência de um segundo, que é cerca de seis tuítes por milissegundo”, disse Shrivastava. “Se você quiser aplicar um filtro que leia cada tuíte e sinalize aqueles com informações que são conhecidas como falsas, seu mecanismo de sinalização não pode ser mais lento do que seis milissegundos ou você ficará para trás e nunca alcançará.”

Se os tuítes sinalizados forem enviados para uma revisão manual adicional, também é de vital importância ter uma baixa taxa de falsos positivos. Em outras palavras, você precisa minimizar quantos tuítes genuínos são sinalizados por engano.

“Se sua taxa de falso positivo é tão baixa quanto 0,1%, mesmo assim você está sinalizando erroneamente 10 tuítes por segundo, ou mais de 800 mil por dia, para revisão manual”, disse ele. “É precisamente por isso que a maioria das abordagens tradicionais apenas de inteligência artificial são proibitivas quanto a controlar a desinformação.”

Falsos positivos

Shrivastava disse que o Twitter não divulga seus métodos de filtragem de tuítes, mas acredita-se que eles empreguem um filtro Bloom, uma técnica de pouca memória inventada em 1970 para verificar se um elemento de dado específico, como um pedaço de código de computador, faz parte de um conjunto conhecido de elementos, como um banco de dados de vírus de computador conhecidos. Um filtro Bloom tem a garantia de encontrar todos os códigos que correspondem ao banco de dados, mas também registra alguns falsos positivos.

“Digamos que você identificou uma informação incorreta e deseja ter certeza de que ela não será divulgada em tuítes”, disse Shrivastava. “Um filtro Bloom permite que você verifique os tuítes muito rapidamente, em um milionésimo de segundo ou menos. Se disser que um tuíte está limpo, que não corresponde a nada em seu banco de dados de desinformação, isso é 100% garantido. Portanto, não há chance de aprovar um tuíte com desinformação conhecida. Mas o filtro Bloom sinalizará tuítes inofensivos em uma fração de tempo.”

Nos últimos três anos, os pesquisadores ofereceram vários esquemas para usar o aprendizado de máquina para aumentar os filtros Bloom e melhorar sua eficiência. O software de reconhecimento de idioma pode ser treinado para reconhecer e aprovar a maioria dos tuítes. Isso reduziria o volume que precisa ser processado com o filtro Bloom. O uso de classificadores de aprendizado de máquina pode reduzir a sobrecarga computacional necessária para filtrar os dados. Tal medida permitiria que as empresas processem mais informações em menos tempo com os mesmos recursos.

Aplicação probabilística

“Quando as pessoas usam modelos de aprendizado de máquina hoje, elas perdem muitas informações úteis que vêm do modelo”, disse Dai.

A abordagem típica é definir um limite de tolerância e enviar tudo o que fica abaixo desse limite para o filtro Bloom. Se o limite de confiança for 85%, isso significa que as informações que o classificador considera seguras com um nível de confiança de 80% estão recebendo o mesmo nível de escrutínio que as informações sobre as quais ele tem apenas 10% de certeza.

“Mesmo que não possamos confiar totalmente no classificador de aprendizado de máquina, ele ainda nos fornece informações valiosas que podem reduzir a quantidade de recursos do filtro Bloom”, disse Dai. “O que fizemos foi aplicar esses recursos de forma probabilística. Damos mais recursos quando o classificador tem apenas 10% de confiança versus um pouco menos quando tem 20% de confiança e assim por diante. Pegamos todo o espectro do classificador e resolvemos isso com o todo o espectro de recursos que podem ser alocados a partir do filtro Bloom.”

Segundo Shrivastava, a necessidade reduzida de memória da Ada-BF se traduz diretamente em capacidade adicional para sistemas de filtragem em tempo real. “Precisamos de metade do espaço. Então, basicamente, podemos lidar com o dobro de informações com o mesmo recurso.”