Pesquisadores da Escola de Engenharia Viterbi da Universidade do Sul da Califórnia (EUA) utilizaram tecnologias de inteligência artificial (IA) para concluir que personagens masculinos são quatro vezes mais prevalentes na literatura do que personagens femininos. Seu estudo foi publicado na revista Data in Brief.

Mayank Kejriwal, líder de pesquisa do Instituto de Ciências da Informação da USC (ISI), foi inspirado pelo trabalho atual sobre preconceitos implícitos de gênero e sua própria experiência em processamento de linguagem natural (PNL). Enquanto muitos estudos publicados pesquisam e analisam os aspectos qualitativos da representação feminina na literatura e na mídia, a pesquisa de Kejriwal fez uso particularmente de seus pontos fortes – coleta de dados quantitativos por meio de algoritmos de aprendizado de máquina existentes.

Para produzir essas descobertas, Kejriwal e Akarsh Nagaraj acessaram dados por meio do corpus do Projeto Gutenberg, que contém 3 mil livros em inglês, uma tentativa adicional de mitigar o viés do pesquisador. O gênero de livros variou de aventura e ficção científica a mistério e romance, e em meios variados, incluindo romances, contos e poesia.

Akarsh Nagaraj, coautor do estudo e engenheiro de aprendizado de máquina da Meta, ajudou a descobrir o desequilíbrio literário masculino-feminino de 4:1.

“O preconceito de gênero é muito real, e quando vemos mulheres quatro vezes menos na literatura, isso tem um impacto subliminar nas pessoas que consomem a cultura”, disse Kejriwal, professor assistente de pesquisa no Departamento de Engenharia Industrial e de Sistemas. “Revelamos quantitativamente de maneira indireta em que o preconceito persiste na cultura.”

Nagaraj observou a importância de como seus métodos e as descobertas do estudo lhes transmitiram uma maior compreensão dos preconceitos na sociedade e suas implicações. “Os livros são uma janela para o passado, e a escrita desses autores nos dá um vislumbre de como as pessoas percebem o mundo e como ele mudou.”

Personagens principais

O estudo descreve vários métodos para definir a prevalência feminina na literatura. Eles utilizaram o Reconhecimento de Entidade Nomeada (NER), um método de PNL proeminente usado para extrair caracteres específicos de gênero. “Uma das maneiras de definir isso é olhando quantos pronomes femininos estão em um livro em comparação com os pronomes masculinos”, disse Kejriwal. A outra técnica é quantificar quantas personagens femininas são os personagens principais nele.

Isso permitiu que a equipe de pesquisa determinasse se os personagens masculinos eram centrais para a história.

Os achados do estudo também mostraram que a discrepância entre personagens masculinos e femininos diminui sob autoria feminina. “Isso nos mostrou claramente que as mulheres naquela época se representavam muito mais do que um escritor masculino”, disse Nagaraj.

Os métodos diversificados da equipe para medir e determinar a representação feminina na literatura não vieram sem limitações – no entanto, quando os autores não são nem homens nem mulheres. “Quando publicamos o artigo do conjunto de dados, os revisores tiveram essa crítica de que estávamos ignorando gêneros não dicotômicos”, disse Kejriwal. “Mas concordamos com eles, de certa forma. Achamos que foi completamente reprimido e não conseguiremos encontrar muitos [indivíduos transgêneros ou indivíduos não dicotômicos]”.

Dicotomias desafiadoras

Kejriwal reconheceu que as ferramentas de IA para identificar palavras no plural, como “eles”, que podem estar se referindo a um indivíduo não dicotômico, ainda não existem. Ainda assim, as descobertas do estudo constroem a estrutura para abordar essas questões sociais e construir as tecnologias que podem lidar com esses déficits.

O estudo também fornece um plano para trabalhos futuros na quantificação das descobertas qualitativas que eles descobriram por meio das metodologias do estudo. Sem o viés inerente de pesquisas projetadas por humanos, a tecnologia da PNL também permitiu que eles encontrassem associações de adjetivos com personagens específicos de gênero, aprofundando sua compreensão do viés e sua difusão na sociedade.

“Mesmo com atribuições erradas, as palavras associadas às mulheres eram adjetivos como ‘fraca’, ‘amável’, ‘bonita’ e às vezes ‘estúpida’”, disse Nagaraj. “Para personagens masculinos, as palavras que os descreviam incluíam ‘liderança’, ‘poder’, ‘força’ e ‘política’.”

Investigação mais abrangente

Embora a equipe não tenha quantificado essa faceta de seu estudo, essa diferença nas descrições qualitativas entre caracteres específicos de gênero fornece um escopo futuro para uma investigação qualitativa mais abrangente sobre associações de palavras com gênero.

“Nosso estudo nos mostra que o mundo real é complexo, mas há benefícios para todos os diferentes grupos de nossa sociedade que participam do discurso cultural”, disse Kejriwal. “Quando fazemos isso, tende a haver uma visão mais realista da sociedade.”

Kejriwal espera que o estudo sirva para destacar a importância da pesquisa interdisciplinar – ou seja, usar a tecnologia de IA para destacar questões sociais urgentes e desigualdades que podem ser abordadas. As partes interessadas com formação especializada, incluindo cientistas da computação, podem oferecer ferramentas para processar dados e responder a perguntas, e os formuladores de políticas podem usar esses dados para promover mudanças.