machine learning noticias falsas fake news

Machine Learning determina se um canal de notícias é tendencioso ou não


Ultimamente, o mundo da checagem de fatos esteve em crise. Sites como Politifact e Snopes têm tradicionalmente focado em reivindicações específicas, o que é admirável, mas tedioso – no momento em que eles verificam ou desmentem notícias, há uma boa chance de que ele já tenha viajado pelo mundo e voltado novamente.

As empresas de mídias sociais também tiveram resultados mistos limitando a disseminação de propaganda e desinformação: o Facebook planeja ter 20 mil moderadores humanos até o final do ano e está gastando muitos milhões desenvolvendo seus próprios algoritmos de detecção de notícias falsas.

Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) e do Instituto de Pesquisa em Computação do Qatar (QCRI) acreditam que a melhor abordagem é se concentrar não na factualidade das alegações individuais, mas nas próprias fontes de notícias. Usando essa abordagem, eles demonstraram um novo sistema que usa Machine Learning para determinar se uma fonte é precisa ou politicamente tendenciosa.

“Se um site já publicou notícias falsas, há uma boa chance de que o façam de novo”, diz o Phd, Ramy Baly, autor principal de um novo artigo sobre o sistema. “Ao coletar automaticamente dados sobre esses sites, a esperança é que nosso sistema possa ajudar a descobrir quais são os que provavelmente farão isso em primeiro lugar.”

Baly diz que o sistema precisa apenas de cerca de 150 artigos para detectar de forma confiável se uma fonte de notícias pode ser confiável – o que significa que uma abordagem como a deles poderia ser usada para ajudar a eliminar notícias falsas antes que as histórias se espalhem amplamente.

O sistema é uma colaboração entre cientistas da computação do MIT CSAIL e QCRI, que faz parte da Universidade Hamad Bin Khalifa no Catar. Pesquisadores primeiro pegaram dados do Media Bias / Fact Check (MBFC), um site com verificadores de fatos humanos que analisam a precisão e os vieses de mais de 2.000 sites de notícias, do MSNBC e da Fox News a farms de conteúdo de baixo tráfego.

Em seguida, eles alimentaram esses dados em um algoritmo de Machine Learning chamado classificador Support Vector Machine (SVM) e o programaram para classificar sites de notícias da mesma maneira que o MBFC. Quando recebeu uma nova agência de notícias, o sistema tinha 65% de precisão ao detectar se tinha um nível alto, baixo ou médio de “factualidade” e 70% de precisão ao detectar se era de esquerda, de direita ou moderada. .

A equipe determinou que os meios mais confiáveis ​​para detectar notícias falsas e reportagens tendenciosas eram olhar para as características linguísticas comuns nas histórias da fonte, incluindo sentimento, complexidade e estrutura.

Por exemplo, descobriu-se que os veículos de notícias falsas têm maior probabilidade de usar linguagem hiperbólica, subjetiva e emocional. Em termos de viés, os canais de tendência esquerdista eram mais propensos a ter linguagem relacionada a conceitos de dano/cuidado e justiça/reciprocidade, em comparação com outras qualidades como lealdade, autoridade e santidade. (Essas qualidades representam os 5 “fundamentos morais”, uma teoria popular da psicologia social.)

O co-autor Preslav Nakov diz que o sistema também encontrou correlações com a página da Wikipedia de uma tomada, que avaliou por extensão geral – mais é mais crível – assim como palavras-alvo como “extrema” ou “teoria da conspiração”. Ele até encontrou correlações com a estrutura de texto das URLs de uma fonte: aquelas que tinham muitos caracteres especiais e subdiretórios complicados, por exemplo, estavam associadas a fontes menos confiáveis.

“Como é muito mais fácil obter informações básicas sobre fontes, esse método é capaz de fornecer previsões diretas e precisas sobre o tipo de conteúdo distribuído por essas fontes”, diz Sibel Adali, professor de ciência da computação da Rensselaer. Instituto Politécnico que não esteve envolvido no projeto.

Nakov é rápido em advertir que o sistema ainda é um trabalho em andamento, e que, mesmo com melhorias na precisão, funcionaria melhor em conjunto com verificadores de fatos tradicionais.

“Se os canais reportarem de forma diferente sobre um tópico específico, um site como o Politifact poderia instantaneamente olhar para as nossas notícias falsas para determinar quanto de validade dar a diferentes perspectivas”, diz Nakov, um cientista sênior da QCRI.

Baly e Nakov co-escreveram o novo artigo com o cientista sênior do MIT, James Glass, ao lado dos estudantes de mestrado Dimitar Alexandrov e Georgi Karadzhov, da Universidade de Sofia. A equipe apresentará o trabalho ainda este mês na conferência de Métodos Empíricos em Processamento de Linguagem Natural (EMNLP) de 2018, em Bruxelas, na Bélgica.

Os pesquisadores também criaram um novo conjunto de dados de fonte aberta com mais de 1.000 fontes de notícias, anotado com factualidade e pontuações de viés – o maior banco de dados do mundo desse tipo. Como próximos passos, a equipe estará explorando se o sistema treinado em inglês pode ser adaptado para outros idiomas, bem como para ir além do viés tradicional de esquerda/direita para explorar vieses específicos da região (como a divisão do mundo muçulmano entre religioso e secular). ).

“Essa direção de pesquisa pode lançar luz sobre sites que não são confiáveis ​​e o tipo de conteúdo que eles tendem a compartilhar, o que seria muito útil tanto para os web designers quanto para o público em geral”, diz Andreas Vlachos, professor da Universidade de Cambridge, que não estava envolvido no projeto.

Nakov diz que o QCRI também planeja lançar um aplicativo que ajuda os usuários a sair de suas bolhas políticas, respondendo a notícias específicas, oferecendo aos usuários uma coleção de artigos que abrangem o espectro político.

“É interessante pensar em novas maneiras de apresentar as notícias às pessoas”, diz Nakov. “Ferramentas como essa podem ajudar as pessoas a pensar um pouco mais sobre os problemas e explorar outras perspectivas que poderiam não ter considerado de outra forma.”

Via TechXplore

Machine Learning determina se um canal de notícias é tendencioso ou não
5 (100%) 3 votes

Artigos relacionados

Machine learning? Redes neurais? Aqui está o seu guia para os tipos de IA IA está em todos os lugares no momento, e é responsável por tudo, desde os assistentes virtuais em nossos smartphones até os carros autônomos que logo...
Inteligência artificial usa raciocínio humano para resolver problemas Uma criança é presenteada com uma foto de várias formas e é solicitada a encontrar o grande círculo vermelho. Para chegar à resposta, ela passa por al...
Finanças: Aproveitando o máximo do Machine Learning Compreendendo as vantagens e os desafios da implementação de machine learning O uso de machine learning em finanças pode fazer maravilhas, mesmo que ...
Usando Machine Learning para detectar páginas não confiáveis no Facebook Um número crescente de empresas e indivíduos em todo o mundo está criando páginas no Facebook para fins de marketing e publicidade. Isso ocorre porqu...