Stories by Brenda Silva on Medium

Twitter e o passaporte vacinal contra Covid-19: uma análise de redes com os perfis dos usuários

Brenda Silva — Fri, 18 Feb 2022 02:29:12 GMT

Análise de redes focada nos usuários presentes na rede social Twitter que estão tweetando a respeito do passaporte vacinal contra a Covid-19.

Este projeto é a atividade avaliativa final da disciplina de Análise de Redes, ofertada no curso de Bacharelado em Tecnologia da Informação (IMD/UFRN), e ministrada pelo o docente Ivanovitch Silva. A ideia desse projeto é apresentar um problema que possa ser definido com base na API do Twitter, e em seguida seja analisado utilizando métricas estudadas anteriormente na disciplina. Por fim, apresentar uma rede interativa que utiliza clusters (ou grupos) para fins de visualização de seus nós.

O problema proposto é definir quais são os perfis das pessoas que estão tweetando a respeito do passaporte vacinal contra Covid-19 — um tema atual e popular não só no Brasil, mas em todo o mundo. Com a API, é possível analisar o conteúdo dos tweets, assim como também informações dos usuários que interagiram com esses tweets.

Caso deseje acessar o código implementado para este projeto, acesse o repositório no Github.

Tecnologias utilizadas

Nesse projeto utilizamos, principalmente, a linguagem de programação Python, a API do Twitter, o ambiente em nuvem Google Colaboratory, uma biblioteca para Python, que permite um acesso mais rápido a API, chamada Twython; e por fim, o Gephi, para montar a visualização interativa da rede criada.

As demais tecnologias foram utilizadas no decorrer do projeto:

Json
Matplotlib
NetworkX
Numpy
Nxviz
Pandas
Time

API do Twitter

A API do Twitter é uma ferramenta que permite ao usuário ter acesso aos tweets produzidos em tempo real. E, obviamente, é necessário ter uma conta nessa rede social para assim poder solicitar sua conta de desenvolvedor. Solicite sua conta aqui. Após a solicitação, será possível adicionar projetos a sua conta — desde que você explique de forma coerente qual a finalidade que irá utilizar os dados providos — e ter aplicações nestes projetos que utilizam serviços via API.

Já existe uma segunda versão dessa ferramenta, porém, utilizaremos a primeira versão padrão — além disso, apenas utilizaremos um serviço: o Standard Search (tradução livre: Pesquisa Padrão), é com este serviço — ou melhor, esse tipo de requisição — que poderemos acessar milhares de tweets de acordo com palavras-chave associadas ao problema citado anteriormente. Caso deseje saber mais sobre a documentação da API, acesse aqui.

Autenticação com credenciais

Após ter o acesso às credenciais do seu projeto, na conta de desenvolvedor, é possível utilizar os serviços da API. Para o Standard Search é necessário das seguintes credenciais:

API_KEY
API_SECRET_KEY
AUTH_TOKEN
AUTH_SECRET_TOKEN

As primeiras duas credenciais são referentes ao seu projeto e o aplicativo do projeto (seja de desenvolvimento ou produção) que você decidiu utilizar. Já as duas últimas credenciais são referente a autenticação realizada graças a um protocolo chamado Auth, que é responsável por autenticar usuários a ter acesso limitado a determinadas informações presentes na Internet.

Com elas é possível fazer a autenticação, como fizemos aqui:

# twython object

twitter = Twython(API_KEY, API_SECRET_KEY)

# get authentication tokens

authentication_tokens = twitter.get_authentication_tokens()

# result

print(authentication_tokens['auth_url'])

Dados que desejamos

Nosso problema é focado no usuário e nos possíveis perfis que esse usuário em específico pode ter, a ideia é montar uma rede que mostra um agrupamento de características e interações entre os usuários que escreveram no Twitter a respeito de passaporte vacinal contra covid-19. Logo, separamos algumas palavras chave para compor a requisição de tweets: ‘passaporte vacinal’, ‘passaporte’, ‘vacina’ e ‘covid-19’.

Além disso, iremos solicitar algumas características chaves a respeito de cada tweet encontrado:

A data em que foi tweetado;
O usuário que tweetou;
O conteúdo do tweet;
Caso o tweet seja um retweet, retornar usuário que criou o tweet original;
Quantidade de retweets;
Quantidade de curtidas do tweet;
Caso o tweet seja um retweet, retornar a quantidade de curtidas do tweet original.

Essas informações são providas pela própria requisição, considerando o objeto Json retornado dela.

Requisições da API

A API possui diferentes tipos de acesso, o que utilizamos foi o acesso, a nível de usuário, chamado Elevated. Com ele é possível fazer requisições nas duas versões da API de forma gratuita. Agora, falaremos sobre a requisição utilizada.

Utilizamos a requisição Standard Search via Twython, e de acordo com a documentação dela existe um limite de 180 requisições disponíveis — esse limite é reiniciado em um intervalo de 15 minutos. Além disso, é importante a gente falar quais os parâmetros usados nessa requisição, existem vários, mas utilizamos estes aqui:

count: quantidade de tweet por página retornada;
result_type: tipo de tweet, podendo ser popular ou recente, ou até misturado;
query: conjunto de palavras-chave de busca;
lang: idioma do tweet;
until: data limite dos tweets, lembrando que a API limita os tweets, por padrão, a até 7 dias antes dessa data limite.

Pensando em utilizar o máximo que a requisição permite, resolvemos fazer 180 requisições por palavra-chave, onde cada requisição retorna 100 tweets (o máximo permitido) por página, ou seja, resultando em 18 mil tweets por palavra-chave. Veja uma fração do código implementado para isso:

# keywords based on theme 'vaccine passport'

keywords = ['passaporte vacinal', 'passaporte', 'vacina', 'covid-19']

# maximum requests available for each keyword defined - there will be a sleep method to restart those resquests within 15 minutes

for keyword in keywords:

print(keyword)

for i in range(180): # requests rate from get_twitter_search

tweets = twitter.search(count=100, q=keyword, result_type='recent', until='2022-02-16', lang='pt')

if(keyword != keywords[3]):

sleep(901) # 15 minutes in seconds

Note que a função ‘sleep’ é crucial para manter o intervalo que reinicia a quantidade de requisições disponíveis, do contrário, esse limite seria excedido e não haveria como reter mais tweets. Outra coisa, essa requisição retém apenas tweets feitos no intervalo de 7 dias, para reter dados com outros intervalos de tempo superiores a este é necessário utilizar outras requisições disponibilizadas pela API.

Criação de Data Frame

Como dito anteriormente, selecionamos algumas informações que achamos importantes para essa análise, logo, foi implementado um dicionário com essas características de acordo com os campos dos tweets que recebemos da requisição; e em seguida este dicionário foi convertido para um Data Frame. Segue um exemplo com os cinco primeiros tweets:

Cinco primeiros tweets do Data Frame.

Análise Exploratória

O Data Frame criado ficou com 72 mil tweets do intervalo de dias entre 09/02/2022 até 15/02/2022, foram 18 tweet s mil por palavra-chave. Entretanto, percebemos que os tweets com a palavra-chave ‘passaporte’ fugiam do tema original desse projeto, então desconsideramos os tweets associados a ela.

Quantidade de tweets por palavra-chave.

Além disso, verificamos que 55080 tweets foram retweets, enquanto os demais foram tweets originais — o que nos dá a relação de 76,5% dos tweets serem retweets, e 23,5% dos tweets serem tweets originais.

Quantidade de tweets originais e retweets.

Também verificamos os cinco primeiros retweets e vimos que foram tweets de um mesmo usuário, o ‘Jrodrigues1954’.

Cinco primeiros retweets.

Por fim, verificamos os cinco primeiros tweets originais e quais foram seus autores.

Cinco primeiros tweets originais.

Vimos que os tweets com a palavra-chave ‘passaporte’ acabava fugindo do tema deste projeto, logo, decidimos desconsiderar os tweets associados na etapa seguinte: construção da rede.

Criação de Rede

A rede foi criada considerando a relação de um usuário com outro por meio do retweet de um tweet. Logo, selecionamos todos os usuários que condizem com essa relação, utilizamos a quantidade de retweets como o peso nessas interações e assim montamos a rede. Portanto, temos uma rede direcionada e com peso, com 335 nós e 208 arestas — o que já mostra que aqueles milhares de tweets foram criados por um grupo pequeno de pessoas.

Visualização circular da rede criada.

Análise de Métricas

Considerando como a rede foi criada, decidimos utilizar duas métricas para analisar a rede: centralidade de grau (Degree Centrality), que é a medida da quantidade de conexões (arestas) um nó possui com outros nós da rede; e a centralidade de autovetor (Eigenvector Centrality), que é uma medida da influência que um nó possui na rede.

Degree Centrality

O grafo resultante nos mostra que a rede possui nós com graus similares, ou seja, nesse contexto temos poucos retweets entre os usuários dessa base de dados. Temos assim, um grafo homogêneo.

Note que o núcleo do grafo possui poucos nós, e vale ressaltar o usuário citado anteriormente, o ‘Jrodrigues1954’, que foi o autor dos primeiros cinco retweets do Data Frame, esse usuário faz parte do núcleo desse grafo de centralidade de grau, sendo ele o que retém a maior quantidade de conexões na rede.

Centralidade de Grau da rede.

Também pegamos o top 20 nós dessa métrica, podemos reconhecer melhor os nós do núcleo do grafo - de baixo para cima:

Top 20 nós de Centralidade de Grau.

Eigenvector Centrality

Esse grafo mostra o quão influente um nó se encontra dentro da rede, desse modo é possível visualizar que temos um grafo homogêneo. A maioria possuem uma influência balanceada, com algumas ressalvas, que podem ser reconhecidos como os nós vermelho escuro no grafo, esses em específico são os que possuem maior influência sobre seus nós vizinhos.

Esse resultado nos mostra que temos poucos usuários que possuem uma presença forte nessa discussão, ao menos nesse período de 7 dias, no Twitter; sendo assim, é possível que eles sejam pilares em um ou mais grupos de discussões sobre o tema do projeto.

Centralidade de vetor próprio da rede.

Também foi gerado um top 20 nós nessa métrica, sendo possível reconhecer os usuários mais influentes na rede. O resultado dessa métrica já nos dá uma prévia de como a rede está estruturada:

Top 20 nós de Centralidade de Autovetor.

Histograma — Grau e Função Densidade de Probabilidade

Por fim, geramos um histograma que mostra a relação de frequência do grau com a função densidade de probabilidade. Assim como mostrado no grafo de Degree Centrality, é possível visualizar que a maioria dos nós possui poucos graus, variando entre 0 a 10 graus — e, consequentemente, a função densidade de probabilidade mostra que a maior probabilidade de grau para um nó é similar ao grau dessa maioria da rede.

Histograma — Grau x Função Densidade de Probabilidade.

Rede interativa via Gephi

Com base nas métricas que analisamos, temos que a medida de grau é baixa porém balanceada, ou seja, temos a maioria dos usuários com poucas conexões sobre o tema. Apesar desse resultado, ainda é possível visualizar que existe uma estrutura de agrupamento sólida — com a medida de influência sobre vizinhos é possível ver que temos poucos usuários com uma alta influência, e isso os permite, de alguma forma, manusear a direção dos tweets selecionados, ao menos dentro dos agrupamentos que eles fazem parte. A visualização da rede foi criada considerando, nessa ordem: Classe de Modularidad e a métrica Centralidade de Autovetor.

Note que temos ao menos sete agrupamentos ressaltados na rede, e dentre os sete, dois deles possuem relação considerável entre si: o agrupamento do usuário ‘Jrodrigues1954’ e o do usuário ‘drpaulofaria22’.

Outra ressalta é o agrupamento associado ao usuário ‘mellziland’, que é da biomédica, neurocientista e professora Mellanie Fontes-Dutra, que utiliza o Twitter para divulgação científica. Certamente a Mellanie foi um dos pilares na discussão sobre passaporte vacinal nessa semana!

Rede gerada.

Explore a rede!
Acessar a versão interativa da rede, que colocamos no Github, é uma boa forma de consolidar o estudo que trouxemos neste artigo. Além de ser uma boa visualização do todo, é bom explorar os grupos e membros pertinentes na rede. Confira!

Conclusão

Os resultados mostram poucos usuários entre as conexões, apesar da API retornar 72 mil tweets — isso ocorre por dois possíveis motivos: 1. os tweets podem possuir um ou mais palavras-chaves que escolhemos; 2. os usuários que estavam falando sobre o tema acabaram formando pequenos grupos ao redor do tema. Apesar do tratamento dos dados, mesmo limpando dados duplicados e similares, não é possível alterar o comportamento que os usuários mostraram nessa última semana no Twitter a respeito do passaporte vacinal.

Por fim, concluímos que apesar do intervalo curto de dias que retemos dados, é possível reconhecer agrupamentos e usuários chaves nessa discussão atual. Isso é apenas uma das diversas variáveis que podem ser analisadas em redes sociais como o Twitter.

Autores

Este post, gráficos e códigos utilizados foram feitos por Brenda Silva, Levir Chianca e Paulo Vanzolini.

Projeto Querido Diário e a transparência de dados municipais

Brenda Silva — Mon, 08 Nov 2021 23:26:01 GMT

Diariamente somos bombardeados com notícias sobre acontecimentos na esfera pública. São denúncias de corrupção, publicação de novos decretos, reformas, compras suspeitas, nomeações, dentre outros.

Esses conteúdos estão disponíveis, em formato de jornais, através dos Diários Oficiais, que é o meio pelo qual os governantes nos níveis federal, municipal e estadual publicam seus atos oficiais. Isso é muito importante para a transparência da administração pública; porém tal trabalho é realizado por jornalistas que “mastigam” o conteúdo dessas publicações oficiais e produzem reportagens mais acessíveis ao grande público.

No entanto, a população tem direito de analisar da forma mais ampla e clara possível tais conteúdos, é aí o momento em que a ciência de dados entra para contribuir com tal proposta.

Projeto Querido Diário

Fonte: Open Knowledge Brasil.

Uma iniciativa da Open Knowledge Brasil nesse sentido começou em 2016 — com o cientista de dados Irio Musskopf, uma equipe de amigos e centenas de voluntários. Eles criaram um projeto de tecnologia que usa inteligência artificial para auditar contas públicas e auxiliar no controle social. A ideia surgiu como forma de participar ativamente do processo democrático, fiscalizando os gastos públicos.

A partir daí foi criada a “Operação Serenata de Amor”, focada em fiscalizar, com auxílio de um robô chamado Rosie, os reembolsos efetuados pela Cota para Exercício da Atividade Parlamentar (CEAP) — verba que custeia alimentação, transporte, hospedagem e até despesas com cultura e assinaturas de TV dos parlamentares. Caso tenha interesse sobre como a Rosie trabalha nesta fiscalização de denúncias, clique aqui.

No entanto, esse projeto se limitava somente à esfera federal e logo surgiu a necessidade de também fiscalizar de alguma forma os estados e municípios. Tendo isso em vista, a Open Knowledge Brasil aproveitou a estrutura prévia da Operação Serenata de Amor, juntamente com um projeto já existente chamado “Projeto Nosso Querido Diário Oficial” e criou o “Querido Diário”.

Este é um projeto de código aberto que tem o objetivo de liberar e centralizar as informações publicadas nos diários oficiais dos municípios — as quais atualmente estão disponíveis com acesso um tanto nebuloso: dispostos apenas em formato PDF. Em outras palavras, os dados dispostos pelos municípios são os chamados dados não estruturados.

Coleta de Dados

Para a coleta dos dados, os scripts do projeto utilizam o framework Scrapy, ferramenta muito popular para raspagem de dados. No repositório do projeto é possível encontrar arquivos em Python (linguagem de programação) desenvolvidos pela comunidade para realizar a raspagem dos dados de cada município — tais arquivos são chamados de spiders (traduzido do inglês: aranhas).

Ainda existem outros três repositórios do projeto:

Censo Querido Diário — armazena informações dos municípios e os respectivos sites em que são publicados os diários oficiais;
Querido Diário ToolBox — fornece para a comunidade um conjunto de ferramentas que permitem a análise, manipulação e tratamento dos dados extraídos de diários oficiais;
Querido Diário API — mantém o código-fonte utilizado para construir a API que disponibiliza as gazetas rastreadas pelo o Querido Diário.

É possível utilizar a API pública para consultar os dados disponíveis diretamente de forma acessível e automatizada, opção interessante para desenvolvedores e pesquisadores. Além disso, para o público geral é possível acessar diretamente a plataforma pelo site e realizar buscas por palavras-chave, filtrando por município e período da publicação.

Níveis de Acesso dos Dados

Idealmente, o projeto visa a coleta de dados do poder executivo dos 5570 municípios brasileiros. Entretanto, atualmente os municípios se encontram com diferentes níveis de acesso:

Nível 0 de acesso: o projeto não possui a fonte de publicação do diário oficial do município;
Nível 1 de acesso: o projeto possui a fonte de publicação do diário oficial do município, cadastrada no Censo — existem 597 municípios neste nível;
Nível 2 de acesso: o projeto possui um script para coletar os arquivos do município e armazená-los na base de dados — existem 2226 municípios neste nível;
Nível 3 de acesso: o conteúdo dos diários oficiais deste município está disponível na plataforma Querido Diário — existem 16 municípios neste nível;

Transparência dos Dados

Falar sobre este projeto abre um parênteses importante nessa discussão: a Lei de Acesso à Informação e a transparência de dados. Ter acesso às informações públicas é um direito nosso garantido pela Lei nº 12.527/2011, regulamentada pelo Decreto nº 7.724/2012.

Em poucas palavras, esta lei nos dá direito ao acesso a informações públicas das principais entidades públicas (os 3 poderes da União, Estados, Municípios e Ministério Público, por exemplo) e também entidades privadas sem fins lucrativos, as privadas publicam informações referentes ao recebimento e destinação dos recursos públicos recebidos. Para saber mais sobre clique aqui.

Agora pensando no Querido Diário, a transparência — à nível simples e claro — resultante deste trabalho é de grande importância, considerando que muitos dos cidadãos brasileiros não costumam ou não podem consumir, diariamente, os diários oficiais ou outros meios de mesmo contexto. Logo, este projeto acaba contribuindo com a democratização da informação pública; isto é, considerando o grande volume de dados disponíveis é crucial que as pessoas tenham acesso à informação de qualidade, de forma simples e objetiva, referente aos governantes que regem a política do país.

Conclusão

A plataforma Querido Diário foi lançada muito recentemente (20 de julho de 2021) e ainda está em desenvolvimento. Como trata-se de uma plataforma aberta, qualquer pessoa pode contribuir, seja com o desenvolvimento do código, cadastrando municípios ou com doações em dinheiro. Outra forma de contribuir é utilizando e divulgando a plataforma, dessa forma um projeto com Ciência de Dados é uma maneira muito interessante de fazer isso.

Os dados obtidos através dos raspadores (spiders) disponíveis, podem servir como base para diversos projetos relevantes para a sociedade envolvendo Ciência de Dados. Alguns exemplos podem ser:

Investigar menções no diário oficial de palavras destacadas no debate sobre saúde pública (exemplo: buscar sobre a palavra “ivermectina”);
Analisar CNPJs mencionados no plano diretor dos municípios;
Comparar tendências do Twitter com os diários oficiais.

Há inúmeras outras possibilidades de enfoque utilizando os dados obtidos dessa plataforma. Neste post falamos do Querido Diário, mas existem outros projetos com propostas legais também da Open Knowledge Brasil, para conhecer acesse aqui.

Nos próximos posts serão apresentadas as etapas do desenvolvimento de um projeto para a disciplina CIÊNCIAS DE DADOS do IMD/UFRN (código: IMD1151), utilizando dados coletados da plataforma “Querido Diário”.

Este artigo foi escrito de forma colaborativa por: Brenda Alexandra de Souza Silva, Diêgo Bruno Lima da Costa, Diego Dantas Almeida, Luara Moreno de Assis e Marcos Filipe Garcia Dantas

Contagem de Tweets com Python

Brenda Silva — Wed, 15 Sep 2021 22:51:37 GMT

A API do Twitter é uma ferramenta (do próprio Twitter) que permite ao usuário ter acesso aos tweets produzidos em tempo real, esses tweets podem ser filtrados e analisados conforme o objetivo da pessoa que está utilizando a ferramenta. Neste artigo falaremos sobre contagem de tweets utilizando a API e a linguagem de programação Python.

Conta de Desenvolvedor

Mas antes de utilizar a API, é preciso checar se: 1. Você possui uma conta no Twitter; 2. Você possui perfil de desenvolvedor. Para ter esse perfil é necessário solicitar ao Twitter, solicite aqui caso não o tenha.

Após ter acesso ao seu perfil de desenvolvedor, um painel como este será apresentado:

Para utilizar a API é necessário criar um projeto e uma aplicação vinculada ao projeto. Após a criação do projeto, você terá suas chaves de autenticação. E uma tela como esta mostrará tais chaves:

Agora, guarde suas chaves de autenticação e vamos utilizar a API!

Conexão com a API

Como dito no título deste artigo, utilizaremos Python. Caso não possua Python instalado em sua máquina, existem duas opções comuns para utilizá-lo: 1. Baixar o Python no site oficial e instalar na sua máquina; 2. Caso não queira instalar o Python, também é possível utilizá-lo via Google Colab, basta ter uma conta Google para isso.

Certas bibliotecas precisam ser importadas via Python, são elas:

import requests # módulo que realiza requisições HTTP/HTTPS import json # módulo para manuseio de objetos json import datetime # módulo para manuseio de datas e horas

Na ordem que foi mostrado:

Requests é um módulo que fazer requisições HTTP/HTTPS;
Json é um módulo para manuseio de objetos no formato JSON;
Datetime é um módulo para manuseio de datas e horas.

Agora, precisamos utilizar a chave de autenticação chamada de Bearer Token:

Para utilizá-la na requisição é necessário criar um cabeçalho com a chave. Neste exemplo, implementamos uma função que cria o cabeçalho:

Em seguida definir palavras-chave e a query para a requisição. Vale ressaltar que para contagem de tweets, utilizamos o endpoint da API chamado de Tweet Counts, para saber mais sobre ele acesse este link.

O endpoint Tweet Counts é utilizado dado esta URL:

url = "https://api.twitter.com/2/tweets/counts/recent"

Agora, um exemplo de palavras chave e query (consulta) para requisição:

Finalmente, faremos a requisição à API, e para isso implementamos uma função que realiza a requisição e retorna a resposta em formato JSON:

Agora, basta imprimir a resposta da requisição:

Com esses resultados temos a contagem de tweets por palavras-chave. Esses resultados podem ser analisados, até mesmo responder esta pergunta: quantos tweets foram produzidos, nas últimas 24 horas, sobre o Covid-19?

Conclusão

Espero que tenha gostado deste artigo, a API do Twitter permite ao usuário fazer muitas coisas interessantes como, por exemplo, análise dos dados presentes nos tweets acessados. Este artigo foi feito com base neste projeto que eu implementei para uma disciplina da faculdade.

É possível utilizar essa API por meio de diferentes tecnologias, Python foi apenas a tecnologia que achei mais confortável para isso.

Recomendo esse artigo, também relacionado a API do Twitter. Até a próxima!

Publicado originalmente em https://dev.to no dia 15 de Setembro de 2021.