FEA.dev - Medium

Python | Fazendo Gráficos Candlestick com o Plotly

FEA.dev — Sun, 01 Sep 2024 21:13:43 GMT

Por Felippe Bertollo

O gráfico Candlestick é amplamente utilizado, por exemplo, pela indústria de trading, com enfoque a tendências geralmente de curto prazo, ditadas pela lei de oferta e demanda aplicada a títulos e valores mobiliários.

Em resumo, um gráfico como esse consiste em barras em cascata, com referenciais aos dados de abertura, fechamento, mínimo e máximo, no que se refere à cotação das ações ao longo dos dias, contando também com duas cores para compreender a movimentação da ação.

Fonte: rc.xyz no Unsplash (https://unsplash.com/pt-br/@moneyphotos)

Barras similares a boxplots indivíduais para cada unidade de tempo do período sendo analisado mostram, em “caixas”, os preços de abertura e fechamento do mercado. A “sombra”, ou seja, a linha vertical que rodeia a “caixa” se estende por toda a faixa de preço até atingir o máximo ou o mínimo da cotação.

Além disso, um outro elemento é fundamental nesse tipo de gráfico: a sua cor. Quando as “caixas” são vermelhas, tem-se preços de fechamento inferiores aos de abertura, e verdes quando do contrário, conforme a imagem abaixo:

Fonte: Bússola do Investidor (https://www.bussoladoinvestidor.com.br/grafico-de-candlestick/)

Indo ao aspecto prático, como podemos elaborar esse tipo de gráfico, no Python, para aprimoramos nossas análises em determinadas classes de ativos?

O código fundamental para esse tipo de análise é bem simples, baseando-se, no exemplo deste artigo, em três bibliotecas-chave do Python:

import yfinance as yf
import pandas as pd
import plotly.express as px

Agora, podemos definir algumas ações para fundamentarmos nossa análise, determinando a janela de tempo da dela e utilizando o Yahoo Finance para obter os dados:

acoes = ["VALE3.SA", "PETR4.SA", "ITUB4.SA", "BBDC4.SA", "B3SA3.SA"]

start_date = '2020-01-01'
end_date = '2022-12-31'

dados_acoes = yf.download(acoes, start_date, end_date, interval='1d')

Utilizando o Pandas, podemos criar um DataFrame para armazenar os dados baixados. O resultado é uma tabela multi-index que contém, no primeiro nível das colunas, a informação sendo mostrada, e, no segundo, a ação em si:

df = pd.DataFrame(dados_acoes)
display(df)

Output gerado pelo display(df)

O código abaixo retorna todos as informações baixadas, individualmente e para cada ação, pela API do Yahoo Finance:

print(df.columns.levels[0])

| Index([‘Adj Close’, ‘Close’, ‘High’, ‘Low’, ‘Open’, ‘Volume’], dtype=’object’)

Dentre eles, destacam-se “Close”, “High”, “Low” e “Open”, que fundamentam a base do Candlestick.

A análise abaixo focaliza o Itaú Unibanco (#ITUB4), e faz uma análise preliminar do fechamento ajustado dessa empresa, a ser comparado posteriormente ao Candlestick:

df_adj_close = df[['Adj Close']].droplevel(level=0, axis=1)[['ITUB4.SA']]

fig = px.line(df_adj_close, x=df_adj_close.index, y=df_adj_close.columns, title="Gráfico de Linhas - 5 ações")
fig.update_layout(xaxis_title="Data", yaxis_title="Preço", template='plotly_dark')
fig.show()

Output para fig.show()

Agora, conforme informado anteriormente, podemos coletar os dados que fundamentam o Candlestick. O código abaixo faz exatamente isso, e separa cada tipo de informação em um DataFrame individual:

df_open = df[['Open']].droplevel([0], axis=1)[['ITUB4.SA']].rename(columns={"ITUB4.SA": "Open"})
df_high = df[['High']].droplevel([0], axis=1)[['ITUB4.SA']].rename(columns={"ITUB4.SA": "High"})
df_low = df[['Low']].droplevel([0], axis=1)[['ITUB4.SA']].rename(columns={"ITUB4.SA": "Low"})
df_close = df[['Close']].droplevel([0], axis=1)[['ITUB4.SA']].rename(columns={"ITUB4.SA": "Close"})

Podemos, então, unificar todas as informações baixadas na forma de um único DataFrame, utilizando o método .concat() do Pandas:

df = pd.concat([df_open, df_high, df_low, df_close], axis=1)
display(df)

Output para display(df)

Agora, resta somente o gráfico do Candlestick em si. Para tal, usaremos a terceira e última biblioteca que importamos, o Plotly. Dentre as vantagens dessa biblioteca, destaca-se um método específico para esse tipo de gráfico. O código abaixo gera o resultado final que precisaremos analisar:

fig = go.Figure(data=[go.Candlestick(x = df.index,
                                     open = df['Open'],
                                     high = df['High'],
                                     low = df['Low'],
                                     close = df['Close'],
                                     )])
fig.update_layout(template='plotly_dark', title='CandleStick - ITUB4')

fig.show()

Output para fig.show()

Vale ressaltar que, em razão de o Plotly apresentar como outputs gráficos interativos, será sempre possível melhorar a visualização das informações à medida em que aplicamos zoom a um determinado período de análise, como no caso abaixo, no qual foi selecionado o primeiro semestre de 2021 para a observação:

Restringindo o período de análise via interação no Plotly

Python | Fazendo Gráficos Candlestick com o Plotly was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Python Dentro do Excel: Uma Revolução para a Análise de Dados

FEA.dev — Sun, 11 Aug 2024 21:38:43 GMT

Por Felippe Bertollo e Rodrigo Souza

Introdução

A Microsoft lançou uma novidade incrível para os usuários do Excel inscritos no programa do Office Insider: o =PY( ).

Essa função permite rodar códigos em Python diretamente dentro do Excel, permitindo uma maior integração entre a capacidade de processamento do Python e de suas bibliotecas (especificamente Pandas, Matplotlib, Numpy, Seaborn e Statsmodels) e a visibilidade didática dos dados, oferencendo um potencial enorme para análise de dados.

Neste artigo, será explorado como essa ferramenta pode ser utilizada na prática. Não deixe de conferir o vídeo que gravamos sobre este mesmo assunto em nosso canal do YouTube.

A Ferramenta

Ao digitar =PY() dentro do Excel, como qualquer outra fórmula, estando devidamente inscrito no programa do Office Insider, o Excel ativa uma espécie de IDE dentro da célula em foco. A barra de fórmulas converte-se em um sucinto editor de códigos no qual as bibliotecas mais essenciais do Python podem ser importadas, mas ainda sem acesso a internet.

No menu de fórmulas, o Excel apresenta algumas funcionalidades que permitem exibir amostras do funcionamento das bibliotecas, guias de utilização e até mesmo uma coletânea com todos os códigos em uso pelo arquivo.

As bibliotecas habilitadas até o presente momento são:

Pandas, ou “pd”
Numpy, ou “np”
Matplotlib, ou “plt”
Seaborn, ou “sns”
Statsmodels, ou “sm”

Por questões de segurança, a Microsoft informa, pelo menos até a data deste artigo, que ainda não é possível conectar-se a rede, inviabilizando, por ora, o uso de outras bibliotecas conhecidas, como o Yahoo Finance.

1ª Aplicação: Portfólio com 8 Ativos

Em um portfólio, pode ser útil analisar a correlação entre os ativos que o compõe, ou estabelecer seu desvio-padrão, com vista a aprimorar, respectivamente, os processos de diversificação do risco e de apuração da volatilidade.

Para cálculo do desvio-padrão, faz-se necessária a utilização da covariância, que, tal qual a correlação, consiste em uma métrica que busca avaliar a relação entre duas variáveis. Apesar de variarem quanto à utilização, para fins de interpretação direta dos outputs, a correlação é mais indicada, já que sempre apresentará valores entre -1 e 1.

Mais especificamente:

Covariância: indica a direção da relação entre as variáveis. Se positiva, as variáveis tendem a aumentar juntas; se negativa, uma tende a aumentar enquanto a outra diminui.
Correlação (neste caso, linear de Pearson): mede a força e a direção da relação linear entre duas variáveis, variando de -1 a 1. Um valor de 1 indica uma correlação perfeita positiva, -1 uma correlação perfeita negativa, e 0 nenhuma correlação.

No Excel, partindo-se de uma tabela com os preços de fechamento dos ativos (nesse caso, apurados mês a mês), deve-se, primeiramente, calcular os retornos dos ativos. Há uma fórmula simples para tal, que é (W1-W0)/W0, ou simplesmente W1/W0 - 1, onde W1 é o valor do ativo no momento t1, e W0, no momento t0.

Início da tabela de retorno (W1/W0 -1)

Após essa primeira etapa, pode-se digitar as fórmulas =CORREL(), para o cálculo da correlação linear de Pearson, e =COVARIAÇÃO.S(), para cálculo da covariância amostral. Ambas as fórmulas solicitam duas séries de dados de igual tamanho como argumentos.

Para facilitar a montagem da matriz completa de correlação/covariância, que pode ser de difícil elaboração em se tratando de portfólios com mais ativos, pode-se utilizar uma combinação entre as fórmulas DESLOC() e CORRESP() para selecionar corretamente os intervalos de retornos dos ativos, e inseri-los como série de dados dentro da fórmula principal, à medida em que se arrasta a fórmula para o lado e para baixo.

=CORREL(DESLOC($A$1:$A$1;0;CORRESP(A$1;$A$1:$A$4;0));DESLOC($A$1:$A$1;0;CORRESP($A1;$A$1:$A$1;0)))

Obs.: note que, na fórmula acima, ambas as matrizes do primeiro argumento do DESLOC e do último argumento do CORRESP são sempre fixas. O primeiro argumento do CORRESP, no entanto, em uma das instâncias fixa a linha, enquanto na outra, a coluna.

Com formatação condicional, pode-se preparar um breve mapa de calor

Com a adição de uma série com os pesos dos ativos no portfólio, pode-se inserir uma matriz “deitada” com esses pesos, além de uma matriz “em pé” com os mesmos valores. Utilizando a fórmula =MATRIZ.MULT(), pode-se calcular o desvio-padrão do portfólio:

=RAIZ(MATRIZ.MULT(“pesos_deitados”;MATRIZ.MULT(“matriz_covariancia”;“pesos_em_pe”)))

Pesos dos ativos

Matriz de covariância

Desvio-padrão pela fórmula do Excel mostrada acima (MATRIZ.MULT)

O Excel possui um suplemento que permite o cálculo da matriz de correlação com mais agilidade, mas que não preenche todos os dados da tabela. Basta ativá-lo através da aba de desenvolvedor, que pode ser ativada ao se personalizar a faixa de opções do Excel (basta clicar com o botão direito em cima das ferramentas).

Matriz gerada pelo suplemento

No Python, por sua vez, basta que se digite =PY() e se prossiga com o código abaixo para o cálculo dos retornos:

df = xl("intervalo_precos", headers = True)
df.pct_change().dropna()

Retornos no Python. Note que a coluna de data não deve ser incluída como argumento, já que não se é possível calcular a variação percentual entre duas datas, e a fórmula resulta em erro

Após isso, o Excel retornará algo do tipo “[PY] Dataframe”, e, na própria barra de fórmulas, pode-se alterar a saída para Excel, fazendo com que os dados do retorno sejam mostrados na planilha, completos, necessitando apenas de formatação.

Vale ressaltar que, à medida em que se selecionam as células na planilha, o Excel já insere tanto a função “xl” como o parâmetro “headers”, que pode vir incorreto ou não, dependendo do caso. Quando ativo, ele descarta a primeira linha para fim das séries de dados, mas utiliza os valores que nela constam para nomeá-las.

Similarmente, pode-se partir do código acima, selecionando, dessa vez, a tabela de retornos, para calcular as matrizes de correlação e covariância.

df = xl("intervalo_retornos", headers=True)

df.corr() #ou, a depender da análise:
df.cov()

Utilizando o Seaborn e o Matplotlib, pode-se elaborar um heatmap (mapa de calor, em tradução livre) com os valores das correlações entre os ativos. É exatamente o que o código abaixo faz:

sns.heatmap(xl("matriz_correlacoes", headers=True),annot=True,linewidths=0.3)
plt.xticks(rotation=45)
plt.yticks()
plt.show()

Como resultado do código acima, será retornada uma imagem, a qual pode ser ativada ao se clicar no pequeno botão que aparece sobre a célula após a execução do código.

Mapa de calor das correlações, gerado pelo Seaborn

Com a utilização do Numpy, por sua vez, pode-se calcular 8 pesos aleatórios através do código abaixo. Recomenda-se colar os valores resultantes como valor, para que não sejam sempre recalculados à medida em que avançamos as etapas da análise.

aleatorio = np.random.random(8)
pesos = aleatorio/aleatorio.sum()

Por último, o desvio-padrão do portfólio pode ser calculado pela função np.sqrt(), para a raiz quadrada, e pelo operador “@”, que multiplica intervalos de forma matricial no Python:

np.sqrt(xl("pesos_deitados") @ xl("matriz_covariancia") @ xl("pesos_em_pe"))

2ª Aplicação: Regressão Linear

A regressão linear é uma técnica estatística utilizada para prever valores com base em uma relação linear entre uma variável dependente e uma ou mais variáveis independentes. É amplamente utilizada em diversas áreas, como finanças, economia e ciências sociais, para entender e quantificar relações entre variáveis.

Em finanças quantitativas, normalmente se utiliza um gráfico de dispersão com os retornos do mercado (normalmente, o iBovespa) representados pelo eixo x, e os da ação em análise, pelo eixo y.

Como resultado de uma regressão linear, tem-se uma equação de primeiro grau:

y = α + β.x, onde:

Inclinação (coeficiente angular β): representa a inclinação da linha de regressão. É tido como uma medida de risco, já que indica o quanto a empresa oscilará apenas por conta da oscilação do mercado.
Intercepto (coeficiente linear α): representa o ponto onde a linha de regressão cruza o eixo Y. Em determinadas análises, pode-se optar por “forçar” esse coeficiente a ser igual a zero, o que, matematicamente, está errado, já que a fórmula gerada pelo modelo com esse coeficiente sempre gerará menos resíduos, ou seja, se aproximando mais de todos os pontos no gráfico simultaneamente.
R²: uma medida que, nesse caso, equivale ao quadrado da correlação entre os dados, e que explica a capacidade da regressão linear de explicar as variações dos dados, ou seja, ela varia de 0 a 100%. No exemplo a seguir, a ação do Itaú Unibanco (#ITUB4) tem R² de 68%, ou seja, cerca de 68% dos dados referentes ao retorno do Itaú poderiam ser mensurados pela reta proposta pelo modelo.

Assim como antes, inicia-se a partir da tabela de fechamento de preços, desenvolvendo-se a tabela de variação/retorno da ação e do índice da bolsa brasileira, utilizando da mesma fórmula (W1/W0 -1).

Início da tabela de retornos

No Excel, o exercício de regressão linear para apuração dos coeficientes α e β pode ser feita de três formas:

Pelas fórmulas =INCLINAÇÃO(“y’s”; “x’s”) e =INTERCEPÇÃO(“y’s”; “x’s”), deixando claro que y é a variável dependente, neste caso os retornos da ação do Itaú, e x, a independente, que são os retornos do Ibovespa. As fórmulas retornam, respectivamente, os coeficientes angular e linear da regressão:

β = coeficiente angular do exercício; α = coeficiente linear do exercício

Pela mesma ferramenta de análise de dados do Excel utilizada anteriormente para a correlação, dentro do menu propriamente dedicado à regressão. O padrão de intervalo de confiança é de 95%.

Output da ferramenta de análise de dados do Excel

Pelo gráfico de dispersão através da inserção de uma linha de tendência, de preferência com a opção de habilitar a equação no gráfico ativa. Esta forma é amais visual, mas também a mais complicada de se analisar numericamente.

Gráfico de dispersão com reta de tendência no Excel

No Python, pode-se simplesmente inserir o código abaixo:

df = xl("retornos", headers=True)
df = df.pct_change().dropna()
sns.regplot(data = df[["^BVSP", "ITUB4.SA"]], x = "^BVSP", y = "ITUB4.SA")

Enquanto as duas últimas linhas performam o cálculo dos retornos, conforme já visto anteriormente, a terceira linha do código dedica-se a aplicar a biblioteca do Seaborn para plotar um gráfico de regressão linear, através da função regplot, qual requer, como argumentos, os dados-base e a relação de colunas (identificação das variáveis “x” e “y”).

Output do código em Python inserido na fórmula =PY( ) do Excel

Conclusão

A integração do Python no Excel é uma ferramenta poderosa para análises estatísticas e financeiras. Ela permite:

Eficiência: combinar a facilidade de uso do Excel com a robustez do Python;
Visualizações Avançadas: criar gráficos e visualizações personalizadas;
Manipulação de Dados: usar o Pandas para organizar e analisar grandes conjuntos de dados de forma rápida;
Cálculos Financeiros: realizar operações matemáticas complexas, essenciais para análises financeiras detalhadas.

Essa ferramenta representa um avanço significativo, tornando o processo de análise de dados mais dinâmico e acessível. Prepare-se para elevar seu nível de produtividade!

Obrigado pela leitura e não deixe de conferir o vídeo que gravamos sobre este mesmo assunto em nosso canal do YouTube.

Python Dentro do Excel: Uma Revolução para a Análise de Dados was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Como criar um repositório de forma prática com o GitHub Desktop

FEA.dev — Wed, 07 Aug 2024 02:10:12 GMT

Por Andrei Bonifácio e Gabriel Braz.
Edição de vídeo: Emmanuelita Emmanuel.

Neste artigo, vamos aprender na prática como criar um repositório para seus códigos, arquivos e/ou projetos utilizando o GitHub Desktop. Dessa forma, você verá como é simples começar um portfólio na sua conta do GitHub.
Acompanhe até o final para conhecer todos os pré-requisitos e o passo a passo para criar seus primeiros repositórios.
Por aqui, você também pode acessar a versão desse tutorial em vídeo no nosso canal do YouTube.

Git, GitHub e GitHub Desktop: o que são?

O que é Git?

Segunda a própria documentação do GitHub sobre o Git, ele é “um sistema de controle de versão, ou VCS, monitora o histórico de alterações à medida que as pessoas e equipes colaboram em projetos em conjunto”. Ou seja, com ele somos capazes de salvar arquivos e códigos de nossos projetos, assim como as alterações que fizermos, podendo até mesmo voltar no tempo, restaurar versões antigas, visualizar a(s) pessoa(s) responsável(eis) por tal mudança e quando ela foi feita.

O que é GitHub?

O GitHub é uma plataforma de hospedagem baseada em nuvem, atualmente da Microsoft, que gerencia arquivos (códigos, imagens etc) utilizando o sistema Git por trás. Além disso, ela é uma rede social para unir devs e pessoas interessadas em tecnologia num só lugar, proporcionando um ambiente de colaboração entre essas pessoas.

O que é GitHub Desktop?

Segunda a própria documentação do GitHub sobre o GitHub Desktop ele é “um aplicativo gratuito e de código aberto que ajuda você a trabalhar com arquivos hospedados no GitHub ou em outros serviços de hospedagem Git”. Ou seja, ele é um facilitador para você manipular seus arquivos hospedados na sua conta do GitHub de maneira prática e fácil.

O que é um repositório?

Segundo a documentação do GitHub “um repositório ou um projeto Git, engloba toda a coleção de arquivos e pastas associados a um projeto, junto com o histórico de revisão de cada arquivo”. Ou seja, um repositório é um local onde você armazena seus projetos de código. Ele contém todos os arquivos do projeto e o histórico de revisões.

Qual a diferença entre um repositório Local e Remoto?

Um repositório local está armazenado no seu computador. É onde você pode fazer alterações antes de enviá-las para um repositório remoto.

Um repositório remoto está hospedado na nuvem, como no GitHub, e pode ser acessado de qualquer local físico desde que a pessoa tenha o devido acesso à sua própria conta ou a projetos de outras pessoas, por exemplo. Permite que as pessoas colaborem entre si.

Vamos mostrar como fazer com que um repositório local se torne remoto através do GitHub e modificá-lo a partir da máquina local ou do GitHub.

Pré-requisitos necessários para criar um repositório com o GitHub Desktop

Abaixo estão os pré-requisitos necessários para você criar um repositório utilizando o GitHub Desktop. Caso seja preciso, estará junto a documentação oficial para ser seguida e implementada.

Ter uma conta no GitHub com o perfil configurado:
Acesse aqui a documentação para criar uma conta;
acesse aqui a documentação para aprender a fazer as configurações básicas do seu perfil GitHub;
Ter o Git instalado na sua máquina:
Acesse aqui a página de download do Git;
acesse aqui para aprender a configurar o Git para o GitHub Desktop;
Ter o GitHub Desktop instalado na sua máquina:
Acesse aqui a página de download do GitHub Desktop;
Faça login na sua conta do GitHub no GitHub Desktop.

Como criar um repositório com o GitHub

No canto superior esquerdo da tela clique em “File” e em seguida em “New repository…” ou simplesmente aperte Ctrl + N ao mesmo tempo no teclado. Será aberta a tela abaixo:

1) Nome / Descrição

Para criar um repositório local no GitHub Desktop, primeiro dê um nome ao seu projeto e, se desejar, uma breve descrição.

2) Caminho do arquivo

Escolha o caminho do arquivo, ou seja, o local onde você quer salvar o repositório no seu computador.

3) README

Você pode optar por incluir um arquivo README, que deve descrever seu projeto e como usá-lo. Por boa prática, incluir esta opção é altamente recomendável para você documentar da melhor maneira possível seus projetos.

4) Git ignore

O arquivo .gitignore especifica quais arquivos ou pastas o Git deve ignorar. É útil para evitar enviar arquivos desnecessários.

5) Licença

Selecionar uma licença é importante para definir como outras pessoas podem usar o seu código. Escolha uma que se adapte às suas necessidades. Para mais informações sobre as licenças mais usadas no GitHub, acesse este link.

6) Explorando sua tela do GitHub Desktop

Ao abrir o GitHub Desktop, encontramos as seguintes opções na tela:

Repositório atual;
Branch atual;
Publicar repositório (Publish repository) / Buscar na origem (Fetch origin);
Alterações e histórico.

7) Publicar (Push) o repositório no GitHub Desktop

Com o repositório local criado, vamos publicá-lo no GitHub. No GitHub Desktop, clique em ‘Publish repository’.

8) Nome e Descrição

Confirme o nome do repositório e a descrição.

9) Público ou Privado

Decida se quer que o repositório seja público, para todos verem, ou privado, apenas para convidados.

10) Verificar as ações refletidas na conta do GitHub

Clique no botão “Exibir no GitHub”.

Editando arquivos localmente e atualizando o repositório remoto pelo GitHub Desktop

11) Integrar e utilizar o VS Code para edições no projeto

Agora, vamos editar os arquivos no VS Code. Abra o repositório no VS Code e faça alterações no código ou no README.

12) Histórico: commit to master

No GitHub Desktop, navegue até a exibição Alterações. Na lista de arquivos, você verá o README.md. A caixa de seleção à esquerda do arquivo README.md indica que as alterações feitas no arquivo farão parte do commit que você fez.

Na parte inferior da lista Alterações, insira uma mensagem de commit. À direita da sua foto de perfil, digite uma breve descrição e faça o commit.

13) Push origin — atualizando o repositório remoto com as novas edições

Por fim, envie as alterações para o repositório remoto no GitHub clicando em ”Push origin”.

14) Verificação das ações refletidas na conta do GitHub

Clique no botão “Exibir no GitHub”.

Editando arquivos remotamente e atualizando o repositório local pelo GitHub Desktop

Agora que você criou e publicou seu repositório, você está pronto para fazer alterações no seu projeto e começar a criar seu primeiro commit no seu repositório.

15) Edições remotas pelo GitHub

Você também pode editar arquivos diretamente no site do GitHub. Acesse seu repositório remoto, edite o arquivo desejado e salve as mudanças.

16) Atualizando o repositório local com as novas edições

Para atualizar seu repositório local com essas mudanças, volte ao GitHub Desktop, clique em ‘Fetch origin’ e depois em ‘Pull origin’ para sincronizar as alterações.

Benefícios do GitHub Desktop

É mais fácil de começar: sua interface gráfica é amigável, simplifica os comandos git que às vezes assustam à primeira vista e ajuda na visualização das alterações;
Facilidade de encontrar os comandos Git: por conta da sua interface amigável é possível acessar facilmente quaisquer comandos do Git, desde os mais conhecidos aos menos usados, sem a obrigação de memorizar ou consultar a sintaxe desde o primeiro contato;
Incentiva as boas práticas de versionamento de código: apoia na criação de histórico de commits, o que gera benefícios de longo prazo para o projeto;
Integração com o GitHub: projetado para trabalhar com o GitHub, o acesso à sua conta é instantâneo a partir do login e as solicitações são feitas unicamente pela interface do GitHub Desktop refletindo diretamente na conta do GitHub online.

Por que o GitHub Desktop é importante para devs?

Com os aprendizados contínuos sobre versionamento de código e boas práticas de projetos somados ao uso prático do GitHub Desktop, você será capaz de construir o hábito de documentar seus estudos, projetos pessoais e/ou colaborar com outras pessoas.

Conclusão

Neste artigo, abordamos os conceitos básicos do Git, GitHub e GitHub Desktop, os benefícios de utilizar o GitHub Desktop, e os passos práticos para criar e gerenciar um repositório. Esperamos que este guia tenha te ajudado e seja um suporte para você se engajar na construção do seu próprio portfólio no GitHub.

Como criar um repositório de forma prática com o GitHub Desktop was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Top 15 Extensões do Visual Studio Code para Programadores

FEA.dev — Sat, 13 Apr 2024 19:59:07 GMT

O Visual Studio Code é um dos ambientes de desenvolvimento integrado mais populares entre os programadores, graças à sua simplicidade e flexibilidade. Sua vasta gama de extensões é como uma série de pequenos complementos que podem ser adicionados ao VS Code para estender suas funcionalidades básicas e adaptá-lo às necessidades específicas de cada usuário. Desse modo, vamos recomendar neste artigo 15 extensões que podem facilitar e aprimorar a escrita e a edição de código, otimizando a sua produtividade.

1. GitHub Copilot

O GitHub Copilot é uma IA que gera sugestões de preenchimento automático enquanto você codifica, contando ainda com o Copilot Chat, que pode dar suporte a uma variedade de tarefas, como solução de problemas de sintaxe ou dúvidas sobre conceitos gerais de lógica de programação.

Você pode desfrutar do uso contínuo da extensão por meio da realização de uma assinatura paga. Porém, há uma opção gratuita disponível através do GitHub Student Developer Pack. Para preencher o formulário de inscrição e garantir sua licença como estudante, oferecemos um tutorial detalhado no YouTube, cujo link pode ser acessado aqui!

2. VSCode Icons

O VSCode Icons auxilia na identificação visual dos arquivos ao atribuir ícones específicos e relevantes para cada tipo de arquivo, facilitando o reconhecimento rápido das linguagens de programação, dos formatos de arquivos e aprimorando o visual e a organização do explorador de arquivos dentro do programa.

3. Error Lens

O Error Lens facilita a identificação de erros enquanto você codifica, destacando-os na própria linha em que foi diagnosticado. Além disso, a extensão ainda fornece informações adicionais sobre o erro, como mensagens de erro, sugestões de correção ou até mesmo ações rápidas para resolver o problema.

4. Better Comments

A extensão Better Comments é utilizada para categorizar os seus comentários ao longo do código, incluindo categoriais como alertas, tarefas a fazer, informações importantes e dúvidas. É importante pontuar que todas as categoriais podem ser personalizadas nas configurações da extensão e ela suporta uma série de linguagens de programação, como Python, R e SQL.

5. Dracula Official

O Dracula Theme é um esquema de cores criado por um desenvolvedor brasileiro, Zeno Rocha, para oferecer uma experiência visual mais agradável aos programadores. Como o tema combina um fundo escuro e com cores vibrantes, proporcionando um contraste nítido entre diferentes elementos do código, ele oferece um ambiente de fácil leitura que pode ajudar na redução do cansaço visual que costuma ocorrer ao ficar muito tempo utilizando o computador.

6. Bookmarks

Bookmarks é uma extensão valiosa, especialmente quando você escreve programas longos e precisa constantemente navegar por determinadas partes do código com agilidade. Com ela, é possível marcar linhas do código e acessá-las rapidamente, inclusive atribuindo títulos a cada uma delas para facilitar a sua identificação.

7. Prettier

Prettier é uma ferramenta criada para corrigir a formatação do seu código, tornando-o mais bonito e consistente ao seguir uma série de regras de estilo, como espaçamentos, vírgulas, identações e tamanho das linhas. Essa extensão é muito útil não apenas em projetos individuais, mas também em equipe, principalmente ao trabalhar com programas complexos. Além disso, ela pode ser utilizada com várias linguagens, como JavaScript, HTML e CSS.

8. Path Intellisense

O Path Intellisense auxilia a trabalhar com caminhos de arquivos, de modo que, ao digitar um caminho de arquivo (como um caminho para um arquivo CSS, JavaScript, imagem, etc.), ele oferece sugestões automáticas de preenchimento. Dessa forma, é possível evitar erros de digitação e agilizar o processo de referenciar arquivos.

9. LaTeX Workshop

LaTeX é sistema de preparação de documentos muito utilizado nos contextos acadêmico e científico para criar documentos de alta qualidade tipográfica. Nesse sentido, com LaTeX Workshop, os usuários podem editar e compilar esses documentos em diferentes formatos de modo eficiente diretamente no VS Code, contando ainda com recursos como realce de sintaxe, auto completar e verificação de erros.

10. SQLTools

O SQL Tools oferece conexões através do VS Code com os principais bancos de dados SQL, como MySQL, PostgreSQL, Microsoft SQL Server e SQLite. Além da conexão em si, a ferramenta permite ainda executar consultas e exibir seus resultados diretamente do ambientes de desenvolvimento.

11. Jupyter

A extensão Jupyter permite que os usuários criem, editem e interajam com arquivos do tipo notebooks, possibilitando a execução de códigos em linguagens como Python, R e Julia. É importante pontuar que o uso desta extensão depende da prévia instalação dos kernels correspondentes na sua máquina.

12. Rainbow CSV

O Rainbow CSV foi criado para melhorar a visualização de dados em arquivos CSV, os quais são frequentemente utilizados para armazenar dados tabulares. Nesse sentido, ela colore cada coluna ou cada campo com cores distintas, o que facilita a identificação dos dados.

13. Color Highlight

Com Color Highlight, sempre que você digitar um código de cor, seja em formato hexadecimal, RGB, HSL, ou até mesmo palavras-chave de cores em linguagens como CSS, a extensão irá automaticamente destacar essa cor com uma representação visual correspondente. Isso torna mais fácil para visualizar as cores que estão sendo usadas nos estilos de gráficos ou em elementos de design, por exemplo.

14. Indent-Rainbow

Indent-Rainbow é uma extensão que facilita a visualização da estrutura do código ao colorir cada nível de indentação com uma cor diferente. Desse modo, torna-se uma ferramenta útil para aprimorar a legibilidade e a compreensão do código, especialmente em linguagens que dependem fortemente de indentação em sua estrutura, como Python.

15. Live Server

O Live Server é uma ferramenta muito útil para desenvolvedores web que trabalham com HTML, CSS ou JavaScript. Ele permite que você crie um servidor local diretamente a partir do VS Code e visualize as alterações em tempo real no navegador conforme você edita o código.

Essas foram as nossas recomendações por hoje! Mas e vocês, têm mais alguma sugestão além dessas? Compartilhem nos comentários se souberem de mais dicas! E não se esqueçam de nos seguir aqui no Medium e também no Instagram para ficarem por dentro dos nossos conteúdos em primeira mão.

Top 15 Extensões do Visual Studio Code para Programadores was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Análise de Dados: Bloquinhos de Carnaval de São Paulo

FEA.dev — Mon, 11 Mar 2024 21:42:23 GMT

Por Cinthya Beneducci

Esta análise irá trazer algumas estatísticas acerca de uma das datas mais esperadas do ano: o Carnaval! Nós da FEA.dev recebemos acesso a dados referentes aos bloquinhos oficiais de São Paulo em 2024 do BuscaBloco, uma iniciativa que mapeou e disponibilizou informações sobre blocos e desfiles de Carnaval nas cidades de São Paulo e do Rio de Janeiro durante o Carnaval de 2024. Agradecemos ao BuscaBloco pelo fornecimento dos dados. Agora, vamos à análise! O código completo pode ser acessado no Github por aqui.

Os dados podem ser visualizados no Power BI do Busca Bloco. Caso queira ter acesso a base de dados para a realização de projetos, entre em contato com as responsáveis pela iniciativa por meio de seu site ou de seu Instagram.

A base de dado importada consiste em uma tabela de 720 linhas e 11 colunas com as seguintes variáveis, que permitem uma gama interessante de análises:

Nome do Bloco: coluna com dados do tipo object que corresponde ao nome do bloquinho;
Zona: coluna com dados do tipo object que corresponde à zona da cidade de Sâo Paulo em que o bloquinho irá ocorrer;
Itinerário: coluna com dados do tipo object que corresponde ao itinerário programadodo bloquinho;
Estilo Musical: coluna com dados do tipo object que corresponde ao estilo musical predominante do bloquinho;
Cidade: coluna com dados do tipo object que corresponde à cidade em que o bloquinho está localizado;
Latitude: coluna com dados do tipo object que corresponde a latitude do local de início do bloquinho;
Longitude: coluna com dados do tipo object que corresponde a longitude do local de início do bloquinho;
Data: coluna com dados do tipo datetime64[ns] que corresponde ao dia para o qual o bloquinho estava programado no momento de registro;
Dia: coluna com dados do tipo object que corresponde ao dia da semana para o qual o bloquinho estava programado;
Hora: coluna com dados do tipo object que corresponde ao horário programado de início do bloquinho.

Com os dados em mão, li a database como um dataframe utilizando a clássica biblioteca pandas. Após eliminar as observações com valores NaN e fazer alguns pré-tratamentos, obtive um dataframe final de 464 bloquinhos. Este é o resultado pós tratamentos iniciais:

Como sabemos que em época de carnaval os bloquinhos acontecem durante o mês inteiro, não só durante o feriado oficial, o primeiro passo foi adicionar uma colunacarnaval que permita analisar os bloquinhos em três períodos cronológicos distintos: o pré-carnaval, o carnaval e o pós-carnaval. Considerou-se como o período de carnaval os dias 10 a 14 de fevereiro, como pré-carnaval o período anterior ao dia 10/fev e como pós-carnaval o período posterior a 14/fev.

https://medium.com/media/22f58c43fee0bfa4fe4f0129b231dbb0/href

Agora, vamos ver como os bloquinhos estão distribuídos ao longo desses três períodos utilizando a coluna carnaval recém-criada e através do plot de um gráfico de barras. Para deixar os plots mais estilizados, ao longo das análises utilizei o método .annotate para adicionar rótulos nas imagens, formatações de % no eixo y e algumas outras funções e definições de estilo que podem ser vistas em detalhes no código completo.

https://medium.com/media/e4ae206d549c65997806a1f1fc95ee3a/href

Vemos que mais de metade dos bloquinhos não são programados para acontecer durante o carnaval! Na realidade, apenas 34.9% dos bloquinhos estavam programados para o período de carnaval em si. Dos demais bloquinhos, 40.9% eram de pré-carnaval — e o perigo de queimar largada? — e a boa notícia é que 24.1% dos bloquinhos estavam programados para após o feriado, o que significa que mesmo depois da quarta-feira de cinzas ainda tinha coisa pra curtir!

E qual é a zona da cidade de São Paulo onde acontecem mais bloquinhos? Essa é moleza! Vamos aplicar um .value_counts()na coluna Zona e plotar um gráfico de pizza.

https://medium.com/media/c63fa1c48a7181923c13394a4e0452b8/href

Descobrimos que as zonas que lideram o ranking de mais animadas para o carnaval são as oeste, centro e leste, respectivamente. Mas isso é verdade em todos os períodos do carnaval?

Para responder essa pergunta, vamos juntar as duas análises anteriores: controlando por zona, em qual período (pré, durante ou pós-carnaval) mais acontecem os bloquinhos? Os plots agora serão feitos em uma mesma figura, então vamos inicializar a figura com fig, axs = ... e plotar cada gráfico em um axs diferente. Note que isso muda um pouco os nomes dos métodos de estilização da figura.

https://medium.com/media/cac006f8e6199dddbbc69bd12ab25a5e/href

De fato, as zonas oeste e centro dominam o carnaval em todos os períodos, mas a posição de 3º lugar varia entre as zonas centro-sul, leste e norte.

O próximo passo é descobrir quais dias da semana mais tiveram bloquinhos programados. Para isso, novamente, iremos utilizar um .value_counts() , mas na coluna Dia .

https://medium.com/media/d73dab4b335b504b6d513de5173e628e/href

Como a intuição aponta, 81% dos bloquinhos que analisamos tem data marcada no final de semana. Mas será que essa distribuição muda muito quando nós controlamos pelo período do carnaval? Afinal, fora do carnaval “oficial”, é difícil sair para a folia durante semana. Vamos usar um for loop e fazer um subplot para cada período do caranval.

https://medium.com/media/2ed2aeee30b2879f28bfc887bdda4e72/href

Aha! De fato, bloquinhos programados durante semana estão concentrados no feriado oficial. Há registros de alguns bloquinhos pontuais durante semana no pré-carnaval, mas, no pré e no pós, praticamente todos os bloquinhos estão marcados em finais de semana.

E será que o horário médio de início dos bloquinhos varia muito a depender do dia da semana? Para fazer essa análise, vamos criar uma coluna chamada Horário em segundosa partir da conversão dos dados datetime64[ns]da coluna Hora para um número total de segundos. Assim, podemos calcular o horário médio e posteriormente reconvertê-lo para o formato usual, de hh:mm:ss.

https://medium.com/media/b51d4f1be82e24bf63df16cd118fa574/href

O horário médio de início dos bloquinhos ao longo dos dias da semana fica concentrado entre 12h30 e 13h de domingo à terça-feira e a partir das 17h nas quartas e sextas-feiras. Entretanto, o horário médio para quartas e sextas-feiras não é muito representativo, pois, como visto no primeiro gráfico, só há 5 observações nestes dois dias da semana. A caráter de curiosidade, podemos verificar que essas 5 observações aconteceram no pré-carnaval.

https://medium.com/media/9cc700524d0e47704f8faad77c18548e/href

Apesar de já sabermos o horário médio de início dos bloquinhos, vamos ver como fica é distribuição por horário de início com um plot de barras:

https://medium.com/media/7df0d4084aad2f856031128ed231373c/href

A maior parte dos bloquinhos começa às 13h, 14h e 12h, respectivamente. Haja protetor solar 😱. Será que essa distribuição muda muito em diferentes períodos do carnaval?

https://medium.com/media/d952c515c3829627b5817af6bf0d5492/href

A distribuição de bloquinhos por horário não muda muito ao controlarmos por um período do carnaval. Entretanto, é interessante que o intervalo de horários de início diminui substancialmente no pós-carnaval. Para facilitar a análise, vamos visualizar os mesmos dados, mas agora controlados pelas categorias “manhã”, “início da tarde” e “fim de tarde”. Vamos definir “manhã” como os horários até 11h, “início da tarde” como 12h a 15h e “fim de tarde” como 16h+.

https://medium.com/media/4ef009e3fc80ef35ba6d49ab2a89d3f4/href

Também podemos avaliar quais foram os estilos musicais predominantes nesse Carnaval de 2024 a partir da coluna Estilo Musical .

https://medium.com/media/ed525be828c51f6a3339cd108b486479/href

Pelo visto, o samba, “brasilidades” e a fanfarra foram o top 3, disparado! Vamos analisar se esse foi o caso na cidade inteira, controlando por região de São Paulo.

https://medium.com/media/6ab6d02dd6117f618ad6175c1e1c5c99/href

De fato, não parece haver heterogeneidade significativa em termos de preferências por estilo musical.

Por fim, vamos aproveitar que temos as coordenadas geográficas do ponto de partida dos bloquinhos para usar a biblioteca folium, que permite criar mapas interativos para visualizar dados geoespaciais. Para isso, usamos como base um arquivo .json disponível na internet com a delimitação dos municípios do estado de São Paulo, e plotamos sobre esse mapa pontos referentes a cada um dos bloquinhos na nossa database.

https://medium.com/media/45fbc66e910b6d39afd9841c7ef0adae/href

Chegamos ao fim da análise! Espero que tenha gostado dos insights! Se você curtiu, imagino que irá gostar ainda mais do perfil do FEA.dev no Instagram! Estamos sempre disponíveis para contato. Novamente, o código completo pode ser acessado pelo Github. Obrigada pela sua leitura e bom coding!

Análise de Dados: Bloquinhos de Carnaval de São Paulo was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Mudanças no Uso do Solo e Emissão de Gases de Efeito Estufa no Brasil

FEA.dev — Wed, 10 Jan 2024 09:40:52 GMT

Por Rafael Vieira e Lucas Zupolini

Introdução

Nos últimos anos, têm recebido crescente destaque na mídia questões como desmatamento, incêndios florestais e mudanças climáticas. Esses assuntos vêm passando a ocupar o centro de debates políticos e, até mesmo, as discussões corporativas. Segundo estudo do Fórum Econômico Mundial acerca dos maiores riscos globais para os próximos anos, a degradação ambiental, mudanças climáticas e perda de biodiversidade podem impactar de forma crítica a economia mundial e a continuidade dos negócios.

O Brasil, em particular, tem testemunhado uma retomada de elevadas taxas de desmatamento e do avanço da fronteira agrícola. Isso é acompanhado de uma ausência de políticas ambientais efetivas, assim como maior inércia dos órgãos públicos responsáveis pela fiscalização e aplicação da legislação existente.

A conversão de vegetação nativa em pastagens e áreas de cultivo, especialmente através de queimadas, é uma prática comum no Brasil. Além da perda das florestas, outros processos também são responsáveis pela liberação de gases de efeito estufa (GEE) no país, como uso de combustíveis fósseis para geração de energia, emprego de agrotóxicos e fertilizantes, criação de gado e cultivo de lavouras. O retrocesso institucional observado no país, particularmente nos últimos anos, deve exacerbar a relação entre os processos de desmatamento e emissão de gases-estufa.

Diversos estados brasileiros assumem posturas distintas em relação a esses problemas, através de políticas que, direta ou indiretamente, fomentam o desmatamento em detrimento de um desenvolvimento sustentável e consciente das questões climáticas. Dessa forma, é interessante se analisar a evolução histórica de ambos os parâmetros, desmatamento e emissão de GEE, ao longo do território brasileiro.

Atenção: esse texto foi escrito para um público amplo, não requerendo qualificações prévias dos leitores. Caso esteja interessado em informações adicionais ou na metodologia, por favor leia o código comentado, cujo link está disponível no fim do artigo.

Extração de Dados

A fim de se fazer um comparativo entre emissões de GEE e mudanças no uso do solo, foram utilizadas duas fontes de dados, ambas disponibilizadas pela Base dos Dados. A primeira foi derivada do mapeamento de cobertura e uso do solo do MapBiomas. O banco de dados traz um conjunto bastante detalhado de informações acerca da transição de biomas por estado. Para simplificação, focamos apenas nas transições de ‘nível 0’, ou seja, entre natural e antrópico, configurando uma área de desmatamento, e entre antrópico e natural, isto é, uma área de regeneração. Os dados foram extraídos a partir de arquivos .csv (“comma separated values”), explorados e manipulados com a biblioteca Pandas.

Em seguida, os dados foram simplificados para manter apenas as informações de “nível 0” (de natural para antrópico e de antrópico para natural) usando a função .groupby seguida de .sum(), conforme o código:

https://medium.com/media/58b8d078cdccc04665bce1d5a9de6143/href

A segunda base de dados é composta pelas emissões de gases do efeito estufa (GEE), de modo que esses dados foram extraídos no Sistema de Estimativas de Emissões e Remoções de Gases de Efeito Estufa (SEEG), utilizando-se novamente a biblioteca Pandas para a análise dos dados.

Como é possível verificar abaixo, observam-se os dados sobre emissão e transição de biomas a partir de 1970 e 1986, respectivamente.

https://medium.com/media/058a981de3798bde7da33d4fd416a8e0/href

Análise dos Dados

O uso de ferramentas do Pandas como DataFrame.head(), .columns, pandas.index e .unique() foram primordiais para a compreensão da estruturação dos dados e de como trabalhá-los.

Numa análise inicial da base de dados de emissões, nota-se uma frequência elevada de células nulas. A própria base de dados alerta para a incomparabilidade entre os períodos de 1986 a 1990 e os anos restantes. Dessa forma, quantificamos a proporção de dados nulos no período e encontramos 44,5% das células com valores nulos na coluna.

#Verficando número de valores nulos para emissões entre 1986 a 1990
n_cel_nulo = (gases_est.loc[(gases_est['ano'] > 1985)&(gases_est['ano'] < 1991)]['emissao'] == 0).sum()
print(f'{n_cel_nulo} células possuem valores nulos para emissões entre 1986 e 1990')
n_cel_total = len(gases_est.loc[(gases_est['ano'] > 1985)&(gases_est['ano'] < 1991)]['emissao'].index)
print(f'O número total de dados no período é {n_cel_total}')
print(f'Ou seja, no período, {n_cel_nulo/n_cel_total:.1%} dos dados são nulos')

145967 células possuem valores nulos para emissões entre 1986 e 1990

O número total de dados no período é 327675

Ou seja, no período, 44.5% dos dados são nulos

Dessa forma, optamos por analisar o recorte histórico entre 1990 e 2019 para ambas as bases de dados.

Além disso, para simplificar o entendimento e visualização das informações, optou-se por trabalhar apenas com parte do conjunto de dados. Para a transição de biomas, analisamos o “desmatamento líquido”, ou seja, áreas desmatadas subtraídas de áreas regeneradas. A base de dados apresenta-as como áreas de transição de uso “natural para antrópico” e de “antrópico para natural”, respectivamente.

Já para as emissões, inicialmente, desconsideramos informações como emissões por atividades e diferentes tipos de gases de efeito estufa (GEE). Dessa forma, trabalhamos com as emissões totais.

Para respondermos à pergunta “quais estados brasileiros mais desmataram no período?”, uma questão mostra-se de grande relevância. Existem unidades federativas (UF) com áreas e históricos de cobertura de vegetação bastante discrepantes. A conversão de uma dada área para uso antrópico em um estado muito grande pode ser pouco relevante quando comparada a uma perda anual de vegetação de mesma magnitude em um estado pequeno. Para ilustrar o problema, vamos analisar as diferenças entre desmatamento líquido absoluto, em hectares, e relativo, em porcentagem de área total da UF.

O primeiro passo foi criar uma coluna adicional no dataframe com as áreas percentuais de transição de bioma. Para isso, fez-se a divisão das áreas convertidas absolutas pela área total de cada estado. Isso foi facilitado pela criação prévia de um dicionário e um dataframe derivado deste com as siglas e as extensões territoriais de cada UF.

#Essa alça faz uso da lista com áreas dos estados
for x in estados:
  df_bioma_n0.loc[x, 'area_%'] = df_bioma_n0.loc[x,'area_ha']/area_estados.loc[x][0]

#Segregando dados por de_nivel_0 = antropico -> natural
df_annt = df_bioma_n0.loc[(df_bioma_n0['de_nivel_0'] == 'antropico') & (df_bioma_n0['para_nivel_0'] == 'natural')]

#Segregando dados por de_nivel_0 = natural -> antropico
df_ntan = df_bioma_n0.loc[(df_bioma_n0['de_nivel_0'] == 'natural') & (df_bioma_n0['para_nivel_0'] == 'antropico')]

#Calculando desmatamento (natural -> antrópico) líquido da regeneração (antrópico -> natural)
df_desm_liq = df_ntan.copy(deep=True)

df_desm_liq['area_liq'] = df_ntan['area_ha'] - df_annt['area_ha']
df_desm_liq['area_liq_perc'] = df_ntan['area_%'] - df_annt['area_%']
df_desm_liq.drop(columns= {'area_ha', 'area_%', 'de_nivel_0', 'para_nivel_0'}, inplace=True)

Analisamos o efeito do tamanho do estado sobre as taxas de desmatamento líquido comparando UFs selecionadas de proporções e históricos de desmatamento variados. Podemos notar que grandes estados na fronteira agrícola, como Pará (PA) e Mato Grosso (MT), possuem taxas anuais de perda de floresta líquida notoriamente elevadas.

Por outro lado, corrigindo-se o desmatamento pela área da UF, Rondônia (RO) e Mato Grosso (MT) destacam-se como exibindo taxas persistentes de perda de vegetação entre 1 e 2% de seus territórios por ano.

Para compreendermos quais estados possuem perdas acumuladas de vegetação elevadas ao longo do período analisado, agrupamos os dados por conjuntos de anos (décadas de 1990 e 2000, 2011–2016 e 2016–2019). Em seguida, criamos um algoritmo para verificar os estados com as cinco maiores perdas relativas de cobertura vegetal em cada um desses grupos e destacar, em uma tabela, aquelas UFs que aparecem três ou quatro vezes associadas aos maiores desmatamentos.

Perdas de vegetação, em porcentagem do território estadual, em conjuntos selecionados de anos. Em vermelho, Rondônia (RO) e Maranhão (MA) aparecem nos quatro conjuntos, enquanto Mato Grosso (MT) e Tocantins (TO), em laranja, aparecem três vezes.

Num primeiro momento, nota-se que, mesmo entre os estados com maiores perdas percentuais de vegetação, há uma tendência de redução na intensidade do desmatamento. Todavia, há, no geral, grande persistência entre os estados que mais desmataram ao longo das diversas décadas, com destaque para RO e MA.

Simultaneamente, analisamos as tendências históricas de desmatamento líquido e emissões totais de GEE no Brasil. Os dados são apresentados como linhas contínuas, porém queremos destacar alguns anos em particular, em que são observados picos (máximos e mínimos) tanto de desmatamento quanto de emissões totais. Para isso, usando Axes.scatter(), plotamos os dados destes anos no mesmo gráfico de linha contínua, gerado por Axes.plot, e inserimos uma caixa de texto com o ano em questão. Um extrato deste código seria:

fig, ax = plt.subplots(1,2, figsize=(14,7)) # Focaremos apenas no ax[0] relativo a linha contínua
ax[0].plot(df_desm_BR.ano, df_desm_BR.area_liq, linewidth=2.5, color='firebrick')
ax[0].scatter(dest_desm.ano, dest_desm.area_liq, marker='o', color='darkred')
for i in range(len(dest_desm)):
  ax[0].text(dest_desm['ano'].iloc[i]*1.0002, dest_desm['area_liq'].iloc[i]*1.011, str(dest_desm['ano'].iloc[i]))
ax[0].set_xlabel('Anos', fontsize=16)
ax[0].set_ylabel('Área desmatada líquida anual (ha)', fontsize=16)
ax[0].set_title('Desmatamento líquido nacional', fontsize=17)

Uma análise inicial sugere comportamentos próximos entre as duas variáveis. Embora representadas em escalas distintas, ambas exibiram máximos evidentes em 2003. Em seguida, o desmatamento atingiu seu menor valor em 2009, acompanhado da mínima de emissões em 2010. Em 2016, ambos voltaram a apresentar valores elevados, para reduzirem novamente em 2017, para desmatamento, e 2018, para emissões totais.

Para um melhor entendimento do padrão de emissões e sua relação com o desmatamento líquido, analisamos as emissões por atividade, destacando anos em que parece haver dessincronização entre as duas variáveis, como 2009–2010 e 2017–2018. As atividades “Energia” e “Mudança e Uso da Terra e Floresta” destacam-se como principais responsáveis pelas emissões, enquanto as demais atividades possuem valores de menores proporções.

De acordo com os dados analisados, a atividade de mudança no uso do solo assume valores negativos a partir de 2008, indicando uma captura líquida de GEE. Entretanto, mesmo no início do período, de acordo com a base de dados de transição de biomas, observa-se um desmatamento líquido, apontando para uma liberação de carbono superior à sua absorção. Tal divergência entre as bases de dados pode ser decorrente das metodologias de estimativas, particularmente para emissões de GEE.

Em seguida, fizemos uma análise visual dos padrões de desmatamento líquido absoluto e emissão de GEE por estado em diferentes décadas. Retomamos a análise para os intervalos de anos de 1990–2000, 2001–2010, 2011–2015 e 2016–2019. Para associar as informações espaciais de desmatamento e emissões a cada estado, utilizamos o pacote Geopandas e os limites estaduais georreferenciados do IBGE, contidos em um arquivo shapefile.

Podemos notar que nos períodos iniciais, o desmatamento líquido concentrava-se em alguns poucos estados, principalmente MT e PA. A partir do período entre 2011–2015, todavia, valores elevados encontram-se em diversos estados, como PA, MT, TO, MA, RO e RS. Em comparação, o padrão dos principais estados emissores de GEE se assemelha bastante ao de desmatamento, notoriamente, nos anos iniciais (1991–2000). A partir do período 2001–2010, UFs como SP, RJ e MG somam-se aos principais emissores, que abarcam também MT e RO.

A divergência entre estados “campeões” de desmatamento e maiores emissores de GEE requer uma melhor investigação. Por isso, examinamos a evolução das emissões por atividade em estados selecionados.

No geral, estados na fronteira agrícola, incluindo PA, RO e MT, têm como principal atividade geradora de emissões a transição de uso do solo. O PA, como exemplo, exibe um máximo de emissão decorrente dessas atividades em 2007, decrescendo em seguida e mantendo valores negativos, ou seja, de absorção líquida de GEE, entre 2009 e 2018.

Por outro lado, alguns estados, como RJ e SP, têm suas maiores emissões provenientes da geração de energia. Neste caso, em particular, os maiores valores ocorreram nos anos de 2012, 2013 e 2014. Já as emissões por mudança de uso do solo, nestas UFs, são consideravelmente menores, assumindo valores negativos em algumas situações, como SP a partir de 2004.

Conclusão

A partir dessa análise exploratória, podemos tirar uma série de conclusões sobre o cenário brasileiro. Primeiramente, apesar dos níveis atuais tanto de emissões totais quanto de desmatamento líquido serem inferiores a décadas anteriores, os valores encontram-se bastante elevados e representam entraves aos acordos climáticos assumidos pelo país.

O cenário brasileiro é marcado por estados mais industrializados e com níveis elevados de emissões, assim como UFs de menor industrialização, porém com níveis de geração de GEE igualmente preocupantes. No geral, no primeiro caso, estes territórios exibem maior participação de fontes energéticas nas emissões e menores taxas de desmatamento, embora alguns possam ainda configurar entre os estados com as maiores conversões de vegetação. Já no segundo grupo, comumente encontram-se estados na fronteira agrícola, cuja principal atividade emissora é a mudança no uso do solo, e detentores de taxas de desmatamento bastante elevadas.

Apesar desse cenário diverso, o volume de emissões brasileiro é historicamente marcado pela conversão de cobertura vegetal, associada a um modelo de desenvolvimento insustentável. Dessa forma, tanto a partir de uma análise histórica quanto de uma investigação espacial, é possível apontar uma relação entre o desmatamento e as emissões ao longo do território nacional.

link para o acesso ao código do artigo:

https://colab.research.google.com/github/lzupolini/dev_projeto_final/blob/main/ProjFinal_Dev16FEB23.ipynb

Mudanças no Uso do Solo e Emissão de Gases de Efeito Estufa no Brasil was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Análise de dados: Aluguel de Imóveis em São Paulo

FEA.dev — Wed, 10 Jan 2024 09:40:32 GMT

Por Ana Werneck, Felipe de Souza, Kim Ju Hyang e Mateus Pamio

Introdução:

Em nosso projeto final da capacitação em Python realizamos a análise de uma base de dados sobre aluguéis de imóveis em São Paulo. O tema aluguel de casas é um tema de extrema relevância em qualquer lugar do mundo, mas especialmente em uma metrópole como São Paulo, que é habitada por mais de 12 milhões de pessoas. O assunto é bastante complexo e amplo e, por isso, é pauta constante de discussões públicas e acadêmicas. Por essa razão, nosso grupo se interessou por compreender melhor as dinâmicas e nuances do mercado imobiliário na cidade de São Paulo. Consideramos que, dada a relevância e recorrência do assunto para todos nós, seria interessante explorá-lo em nosso projeto final.

O dataset a ser analisado está disponível em: https://www.kaggle.com/datasets/renatosn/sao-paulo-housing-prices.

A base de dados contém informações sobre aluguéis na cidade de São Paulo extraídas da plataforma QuintoAndar.

A partir dos dados de mais de 11 mil propriedades incluídas no dataset, é possível analisar diversos aspectos e estabelecer relações entre as diferentes variáveis, de modo a fornecer interessantes conclusões acerca do cenário de aluguéis imobiliários na cidade de São Paulo e dentro de cada zona.

Hipóteses:

A nossa análise foi pautada de acordo com três hipóteses elaboradas pelo grupo. Elas tinham como objetivo analisar diferentes aspectos da base de dados que poderiam fornecer bons insights sobre o cenário imobiliário de São Paulo.

A localização do imóvel em SP impacta o valor do aluguel por m² e o valor total a m². Os imóveis localizados na região do Centro Ampliado possuem os valores mais altos.
O tipo de imóvel influencia no aluguel e valor total por m². O tipo mais caro de imóvel é casa em condomínio e o mais barato, studio e kitnet.
Diferentes tipos de imóveis se concentram em diferentes localizações de SP. Por exemplo, o Centro Ampliado possui mais apartamentos.

Tratamento de dados:

Para começar nosso projeto, primeiro importamos algumas bibliotecas cruciais para a realização da análise.

Input

https://medium.com/media/502b03744c11ac39035cd8142f08dfb9/href

Padronização e categorização dos nomes de bairros pela zona

Ao importar nosso dataset, inicialmente identificamos 1199 nomes de bairros distintos. No entanto, notamos que havia variações nos nomes de bairros que se referiam ao mesmo local, como “Vila Ré” e “Vila Re”.

Assim, foi necessário uniformizar as nomenclaturas de cada um. Para isso, usamos a biblioteca “Unicode” com o objetivo de remover os acentos e algumas funções da biblioteca “Pandas” como “str.lower()” que serve para deixar todas as palavras em minúscula.

https://medium.com/media/02b9e6a405c49156b04271390f571401/href

Depois desse procedimento, vimos que 150 observações foram uniformizadas, resultando 1049 bairros diferentes. Ainda assim, para viabilizar nossas análises, optamos por categorizar em diferentes zonas.

Em princípio, planejávamos utilizar as cinco regiões clássicas do município de São Paulo (Norte, Sul, Leste, Oeste e Centro). Porém, pensando em nossas hipóteses, buscamos encontrar subdivisões que levassem em conta critérios não só geográficos, mas também socio-econômicos. Dessa forma, estaríamos evitando que bairros com características drasticamente diferentes fossem tratados da mesma forma, como Jardim Paulista e Jardim Ângela. Em nossas pesquisas, nos contentamos com uma divisão elaborada pela Fundação Seade. A partir dela, adicionamos à nossa base de dados uma nova coluna denomindada “Zona” , na qual classificamos os bairros em cinco zonas (Centro Ampliado, Leste 1, Leste 2, Sul, Norte), de acordo com o mapa abaixo.

Subdivisão em zonas do município de São Paulo utilizada em nossas análises.

https://medium.com/media/c983e0f7c48d04b84e269db51b6d1a78/href

Primeiras 10 linhas do DataFrame após primeira etapa do tratamento de dados.

Tratamento de Dados - parte II

Em seguida, tratamos o resto dos dados, tomando os seguintes passos:

Verificar se existe algum dado vazio nas observações
Verificar se existem as duplicatas
Eliminar outliers de cada variável, usando box-plot para as colunas de interesse (nesse caso, coluna “área”, “aluguel” e “total”
Eliminar outliers no caso de multivariáveis com a biblioteca “PyOD”

Com esses procedimentos feitos, podemos agora entrar na parte de análise das nossas hipóteses.

Hipótese 1

A localização do imóvel em SP impacta o valor do aluguel por m² e o valor total(incluindo condomínio e IPTU) por m². Os imóveis localizados no Centro Ampliado devem possuir valores mais altos.

Com o objetivo de testar a veracidade da primeira hipótese, buscamos construír alguns gráficos que pudessem fornecer conclusões ao seu respeito.

GRÁFICO 1:

https://medium.com/media/955a4874a51df9f3028646c4a52456a8/href

O primeiro gráfico estabelece os valores correspondente ao aluguel por m² em cada uma das regiões analisadas. Traçamos as linhas de aluguel e valor total (que inclui taxas de serviço e impostos), mas como previsto, elas progridem de forma semelhante.

GRÁFICO 2:

https://medium.com/media/f6d93bf9a1885d9afd0a4140f65cfee9/href

O segundo gráfico, por sua vez, compara os bloxpot's dos valores totais por m². A partir dele pudemos analisar a dispersão desses valores, assim, além das informações sobre valores médios obtidas no primeiro gráfico, pudemos notar como se concentram os valores totais por região. Por exemplo, percebemos que os valores no centro variam mais, ao passo de que os da zona Leste 2 se concentram mais ao redor do valor da mediana.

Conclusão da hipótese 1

A partir dos resultados, a hipótese 1 se confirma. Os valores do preço por médio por metro quadrado varia de acordo com a localidade e o centro no geral é mais caro.

Das 5 regiões, observamos que o Centro Ampliado apresenta o maior valor médio de aluguel por metro quadrado, enquanto o valor mais baixo é encontrado em Leste 2. A zona norte também tem uma média por metro quadrado mais baixa. Já a leste 1 e a zona sul têm uma média no meio termo, sendo ambas aproximadamente.

É possível que essa grande variação ocorra devido ao Centro Ampliado abrigar bairros nobres e boêmios, além de ser o centro tecnológico e financeiro da cidade, o que confere uma vantagem competitiva ao Centro Ampliado, tornando-o ainda mais atrativo para empresas e profissionais que buscam estar no coração da atividade comercial e empresarial.

Por outro lado, Leste 2 e Zona Norte, como zonas mais extremas da cidade, podem não oferecer o mesmo nível de infraestrutura e comodidades encontradas no Centro Ampliado. Essa distância em relação ao centro financeiro e tecnológico, aliada a uma possível menor oferta de serviços e conveniências, contribui para que os valores de aluguel por metro quadrado sejam mais baixos nessas regiões.

Apesar de tudo isso, deve-se mencionar que um imóvel no Centro não será necessariamente mais caro do que algum de outra região, pois há variações nos preços da região, de forma que no Centro há algumas moradias mais baratas do que em outras regiões. Assim, o preço médio mais alto é apenas no geral, mas não significa que por estar no Centro Ampliado um imóvel será necessariamente mais caro.

Hipótese 2:

O tipo de imóvel influencia o valor do aluguel e o valor total por m². O mais caro deve ser casa em condomínio, e o mais barato, studio e kitnet.

Para começar, tiramos a média dos valores do aluguel e totais por metro quadrado dos diferentes tipos de imóveis e montar um dataframe.

https://medium.com/media/cb6065cf520439175adde78d6385e225/href

Para visualizar, plotamos um gráfico com os valores médios por m² para cada região.

Após analisarmos o gráfico, surgiu uma questão: essa diferença de preço é causado pelas regiões, ou seja, por haver uma concentração diferente de tipos de imóveis por região, ou é decorrência do tipo de imóvel, que influencia no preço?

Para saná-la, plotamos um gráfico com os valores dos tipos de imóveis para cada região, isolando esse fator.

https://medium.com/media/f3ec3a5eafab768dd84b4d5d0baf3fcd/href

Conclusão da Hipótese 2:

Observa-se que, na verdade, os Studios e Kitnets são os imóveis com o maior valor por metro quadrado em todas as zonas analisadas, enquanto as casas apresentam o menor valor por metro quadrado.

Portanto, ao avaliar o valor total por metro quadrado em diferentes zonas, é essencial considerar não apenas a localização, mas também o tipo de imóvel em questão, pois esse fator também desempenha um papel significativo nas flutuações dos preços. Isso auxiliará compradores, vendedores e investidores a tomarem decisões mais embasadas e assertivas no mercado imobiliário.

Hipótese 3:

O Centro Ampliado apresenta uma concentração significativamente maior de apartamentos em relação a outros tipos de imóveis.

O código a seguir foi criado para podemos entender como os diferentes tipos de propriedades estão distribuídos nas diferentes áreas da cidade.

https://medium.com/media/5f91a4972e01eb7bdd97a6f59566e8d0/href

Podemos ver a seguir um gráfico que ajuda na visualização da concentração dos tipos de imóveis por região:

Conclusão da Hipótese 3:

Cerca de 63.9% das unidades na região são apartamentos, mas essa tendência é comum em todas as áreas da cidade. Em geral, apartamentos são a opção mais comum, seguidos por casas, studios, kitnets e casas em condomínio, com pequenas variações nas proporções entre as regiões. Isso ocorre porque São Paulo possui uma grande quantidade de apartamentos disponíveis, o que se reflete nos registros do Quinto Andar.

Além disso, devido à alta demanda, há uma oferta significativa de apartamentos pequenos nas plataformas de aluguel de imóveis, tornando o aluguel de apartamentos uma escolha atraente para os proprietários.

Conclusão: Tendências do Mercado Imobiliário em São Paulo

A predominância de apartamentos no mercado imobiliário de São Paulo é impulsionada pela demanda por unidades compactas e acessíveis, especialmente em áreas urbanas movimentadas. A praticidade e eficiência no uso do espaço tornam os apartamentos, principalmente studios e kitnets, populares entre uma população que valoriza a mobilidade e a proximidade com centros urbanos. Além disso, os custos mais baixos atraem tanto compradores em busca de moradia quanto investidores interessados em aluguéis. No entanto, casas em condomínio continuam a ser uma opção para aqueles que desejam mais espaço, privacidade e segurança, sendo procuradas por famílias maiores.

Essa tendência de predominância de apartamentos está em linha com esforços para tornar as unidades mais sustentáveis e adaptadas às necessidades dos moradores urbanos, com a integração de tecnologias inteligentes e espaços compartilhados. Em resumo, São Paulo continuará a oferecer uma variedade de imóveis, mas os apartamentos devem permanecer como a opção mais proeminente, atendendo às necessidades de uma população em crescimento e em busca de habitações práticas e acessíveis.

Análise de dados: Aluguel de Imóveis em São Paulo was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Preço dos Carros no Brasil: Análise de Dados com Python

FEA.dev — Wed, 10 Jan 2024 09:40:12 GMT

Por Guilherme Freitas, Henrique Lindoso e Milena Ramos

Contextualização:

Com a crescente demanda por veículos automotores, torna-se imprescindível compreender as tendências e os fatores que afetam o preço dos carros em território brasileiro, fato que nos motivou a desenvolver este trabalho e sua publicação.

Neste estudo, dedicaremos nossa atenção ao exame dos preços dos carros no Brasil, utilizando Python como nossa ferramenta de análise. Exploraremos uma série de variáveis, como marcas, tamanho do motor, combustível utilizado, entre outras, a fim de entender melhor como os valores dos veículos se comportaram ao longo do tempo e porque.

Ao longo do artigo, planejamos responder as seguinte perguntas:

O preço médio dos carros aumenta com o tempo?
O combustível tem impacto no tamanho do motor?
Como as relações implícitas entre as marcas de luxo e populares mostram-se nos dados?

Data set:

Fonte: FIPE
Período: 2021– 2023
Localização: Brasil

No data set utilizado, disponível no Kaggle, temos informações sobre 600 mil carros do ano de 2021 até 2023, com diversas variáveis, expostas a seguir:

year_of_reference: ano correspondente à data que o dado foi coletado;
month_of_reference: mês referente à data que o dado foi coletado;
fipe_code: identificação utilizada para cada modelo de carro no site da FIPE;
authentication: código que autentica a consulta no site da FIPE;
brand: marca de cada carro nos dados;
model: modelo de cada carro nos dados;
fuel: tipo de combustível que o carro comporta (diesel, gasolina ou alcóol);
gear: tipo do câmbio de cada carro (automático ou manual);
engine_size: tamanho do motor em centímetros cúbicos;
year_model: corresponde à versão do modelo de cada carro analisado;
avg_price_brl: média do preço do carro em reais, de acordo com a FIPE;

Importando bibliotecas e carregando os dados:

https://medium.com/media/e04250c785e0d857999461445ec811a4/href

Após o carregamento dos dados, fizemos o tratamento dos dados, desde sua limpeza até a criação de uma coluna para as datas:

https://medium.com/media/173ce43ff8f5576a85233f59a9a0e4be/href

Tempo X Preço Médio:

Utilizando um gráfico do preço médio pelo tempo, objetivamos ver o crescimento dos preços conforme os meses. Utilizamos um gráfico de dispersão, que compara asduas variáveis de interesse, agrupando o dataframe por data, calculando a média dos preços para cada período analisado, e calculada uma reta de regressão linear simples.

https://medium.com/media/f33552d9f066a330dbe99c378324831f/href

Output:

Vemos o crescimento dos preços ao longo dos anos, confirmando nossa primeira hipótese.

Observa-se que, embora haja uma tendência de crescimento conforme os meses, entre 2022/05 e 2022/10 houveram algumas oscilações, em que preços tiveram menores em datas posteriores do que em datas anteriores.

Para verificar a dimensão do crescimento dos preços, comparamos com o IPCA e com o preço médio do barril de petróleo, procurando associação entre as variáveis:

https://medium.com/media/02e20eca4f3f44aa7d1705613637b227/href

Vemos que a taxa de crescimento do preço médio dos carros foi bem superior ao IPCA, com mais de 47% de aumento no fim do período.

Além disso, apesar das altas e baixas do preço do petróleo, não se vê ondulação parecidas na curva de preços médios, levando a acreditar que a preferência por carros econômicos nesses períodos não foram o suficiente para impactar nos preços médios.

Combustível X Tamanho do Motor:

Inicialmente, buscamos entender como era a distribuição de combustível nos dados, para isso criamos um gráfico de setor:

https://medium.com/media/772a2b4af9f33e61a9342d46febd0bc5/href

Observamos a prevalência absoluta da gasolina sobre as alternativas, não obstante, praticamente não houve variação na proporção de combustíveis usados ao longo do tempo. Entendemos que, como não surgiram novas marcas no dataset, e as marcas analisadas, mesmo com novos modelos, sempre mantém a proporção de combustível, a proporção total também não se alterou.

Dando enfoque na pergunta citada, temos as relações entre o combustível e o tamanho do motor, assim como um histograma mostrando sua distribuição para cada combustível:

https://medium.com/media/a1513ff526c1b6fc12daa12d9e2dd67e/href

Concluímos que existe uma relação entre o tipo de combustível utilizado e o tamanho do motor, sendo os motores a diesel os maiores e os a álcool menores. Pesquisando sobre, associamos isso a 3 motivos principais:

Eficiência térmica: Motores a diesel possuem maior eficiência térmica em comparação com motores a álcool, ou seja, esses motores convertem uma maior proporção de energia térmica do combustível em trabalho mecânico, resultando em maior potência e torque para um dado tamanho de motor, quando comparado com o a álcool.
Torque: Os motores a diesel geralmente produzem mais torque em baixas rotações do que os motores a álcool. Isso é importante para aplicações que requerem força de tração em baixas velocidades, como veículos utilitários e caminhões.
Combustão: A combustão nos motores a diesel é controlada por compressão, enquanto nos motores a álcool é controlada por ignição por faísca. A combustão por compressão nos motores a diesel permite taxas de compressão mais altas, o que resulta em maior eficiência, maior potência e, portanto, necessidade de mais volume.

Marcas Famosas X Preço Médio:

Escolhendo as 10 marcas mais conhecidas, decidimos fazer uma comparação de seus preços e quantidade de modelos, em busca de disparidades.

A escolha levou em conta além da marca ser conhecida, incluir na selação tanto marcas de luxo quanto populares, para que pudéssemos perceber caso houvesseem diferenças significativas.

https://medium.com/media/b183194090ec034bf1151e5ae36bc427/href

Com isso, o resultado foi:

Como esperado, as marcas de luxo possuem um preço médio muito elevado comparado com as demais. Além disso, observamos através do gráfico de quantidade de modelos que parece ter uma correlação negativa com os preços, ou seja, marcas com maior variedade de modelos tendem a ter preços mais baixos, possivelmente porque as marcas com mais modelos são justamente aquelas que produzem carros “populares”.

Também comparamos a proporção de combustíveis e o tamanho médio dos motores de cada marca:

https://medium.com/media/cd4f89da9ff4e3f23a8a1695b19bce0e/href

Percebemos que as 2 marcas com os maiores motores utilizam somente gasolina como combustível, possivelmente pela potência dos motores, que exige mais pesquisa, consequentemente, gera a preferência pelo combustível com mais estudos.

Modelos mais Caros X Modelos mais Baratos:

Aprofundando a análise, optamos também por comparar os 5 modelos mais baratos e mais caros de cada data, procurando dispariedades entre a evolução dos preços.
A seguir temos as marcas que mais apareceram nas seleções de mais baratos e mais caros respectivamente, juntamente com sua participação em porcentagem e números de modelos:

Como esperado, as marcas com os modelos mais caros são as marcas de luxo, em especial a Ferrari, uma das mais conhecidas do mundo, que fabrica mais da metade dos modelos mais caros do data set.

Finalmente, criando um gráfico que mostra a evolução, padronizada, do preço desses modelos, temos:

https://medium.com/media/3c70bcb22994bd1eabc79823035bfad6/href

Observamos que o preço médio dos carros mais baratos praticamente acompanhou a inflação, se mantendo como carros populares, enquanto o dos carros mais caros teve um grande salto com um aumento de mais de 100% em 2 anos.

Conclusão geral:

Todas as hipóteses escolhidas foram apontadas como verdadeiras. Em suma, o preço médio dos carros aumentou conforme a variação do IPCA conforme os meses. Motores maiores utilizam diesel de preferência, porém maior parte das marcas do DataSet tinham gasolina como principal, além da distribuição de combustíveis não variar conforme o tempo. Marcas de luxo possuem carros mais caros e menos modelos, o contrário também ocorre. O crescimento percentual de preço dos carros mais baratos cresce acompanhando o IPCA, em contrapartida, carros mais caros duplicaram seus preços no período.

A partir da análise mostrada anteriormente, abre-se uma gama de possibilidade de análises futuras, como criar novos tipos de filtragem para selecionar outras 10 marcas para serem utilizadas na terceira hipótese, afetando na correlação observada entre preço médio e quantidade de modelos.

Preço dos Carros no Brasil: Análise de Dados com Python was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Uma Análise dos Crimes na Cidade de São Paulo Utilizando Python

FEA.dev — Wed, 10 Jan 2024 09:39:26 GMT

Por Adriel Faustino, André Pennini, Fernanda Mees e Vitor Tatiama

A cidade de São Paulo é uma grande metrópole extremamente populosa e cosmopolita, um dos grandes centros culturais e de riquezas mundiais. Contudo, como muitas outros grandes centros urbanos, a cidade é a décadas acometida por uma série de crimes que infelizmente se tornaram para muitos característicos à capital.

Dado este grave fenômeno persistente, foi elaborado este projeto que busca analisar e reconhecer padrões e tendências gerais que descrevem a natureza do crime na capital paulista.

O grupo centrou sua análise especificamente em homicídios a partir de 4 hipóteses que foram verificadas:

Bairros com menor renda em São Paulo tem um maior número de homicídios consumados;
Os homicídios ocorrem om maior frequência a noite e em locais abertos;
Os homicídios aumentaram ao longo do tempo em todas as zonas de São Paulo de uniformemente;
Homens entre 21 a 30 anos tem uma maior taxa de homicídios.

As hipóteses foram testadas a partir do exame dos dados disponibilizados pela Secretaria de Segurança Pública de São Paulo (SSP) compilados em um DataFrame disponível em: https://www.kaggle.com/datasets/markfinn1/crime-data-in-so-paulosp-brazil.

Este artigo apresentará as informações obtidas ao longo da análise além de explorar o processo de produção do projeto e alguns desafios encontrados em seu desenvolvimento.

Início do código

https://medium.com/media/e783a9d02d4962f444a1e802e47b58ce/href

Manipulação e tratamento de dados

# Vendo o tamanho e as informações do dataset
print(homicidio_doloso.shape)
homicidio_doloso.info()

O DataSet apresenta um BO de homicídio doloso por linha, e cada coluna contém uma informação (como ano, número do BO, data, hora, bairro, cidade, etc.), totalizando 54 colunas. Para melhor visualização, foi feito um tratamento por meio da criação de 3 DataFrames diferentes: um com os dados gerais mais importantes; outro com os dados para a análise do sexo; e outro com os dados para a análise de idade (já que sexo e idade tinham muitas informações faltando).

# Selecionando as colunas que eu desejo para fazer as análises
homicidio = homicidio_doloso[["ANO_BO", "NUM_BO", "HORAOCORRENCIA", "PERIDOOCORRENCIA", "BAIRRO", "CIDADE", "UF", "DESCRICAOLOCAL", "STATUS"]]
homicidio = homicidio.rename(columns={
    "ANO_BO": "ANO",
    "HORAOCORRENCIA": "HORA",
    "PERIDOOCORRENCIA": "PERIODO",
    "BAIRRO": "BAIRRO",
    "DESCRICAOLOCAL": "LOCAL",
    })
# Dataframes diferentes para sexo e idade já que possuem poucos dados neles
sexo = homicidio_doloso[["ANO_BO", "NUM_BO", "SEXO", "BAIRRO"]]

idade = homicidio_doloso[["ANO_BO", "NUM_BO", "IDADE", "BAIRRO"]]

Ademais, foram apagadas as linhas com dados nulos e duplicados nos 3 dataframes. Foi necessário remover também os homicídios que não ocorreram no estado de São Paulo, resultando no dataset maior com tamanho (22.036, 9), anteriormente com tamanho (147.033, 54).

Primeira Hipótese

Bairros com menor renda em SP tem maior número de homicídios consumados. A partir da pesquisa foram definidos os bairros de maior e menor renda na região. Acredita-se em uma correlação entre o nível de renda de certas regiões com a frequência de crimes. Entende-se que a desigualdade entre regiões paulistanas tem como uma de suas expressões materiais a ocorrência de crimes violentos .

A comprovação da hipótese indicaria uma relação de dependência entre as condições materiais entre regiões e a taxa de crimes violentos.

*http://produtos.seade.gov.br/produtos/msp/ren/ren2_001.htm

# Função que seleciona os bairros de uma lista dentro de um dataframe e devolve eles agrupados por bairro e também por ano e bairro
def maiuscula(lista):
    # Torna a lista em máiusculo
    i = 0
    for bairro in lista:
        lista[i] = bairro.upper()
        i += 1
    # Verifica os dados do dataframe que estão na lista
    zona = cidade_sp[cidade_sp["BAIRRO"].isin(lista)]
    # Agrupa os dados por bairro e devolve quantas vezes apareceu(Número de homicídios) em ordem decrescente, apenas o top 10
    zona_hom = zona.groupby("BAIRRO").count().sort_values(by="ANO", ascending=False).reset_index().iloc[0:5]
    # Agrupa por ano e depois por bairro e devolve o número de homicídios em ordem decrescente
    zona = zona.groupby(["ANO", "BAIRRO"]).count().sort_values(by=["ANO", "NUM_BO"], ascending=[True, False]).reset_index()
    # Junta os dois dataframes e pega só o que tem em comum pela coluna "BAIRRO"
    zona_unificado = zona.merge(zona_hom["BAIRRO"], how='inner')
    return zona_unificado, zona_hom

A função acima foi utilizada para manipular o DataFrame conforme desejado, ao comparar uma lista com o nome dos bairros selecionados com os bairros já listados no DataFrame.

# Lista com os bairros de menor renda / informações tiradas da internet
bairros_menor_renda_sp = [
    "Heliopolis",
    "Paraisopolis",
    "Cidade Tiradentes",
    "Jardim São Luís",
    "Grajau",
    "Capão Redondo",
    "Brasilandia",
    "JARDIM ANGELA",
    "Jd Peri",
    "Parelheiros"
]
# Usando as funções formuladas anteriormente
menor_renda, homicidios_menor = maiuscula(bairros_menor_renda_sp)

# Lista com os bairros de maior renda / informações tiradas da internet
bairros_maior_renda_sp = [
    "Jd Europa",
    "Jd Paulistano",
    "Vila Nova Conceição",
    "Itaim Bibi",
    "Moema",
    "Morumbi",
    "Brooklin",
    "Alto de Pinheiros",
    "Perdizes",
    "Jardins"
]
maior_renda, homicidios_maior = maiuscula(bairros_maior_renda_sp)

Os bairros selecionados foram então utilizados para filtrar e organizar o banco de dados de forma compreensível para comparação e teste da hipótese.

# Criando os gráficos lado a lado
plt.figure(figsize=(15, 6))

# Encontrando a escala máxima para ambos os DataFrames
max_scale = max(homicidios_menor["NUM_BO"].max(), homicidios_maior["ANO"].max())
# Gráfico 1 - Lado esquerdo
plt.subplot(1, 2, 1)
sns.barplot(x=homicidios_menor["BAIRRO"], y=homicidios_menor["NUM_BO"], data=homicidios_menor, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Número de Homicídios")
plt.title("Homicídios em bairro de menor renda em SP")
plt.ylim(0, max_scale)  # Definindo limite superior do eixo y igual para ambos os gráficos
plt.tight_layout()
# Gráfico 2 - Lado direito
plt.subplot(1, 2, 2)
sns.barplot(x=homicidios_maior["BAIRRO"], y=homicidios_maior["ANO"], data=homicidios_maior, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Ano")  
plt.title("Homicídios em bairro de maior renda em SP")
plt.ylim(0, max_scale)
plt.tight_layout()
plt.show()

As informações coletadas foram utilizadas para a construção de gráficos para facilitar a visualização das disparidades existentes.

Os dados apresentam uma frequência significativamente maior de homicídios em bairros de menor renda, como esperado pela hipótese.

Segunda Hipótese

Acredita-se que homicídios ocorrem com maior frequência a noite em locais abertos. Esta hipótese busca entender aonde e quando manifestam-se a maior parte os homicídios na cidade de São Paulo.

Para este teste os dados disponíveis foram segmentados e ordenados em dois agrupamentos correspondentes às variáveis determinadas: local e período.

# Agrupando Dataframe por local e mostrando a quantidade de homicícios em ordem decrescente por local, apenas o top 10
local = homicidio_consumado.groupby("LOCAL").count().sort_values(by="ANO", ascending=False).iloc[0:11]

# Agrupando Dataframe por periodo e mostrando a quantidade de homicícios em ordem decrescente por por periodo
periodo = homicidio_consumado.groupby("PERIODO").count().sort_values(by="ANO", ascending=False)

# Gráfico de barras para os períodos
plt.figure(figsize=(10, 6))
sns.barplot(x=periodo.index, y=periodo["BAIRRO"], data=periodo, palette="viridis")
plt.xlabel("Períodos")
plt.ylabel("Número de Homicídios")
plt.title("Homicídios por período")
plt.tight_layout()
plt.show()

As informações obtidas quanto ao número de homicídios por período foram representadas por meio de um gráfico de barras.

Como esperado pelo senso comum a maior parte dos homicídios são realizados durante a noite.

# Gráfico de barras para os locais
plt.figure(figsize=(10, 6))
sns.barplot(x=local["BAIRRO"], y=local.index, data=local, palette="viridis")
plt.xlabel("Locais")
plt.ylabel("Número de Homicídios")
plt.title("Homicídios por locais")
plt.tight_layout()
plt.show()

Os dados indicam que de fato a maior parte dos homicídios ocorre em via pública. É também possível observar um representatividade quase absoluta da via pública e residências como locais onde ocorrem homicídios.

# Separando em dois DataFrames diferentes os homicídios em via pública e residência
df_hom_via = homicidio_consumado[homicidio_consumado["LOCAL"] == "Via pública"]
df_hom_res = homicidio_consumado[homicidio_consumado['LOCAL'] == "Residência"]

# Agrupando por local e depois por período e somando as quantidades de homicídios em ordem decrescente para cada local/período
df_hom_via = df_hom_via.groupby([ "LOCAL", "PERIODO"]).count().sort_values(by=["ANO", "ANO"], ascending=[False, True]).reset_index()
# Agrupando por local e depois por período e somando as quantidades de homicídios em ordem decrescente para cada local/período
df_hom_res = df_hom_res.groupby([ "LOCAL", "PERIODO"]).count().sort_values(by=["ANO", "ANO"], ascending=[False, True]).reset_index()
# Criando o gráfico de pirâmide
plt.figure(figsize=(8, 6))
# Gráfico de barras para a Via Pública
plt.barh(df_hom_via["PERIODO"], df_hom_via["NUM_BO"], color="red", label="Via Pública")
# Gráfico de barras para a Residência
plt.barh(df_hom_res["PERIODO"], -df_hom_res["NUM_BO"], color="green", label="Residência")
# Configurações do gráfico
plt.xlabel("Homicídios")
plt.ylabel("Períodos")
plt.title("Gráfico de Pirâmide de Homicídios por Período e Local")
plt.legend()
# Inverte o eixo y para que os períodos fiquem na ordem correta
plt.gca().invert_yaxis()
plt.show()

Por fim colocamos em comparação a ocorrência de homicídios para todos os períodos em apenas as duas localidades mais frequentes para comparar como o número de homicídios se distribui conforme os dois fatores analisados.

Terceira Hipótese

“Os homicídios aumentaram ao longo do tempo em todas as zonas de São Paulo de uniformemente” .Existe a percepção de que ao longo dos anos São Paulo tem se tornado um local mais perigoso e violento. Nossa hipótese busca testar a validade desta percepção além de entender como homicícios variam entre regiões.

Para este teste os bairros de São Paulo foram agrupados em suas respectivas zonas.

# Lista com bairros do centro
centro_bairros = ["Sé Bela Vista", "Bom Retiro", "Cambuci", "Consolação", "Liberdade", "República", "Santa Cecília", "Sé", "Centro"]

centro, centro_hom = maiuscula(centro_bairros)

# Lista com bairros do sul
sul_bairros = ["Campo Limpo", "Capão Redondo", "Vila Andrade", "Capela do Socorro Cidade Dutra", "Grajau", "Socorro", "Cidade Ademar", "Pedreira", "Ipiranga", "Sacomã", "Jabaquara", "M'Boi Mirim", "Jardim Ângela", "Jardim São Luís", "Parelheiros", "Marsilac", "Santo Amaro", "Campo Belo", "Campo Grande", "Santo Amaro", "Moema", "Saúde", "Vila Mariana"]

sul, sul_hom = maiuscula(sul_bairros)

# Lista com bairros do leste
leste_bairros = ["Aricanduva", "Carrão", "Vila Formosa", "Cidade Tiradentes", "Ermelino Matarazzo", "Ponte Rasa", "Guaianases", "Lajeado", "Itaim Paulista", "Vila Curuçá", "Itaquera", "Cidade Líder", "José Bonifácio", "Parque do Carmo", "Mooca Água Rasa", "Belém", "Brás", "Moóca", "Pari", "Tatuapé", "Penha", "Artur Alvim", "Cangaíba", "Penha", "Vila Matilde", "São Mateus", "São Rafael", "São Miguel", "Jardim Helena", "Vila Jacuí", "Sapopemba", "Vila Prudente", "São Lucas"]

leste, leste_hom = maiuscula(leste_bairros)

# Lista com bairros do norte
norte_bairros = ["Casa Verde", "Cachoeirinha", "Limão", "Brasilândia", "Freguesia do Ó", "Jaçanã", "Tremembé", "Perus", "Anhanguera", "Pirituba", "Jaraguá", "São Domingos", "Santana", "Tucuruvi", "Mandaqui", "Vila Maria", "Vila Guilherme", "Vila Medeiros"]

norte, norte_hom = maiuscula(norte_bairros)

# Lista com bairros do oeste
oeste_bairros = ["Butantã", "Morumbi", "Raposo Tavares", "Rio Pequeno", "Vila Sônia", "Lapa", "Barra Funda", "Jaguara", "Jaguaré", "Perdizes", "Vila Leopoldina", "Pinheiros", "Alto de Pinheiros", "Itaim Bibi", "Jardim Paulista", "Pinheiros"]

oeste, oeste_hom = maiuscula(oeste_bairros)

# Criando os gráficos lado a lado

plt.figure(figsize=(35, 10))
# Encontrando a escala máxima para todos os DataFrames
max_scale = max(oeste_hom["NUM_BO"].max(), 
                sul_hom["ANO"].max(),
                norte_hom["NUM_BO"].max(),
                leste_hom["ANO"].max(),
                centro_hom["NUM_BO"].max())
# Gráfico 1 - Lado esquerdo
plt.subplot(1, 5, 1)
sns.barplot(x=sul_hom["BAIRRO"], y=sul_hom["NUM_BO"], data=sul_hom, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Número de Homicídios")
plt.title("Homicídios em bairros da zona Sul de SP")
plt.ylim(0, max_scale)  # Definindo limite superior do eixo y igual para todos os gráficos
plt.tight_layout()
# Gráfico 2 - Lado central esquerdo
plt.subplot(1, 5, 2)
sns.barplot(x=oeste_hom["BAIRRO"], y=oeste_hom["ANO"], data=oeste_hom, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Ano")  
plt.title("Homicídios em bairros da zona Oeste de SP")
plt.ylim(0, max_scale)
plt.tight_layout()
# Gráfico 3 - Lado central
plt.subplot(1, 5, 3)
sns.barplot(x=centro_hom["BAIRRO"], y=centro_hom["NUM_BO"], data=centro_hom, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Número de Homicídios")
plt.title("Homicídios em bairros do Centro de SP")
plt.ylim(0, max_scale)
plt.tight_layout()
# Gráfico 4 - Lado central direito
plt.subplot(1, 5, 4)
sns.barplot(x=leste_hom["BAIRRO"], y=leste_hom["ANO"], data=leste_hom, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Número de Homicídios")  
plt.title("Homicídios em bairros da zona Leste de SP")
plt.ylim(0, max_scale)
plt.tight_layout()
# Gráfico 5 - Lado direito
plt.subplot(1, 5, 5)
sns.barplot(x=norte_hom["BAIRRO"], y=norte_hom["NUM_BO"], data=norte_hom, palette="viridis")
plt.xlabel("Bairros")
plt.ylabel("Número de Homicídios")
plt.title("Homicídios em bairros da zona Norte de SP")
plt.ylim(0, max_scale)
plt.tight_layout()
plt.show()

Os dados indicam uma distribuição desigual das ocorrências de homicídios pela capital paulista. A zona oeste e o centro possuem números absolutos de homicídios menores. A razão pela qual o centro, notório ser uma região mais perigosa da cidade, ter número de homicídios baixos em relação às outras regiões pode estar relacionada a seu tamanho e população relativos a outras regiões da cidade.

# Adicionando a coluna "ZONA" em cada DataFrame
sul['ZONA'] = "Zona Sul"
oeste['ZONA'] = "Zona Oeste"
centro['ZONA'] = "Centro"
leste['ZONA'] = "Zona Leste"
norte['ZONA'] = "Zona Norte"

# Concatenando os DataFrames em um único DataFrame
df_zonas = pd.concat([sul, oeste, centro, leste, norte], ignore_index=True)
# Convertendo as colunas "ANO" e "NUM_BO" para formato numérico
df_zonas['ANO'] = pd.to_numeric(df_zonas['ANO'])
df_zonas['NUM_BO'] = pd.to_numeric(df_zonas['NUM_BO'])
# Agrupando os dados por zona e bairro, somando o número de homicídios
df_grouped = df_zonas.groupby(['ANO', 'ZONA']).sum().reset_index()
# Plotando o gráfico de linha
fig = px.line(df_grouped, x='ANO', y='NUM_BO', color='ZONA', line_group='ZONA', title='Progressão dos Homicídios por Zona em SP')
fig.update_layout(xaxis_title='Ano', yaxis_title='Número de Homicídios', legend_title='Zona')
fig.show()

A evolução do número de homicídios por região ao longo do anos também indica uma desigualdade na distribuição de crimes na cidade. A Região Sul apresentou durante o mesmo período um aumento muito maior de homicídios do que outras regiões de São Paulo.

A hipótese foi recusada, visto que a progressão foi diferente em cada zona. Nos últimos 10 anos, a quantidade de homicídio aumentou principalmente na Zona Sul e na Zona Leste, seguidos pela Zona Norte. Já o Centro e a Zona Oeste tiveram um aumento pouco significativo.

Quarta Hipótese

“Homens entre 21 e 30 anos tem uma maior taxa de homicídios.” Há uma impressão de que homens com este intervalo etário são os mais envolvidos nesse tipo de crime, principalmente conta de representações midiáticas em relação a casos de homicídio nos meios de comunicação: jornais, TV, internet — em que a maioria das notícias de homicídios estão vinculadas a homens jovens.

Para esse teste foi feita uma contagem e comparação de homicídios por idade e sexo — ao juntar esses dois dataframes e depois agrupar por idade e por sexo para a contagem.

# Contando os homicídios por sexo
contagem_sexo = sexo["SEXO"].value_counts()

# Juntando os dataframes de idade e sexo e agrupando por sexo de depois idade para mostrar a quantidade em ordem decrescente de homicídios
correlacao_idade_sexo = idade.merge(sexo, how='inner').groupby(["SEXO","IDADE"]).count().sort_values(by=["NUM_BO","NUM_BO"], ascending=[False, True]).reset_index()
# Juntando os dataframes de idade e sexo e removendo outliers
correlacao = idade.merge(sexo, how='inner').set_index('IDADE').drop('150,0').reset_index()

# Gráfico de pizza
contagem_sexo.plot(kind="pie", autopct='%1.1f%%', startangle=90)
plt.title("Distribuição dos Homicídios por sexo")
plt.ylabel("Sexos")
plt.axis('equal') 
plt.show()

Os dados indicam uma grande predominância masculina a execução de homicídios.

# Tornando a coluna 'IDADE' em integer
correlacao_idade_sexo['IDADE'] = correlacao_idade_sexo['IDADE'].str.replace(',', '.').astype(float).astype(int)

# Plotando um boxplot para verificar outliers
plt.figure(figsize=(8, 6))
sns.boxplot(x=correlacao_idade_sexo['IDADE'])
plt.title('Boxplot das idades')
plt.xlabel('IDADE')
plt.show()

Além de um único outlier correspondente a uma pessoa de 150 anos, os dados possuem uma distribuição natural.

# Tornando a coluna 'IDADE' em integer  
correlacao['IDADE'] = correlacao['IDADE'].str.replace(',', '.').astype(float).astype(int)

# Definindo as faixas etárias
faixas_etarias = [0, 10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
# Criando coluna 'Faixa Etária'
correlacao['Faixa Etária'] = pd.cut(correlacao['IDADE'], bins=faixas_etarias, labels=["0-10", "11-20", "21-30", "31-40", "41-50", "51-60", "61-70", "71-80", "81-90", "91-100"])
# Agrupando os dados por sexo e faixa etária e mostrando as quantidades de homicídios para cada faixa etária
correlacao_agrupado = correlacao.groupby(['SEXO', 'Faixa Etária'])['ANO_BO'].count().reset_index()
# Renomeando coluna
correlacao_agrupado = correlacao_agrupado.rename(columns={"ANO_BO": "Homicídios"})
correlacao_agrupado

# Iterando pelos sexos únicos no DataFrame
for sexo in correlacao_agrupado['SEXO'].unique():
    # Selecionando apenas os dados para o sexo atual
    df_sexo = correlacao_agrupado[correlacao_agrupado['SEXO'] == sexo]
    # Adicionando a barra no gráfico
    fig.add_trace(go.Bar(x=df_sexo['Faixa Etária'], y=df_sexo['Homicídios'], name=sexo))
# Personalizando o layout do gráfico
fig.update_layout(title='Número de homicídios por Faixa Etária e Sexo',
                  xaxis_title='Faixa Etária', yaxis_title='Número de Homicídios',
                  title_font_size=12, xaxis_tickangle=-45, barmode='group')
# Separando os dados por sexo
df_feminino = correlacao_agrupado[correlacao_agrupado["SEXO"] == "Feminino"]
df_masculino = correlacao_agrupado[correlacao_agrupado["SEXO"] == "Masculino"]
# Criando o gráfico de pirâmide
plt.figure(figsize=(8, 6))
# Gráfico de barras para o sexo feminino
plt.barh(df_feminino["Faixa Etária"], df_feminino["Homicídios"], color="blue", label="Feminino")
# Gráfico de barras para o sexo masculino (invertendo a ordem)
plt.barh(df_masculino["Faixa Etária"], -df_masculino["Homicídios"], color="red", label="Masculino")
# Configurações do gráfico
plt.xlabel("Homicídios")
plt.ylabel("Faixa Etária")
plt.title("Gráfico de Pirâmide de Homicídios por Faixa Etária e Sexo")
plt.legend()
plt.show()

Ao analisar os gráficos, chega-se a uma conclusão: a quarta hipótese esta correta. A faixa etária de 21–30 apresenta o maior índice de homicídios, apesar de ter pouca diferença comparada com a faixa de 31 a 40 anos. Por outro lado, há uma abundância do sexo masculino envolvido nesses crimes, se comparado ao sexo feminino.

Conclusão

Todas as hipóteses exploradas neste artigo puderam ser testadas a partir das informações publicadas pela SSP. Dentre as 4 hipóteses levantadas, 3 mostraram-se condizentes com os resultados obtidos.

Homicídios de fato ocorrem em sua maior parte em locais públicos durante a noite. Este crimes estão principalmente situados em regiões de menor renda da cidade e são perpetuados principalmente por homens entre 21 a 30 anos, apesar de homens dos 11 aos 60 anos possuírem participação significativa.

Contudo, também pode se observar que, ao longos das últimas duas décadas, o crescimento do crime na cidade de São Paulo foi extremamente distinto entre reiões. Enquanto algumas regiões apresentaram números pouco variantes, outras regiões da cidade apresentaram dramaticos aumentos no número total de homicídios.

Apesar dos resultados satisfatórios encontrados durante a pesquisa. O processo de análise levou a ideias de análises futuras que também seriam relevantes para o melhor entendimento da natureza do homicídios. O grupo tem interesse explorar outras segmentação da população paulistana, como a cor das vítimas e dos infratores, assim como a relação entre estes. Como se desdobraram cada casos e a existência de flagrantes também são fatores que devem ser mais explorados em segunda análise. Além das novas propostas, o grupo também interesse em aprofundar sua análise quantos aos bairros com maior taxa de homicídio e ter uma compreensão mais granular do momento em que os homicídios ocorreram.

Uma Análise dos Crimes na Cidade de São Paulo Utilizando Python was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.

Relação de Vendas de Medicamentos Controlados Ansiolíticos e Antidepressivos Pré e Pós-Pandemia

Gustavo Yuji Osawa Yamachi — Thu, 18 May 2023 19:18:47 GMT

Por Arthur Lopes

Introdução e Contextualização da Análise

Com o processo de integração dos novos membros na entidade FEA.dev, desenvolvi conhecimentos na área de ciência de dados e, com isso, refleti em meu dia a dia sobre quais projetos eu poderia desenvolver com os novos aprendizados. Lendo algumas notícias sobre a pandemia da covid-19 e o aumento percentual médio entre 10% a 20% nas vendas de remédios ansiolíticos e antidepressivos, julguei interessante analisar a quantidade de remédios receitados nos anos pré pandemia, durante a pandemia e pós pandemia.

O objetivo de analisar esses dados é obter uma visão de como momentos de isolação social e crise sanitária podem possivelmente contribuir com o aumento de receitas médicas para remédios específicos. Assim, para simplificar a análise utilizando o banco de dados da SNGPC (Sistema Nacional de Gerenciamento de Produtos Controlados), verificaremos a quantidade de termos dos remédios ansiolíticos e antidepressivos mais comuns receitados pelos médicos neste banco de dados, dessa maneira diminui-se a possibilidade de erro na inserção de quantidade do remédio por farmacêuticos.

Os ansiolíticos considerados foram: Zolpidem, Clonazepam, Bromazepam e Lorazepam. Enquanto os antidepressivos considerados foram: Fluoxetina, Escitalopram, Mirtazapina e Duloxetina. Tais remédios foram selecionados com base em pesquisas de remédios mais receitados e pedidos.

Manipulação de Dados

Inicialmente, foram importadas as bibliotecas necessárias para criação e manipulação dos DataFrames (planilhas/tabelas) e dos gráficos demonstrados posteriormente. Dentre elas estão as bibliotecas Pandas (análise e manipulação de dados), Matplotlib e Seaborn (visualização de dados e plotagem gráfica).

Geopy, por sua vez, é uma biblioteca do Python que basicamente facilita a geolocalização de endereços por coordenadas utilizando várias fontes de dados e geocodificadores de terceiros. o Nominatim é um desses geocodificadores, sendo uma ferramenta de busca e apresentação dos dados através das coordenadas fornecidas.

Por fim, Folium é uma biblioteca para criar mapas interativos e com isso rebuscar as análise de dados, a qual foi a base para fazer o mapa de calor do projeto, importando da biblioteca Folium o pacote “HeatMap”.

https://medium.com/media/03c2e45076861f493b63f2c8606668fa/href

Como a análise é uma comparação dos anos entre 2017 a 2021, cada arquivo CSV representa um banco de dados de um ano diferente.

https://medium.com/media/5590704be747c2e5f5a8b36f344b63f8/href

Visto isso, para uma melhor manipulação dos dados foi necessário concatenar os arquivos CSV com a finalidade de unir o processo de filtragem dos dados. Para isso, foi criado a variável ‘tabela_unica’’.

Tabela concatenada, pt1

Tabela concatenada, pt2

Para selecionar os princípios ativos necessários para a pesquisa, criei uma lista.

Mas o que são Princípios Ativos de um remédio? — São as moléculas de uma substância que possuem efeito terapêutico. Como por exemplo, temos “Cloridrato de Fluoxetina”, “Lorazepam” e “Clonazepam”.

Na coluna “PRINCIPIO_ATIVO” dos arquivos CSV, estão localizados todos os remédios controlados, porém só estamos procurando os remédios ansiolíticos e antidepressivos mais comuns. Logo, criei uma variável “drugs” com uma lista dos remédios específicos que gostaria e a variável “df_drugs”, que juntamente ao método .isin(), me auxiliará a selecionar linhas com valores específicos de uma coluna específica.

https://medium.com/media/4528319e5d265725655f2379c6c6c91b/href

Output df_drugs

Gráficos

Para a confecção dos gráficos dos remédios antidepressivos, utilizei a biblioteca Matplotlib, sendo a seguir o código:

https://medium.com/media/8780e9cb44b8b05b935e56380b000b41/href

Dessa forma, apresento-lhes o gráfico que mostra a relação entre cada remédio e sua venda anual entre 2017 a 2021 (vale ressaltar que a quantidade não é a quantidade de remédios em si, mas o número de termos deste remédio no banco de dados).

E para a confecção dos gráficos dos remédios ansiolíticos, utilizando também a biblioteca Matplotlib, sendo a seguir o código:

https://medium.com/media/552d0c17a06a2749c5d0e375f68930aa/href

Com base nesse conjunto de dados, é possível notar que certos remédios tiveram um aumento em relação aos anos anteriores de forma relevante, como por exemplo o Zolpidem, Mirtazapina e Duolexina.

Além disso, certos remédios obtiveram decréscimo ou estagnação de suas receitas médicas, possivelmente por conta de descobertas que esses remédios podem levar à depressão respiratória, sendo contraindicados em casos de alterações respiratórias. Já em relação aos antidepressivos, verificou-se que alguns remédios como sertralina, fluoxetina, trazodona podem causar riscos cardíacos e alterar resultados em eletrocardiogramas, por isso a exigência de maior cuidado na receita destes remédios.

Um assunto muito debatido entre 2020 e 2021 foi o famoso Kit-Covid, em que estão Ivermectina, Azitromicina, Cloroquina, Hidroxicloroquina, Vitaminas, entre outros. Com análise de dados, busquei verificar se de fato houve uma procura maior destes remédios, com base no banco de dados da SNGPC. Entretanto, infelizmente os dados sobre cloroquina e hidroxicloroquina só foram adicionados a este banco de dados a partir de 2020, então descartei estes remédios da análise, a qual permaneceu apenas os dados da Azitromicina, que teve um aumento considerável de 2019 para 2020.

https://medium.com/media/ed571755cfd87034f260b736a185ac67/href

Mapa de Calor utilizando Pandas e Folium Map

Por fim, utilizaremos uma ferramenta muito bacana do Python, a confecção de um mapa com base na sua base de dados e um “HeatMap” (Mapa de Calor) que mostra a localização das receitas médicas. A programação inicial foi uma análise de quais municípios/capitais do Sudeste tiveram um crescimento de remédios ano a ano.

https://medium.com/media/0d45ff365ec1362b6a7abde754d4642c/href https://medium.com/media/4653f6909b67e09acb705d57bed3fbb5/href

Após a criação das colunas e tratamento dos dados, eu utilizei a nova coluna “UF” (junção das colunas “UF_VENDA” e “MUNICIPIO_VENDA”) para criar novas colunas para latitude e longitude.

https://medium.com/media/3eec31a31b38b4593a8b3780edb7ec5e/href https://medium.com/media/7c6992b4139e9b3ed817a8ff87f6d104/href

Por fim, utilizando a biblioteca Folium, podemos plotar um mapa de calor, em que será possível verificar e analisar quais municípios/estados foram receitados os remédios de pesquisa.

https://medium.com/media/c364ceee430f3f5ab7931fe2b237f304/href

Um recurso interessante é que, quanto mais se aproxima do mapa utilizando o zoom, mais filtrado fica a informação, mostrando exatamente o município, o número de termos dos remédios e o nome do remédio receitado naquele município/capital, como no exemplo a seguir:

Exemplo dos 12 remédios receitados em Bertioga — São Paulo, de 2017 a 2021.

Conclusão

É notável que há um certo aumento de alguns remédios ansiolíticos/antidepressivos, como por exemplo: Escitalopram, Duloxetina, Mirtazapina, Zolpidem. Porém, há também certa estabilização e até queda de outros remédios como por exemplo: Fluoxetina, Clonazepam, Bromazepam e Lorazepam. Portanto, é possível verificar que o então período sensível da pandemia entre 2020 e 2021 comparado ao período pré-pandemia (2018/2019) ocasionou, de forma geral, um aumento na quantidade de remédios nestas categorias. Dessa forma, por meio da análise destes remédios junto ao mapa de calor, pode-se criar diversas análises e reflexões que poderão servir como base para políticas públicas e reflexões para soluções na área da saúde.

Relação de Vendas de Medicamentos Controlados Ansiolíticos e Antidepressivos Pré e Pós-Pandemia was originally published in FEA.dev on Medium, where people are continuing the conversation by highlighting and responding to this story.