Stories by Clébio Júnior on Medium

Escolhendo o Melhor Modelo de Embedding: Combinando correlação semântica e classificação de tópicos.

Clébio Júnior — Mon, 27 Oct 2025 20:46:41 GMT

Um tutorial explicando como podemos avaliar um modelo de embedding utilizando uma abordagem intrínseca com a correlação semântica e extrínseca com a classificação de tópicos por meio do modelo LightGBM.

O trabalho como cientista de dados muitas vezes se concentra em dados numéricos ou categóricos. No entanto, há uma imensa gama de informações valiosas disponíveis em formatos textuais, que também podem ser exploradas para resolver problemas complexos. Dados em linguagem natural são fundamentais em aplicações como análise de sentimentos, classificação e sumarização de textos, entre outras. E, assim como qualquer outro tipo de dado, esses textos precisam ser tratados e preprocessados para que possam ser utilizados de forma eficaz em modelos.

Dentro da etapa de pré-processamento está a utilização de alguma técnica ou modelo de embedding para fazer a representação numérica do texto. Dessa forma, a escolha de um melhor modelo se faz tão necessária. Portanto, neste post, pretendo demonstrar através de duas técnicas simples de correlação semântica e classificação de tópicos como tais modelos podem avaliados.

Neste post serão utilizadas duas técnicas para fazer a avaliação dos modelos de embeddings, mas caso o leitor queira saber mais sobre métricas sobre avaliação de modelos de classificação ou regressão. Deixo para apreciação o meu artigo Indo Além da Acurácia: Entendo a Acurácia Balanceada, Precisão, Recall e F1 score e o Métricas para Regressão: Entendendo as métricas R², MAE, MAPE, MSE e RMSE

Eu também disponibilizei um Notebook no Kaggle que serve como a implementação prática desse estudo Embedding Analysis: Semantic & Topic Evaluation, permitindo explorar conceitos os conceitos na prática.

Avaliação Intrínseca

A avaliação intrínseca examina diretamente as representações vetoriais geradas pelo modelo, verificando propriedades linguísticas e geométricas dentro do próprio espaço de embeddings. Esses métodos são geralmente mais rápidos e fornecem insights diretos sobre o que o modelo aprendeu. Dessa forma, responde a perguntas como: palavras semanticamente similares estão próximas no espaço vetorial? O modelo captura relações analógicas (ex: “rei” — “homem” + “mulher” = “rainha”)?

Correlação Semântica

Para este estudo foi utilizado a base de dados ASSIN2 (Avaliação de Similaridade Semântica e Inferência Textual). Esta é uma base de dados de referência fundamental para a avaliação de sistemas de Processamento de Linguagem Natural (PLN) no português, especificamente no português do Brasil (pt-BR) e europeu (pt-PT).

Esta base oferece pontuações de similaridade semântica atribuídas por humanos, em uma escala de 1 a 5, que quantificam o grau de relação entre premissa e hipótese, conforme exemplificado na Tabela 1. A partir dessas informações, os textos podem ser convertidos em embeddings e, então, calcula-se a similaridade do cosseno entre os vetores resultantes. Quanto maior for a correlação semântica entre premissa e hipótese (conforme avaliado pelos humanos), maior tende a ser o valor de similaridade do cosseno entre seus embeddings. Dessa forma, modelos de embedding que produzam vetores com maiores valores de similaridade do cosseno para pares semanticamente relacionados demonstram uma melhor capacidade de capturar e representar relações semânticas entre textos.

Tabela 1 — Amostra de registros da base ASSIN2, utilizada para avaliar o grau de correlação semântica entre sentenças em língua portuguesa. Cada linha apresenta uma premissa e uma hipótese, que podem ou não expressar a mesma ideia, servindo de base para mensurar a similaridade semântica entre textos.

Avaliação Extrínseca

A avaliação extrínseca utiliza os embedding como variável para uma tarefa específica. Diferentemente da avaliação intrínseca (que analisa propriedades geométricas internas do espaço vetorial), a extrínseca integra os embeddings em sistemas completos, como classificadores de texto, mecanismos de busca ou modelos de perguntas e respostas, e mede seu desempenho final nessas aplicações. Um embedding é considerado eficaz não porque possui uma organização interna perfeita, mas porque efetivamente melhora a acurácia, a eficiência ou a robustez de uma aplicação específica, validando assim seu valor para solucionar problemas concretos de Processamento de Linguagem Natural.

Classificação de Tópicos

Para este estudo, utilizou-se um conjunto de dados composto pelo histórico de notícias publicadas pelo jornal Folha de S. Paulo. A base contém 167.053 artigos, coletados entre janeiro de 2015 e setembro de 2017, cada um registrado com suas respectivas informações: título, URL original, texto integral e categoria temática. As notícias abrangem diversos assuntos, como mercado, política, mundo, entre outros. A Tabela 2 apresenta uma amostra da estrutura e organização dos dados.

Nesta avaliação extrínseca, utilizaram-se as colunas de texto e suas respectivas categorias, com o objetivo de verificar a capacidade dos embeddings em servir como features eficazes para a tarefa de classificação temática de notícias. O desempenho de um classificador treinado sobre essas representações vetoriais oferece uma medida indireta da qualidade do embedding: se o modelo de classificação atinge alta acurácia, isso indica que os embeddings capturam informações semânticas relevantes para distinguir os temas.

É crucial ressaltar, no entanto, que a avaliação extrínseca é contextual e dependente da tarefa. Um embedding que performa bem na classificação de temas de notícias pode não ser ideal para outras aplicações, como análise de sentimento ou tradução automática. Portanto, os resultados obtidos são válidos para este domínio e objetivo específicos, e não constituem um indicador universal de qualidade para os embeddings.

Tabela 2 — Tabela com uma amostra de como os dados estão organizados dentro da base de dados com histórico de notícias do jornal Folha de S. Paulo.

Resultados

Primeiramente mostrarei os resultados da avaliação intrísica. Dentro da Tabela 3 podemos observar o nome dos modelos de embeddings utilizados e o valor do coeficiente de pearson que é o resultado da correlação entre a similaridade do cosseno e o escore de relação entre as frases que é apresentado na Tabela 1. O coeficiente de pearson dentro da Tabela 3. Podemos notar que o modelo que apresentou melhor resultado foi o multilingual-e5-base.

Tabela 3 — Tabela com os valores de cada um dos modelos de embedding utilizados para realizar os coeficientes de Pearson

A avaliação extrínseca foi conduzida com o objetivo de verificar a capacidade dos embeddings em classificar tópicos textuais. Para essa análise, os dados foram divididos em quatro categorias distintas: “cotidiano”, “esporte”, “mercado” e “mundo”. Por representarem temas semanticamente diferentes, espera-se que o espaço vetorial dos embeddings apresente uma boa separabilidade entre classes. O modelo de classificação adotado foi o LightGBM, e a métrica de desempenho utilizada foi a ROC AUC (Área Sob a Curva ROC), que independe de um limiar de decisão específico, fornecendo uma avaliação mais abrangente da capacidade discriminativa do modelo.

Tabela 4 — Valores da métrica ROC AUC, calculados pelo método one-vs-rest, obtidos na avaliação extrínseca de cada modelo com base em seus respectivos embeddings.

Além da análise quantitativa por meio das métricas, também é possível realizar uma avaliação visual da separabilidade entre os temas no espaço vetorial. Como cada modelo de embedding projeta os textos em um espaço de alta dimensionalidade (geralmente muito superior a três dimensões), a visualização direta se torna inviável. Para contornar essa limitação, foi aplicado o UMAP (Uniform Manifold Approximation and Projection), técnica de redução de dimensionalidade que projeta os embeddings em um espaço bidimensional, preservando ao máximo suas relações estruturais. Ao observarmos a Figura 1, nota-se que o modelo multilingual-e5-base apresenta uma separação mais clara entre os grupos temáticos, indicando uma representação semântica mais consistente.

Figura 1 — Visualização gráfica do espaço vetorial transformado pelo UMAP para um espaço de duas dimensões. As marcações são separadas nas cores roxa, azul, verde e amarelo, que correspondem respectivamente as categorias “cotidiano”, “esporte”, “mercado” e “mundo”.

Conclusão

Escolher o melhor modelo de embedding é muito mais do que olhar para uma métrica isolada — é entender como ele representa o significado dos textos e como essa representação se reflete em resultados práticos. Neste artigo, vimos que combinar dois tipos de avaliação — a intrínseca, baseada na correlação semântica, e a extrínseca, usando uma tarefa real de classificação de tópicos — traz uma visão mais completa sobre o desempenho dos modelos.

Os resultados mostraram que o multilingual-e5-base se destacou tanto em capturar relações de sentido entre frases quanto em distinguir temas diferentes de maneira consistente. As visualizações com UMAP ajudaram a enxergar isso de forma intuitiva: os grupos de tópicos ficaram mais bem separados, reforçando o bom desempenho do modelo.

Mas o ponto principal é que não existe um modelo “melhor” de forma absoluta. Cada aplicação tem suas particularidades — o que funciona bem para classificação de notícias pode não ser o ideal para análise de sentimentos ou recomendação de conteúdo. Por isso, entender o contexto e avaliar com mais de uma abordagem é fundamental.

No fim das contas, explorar e comparar embeddings com métricas e visualizações não só melhora o desempenho dos sistemas de PLN, como também ajuda a tomar decisões mais conscientes e embasadas sobre qual modelo realmente faz sentido para o seu problema.

Referência

REAL, Livy; FONSECA, Erick; OLIVEIRA, Hugo Gonçalo. The assin 2 shared task: a quick overview. In: INTERNATIONAL CONFERENCE ON COMPUTATIONAL PROCESSING OF THE PORTUGUESE LANGUAGE, 14., 2020, Anais […]. Cham: Springer, 2020. p. 406–412.
NILC; INTERINSTITUTIONAL CENTER FOR COMPUTATIONAL LINGUISTICS. assin2. São Carlos: NILC-ICMC/USP, 2020. Disponível em: https://huggingface.co/datasets/nilc-nlp/assin2. Acesso em: 25 de Agosto de 2025.
MARLESSON. News of the site FolhaUOL. Kaggle, 2018. Disponível em: https://www.kaggle.com/datasets/marlesson/news-of-the-site-folhauol. Acesso em: 26 ago. 2024.
SCHNABEL, T.; LABUTOV, I.; MIMNO, D.; JOACHIMS, T. Evaluation methods for unsupervised word embeddings. In: MÀRQUEZ, L.; CALLISON-BURCH, C.; SU, J. (Ed.). Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, Portugal: Association for Computational Linguistics, 2015. p. 298–307. Disponível em: https://aclanthology.org/D15-1036/. DOI: 10.18653/v1/D15–1036.
JURAFSKY, Daniel; MARTIN, James H. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition, with language models. 3. ed. [S. l.], 2025. E-book. Disponível em: https://web.stanford.edu/~jurafsky/slp3/. Acesso em: 29 de agosto de 2025. Manuscrito online lançado em 24 de agosto de 2025.

Escolhendo o Melhor Modelo de Embedding: Combinando correlação semântica e classificação de tópicos. was originally published in Data Hackers on Medium, where people are continuing the conversation by highlighting and responding to this story.

Feature Engineering: Técnicas para lidar com dados faltantes em um projeto de ciência de dados.

Clébio Júnior — Fri, 24 Feb 2023 17:07:25 GMT

Tutorial explicando tipos de técnicas para lidar com dados faltantes em bases de dados para treinamento e validação de um modelo de machine learning.

Photo by Ehimetalor Akhere Unuabona on Unsplash

Por diversas vezes durante um projeto de ciência de dados, quando os dados são adquiridos para modelagem, as bases de dados podem apresentar diversos problemas. Dentre eles, um dos mais comuns é a presença de valores faltantes. O valor faltante, ou NaN (do inglês Not a Number), pode parecer um problema muito complicado à primeira vista. Contudo, ele só precisa ser entendido e lidado como qualquer outro tipo de dado. Para apresentar as técnicas relacionadas a dados ausentes e como elas funcionam, nesta postagem pretendo explicar os tipos de valores faltantes (aleatoriamente faltante ou não aleatoriamente faltante) e as diferentes técnicas para obter uma base de dados completa para modelagem.

Todas as técnicas aqui apresentadas precisam ser aplicadas depois que os dados forem divididos em treino e teste. Isso deve ser feito para evitar que haja possíveis vazamentos de informação quando for feito o cálculo da média, mediana ou moda no conjunto de dados completo.

Além disso, neste post há informações relacionadas a média, mediana, moda e como a variável está distribuída. A explicação sobre tais assuntos fica fora do escopo deste post. Por isso que estou deixando links sobre a Moda, Média e Mediana e Assimetria e Curtose para complementação.

Técnicas para Lidar com Dados Faltantes

Um dado faltante é algo comum no cotidiano de um cientista de dados. Eles podem entrar na base de dados por diferentes motivos: erro na inserção manual, erro de digitação ou o dado pode simplesmente não existir. Abaixo são descritos de forma resumida os tipos de dados faltantes e posteriormente são apresentadas as diferentes técnicas com imagens para ilustrar como elas funcionam.

Dados faltantes completamente ao acaso (MCAR — do inglês Missing Completely at Random) são dados que não possuem nenhuma dependência em relação a dados observados ou não observados. Este tipo de dado faltante não apresenta um viés, porém é considerado muitas vezes irrealista.
Dados faltantes ao acaso (MAR — do inglês Missing at Random) são dados faltantes que ocorrem de maneira randômica, mas podemos associar a sua falta a dados observados e não aos não observados.
Dados faltantes não ao acaso (MNAR — do inglês Missing not at Random) são dados faltantes não randômicos que estão relacionados sistematicamente a dados não observados, ou seja, a falta dos dados está vinculada a eventos e fatores que não podem ser mensurados.

Remoção dos Dados Faltantes

Uma das formas mais simples de lidar com NaN é optando pela remoção dos mesmos. Este método é aconselhado para conjuntos de dados que possuem 5% ou menos de dados faltantes e que sejam MCAR. Partindo desse pressuposto, a remoção deles seria como remover aleatoriamente alguns dados do dataset, mantendo assim a distribuição original das variáveis. De maneira resumida, com esta técnica só serão mantidas as linhas que apresentarem dados completos. A Figura 1 representa como o conjunto de dados fica posteriormente a aplicação desta técnica. Pelo fato da base de dados possuir somente 3 linhas completas, somente estas foram mantidas.

Figura 1 — Figura representando o método de remoção de dados faltantes do conjunto de dados. Só permaneceram as três linhas que estão completas, portanto diminuindo a quantidade de amostras que a base de dados possui.

A remoção de NaN pode trazer vantagens e desvantagens. A vantegem é que ela é uma técnica simples e fácil de ser aplicada e a distribuição dos dados é mantida, caso a falta do dado seja MCAR. Como desvantagem tem a possibilidade do conjunto de dados diminuir se os dados faltantes forem abundantes, além da perda de informação, pois serão removidas linhas que possuem dados.

Imputação pela Média ou Mediana

Ao invés de remover os dados faltantes, por que não imputar valores? Um método muito comum para imputação é a inserção da média ou mediana. Ao assumir que os dados são aleatoriamente ausentes, a média ou a mediana podem estar próximas dos valores originais. Porém para este método de imputação é preciso levar em consideração se a distribuição é simétrica (distribuição normal ou gaussina) ou assimétrica (apresenta algum tipo de desvio como apresentado na Figura 2).

Figura 2 — A figura exemplifica uma distribuição de dados que apresenta um desvio para a direita. Nela está representado como a moda, mediana e a média podem ser influênciadas pelo desvio apresentado na distribuição.

Se a distribuição for normal tanto a média quanto a mediana coincidem, portanto pode ser usada qualquer uma das duas. Contudo para casos em que a distribuição é assimétrica (há um desvio dos dados para a esquerda ou para a direita), a média acaba sofrendo mais com os desvios da distribuição como apresentado na Figura 2. Por isso que a mediana é a mais recomendada, pois ela não sofre tanto com o desvio apresentado pela distribuição. Na Figura 3 é exemplificado o uso da média para substituição dos valores faltantes na tabela da esquerda.

Figura 3 — Figura representando a inserção do valor da média nas variáveis numéricas v2 e v3. Os valores inseridos são 30 e 108,2 que são destacados pela cor vermelha.

Algumas vantagens e desvantagens são também encontradas neste método. Esta técnica é uma maneira rápida de conseguir lidar com os valores faltantes e pode ser integrado facilmente durante o deploy do modelo. Porém se a quantidade de NaN for grande pode haver distorções da distribuição original da variável, por esse motivo que é aconselhável utilizar em variáveis que apresentem de 5% a 10% de valores faltantes.

Imputação da Categoria mais Frequente

Além da média e mediana, existe outra forma de inserir valores relacionados a própria variável: inputação da categoria mais frequente. Utilizando a categoria mais recorrente, podemos assumir que os valores faltantes têm uma probabilidade maior de serem desta categoria. Na Figura 4 é representado a inserção da variável “casa” em vermelho; esta é a categoria mais frequente da variável v4.

Figura 4 — A figura representa a substituição do valor faltante pela categoria “casa” em vermelho que é a categoria mais frequente da coluna v4.

Ao se utilizar esta técnica teremos vantagens e desvantagens. Como vantagem: é uma técnica que apresenta uma maneira rápida para substituir os valores faltantes e isso é facilmente integrado em produção. Como desvantagem: esta técnicas pode trazer distorções na frequência das outras categorias se a quantidade de valores faltantes for muito extensa (ultrapassando de 5% a 10% dependendo de sua criticidade).

Imputação de Valor Arbitrário

Até o momento conhecemos técnicas que utilizam características da própria variável para conseguir lidar com o dados ausentes. Neste método os valores faltantes são substituídos por um valor arbitrário. Alguns valores comuns para variáveis numéricas são o número -1 (para variáveis que tenham uma distribuição positiva), -99, 99 ou 999. Já para variáveis categorias há a inserção, por exemplo, de uma categoria “Missing”. Esta é uma técnica para valores faltante MNAR, pois queremos que o dado seja^ sinalizado como faltante. Um exemplo da utilização desta técnica pode ser observado na Figura 5.

Figura 5 — A figura representa a inserção de uma valor arbitrário tanto para variáveis numéricas quanto categóricas. Para variáveis numéricas, o valor inserido foi -99 destacado em vermelhor. Para a coluna v4 a categoria “missing” em vermelho foi inserido no valor ausente.

Vantagens: é possível de uma maneira rápida lidar com dados faltantes; pode ser integrado de maneira rápida com o modelo em produção; e os dados que estavam ausentes são destacados. Desvantagens: há a distorção da distribuição original e da variância; pode mascarar outliers; é preciso ter cuidado para não escolher uma valor que fique perto da média, da mediana ou qualquer outro valor comum da distribuição.

Indicador do Valor Ausente

Os métodos anteriores utilizam técnicas que fazem a imputação de valores na variável, seja por meio de valores extraídos da própria variável ou de valores arbitrários. Esta técnica tem uma abordagem diferente. Ela adiciona mais uma variável ao dataset. Nesta nova variável, só há o número 0 ou 1 que indicam se originalmente na linha à esquerda havia um valor faltante ou não. Esse método é comumente utilizado em conjunto com as outras técnicas citadas acima (menos a primeira). A figura 6 representa a inserção das variáveis v2missing, v3missing e v4missing com o valor 1 marcando as linhas à esquerda que possuíam valores nulos.

Figura 6 — Figura representando a inserção de colunas adicionais v2missing, v3missing e v4missing. Elas indicam por meio dos valores 0 e 1, quais são as linhas que apresentam valores que foram inseridos por meio de algumas das técnicas citadas acima.

Este método apresenta também pontos de vantagem e desvantagem. Como vantagem, este método destaca a importância de valores faltantes, caso ele exista. Porém por haver a inserção de novas colunas, a dimensão da base de dados pode acabar aumentando, caso tenham muitas variáveis com valores ausentes. Mas se isso acontecer, pode ser implementado algum método de seleção de variáveis para redução do número de colunas.

Conclusões

Neste post foram apresentadas diferentes técnicas para lidar com dados faltantes. Já que eles são certamente um dos problemas mais comuns que podem ser encontrados na base de dados. Mas as vezes até um entendimento melhor da forma do negócio da empresa ou como os dados foram gerados pode te dar pistas de como lidar com os dados ausentes. De qualquer maneira caso queira aplicar alguma das técnicas aqui citadas, recomendo o uso da biblioteca Feature-engine.

Espero que tenha gostado do texto e que possa ter te ajudado de alguma forma. Se possível dê uma curtida ou deixe um comentário, ficarei feliz em responder. Até a próxima!

Referências

Ewen Harrison. Missing Data. Disponível em: <https://cran.r-project.org/web/packages/finalfit/vignettes/missing.html>.
Little Roderick JA, Rubin Donald B. Statistical Analysis with Missing Data. New York: Wiley; 1987.
Mack C, Su Z, Westreich D. Managing Missing Data in Patient Registries: Addendum to Registries for Evaluating Patient Outcomes: A User’s Guide. Disponível em: <https://www.ncbi.nlm.nih.gov/books/NBK493614/>.
Galli, Soledad. Python Feature Engineering Cookbook. Birmingham: Packt Publishing; 2020.

Feature Engineering: Técnicas para lidar com dados faltantes em um projeto de ciência de dados. was originally published in Data Hackers on Medium, where people are continuing the conversation by highlighting and responding to this story.

Escolha as suas palavras: Uma introdução às expressões regulares e ao seu entendimento.

Clébio Júnior — Wed, 13 Apr 2022 22:02:05 GMT

Neste artigo é apresentado uma introdução às principais expressões regulares e ao seu funcionamento.

Photo by Brett Jordan on Unsplash

Durante o trabalho de um profissional de dados, uma das etapas que mais demanda tempo é a de preparação dos mesmos. Isso pode ocorrer para cientistas que precisam limpar “sujeiras” ou corrigir a formatação da base de dados, como também para os engenheiros que realizam a extração, transformação e carregamento; processo também conhecido como ETL (do inglês Extraction, Transformation and Loading). Assim, tornando as expressões regulares ou regex — como também são conhecidas — uma excelente ferramenta no kit de qualquer profissional deste setor, pois elas conseguem selecionar os padrões, que são ou não desejáveis, e aplicar ações por meio de linguagens de programação de exclusão, seleção e etc.

Neste post, apresentaremos algumas das principais expressões regulares, juntamente com exemplos do que cada uma busca como padrão.

Expressões Regulares

Uma expressão regular é um grupo de caracteres que ao ser utilizado sozinho ou em conjunto pode representar algum tipo de padrão dentro de um texto, frase ou palavra. Podendo ser uma repetição de letras, números ou um conjunto de símbolos. Para um melhor entendimento, abaixo são apresentados as principais expressões regulares juntamente com uma explicação de seu funcionamento e imagens que mostram o padrão encontrado por elas.

Na Figura 1 é apresentada as sentenças que são utilizadas para exemplificar cada expressão regular, onde os círculos cinzas são espaços vazios, enquanto que as setas representam novas linhas. Convido o leitor a escrever estas frases no site regex101, para realizar os mesmos procedimentos descritos no post e ter uma experiência em tempo real e de melhor entendimento do padrão encontrado.

Figura 1 — Imagem apresenta os caracteres que são utilizados como exemplo para explicação de cada expressão regular. Os pontos em cinza representam espaços, enquanto que as setas também em cinza mostram que há uma nova linha.

Ponto

O ponto (.) representa qualquer caractere, menos uma nova linha. Ao Aplicar o ponto nos caracteres da Figura 1, são selecionados todos os caracteres em tons de azul, sejam eles letras, números, vírgulas, dentre outros. O resultado é demonstrado na Figura 2.

Figura 2 — Na imagem são mostrados os caracteres encontrados como padrão da expressão regular . (ponto) por meio de quadrados em diferentes tons de azul. Esta expressão regular encontra qualquer caractere como padrão.

Circunflexo

O sinal de circunflexo (^) sinaliza que o padrão descoberto pela expressão regular encontra-se no início das frases. Por exemplo, ao aplicar ^. (circunflexo e ponto) nas sentenças da Figura 1, obtém-se como resultado qualquer caractere que se encontre no começo das strings. Os resultados são destacados em diferentes tons de azul e mostrados na Figura 3.

Figura 3 — É mostrado o padrão encontrado pela expressão regular ^. (acento circunflexo e ponto). O padrão encontrado é qualquer tipo de caractere que se encontre no início da frase demonstrados pelos quadrados azuis.

Cifrão

O caractere cifrão ($) atua de forma parecida à expressão circunflexo, porém com a diferença que esta expressão faz referência ao final da string. Utilizando a mesma ideia do padrão da Figura 3 como exemplo. O .$ (ponto e cifrão) seleciona todos os caracteres que estejam ao final de cada sentença da Figura 1. O resultado é observado na Figura 4 em que somente os últimos caracteres foram destacados em tons de azul.

Figura 4 — Na figura é mostrado o padrão encontrado pela expressão regular .$ (ponto e cifrão). Os padrões encontrados foram qualquer tipo de caractere que se encontre no final da frase. Os resultados são destacados por quadrados em diferentes tons de azul.

Asterisco

O asterisco (*) faz referência a repetições de zero ocorrências ou a tantas quanto forem possíveis do caractere associado a ele. Para exemplificação é utilizada a expressão regular ro*, que visa selecionar a letra “r” com nenhuma, uma ou quantas forem possíveis repetições da letra “o”. Os resultados da expressão regular aplicada na Figura 1, são demonstrados através de diferentes tons de azul na Figura 5.

Figura 5 — Na figura são demonstrados os padrões encontrados pela regex ro* (“r”, “o” e asterisco) em tons de azul. O padrão encontrado são as letras “r” com ou sem a letra “o”, pois o asterisco associa a ocorrência de nenhum ou quantas forem possíveis.

Mais

O sinal de soma (+) funciona de forma parecida ao do asterisco (*). O diferencial é que + encontra como padrão a repetição de uma ou mais vezes. Ao empregar a expressão regular \d+ (contra-barra, letra d e sinal de soma), no qual \d significa basicamente qualquer caractere numérico, é possível encontrar a ocorrência de um ou mais números em sequência. Ao aplicá-la nas frases da Figura 1, todos os números são destacados através de diferentes tons de azul como é apresentado na Figura 6.

Figura 6 — Na figura são demonstrados os caracteres encontrados pela regex \d+ (contra-barra, d e +). Os padrões destacados, em tons de azul, foram as ocorrências de pelo menos um ou mais números.

Interrogação

O sinal de interrogação (?) faz referência a nenhuma ou no máximo uma ocorrência do caractere que estiver a sua esquerda. Portanto, agindo de forma parecida com + (sinal de soma), mas com o limite máximo de apenas uma ocorrência. Para exemplificar é abordada a expressão regular ,0? (vírgula, número 0 e sinal de interrogação). Ao utilizar esta regex nas frases da Figura 1, é destacado apenas o caractere vírgula (,) e ele associado ao número zero como demonstrado na Figura 7.

Figura 7 — A figura mostra os padrões da regex ,0? (vírgula, número 0 e o sinal de interrogação) encontrados em diferentes tons de azul. Esta expressão destaca a vírgula com ou sem o número associado a ela por causa do sinal de mais.

Chaves

O par de chaves realiza a identificação de caracteres que se repetem por um número definido de vezes. Estes limites são definidos dentro das chaves pelas letras m, que é o limite inferior, e n, que é o limite superior. Ficando desta maneira {m,n} a estrutura da expressão regular . Para lição, é utilizada a expressão \d{4,5}, no qual tem como objetivo encontrar números que se repetem de 4 a 5 vezes. Ao aplicar nas frases da Figura 1 as sequências de número que variam de 4 a 5 são destacadas em diferentes tons de azul, como demonstrado na Figura 8.

Figura 8 — A figura mostra o padrão encontrado pela regex \d{4,5}, que destaca uma sequência de números que podem variar de 4 a 5 vezes. Limites esses impostos pela expressão {4,5}. Os padrões encontrados pela expressão regular estão destacados por diferentes tons de azul.

Colchetes

O par de colchetes ([ ]) são utilizados para definir uma lista de caracteres para serem selecionados como padrão. Desse modo, ao colocar as letras “a” e “b”, por exemplo, dentro dos colchetes [ab], o padrão selecionado será “a”, “b”, “ab” ou “ba”. Ao usar esta expressão regular nas sentenças da Figura 1, encontramos como resultado os destaques “a”, “b” e “ab” em quadrados com tons de azul da Figura 9.

Figura 9 — A figura mostra o resultado da expressão regular [ab], que encontra como padrão a letra “a”, “b” e a sílaba “ab”. Os resultados da aplicação desta expressão são destacados em tons de azul.

Além disso, uma outra utilidade das listas é a negação de uma lista de caracteres. Para isso, coloca-se o acento circunflexo (^) como primeiro membro da lista. Assim, para negarmos a lista do exemplo anterior é necessário adicionar o acento circunflexo no começo da lista, resultando em [^ab]. Logo, todos os caracteres são selecionados exceto “a”, “b”, “ba” ou “ab”. O resultado da expressão aplicada as sentenças da Figura 1 é observado na Figura 10, com os destaques do resultado em diferentes tons de azul.

Figura 10 — É demonstrado o resultado da regex de negação [^ab]. Portanto excluindo as letras “a”, “b” e a combinação das duas. Os resultados são destacados por meio de diferentes tons de azul.

Um outro caractere usado é o - (traço). Ele é aplicado para colocar um alcance de letras ou números em sequência. Por exemplo, é possível selecionar todas as letras em sequência tanto maiúsculas quanto minúsculas com a expressão [a-zA-Z]. Não precisando colocar letra por letra dentro dos colchetes. O mesmo acontece para uma sequência de números que segue o mesmo princípio [0-9]. O resultado da aplicação desta última expressão nas frases da Figura 1 pode ser observador na Figura 11, onde todos os números são selecionados.

Figura 11 — A figura mostra, destacados em diferentes tons de azul, os resultados encontrados pela expressão [0–9], que visa encontrar todos o números.

Barra na Vertical

A barra na vertical (|) — também conhecida como pipe — funciona como um “ou” entre duas ou mais expressões regulares. Portanto o padrão encontrado é um conjunto de padrões de duas ou mais expressões regulares. Para demonstração é utilizada a expressão [Tt]e|or, que possibilita encontrar as expressões “Te”, “te” ou “or”. Os resultados destacados em diferentes tons de azul desta expressão regular nas frases da Figura 1, podem ser observados na Figura 12.

Figura 12 — A figura mostra os resultados encontrados pela expressão regular [Tt]e|or. O padrão encontrado é “Te”, “te” e “or” que estão sendo representados por diferentes tons de azul.

Parênteses

Os parênteses (( )) definem um grupo que contém um padrão da expressão regular. As bibliotecas da linguagem Python utilizam muito este recurso para definir o início e o fim de um grupo de expressões, que são selecionadas em um determinado grupo para uma ação específica. Na expressão regular ([0-9]+)-([0-9]+)-([0-9]+) há três grupos que selecionam respectivamente o ano, o mês e o dia dentro deste formato de data separados por barras. Os resultados desta expressão aplicadas nas sentenças da Figura 1 são mostrados na Figura 13, onde as cores verde, laranja e roxo diferenciam os grupos.

Figura 13 — A figura mostra os destaques em tons de verde, laranja e roxo os diferentes grupos definidos pela expressão regular ([0–9]+)-([0–9]+)-([0–9]+). Expressão que visa destacar respectivamente o dia, o mês e o ano de uma data.

Contra-barra

Dentro das expressões regulares a \ (contra-barra) tem diferentes papéis. Um de seus principais é a possibilidade de escapar algum caractere que inicialmente seja utilizado para encontrar algum tipo de padrão, como por exemplo o $ (cifrão). Quando deseja-se selecionar somente este e não fazer referência ao final da frase, adiciona-se a \ ao seu lado direito \$ (contra-barra e cifrão). Desta maneira, só o que é selecionado é o caractere “$” como demonstrado na Figura 14 em azul. O mesmo ocorre para as demais expressões $, $, \[, \], \., \+ e dentre outros.

Figura 14 — A figura destaca por meio da cor azul somente o caractere “$”. Isto acontece porque a expressão \ (contra-barra) cancela qualquer representação que a regex $ (cifrão) pode vir a ter. Então a expressão regular aplicada foi \$.

Um outro uso de contra-barra é a sua associação a letras para significar um conjunto de caractere específico. Dentre esses estão o \d que significa um conjunto de números, por consequência esta expressão tem o mesmo significado da regex [0-9]. Enquanto que \w possui a mesma função da expressão [a-zA-Z0-9_], onde são selecionadas qualquer caractere que possa fazer parte de alguma frase, em qualquer idioma juntamente com o sublinhado. Na Figura 15 observa-se em tons de azul os padrão desta expressão na Figura 1.

Figura 15 — Os resultados da expressão \w que destaca em azul todos os caracteres que possam vir fazer parte de alguma frase de um idioma. Por isso destacando tanto números quanto letras.

Além desses existem outros como por exemplo o \s e a sua versão maiúscula \S. Este primeiro faz referência a espaços vazios, enquanto que a sua versão maiúscula seleciona qualquer caractere menos os espaços vazios. De forma similar funciona \W, que é o contrário de \w, que nega todas as letras que podem fazer parte de alguma frase de idioma funcionando como a expressão regular [^a-zA-Z0-9_]. Além desses existem outros exemplos que podem ser acessados por meio da página do Python sobre expressões regulares.

Conclusão

As expressões regulares representam um padrão que pode ser encontrado dentro de frases, textos ou dados em geral. Esta ferramenta em combinação com uma linguagem de programação como o Python possibilita a limpeza, substituição ou concerto dos dados, depende do problema a ser resolvido.
Caso o leitor queira saber mais sobre as expressões e ter mais exemplos de aplicabilidade, recomendo a leitura da documentação do Python e do livro “Expressões Regulares: Uma Abordagem Divertida”. Todas essas referências encontram-se abaixo juntamente com o link do site Regex Expression 101 para prática.

Acesse o site da Datarisk e descubra como podemos gerar mais valor para sua empresa.

Referencias

Python Software Foundation. re — Operações com expressões regulares. Disponível em: <https://docs.python.org/pt-br/3/library/re.html>. Acesso em: 18 de fevereiro de 2022.
JARGAS, Aurélio Marinho. Expressões Regulares: Uma Abordagem Divertida. 5º edição. São Paulo — SP: Novatec Editora Ltda., 2016.
Regex Expressions 101. Regular Expression. Disponível em: <https://regex101.com/>. Acesso em: 19 de fevereiro de 2022.

Escolha as suas palavras: Uma introdução às expressões regulares e ao seu entendimento. was originally published in Datarisk.io on Medium, where people are continuing the conversation by highlighting and responding to this story.

Métricas para Regressão: Entendendo as métricas R², MAE, MAPE, MSE e RMSE

Clébio Júnior — Mon, 13 Dec 2021 00:14:21 GMT

Tutorial explicando como funcionam algumas das métricas para avaliação de modelos de regressão.

Photo by Miguel A. Amutio on Unsplash

Alguns tipos comuns de projetos de machine learning ou ciência de dados são destinados a classificação, onde há a classificação, como por exemplo, de sentimento de textos, se uma pessoa será inadimplente ou não, se uma determinada movimentação está ligada a fraude, dentre outros. Além da classificação, há também modelos de regressão que têm como objetivo a previsão de valores numéricos. Apesar de terem funções parecidas, não é possível usar métricas de classificação em problemas de regressão e vice-versa. Portanto, ao avaliar modelos de regressão é preciso utilizar abordagens diferentes para a sua avaliação.

Então, quais são as métricas destinadas para avaliar modelos de regressão e o que elas representam?

Diante disso, neste texto serão apresentadas algumas métricas que podem ser importantes na hora de avaliar modelos de regressão e como elas podem ser interpretadas principalmente para descrever os seus resultados. As métricas abordadas serão a R², Erro Absoluto Médio (MAE), Erro Percentual Médio Absoluto (MAPE), Erro Quadrático Médio (MSE) e Raiz do Erro Quadrático Médio (RMSE).

Caso o leitor queira saber mais sobre métricas de classificação, recomendo a leitura do artigo Indo Além da Acurácia: Entendo a Acurácia Balanceada, Precisão, Recall e F1 score. Neste texto explico sobre as principais métricas para avaliar modelos de classificação juntamente com suas interpretações.

Quando lidamos com modelos de classificação, as métricas fazem comparações se a classes foram corretamente previstas ou não. Ao utilizarmos a regressão, isto fica inviável, pois estamos lidando com valores numéricos, muitas vezes com casas decimais, e não apenas 0 ou 1. Portanto, a principal abordagem das métricas de regressão baseia-se na diferença entre o valor real e o previsto como pode ser observado na equação 1. No qual, y representa o valor real, enquanto que ŷ é atribuído a valores que foram preditos.

Equação 1 — Equação que mostra o cálculo da diferença entre o valor real e a previsão. Na equação e é o desvio, enquanto que y é o valor real e ŷ é o valor predito. Este cálculo é a base de todas as métricas aqui abordadas, mas cada uma tendo o seu propósito e sua interpretabilidade.

Todas as métricas apresentadas neste artigo usam esta mesma ideia de cálculo da diferença entre o valor real e o previsto, contudo com algumas diferenças. Estas diferenças são importantes para nos dar diferentes perspectiva sobre a performance do modelo.

R²

A métrica R², também conhecida como R-dois ou coeficiente de determinação, representa o percentual da variância dos dados que é explicado pelo modelo. Os resultados variam de 0 a 1, geralmente também são expressos em termos percentuais, ou seja, variando entre 0% e 100%. Quanto maior é o valor de R², mais explicativo é o modelo em relação aos dados previstos. Na equação 2 é mostrado o cálculo desta métrica, no qual y e ŷ os valores reais e previstos, respectivamente, e y-barra representa a média dos valores reais.

Equação 2 — Equação do coeficiente de determinação. Os valores de y são os valores verdadeiros e o y-barra é a média desses valores, enquanto que ŷ são os valores preditos. Os resultados de R-quadrado ficam entre 0 e 1, quanto mais perto de 1 melhor e pior para resultados perto de 0.

Porém, utilizando somente esta métrica, será que um valor de 0,5 já seria o suficiente para colocar o modelo em produção? Faz-se necessário aproximar ainda mais o seu resultado para 1? Para responder a essa e outras perguntas, deve-se sempre utilizar outras métricas para se ter uma visão global sobre a performance do modelo.

Erro Médio Absoluto

O erro médio absoluto (MAE — do inglês Mean Absoluto Error), como demonstrado na equação 3, mede a média da diferença entre o valor real com o predito. Mas por haver valores positivos e negativos, é adicionado um módulo entre a diferença dos valores. Além disso, esta métrica não é afetada por valores discrepantes — os denominados outliers.

Equação 3 — Equação do erro médio absoluto. Nesta equação há o calculo da média da diferença entre o valor predito ŷ e o real y. Quanto menor o valor de MAE, significa que melhor são os resultados preditos pelo modelo de machine learning.

O valor de saída da equação tem a mesma escala dos dados utilizados para previsão, logo fica mais fácil a sua interpretação. Se o valor de MAE resultante for igual a 10,01 m, por exemplo, este resultado significa que o modelo pode estar errando em média 10,01 m para mais quanto para menos em relação ao valor correto. Por isso que para uma previsão futura, este resultado precisa ser levado em consideração para a tomada de decisão. Contudo o quanto este erro representa em relação ao valor real percentualmente?

Erro Percentual Absoluto Médio

O erro percentual absoluto médio (MAPE — do inglês Mean Absolute Percentual Error) é uma métrica que mostra a porcentagem de erro em relação aos valores reais. Na equação 4 representa o cálculo de MAPE que basicamente se parece com MAE, mas com o acréscimo de uma divisão por |y|. Então se o resultado de MAPE for igual a 40% significa que o nosso modelo faz previsões que em média a diferença entre o valor previsto e o real equivale a 40% do valor real tanto para mais quanto para menos.

Equação 4 — Equação do erro percentual absoluto médio. Nesta equação há o cálculo do valor da média da divisão entre a diferença entre o valor real e o predito sobre o valor real. Para evitar a divisão por zero, é utilizado o valor de ε para ser utilizado caso o valor de y seja 0. Este valor é definido pela biblioteca sklearn como 2,220446049250313e-16.

Ao observar a equação 4 nota-se que caso o valor de y seja 0, ocorrerá um erro, devido a divisão por zero. Por isso que a biblioteca scikit-learn utiliza a tratativa de colocar um número muito pequeno, representado por ε, cujo valor é 2,220446049250313e-16. A métrica MAPE é uma das métricas mais usadas para reportar a performance do modelo, trazendo uma compreensão mais abrangente do resultado de MAE.

Erro Quadrático Médio

O erro quadrático médio (MSE — do inglês Mean Squared Error) é uma métrica que calcula a média de diferença entre o valor predito com o real, como a métrica MAE. Entretanto, ao invés de usar o módulo do resultado entre o valor de y e ŷ, nesta métrica a diferença é elevada ao quadrado. Desta maneira penalizando valores que sejam muito diferentes entre o previsto e o real. Portanto, quanto maior é o valor de MSE, significa que o modelo não performou bem em relação as previsões.

Equação 5 — Equação do erro quadrático médio. Nesta equação há o cálculo da diferença entre o valor real y e o valor predito ŷ, porém elevando o resultado ao quadrado. Desta forma valores altos, ou seja, que a previsão esteja muito diferente da previsão são mais penalizados que os demais.

Apesar de sua ideia poderosa, a métrica MSE apresenta um problema de interpretabilidade. Por haver a elevação ao quadrado, a unidade fica distorcida, em outras palavras, se a unidade medida for metros (m), o resultado será em m². Por isso que uma adaptação da MSE é a RMSE que será apresentada abaixo.

Raiz do Erro Quadrático Médio

A raiz do erro quadrático médio (RMSE — do inglês, Root Mean Squared Error) é basicamente o mesmo cálculo de MSE, contendo ainda a mesma ideia de penalização entre diferenças grandes do valor previsto e o real. Porém, para lidar com o problema da diferença entre unidades, é aplicada a raiz quadrática como demonstrado na equação 6. Assim a unidade fica na mesma escala que o dado original, resultando em uma melhor interpretabilidade do resultado da métrica.

Equação 6 — Equação da raiz do erro quadrático médio. Nesta equação há o cálculo da diferença entre o valor y e ŷ, contudo com a elevação do resultado ao quadrático. Mas para deixar o resultado na mesma escala que os dados, é aplicado a raiz quadrada no resultado.

Apesar do valor ter a mesma unidade, ele não costuma se assemelhar ao resultado encontrado de MAE, demonstrando como os outliers podem estar impactando nas previsões do modelo. Mas a sua interpretabilidade pode seguir a mesma lógica, onde o resultado da métrica sendo igual a 80,0 m, significa que o modelo pode estar errando em 80,0 m para mais ou para menos. Por essa razão, esta métrica pode ser uma boa opção quando é preciso ter uma avaliação mais criteriosa sobre as previsões do modelo.

Conclusão

Neste artigo foram apresentadas algumas das métricas mais utilizadas para avaliar o modelos de regressão juntamente com as suas particularidades.

Então qual métrica usar?

Isso depende da solução que o modelo pode vir a resolver com o modelo de machine learning. Mas uma abordagem comum e muito interessante é utilizar todas para se ter diferentes perspectivas em relação a performance do modelo.

Dentre as métricas apresentadas, a R² é uma métrica muito comum, mas difícil de ser utilizada sozinha para se tirar conclusões completas sobre a performance do modelo. Tanto MAE e MAPE apresenta uma boa interpretabilidade, principalmente para reporte dos resultados do modelo. Enquanto que MSE e RMSE são afetados por valores discrepantes, o que pode ser importante quando é preciso ter uma avaliação mais criteriosa do modelo.

Espero que o artigo tenha ajudado e que tenha gostado. Até o próximo!

Referencias

Scikit-learn developers. Regression metrics. Disponível em: <https://scikit-learn.org/stable/modules/model_evaluation.html#regression-metrics>. Acesso em: 2 de setembro de 2021.
BRUCE, Peter; BRUCE, Andrew. Estatística prática para cientistas de dados: 50 conceitos essenciais. 1ª edição. Rio de Janeiro — RJ: Alta Books, 2019.
HARRISON, Matt. Machine Learning: Guia de referência rápido. 1ª edição. São Paulo — SP: Novatec Editora Ltda, 2020.

Métricas para Regressão: Entendendo as métricas R², MAE, MAPE, MSE e RMSE was originally published in Data Hackers on Medium, where people are continuing the conversation by highlighting and responding to this story.

Indo Além da Acurácia: Entendo a Acurácia Balanceada, Precisão, Recall e F1 score.

Clébio Júnior — Sun, 21 Feb 2021 15:38:06 GMT

Indo Além da Acurácia: Entendo a Acurácia Balanceada, Precisão, Recall e F1 score

Tutorial explicando como funcionam outras métricas para validação de um modelo de machine learning além da acurácia. As métricas abordadas serão a acurácia balanceada, precisão, recall e F1 score.

Photo by Darling Arias on Unsplash

Durante um projeto de ciência de dados uma das etapas mais esperadas pode ser o desenvolvimento de um modelo de machine learning. Dentro desta etapa há o treino e a validação do modelo, e uma métrica muito utilizada para verificar a performance do algoritmo de machine learning é a acurácia. Porém até onde a acurácia pode nos dar uma representatividade do quanto o modelo pode ser eficaz para a classificação de duas ou mais classes?

Por isso que neste post serão descritas outras métricas que podem te ajudar a ter outras perspectivas de como o seu modelo está performando. Principalmente quando estamos criando uma solução de ciência de dados e temos uma base de dados desbalanceada, ou seja, há mais registros de uma determinada classe do que de outra. Assim sendo, abordaremos as métricas de acurácia balanceada, precisão, recall (sensibilidade) e F1 score.

Todas as métricas apresentadas neste post têm seus valores variando entre 0 e 1, no qual 0 quer dizer péssimo e 1 excelente como resultado. Mas cada valor das métricas têm interpretações diferentes.

Matriz de Confusão

Antes de entendermos como as métricas mencionadas acima funcionam, é preciso saber o que é uma matriz de confusão. Pois ela será a nossa base para os cálculos de cada métrica. Este tipo de matriz basicamente mostra quais foram as predições das classes “sim” ou “não”, relacionando-as. Onde as linhas são as classes verdadeiras e as colunas são as predições. Desta maneira é possível fazer relações entre as classificações e como elas foram preditas. Na Tabela 1 é mostrado um tipo de matriz de confusão.

Tabela 1: Matriz de confusão onde são relacionadas as classes “não” e “sim” com as predições feitas por um modelo de machine learning. VN, FP, FN e VP são siglas que significam “verdadeiro negativo”, “falso positivo”, “falso negativo” e “verdadeiro positivo”, respectivamente.

Isto posto, para as classificações corretas da classe “não” são definidas como verdadeiras negativas (VN), enquanto que para as classificações corretas da classe “sim” são denominadas como verdadeiras positivas (VP). Para classificações erradas das classes “não” como “sim” são chamadas de falsas positivas (FP), bem como as classificações incorretas da classe “sim” como “não” são declaradas como falsas negativas (FN).

A Tabela 2 mostra a mesma Tabela 1 com valores para serem demonstrados como exemplos de um modelo de machine learning de um projeto de ciência de dados para previsão de transações bancárias fraudulentas. Os valores 101668, 3, 36 e 95 representam respectivamente VN, FN, FP e VP. Para mais informações sobre o projeto de ciência de dados citado, acesse o link.

Tabela 2: Matriz de confusão com resultados de um modelo de machine learning para prever faudes em transações bancárias. Os valores 101668, 3, 36 e 95 representam respectivamente o número de VN, FP, FN e VP.

Acurácia Balanceada

A acurácia basicamente faz o cálculo de todos os acertos (VP e VN) divididos por todos os acertos mais os erros (FP e FN), como é colocado na Equação 1. Porém, quando há uma classe muito desbalanceada, a acurácia não é uma boa métrica a ser usada. Pois como pode ser visto na equação, os valores de classificados VN podem mascarar a classificações baixas de VP. Transmitindo uma sensação errada de que o modelo está fazendo a classificação correta.

Equação 1: Acurácia

Uma alternativa à acurácia é utilizar a acurácia balanceada que não é influenciada pelo desbalanceamento das classes, porque os cálculos ocorrem em cima da taxa de verdadeiros positivos e verdadeiros negativos, como demonstrado na Equação 2. Logo, conseguindo chegar a um valor mais correto em relação aos acertos do modelo em relação as classes.

Equação 2: Acurácia Balanceada.

Para exemplificar, serão calculados os valores da acurácia e acurácia balanceada utilizando os valores da Tabela 2 para os cálculos. O resultado encontrado para a acurácia é de 0,9996, ou seja, podemos logo imaginar que praticamente acertou todas as classes e o modelo está ótimo. Contudo, a maior parte dos acertos vieram da classe majoritária, enviesando o resultado.

Todavia quando utilizamos a acurácia balanceada, no qual é levada em conta os acertos de cada classe de forma igualitária, o valor encontrado é de 0,8626. Isto mostra uma valor mais próximo do quanto o modelo consegue acertar cada classe.

Apesar disso mesmo usando ainda a acurácia balanceada, ainda temos uma visão global de acerto de todas as classes, então não conseguimos verificar o quanto um modelo acertou ou errou em relação a uma determinada classe do nosso interesse. Então, em nosso exemplo, quanto o modelo conseguiu acertar que um transação foi fraudulenta? Qual a porcentagem das classes “sim” foram classificadas corretamente?

Precisão

Ok! Entendemos a acurácia balanceada e como conseguimos ter uma visão global dos acertos de todas as classes. Mas é preciso ter mais detalhes sobre a capacidade de classificação do modelo. Em nosso exemplo do modelo de detecção de fraude, o quanto ele consegue acertar que uma transação é de fato fraudulenta? A métrica utilizada para responder tal questão é a precisão que mostra a porcentagem de acertos feitas pelo modelo. Esta métrica relaciona o número de VP e VN como demonstrado na Equação 3.

Equação 3: Precisão.

Para uma melhor interpretação da métrica, imagine que você tenha um alvo distante de você e precisa acertá-lo. A cada 100 tentativas você consegue acertar 70 no alvo, logo, a sua precisão é de 70%. A mesma lógica é associada a interpretação do valor da precisão do modelo de machine learning. Para o nosso exemplo da Tabela 2, temos uma precisão igual a 0,9694 ou 96,94%. Logo, para cada 100 tentativas, o modelo consegue acertar aproximadamente 97 vezes.

Recall

Além da precisão, que mostra o quanto o modelo consegue diferenciar as classes, é importante também sabermos o quanto das fraudes bancárias foram identificadas corretamente em nosso exemplo da Tabela 2. Por esse motivo, veremos a métrica recall ou sensibilidade. Esta métrica mostra o quanto um modelo consegue reconhecer de uma determinada classe. O cálculo da recall acontece por meio da divisão do número de VP e FN, em outras palavras, classes “sim” que foram classificadas erroneamente.

Equação 4: Recall.

Para o nosso exemplo da Tabela 2 o valor de recall foi de 0,7252 ou 72,52%. O resultado demonstra que o modelo conseguiu classificar corretamente aproximadamente 73% das classes “sim”. Portanto, esta métrica pode ser utilizada para reportar a porcentagem que o modelo consegue identificar corretamente como uma transação fraudulenta.

F1 score

Depois de ver as métricas precisão e sensibilidade, pode estar pensando que essas métricas são importantes para verificar a performance do modelo. Dado que quanto mais o modelo consegue diferenciar as classes e predizer melhor a classe “sim” de interesse, melhor será a sua performance.

Então como levar em consideração ambas as métricas para avaliar a performance de um modelo?

Neste contexto uma métrica que podemos utilizar é a F1 score. F1 basicamente faz a média harmônica entre a precisão e a recall, como é apresentado na Equação 5. No exemplo da Tabela 2, o valor da F1 score encontrado foi de 0,8297. Esta métrica pode ser viável no desenvolvimento de novos modelos para verificar qual modelo obteve a melhor performance.

Equação 5: F1-score.

Conclusão

Neste post conseguimos entender algumas métricas que são bastante utilizadas para validação de um modelo de machine learning. Pudemos entender que nem sempre a acurácia não é a única métrica de validação e ela pode nos enganar sobre o modelo.

Portanto para classes desbalanceadas ao invés de utilizar a acurácia, uma métrica mais adequada é a acurácia balanceada. Porém esta métrica apresenta uma visão global dos acertos das classes do modelo.

Porém uma visão mais especializada de classes teremos que utilizar outras. Temos a precisão que nos mostra o quanto o modelo conseguiu acertar e a recall que mostra o quanto de uma determinada classe o algoritmo de machine learning. E para avaliarmos ambas as métricas utilizamos a F1 socre.

Por fim, espero que tenha gostado do post e entendido sobre outras métricas para avaliação de seus modelos. Até!

Indo Além da Acurácia: Entendo a Acurácia Balanceada, Precisão, Recall e F1 score. was originally published in Data Hackers on Medium, where people are continuing the conversation by highlighting and responding to this story.