Além do número de finalizações : criação e aplicação de um modelo de estimação de gols esperados (xG)
Resumo
Resumo : O futebol tem cada vez mais se tornado um esporte onde avaliações e decisões são feitas baseadas em informações geradas por dados coletados em treinos e partidas. Neste contexto, a métrica de gols esperados (xG) tem ganhado bastante destaque, por ser rica em contexto e avaliar a qualidade das chances criadas em uma partida de futebol de forma data-driven. O propósito deste projeto está em estudar o processo de criação de um modelo de estimação de gols esperados, através da realização de etapas de extração de informações de uma base pública de eventos ocorridos em diversas partidas, criação de features que quantifiquem aspectos relacionados à finalização e a jogada que a proporcionou, exploração dessas variáveis em diferentes modelos e aplicação do melhor modelo em diferentes análises. Neste processo, foi constatado que distância e ângulo da finalização são aspectos fundamentais, mas que outras características também contribuem para o refinamento dos resultados. Os modelos de regressão logística e XGBoost foram os que tiveram melhores performances nos testes. Por mais que ainda haja espaço de melhora, os resultados obtidos neste projeto foram satisfatórios e evidenciaram que há muito potencial para utilização da estatística de gols esperados na avaliação de performance de times e jogadores. Abstract : The football has become even more a sport where evaluations
and decisions are made based on information generated by data collected in practice sessions and matches. In this context, the expected goals measure (xG) has gained prominence, because it is a measure rich in context and that evaluates the quality of the chances created in a football match in a data-driven way. The purpose of this project is to study the process to create a expected goal model, through the execution of steps of data extraction from a public dataset of football events from several matches, the creation of features to quantify aspects related to shots and how they happened, the exploration of those variables in different models and the application of the best model in different analysis. In this process, it was found that shot distance and angle are fundamental aspects, but other features have also contributed to better results, and that models that used logistic regression and XGBoost had the best performances. As much as there is opportunities to improve, the results obtained in this project were considered very satisfactory and showed that there is huge potential to use the expected goals measure to performance evaluation of football clubs and players.
Collections
- Data Science & Big Data [107]