Perfil e competências dos cientistas de dados : proposta de modelo baseada no cenário brasileiro

Guimarães, André José Ribeiro

Visualizar/Abrir

R - T - ANDRE JOSE RIBEIRO GUIMARAES.pdf (13.92Mb)

Data

2022

Autor

Guimarães, André José Ribeiro

Metadata

Mostrar registro completo

Resumo

Resumo: Ciência de Dados é um campo interdisciplinar, em desenvolvimento, que surge na interseção de estatística, tecnologia da informação e conhecimento de domínio. A Ciência de dados busca extrair conhecimento de dados brutos, por meio de modelos estatísticos, para auxiliar a tomada de decisão organizacional, trazendo benefícios para todas as áreas da sociedade. As organizações precisam de profissionais habilitados nestas áreas, porém a contratação de um cientista de dados ainda é uma tarefa árdua e custosa, especialmente pela carência de pessoas qualificadas. Esta tese analisa as competências necessárias para a atuação de cientistas de dados no Brasil e propõe um modelo de competências elaborado com base em pesquisa realizada junto a profissionais da Ciência de Dados. O modelo proposto organiza as competências da Ciência de Dados em quatro dimensões: Tecnologia, Análise de Dados, Entendimento de Negócios e Competências Socioculturais, e fornece subsídios para a educação, contratação e autoavaliação de profissionais da área. O instrumento de coleta de dados apresenta 227 respostas completas e válidas que fundamentam a definição do perfil dos profissionais da Ciência de Dados que atuam no Brasil. A pesquisa de levantamento confirma a Ciência de Dados como um campo recente, formado por profissionais jovens e com relativo pouco tempo na área, cuja origem advém de disciplinas estabelecidas, como Estatística e Ciência da Computação. Em relação às competências, a Análise Fatorial Confirmatória resulta em um modelo de segunda ordem, composto por quatro fatores que apresenta um ótimo ajustamento (RMSEA = 0,035, GFI= 0,974, TLI = 0,992, SRMR = 0,081). O modelo estatístico em quatro dimensões demonstra boa confiabilidade, validade e credibilidade, mostrando-se uma ferramenta efetiva na avaliação das competências para a Ciência de Dados. Além da pesquisa de levantamento, a tese identifica os requisitos em anúncios de vagas de emprego para cientistas de dados e os tópicos abordados em cursos de nível superior e cursos livres para este profissional. Para analisar estes documentos, obtidos com raspagem de dados, utiliza métodos de mineração de texto: n-grama, modelagem de tópico e agrupamento. A mineração dos anúncios aponta uma concentração de vagas em São Paulo, mas revela que a modalidade remota é a segunda mais ofertada. Destaca que os salários no Brasil estão abaixo da média de outros países, mesmo que as organizações procurem por profissionais experientes e com alto nível educacional. Quanto aos requisitos, há o predomínio de habilidades técnicas como machine learning, modelos estatísticos, Python, banco de dados, dentre outras. A análise dos cursos superiores e cursos livres apresenta alinhamento com os anúncios e com as competências definidas na pesquisa de levantamento. Ainda assim, os três conjuntos de documentos analisados, anúncios, cursos superiores e cursos livres apresentam características próprias. Para as técnicas de mineração, a pesquisa demonstra que n -grama e o agrupamento são mais adequadas que a modelagem de tópicos. Por fim, ainda que se julgue que as características da área no Brasil sejam distintas de outros países, o modelo pode ser replicado em pesquisas futuras, dentro e fora do território brasileiro.

Abstract: Data Science is a developing, interdisciplinary field that arises at the intersection of statistics, information technology, and domain knowledge. Data Science seeks to extract knowledge from raw data through statistical models, to aid organizational decision-making, bringing benefits to all areas of society. Organizations need professionals skilled in these areas buthiring a data scientist is still arduous and costly, especially due to the lack of qualified people. This thesis analyzes the competencies required for data scientists in Brazil and proposes a competency model based on a survey conducted with Data Science professionals. The proposed model organizes Data Science competencies into four dimensions: Technology, Data Analysis, Business Understanding, and Sociocultural Competencies, and provides subsidies for the education, hiring, and self-assessment of Data Science professionals. The data collection instrument presents 227 complete and valid responses that support the definition of the profile of Data Science professionals working in Brazil. The survey confirms Data Science as a recent field, formed by young professionals with relatively quick time in the area, whose origin comes from established disciplines such as Statistics and Computer Science. Regarding competencies, Confirmatory Factor Analysis results in a second-order model composed of four factors that presents a very good fit (RMSEA = 0.035, GFI= 0.974, TLI = 0.992, SRMR = 0.081). The statistical model in four dimensions shows good reliability, validity, and credibility, proving to be an effective tool in assessing Data Science competencies. In addition to the survey research, the thesis identifies the requirements in job advertisements for Data Scientists and the topics covered in college-level courses and free courses for this professional. The thesis uses text mining methods (n -gram, topic modeling, and clustering) to analyze these documents obtained with data scraping. The text mining of the ads points out a concentration of vacancies in São Paulo but reveals that the remote modality is the second most offered. It highlights that salaries in Brazil are below the average of other countries, even though organizations are looking for experienced and highly educated professionals. As for the requirements, there is a predominance of technical skills such as machine learning, statistical models, Python, and databases, among others. The analysis of the higher education and free courses shows alignment with the job posts and the competencies defined in the survey research. Even so, the three sets of documents analyzed - advertisements, graduate courses, and open courses - have their characteristics. Regarding the mining techniques, the research shows that n-gram and clustering are more appropriate than topic modeling. Finally, even though the characteristics of Brazil are distinct from other countries, the model can be replicated in future research inside and outside Brazil..

URI

https://hdl.handle.net/1884/80737

Collections

Teses [20]