Utilize este link para identificar ou citar este item: https://bdm.unb.br/handle/10483/34427
Arquivos neste item:
Arquivo Descrição TamanhoFormato 
2022_IgorFurtadoGuimaraesEstevao_tcc.pdfTrabalho de Conclusão de Curso 2,32 MBAdobe PDFver/abrir
Título: Classificação de publicações em diários oficiais utilizando aprendizagem de máquina e processamento de linguagem natural
Autor(es): Estevão, Igor Furtado Guimarães
Orientador(es): Vidal, Flávio de Barros
Assunto: Aprendizado de máquina
Processamento de linguagem natural (Computação)
Data de apresentação: 9-Mai-2022
Data de publicação: 4-Abr-2023
Referência: ESTEVÃO, Igor Furtado Guimarães. Classificação de publicações em diários oficiais utilizando aprendizagem de máquina e processamento de linguagem natural. 2022. 63 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia Mecatrônica) — Universidade de Brasília, Brasília, 2022.
Resumo: De forma a impulsionar o avanço de tecnologias que lidam com a grande quantidade de informação gerada pelo mundo moderno e auxiliar no combate à corrupção, o presente trabalho buscou desenvolver uma metodologia de classificação de publicações relacionadas ao processo licitatório de obras públicas, disponíveis no Diário Oficial da União, quanto ao tipo de publicação, sendo esse um problema de classificação multiclasse de texto. Para isso, foi reunido um conjunto de dados com 4.181.390 publicações, o qual somado ao uso de técnicas de aprendizagem de máquina e processamento de linguagem natural, possibilitaram a simulação de processos de classificação reais considerando diferentes cenários. Foram testados 14 modelos lineares clássicos diferentes na resolução do problema, os quais tiveram seus desempenhos medidos e comparados por meio do cálculo de métricas estatísticas derivadas da matriz de confusão multiclasse. Os resultados obtidos foram capazes de manter o nível de qualidade do que seria o trabalho de um ser humano capacitado, tendo o modelo LinearSVM-L2 atingido um F1-score de 97.88% em um dos cenários, mostrando que as técnicas utilizadas são muito eficazes na resolução de problemas dessa natureza e abrindo caminho para a resolução de problemas mais complexos.
Abstract: In order to boost the advancement of technologies that deal with the large amount of information generated by the modern world and assist in the fight against corruption, the present work sought to develop a methodology for classifying publications related to the bidding process of constructions, avaiable at Diário Oficial da União, regarding the type of publication, this being a multiclass text classification problem. To do that, a dataset with 4.181.390 publications was gathered, which, together with machine learning and natural language processing techniques, allowed the simulation of open-world classification processes considering different scenarios. Fourteen different classical linear models were tested, which had their performances measured and compared by calculating statistical metrics derived from the multiclass confusion matrix. The results obtained were able to maintain the quality level of what would be the work of a trained human being, with the LinearSVM-L2 model reaching an F1-score of 97.88% in one of the scenarios, showing that the techniques used are very effective in solving problems of this nature and opening the path to solving more complex problems.
Informações adicionais: Trabalho de conclusão de curso (graduação) — Universidade de Brasília, Faculdade de Tecnologia, Curso de Graduação em Engenharia de Controle e Automação, 2022.
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.
Aparece na Coleção:Engenharia Mecatrônica



Todos os itens na BDM estão protegidos por copyright. Todos os direitos reservados.