Mestrado

O complemento da minha formação acadêmica foi realizado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo (ICMC-USP), localizada em São Carlos – SP, Brasil. Nessa instituição de ensino eu obtive o título de mestre em Ciências da Computação, por meio do desenvolvimento de um projeto de pesquisa que teve vigência desde Março de 2016 até Novembro de 2018.

Durante esse curso de mestrado, eu integrei o Laboratório de Inteligência Computacional (LABIC) do ICMC-USP, um dos mais consagrados nacional e mundialmente nas áreas de Inteligência Artificial (IA), de Aprendizado de Máquina, de Mineração de Dados e de Textos. Tive a oportunidade de aprender e intensificar diversos conceitos de IA, tendo atuado na área de Mineração de Textos com o enriquecimento de representações de textos, conforme descrito a seguir.


Exploração de informações contextuais para enriquecimento semântico em representações de textos (2016/18)

Esse projeto de mestrado, descrito mais detalhadamente no site do LABIC, foi orientado pela professora Solange Oliveira Rezende. O objetivo inicialmente definido era o de propor, desenvolver e avaliar soluções para o problema de enriquecimento semântico e contextual de representações de textos, implicando na melhoria de tarefas como a classificação automática de textos. Esse projeto foi financiado integralmente pelo Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq).

Em decorrência da crescente quantidade de documentos disponíveis em formato digital, a importância da análise computacional de grandes volumes de dados torna-se ainda mais evidente na atualidade. Embora grande parte desses documentos esteja disponível em formato de língua natural, a análise por meio de processos como a Mineração de Textos ainda é um desafio a ser superado. Normalmente, abordagens tradicionais de representação de textos como a Bag of Words desconsideram aspectos semânticos e contextuais das coleções de textos analisadas, ignorando informações que podem potencializar o desempenho das tarefas realizadas. Os principais problemas associados a essas abordagens são a alta esparsidade e dimensionalidade que prejudicam consideravelmente o desempenho das tarefas realizadas. Como o enriquecimento de representações de textos é uma das possibilidades efetivas para atenuar esses tipos de problemas, nesta dissertação foi investigada a aplicação conjunta de enriquecimentos semânticos e contextuais. Para isso foi proposta uma nova técnica de representação de textos, cuja principal novidade é a abordagem utilizada para calcular a frequência dos atributos (contextos) baseando-se em suas similaridades. Os atributos extraídos por meio dessa técnica proposta são considerados dependentes já que são formados por conjuntos de termos correlacionados que podem compartilhar informações semelhantes. A efetividade da técnica foi avaliada na tarefa de classificação automática de textos, na qual foram explorados diferentes procedimentos de enriquecimento textual e versões de modelos de linguagem baseados em word embeddings. De acordo com os resultados obtidos, há evidências favoráveis a respeito da efetividade e da aplicabilidade da técnica de representação de textos proposta. Segundo os testes de significância estatística realizados, a aplicação de enriquecimentos textuais baseados em Reconhecimento de Entidades Nomeadas e em Desambiguação Lexical de Sentido pode contribuir efetivamente para o aumento do desempenho da tarefa de classificação automática de textos, principalmente nas abordagens em que também são considerados textos de fontes externas de conhecimento como a Wikipédia. Constatou-se empiricamente que a efetividade dessa técnica proposta pode ser superior às abordagens tradicionais em cenários de aplicação baseados em informações semânticas das coleções de textos, caracterizando-a como uma alternativa promissora para a geração de representações de textos com alta densidade de informações semânticas e contextuais que se destacam pela interpretabilidade.