Contextual Information Representation Technique based on 5 steps

Contextual Information Representation Technique based on 5 steps (CIRT.5) é uma nova técnica de representação de textos baseada no Modelo de Espaço Vetorial, proposta no meu projeto de mestrado intitulado “Exploração de informações contextuais para enriquecimento semântico em representações de textos”. Informações detalhadas podem ser obtidas em sua página oficial. Essa técnica assume que a relação de frequência entre os termos é dependente, considerando a dependência de um conjunto de termos correlacionados (contexto) diretamente proporcional à frequência com que seus termos ocorrem em um documento de texto. Como são consideradas similaridades entre todos os contextos extraídos, os documentos de texto da coleção analisada tornam-se intercambiáveis em relação ao compartilhamento de informações semânticas e contextuais.

A técnica de representação de textos CIRT.5 foi inicialmente explorada de maneira empírica na área de Mineração de Textos. Nesse trabalho em questão, essa técnica foi avaliada em diferentes línguas e cenários da tarefa de classificação, tendo sido utilizados modelos de linguagem baseados em word embeddings, pré-treinados a partir de textos extraídos da Wikipédia. De acordo com os resultados obtidos, verificou-se que representações de textos cujos atributos são caracterizados por contextos (grupos de termos correlacionados) permitem obter melhores resultados em tarefas de classificação em que os rótulos são baseados em informações semânticas. De acordo com os resultados obtidos, a CIRT.5 pode ser caracterizada como uma alternativa efetiva e mais interpretável a abordagens de representação de textos geradas unicamente a partir de word embeddings, cujos atributos são caracterizados por dimensões do modelo de linguagem.

Leave a Reply