Sistema de detección de paráfrasis sobre un corpus de contexto científico, utilizando algoritmos de Minería Datos y Semántica Distributiva

  • -

Sistema de detección de paráfrasis sobre un corpus de contexto científico, utilizando algoritmos de Minería Datos y Semántica Distributiva

2021

Descargar versión completa (PDF)

Profesores: Dr. Benjamí­n Moreno Montiel y Dr. René MacKinney Romero

Resumen: Este proyecto tiene por objetivo desarrollar un Sistema de detección de paráfrasis fusionando algoritmos de Minería de Datos y Semántica Distributiva (MiDSemita). El cual permitirá explorar la base de datos que se encuentra en la plataforma TESIUAMI, en busca de paráfrasis de las tesis de ambiente científico ya que en la actualidad este es un problema que debe ser erradicado de las instituciones de educación superior por medio de políticas preventivas y de conciencia para el alumnado.

Objetivo general:

Desarrollar un Sistema de detección de paráfrasis fusionando algoritmos de Minería de Datos y Semántica Distributiva (MiDSemita).

Objetivos específicos:

  • Revisión del estado del arte sobre los principales clasificadores para Minería de Datos y Semántica Distributiva aplicados en detección de paráfrasis
  • Definir el formato para representación de los datos documentales, una posibilidad es utilizar Word2vect, sin embargo, existen otros formatos cómo globe y fasttext
  • Generación de un corpus del repositorio que se tenga en TESIUAMI, enfocado al contexto científico
  • Manejo de grandes cantidades de datos mediante la generación del corpus que se obtenga de los repositorios de TESIUAMI de contexto científico
  • Implementar algoritmos de Semántica Distributiva y Minería de Datos para atacar el problema de detección de paráfrasis
  • Se realizarán evaluaciones de los algoritmos de desarrollados en el proyectopara desarrollar una métrica de similitud semántica enfocada y especializada para la paráfrasis y el plagio de textos en español de acuerdo con las categorías propuestas por Mota Montoya et al.
  • Desarrollar el primer prototipo del Sistema de detección de paráfrasis sobre un corpus de contexto científico, utilizando algoritmos de Minería Datos y Semántica Distributiva

Ultima actualización 24/07/2022 por pcyti