Desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

  • -

Desarrollo de un rastreador web capaz de aprender a identificar la información más relevante

2016

 Descargar versión PDF

ProfesoresDr. Ricardo Marcelín Jiménez y Orlando Muñoz Texzocotetla

Resumen: Un rastreador o explorador web (también llamado “araña” o robot) es un programa que permite descargar y clasificar el contenido de paginas en la web. Entre sus múltiples aplicaciones, se les usa como el componente principal de los motores de búsqueda en la web, sistemas que reúne un corpus de páginas electrónicas, las indexan y permiten las consultas de un amplio contenido temático. Una segunda aplicación es para el archivado de la web, que consiste en la descarga de paginas que son guardadas para la posteridad. Una tercera aplicación es para la minería de datos de la web, en la que se analizan estadísticamente las páginas descargadas. Finalmente, podemos mencionar los servicios de monitoreo en la web, en los que se disparan alarmas cuando la búsqueda empata con cierto contenido disponible en la red. Actualmente la investigación de los algoritmos de rastreo web (crawling algorithms) es de gran importancia debido al enorme crecimiento de la información contenida en la web, y a que ésta no se encuentra almacenada en un servidor centralizado, sino en una federación de cientos de millones de repositorios articulados mediante un conjunto de protocolos, reglas de acceso y formatos de datos.

Objetivo general

  • Construir un rastreador o explorador web capaz de aprender a identificar la información más relevante en las páginas web.

Objetivos específicos

  • Estudiar las arquitectura y caracterısticas básicas de un rastreador Web.
  • Estudiar las técnicas de aprendizaje maquinal (que serán utilizadas por el rastreador que será construido).
  • Diseñar el rastreador web (incluyendo las técnicas de aprendizaje maquinal estudiadas).
  • Implementar el rastreador propuesto y evaluar sus prestaciones

Ultima actualización 13/08/2022 por pcyti