Mecanismos de clasificación de la información sobre un sistema de almacenamiento masivo
2014Profesores: Dr. Ricardo Marcelín Jiménez y Orlando Muñoz Tezocotetla
Resumen: El sistema de archivos Babel se compone de un conjunto de máquinas con capacidades de almacenamiento y procesamiento conectadas mediante una red local. Los clientes de Babel perciben una sola máquina, denominada coordinador o proxy, que despacha las solicitudes de servicio (almacenamiento, búsqueda y recuperación de archivos) y administra los recursos. Por otro lado, los archivos se guardan de manera redundante, esto quiere decir que se crea un exceso en la información que codifica a los archivos y este exceso se guarda de forma distribuida entre los dispositivos de almacenamiento que componen al sistema. Se sabe que cuando la información crece en volumen y en el número de usuarios que pueden beneficiarse de ella, no basta con la capacidad para almacenarla y recuperarla por un nombre. Todos los usuarios potenciales de las TI pueden verse beneficiados con los productos de la investigación que puedan mejorar los procesos de clasificación, almacenamiento y recuperación de contenidos. Uno de los problemas que surgen al tener enormes cantidades de datos es el costo en procesamiento para extraer conocimiento. Entendido este último como el conjunto de patrones útiles e interesantes de una base de información. Entre los diversos enfoques para gestionar un volumen masivo de datos, se encuentra el enfoque de la Web semántica que ha dado origen a las memorias semánticas corporativas (MSC). El contenido semántico de tales recursos es un factor importante a considerar para fines de almacenamiento, búsqueda e intercambio. Por otro lado, este no es el único enfoque con el que se ha abordado el problema de la recuperación de la información. Deseamos diseñar y construir un prototipo que permita caracterizar la naturaleza de la información generada por una organización. En particular, se trata de generar los mecanismos que permitan guiar la recuperación en un sistema de almacenamiento distribuido.
Objetivo general
- Proponer e implementar una técnica para clasificar información contenida en un repositorio masivo.
Objetivos específicos
- Estudiar y evaluar las técnicas existentes de minería de datos en entornos de cómputo distribuido.
- Proponer e implementar una solución tomando en cuenta las deficiencias que se identifiquen en los métodos existentes.