Por favor, use este identificador para citar o enlazar este ítem: http://repositoriocyt.unlam.edu.ar/handle/123456789/1972
Autor(es): Ryckeboer, Hugo Emilio Julio Ludovico
Blanco, Gabriel Esteban
Spósitto, Osvaldo Mario
Procopio, Gastón Emanuel
Prilusky, Elisa Mirta
Matteo, Lorena Romina
Macias Corral, Patricio Ezequiel
Gargano, Cecilia Victoria
Casuscelli, Mauro Javier
Bossero, Julio César
Título: Uso de minería de datos para acelerar la recuperación de documentos
Director(es): Ryckeboer, Hugo Emilio Julio Ludovico
Blanco, Gabriel Esteban
Descriptores y temas: SISTEMAS DE INFORMACION
ANALISIS DE DATOS
RECOPILACION DE DATOS
Editor: Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas
Referencia sugerida: Ryckeboer, H. E. J. L., Blanco, G. E., Spósitto, O. M., Procopio, G. E., Prilusky, E. M., Matteo, L. R., Macias Corral, P. E., Gragano, C. V., Casuscelli, M. J. y Bossero, J. C. (2018). Uso de minería de datos para acelerar la recuperación de documentos (Informe C-205). Universidad Nacional de La Matanza. http://repositoriocyt.unlam.edu.ar/handle/123456789/1972
Resumen y filiaciones: El objetivo de este proyecto se basó en construir una alternativa innovadora, basada en algoritmos de clasificación, para realizar la búsqueda de documentos relevantes en un tiempo menor de respuesta. Siguiendo los procesos de un sistema de recuperación de información (SRI), los documentos de un corpus son transformados en vectores descriptivos. Una consulta de usuario es también convertida en otro vector descriptivo. Para obtener un documento que satisfaga la necesidad de información del usuario, el vector de la consulta se debe enfrentar con todo el corpus, en búsqueda de similitudes. Este proceso genera un índice de relevancia, que ordenará la lista de documentos sugeridos que recibe el usuario. En este trabajo se analiza la posibilidad de fraccionar un corpus de modo tal de reducir la cantidad de documentos a comparar. Para ello, se requiere de dos procesos preparatorios: a) uno que particione el corpus utilizando una noción de vecindad o similitud y b) el entrenamiento de un algoritmo de clasificación que direccione la consulta hacia la parte más promisoria. Ambos servicios los estudia y provee la minería de datos (MD). Luego por cada consulta se deben ejecutar dos pasos: a) aplicar el algoritmo que direcciona la consulta hacia una de las partes, para b) enfrentar la consulta con cada documento de esa parte para determinar su grado de adecuación y posterior posición en la lista de documentos sugeridos. Los números obtenidos en las simulaciones del primer año fueron promisorios, lo que incentiva seguir investigando para obtener indicadores aún mejores. La cantidad de ideas que fueron generadas es de no acabar. Destacando algunas ideas que deberían contribuir a lograrlo: decidir por cada consulta la conveniencia de explorar o no los documentos de la franja marginal de los particionados, recurrir a varios particionados para reducir el problema de frontera.
Fil: Ryckeboer, Hugo Emilio Julio Ludovico. Universidad Nacional de La Matanza; Argentina.
Fil: Blanco, Gabriel Esteban. Universidad Nacional de La Matanza; Argentina.
Fil: Spósitto, Osvaldo Mario. Universidad Nacional de La Matanza; Argentina.
Fil: Procopio, Gastón Emanuel. Universidad Nacional de La Matanza; Argentina.
Fil: Prilusky, Elisa Mirta. Universidad Nacional de La Matanza; Argentina.
Fil: Matteo, Lorena Romina. Universidad Nacional de La Matanza; Argentina.
Fil: Macias Corral, Patricio Ezequiel. Universidad Nacional de La Matanza; Argentina.
Fil: Gargano, Cecilia Victoria. Universidad Nacional de La Matanza; Argentina.
Fil: Casuscelli, Mauro Javier. Universidad Nacional de La Matanza; Argentina.
Fil: Bossero, Julio César. Universidad Nacional de La Matanza; Argentina.
URI: http://repositoriocyt.unlam.edu.ar/handle/123456789/1972
Aparece en las colecciones: Investigaciones

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
Uso de minería de datos para acelerar la recuperación de documentos.pdf1.34 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.