Por favor, use este identificador para citar o enlazar este ítem: http://repositoriocyt.unlam.edu.ar/handle/123456789/2020
Autor(es): Spósitto, Osvaldo Mario
Ryckeboer, Hugo Emilio Julio Ludovico
Ledesma, Viviana Alejandra
Gargano, Cecilia Victoria
Bossero, Julio César
Matteo, Lorena Romina
Moreno, Edgardo Javier
Procopio, Gastón Emanuel
Saizar, Victoria
Macias Corral, Patricio Ezequiel
Conti, Laura
García, Sergio
Pérez Villar, Gustavo
Ojeda, Juan
Quintana, Fabio Hernán
Título: Implementación de un Sistema Web de Recuperación de la Información orientado a documentación jurídica con el proceso de indexación semántica latente paralelizado
Director(es): Spósitto, Osvaldo Mario
Ryckeboer, Hugo Emilio Julio Ludovico
Descriptores y temas: SISTEMAS DE INFORMACION JURIDICA
INDIZACION AUTOMATICA
RECUPERACION DE LA INFORMACION
PROCESAMIENTO DE DATOS
Editor: Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas
Referencia sugerida: Spositto, O. M., Ryckeboer, H. E. J. L., Ledesma, V. A., Bossero, J. C., Gargano, C.V., Matteo, L. R., Moreno, E. J., Procopio, G. E., Saizar, V., Macias Corral, P. E., Conti, L., García, S., Pérez Villar, G., Ojeda, J. y Quintana, F. H. (2022). Implementación de un Sistema Web de Recuperación de la Información orientado a documentación jurídica con el proceso de indexación semántica latente paralelizado (Informe C-241). Universidad Nacional de La Matanza. http://repositoriocyt.unlam.edu.ar/handle/123456789/2020
Resumen y filiaciones: Durante la primera etapa del proyecto se llevaron adelante una serie de subtareas de investigación que sirven de apoyo a las tareas planificadas de armado del corpus y de análisis del resultado del proceso de lematización. Si bien en dichas etapas es necesaria la intervención manual por parte de los expertos, se buscó unificar términos similares en los documentos jurídicos a fin de reducir la dimensionalidad (cantidad de términos) del corpus, simplificando así las tareas manuales de revisión por parte de los usuarios. Para ello se aplicaron diversas técnicas automáticas, como ser aplicación de Expresiones Regulares (ER), distancia de Hamming y de Levenshtein (para encontrar similitud de términos), funciones de duplicación y limpieza de datos, entre otras. En esta misma línea, con el fin de reducir ese costo de intervención manual y, para mejorar la performance en la búsqueda exhaustiva de patrones realizada inicialmente mediante el uso de ER. Se realizó un estudio para la búsqueda del mejor umbral de coincidencia que surge de aplicar medidas de similitud léxica a los términos resultantes del proceso de indización y organización del corpus. Sumado a esto, se corrigieron lemas en los tiempos verbales. Para ello fue necesario modificar el algoritmo de Snowball, de este modo, una vez que el proceso obtiene el lema, este es buscado en un lote de verbos almacenados, de encontrase, es reemplazado por el lema correcto. Con respecto al armado del corpus documental jurídico, se gestionó las correspondientes autorizaciones y la Suprema Corte de Justicia de la Provincia de Buenos Aires, proveyó un archivo de 23 Gigabyte que incluía más de 300 mil documentos del fuero civil y comercial, separados por distintas “etiquetas”. Para procesar este archivo, se desarrolló un programa en C# que permite segmentar y armar a los documentos que conformarán el corpus jurídico. Además, se desarrolló el SRI web que incluye configurar la carpeta donde se encuentran los archivos a indexar. Una vez configurada, se inicia el proceso de indexación, cuya duración depende del tamaño del corpus. Luego, relacionado a las búsquedas, se ingresan las palabras clave a buscar, el sistema utiliza la última indexación realizada para encontrar los documentos que coincidan con las mismas. El sistema devuelve los resultados en un listado y ofrece la posibilidad de verlos o descargarlos.
Fil: Spósitto, Osvaldo Mario. Universidad Nacional de La Matanza; Argentina.
Fil: Ryckeboer, Hugo Emilio Julio Ludovico. Universidad Nacional de La Matanza; Argentina.
Fil: Ledesma, Viviana Alejandra. Universidad Nacional de La Matanza; Argentina.
Fil: Bossero, Julio César. Universidad Nacional de La Matanza; Argentina.
Fil: Gargano, Cecilia Victoria. Universidad Nacional de La Matanza; Argentina.
Fil: Matteo, Lorena Romina. Universidad Nacional de La Matanza; Argentina.
Fil: Moreno, Edgardo Javier. Universidad Nacional de La Matanza; Argentina.
Fil: Procopio, Gastón Emanuel. Universidad Nacional de La Matanza; Argentina.
Fil: Saizar, Victoria. Universidad Nacional de La Matanza; Argentina.
Fil: Macias Corral, Patricio Ezequiel. Universidad Nacional de La Matanza; Argentina.
Fil: Conti, Laura. Universidad Nacional de La Matanza; Argentina.
Fil: García, Sergio. Universidad Nacional de La Matanza; Argentina.
Fil: Pérez Villar, Gustavo. Universidad Nacional de La Matanza; Argentina.
Fil: Ojeda, Juan. Universidad Nacional de La Matanza; Argentina.
Fil: Quintana, Fabio Hernán. Universidad Nacional de La Matanza; Argentina.
URI: http://repositoriocyt.unlam.edu.ar/handle/123456789/2020
Aparece en las colecciones: Investigaciones



Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.