Veuillez utiliser cette adresse pour citer ce document :
http://repositoriocyt.unlam.edu.ar/handle/123456789/2020
metadata.dc.creator: | Spósitto, Osvaldo Mario Ryckeboer, Hugo Emilio Julio Ludovico Ledesma, Viviana Alejandra Gargano, Cecilia Victoria Bossero, Julio César Matteo, Lorena Romina Moreno, Edgardo Javier Procopio, Gastón Emanuel Saizar, Victoria Macias Corral, Patricio Ezequiel Conti, Laura García, Sergio Pérez Villar, Gustavo Ojeda, Juan Quintana, Fabio Hernán |
Titre: | Implementación de un Sistema Web de Recuperación de la Información orientado a documentación jurídica con el proceso de indexación semántica latente paralelizado |
metadata.dc.contributor: | Spósitto, Osvaldo Mario Ryckeboer, Hugo Emilio Julio Ludovico |
Mots-clés: | SISTEMAS DE INFORMACION JURIDICA INDIZACION AUTOMATICA RECUPERACION DE LA INFORMACION PROCESAMIENTO DE DATOS |
Editeur: | Universidad Nacional de La Matanza. Departamento de Ingeniería e Investigaciones Tecnológicas |
Référence bibliographique: | Spositto, O. M., Ryckeboer, H. E. J. L., Ledesma, V. A., Bossero, J. C., Gargano, C.V., Matteo, L. R., Moreno, E. J., Procopio, G. E., Saizar, V., Macias Corral, P. E., Conti, L., García, S., Pérez Villar, G., Ojeda, J. y Quintana, F. H. (2022). Implementación de un Sistema Web de Recuperación de la Información orientado a documentación jurídica con el proceso de indexación semántica latente paralelizado (Informe C-241). Universidad Nacional de La Matanza. http://repositoriocyt.unlam.edu.ar/handle/123456789/2020 |
Description: | Durante la primera etapa del proyecto se llevaron adelante una serie de subtareas de investigación que sirven de apoyo a las tareas planificadas de armado del corpus y de análisis del resultado del proceso de lematización. Si bien en dichas etapas es necesaria la intervención manual por parte de los expertos, se buscó unificar términos similares en los documentos jurídicos a fin de reducir la dimensionalidad (cantidad de términos) del corpus, simplificando así las tareas manuales de revisión
por parte de los usuarios. Para ello se aplicaron diversas técnicas automáticas, como ser aplicación de Expresiones Regulares (ER), distancia de Hamming y de Levenshtein (para encontrar similitud de
términos), funciones de duplicación y limpieza de datos, entre otras. En esta misma línea, con el fin de reducir ese costo de intervención manual y, para mejorar la performance en la búsqueda exhaustiva de patrones realizada inicialmente mediante el uso de ER. Se realizó un estudio para la búsqueda del mejor umbral de coincidencia que surge de aplicar medidas de similitud léxica a los términos resultantes del proceso de indización y organización del corpus. Sumado a esto, se corrigieron lemas en los tiempos verbales. Para ello fue necesario modificar el algoritmo de Snowball, de este modo, una vez que el proceso obtiene el lema, este es buscado en un lote de verbos almacenados, de encontrase, es reemplazado por el lema correcto. Con respecto al armado del corpus documental jurídico, se gestionó las correspondientes autorizaciones y la Suprema Corte de Justicia de la Provincia de Buenos Aires, proveyó un archivo de 23 Gigabyte que incluía más de 300 mil documentos del fuero civil y comercial, separados por distintas “etiquetas”. Para procesar este archivo, se desarrolló un programa en C# que permite segmentar y armar a los documentos que conformarán el corpus jurídico. Además, se desarrolló el SRI web que incluye configurar la carpeta donde se encuentran los archivos a indexar. Una vez configurada, se inicia el proceso de indexación, cuya duración depende del tamaño del corpus. Luego, relacionado a las búsquedas, se ingresan las palabras clave a buscar, el sistema utiliza la última indexación realizada para encontrar los documentos que coincidan con las mismas. El sistema devuelve los resultados en un listado y ofrece la posibilidad de verlos o descargarlos. Fil: Spósitto, Osvaldo Mario. Universidad Nacional de La Matanza; Argentina. Fil: Ryckeboer, Hugo Emilio Julio Ludovico. Universidad Nacional de La Matanza; Argentina. Fil: Ledesma, Viviana Alejandra. Universidad Nacional de La Matanza; Argentina. Fil: Bossero, Julio César. Universidad Nacional de La Matanza; Argentina. Fil: Gargano, Cecilia Victoria. Universidad Nacional de La Matanza; Argentina. Fil: Matteo, Lorena Romina. Universidad Nacional de La Matanza; Argentina. Fil: Moreno, Edgardo Javier. Universidad Nacional de La Matanza; Argentina. Fil: Procopio, Gastón Emanuel. Universidad Nacional de La Matanza; Argentina. Fil: Saizar, Victoria. Universidad Nacional de La Matanza; Argentina. Fil: Macias Corral, Patricio Ezequiel. Universidad Nacional de La Matanza; Argentina. Fil: Conti, Laura. Universidad Nacional de La Matanza; Argentina. Fil: García, Sergio. Universidad Nacional de La Matanza; Argentina. Fil: Pérez Villar, Gustavo. Universidad Nacional de La Matanza; Argentina. Fil: Ojeda, Juan. Universidad Nacional de La Matanza; Argentina. Fil: Quintana, Fabio Hernán. Universidad Nacional de La Matanza; Argentina. |
URI/URL: | http://repositoriocyt.unlam.edu.ar/handle/123456789/2020 |
Autre(s) identifiant(s): | https://ror.org/01bmj8t37 |
Collection(s) : | Investigaciones |
Fichier(s) constituant ce document :
Fichier | Description | Taille | Format | |
---|---|---|---|---|
Implementación de un Sistema Web de Recuperación de la Información orientado a documentación jurídica con el proceso de indexación semántica latente paralelizado.pdf | 19.19 MB | Adobe PDF | Voir/Ouvrir |
Tous les documents dans DSpace sont protégés par copyright, avec tous droits réservés.