{rfName}
Co

Licencia y uso

Icono OpenAccess

Altmetrics

Grant support

Support by VINCES Consulting under the project VINCESAI-ARGOS, and BB forTAI (PID2021-127641OB-I00 MICINN/FEDER) . The work of A. Pena is supported by a FPU Fellowship (FPU21/00535) by the Spanish MIU. A. Morales is supported by the Madrid Government (Comunidad de Madrid-Spain) under the Multiannual Agreement with Universidad Autonoma de Madrid in the line of Excellence for the University Teaching Staff in the context of the V PRICIT (Regional Programme of Research and Technological Innovation) . VINCES had an active role on the development of the work, through the guidance of the different authors belonging to the corporation. The rest of funding sources had no role/influence on the development of this work.

Análisis de autorías institucional

Pena, AlejandroAutor (correspondencia)Morales, AythamiAutor o CoautorFierrez, JulianAutor o CoautorOrtega-Garcia, JavierAutor o Coautor

Compartir

2 de junio de 2024
Publicaciones
>
Artículo

Continuous document layout analysis: Human-in-the-loop AI-based data curation, database, and evaluation in the domain of public affairs

Publicado en:Information Fusion. 108 102398- - 2024-08-01 108(), DOI: 10.1016/j.inffus.2024.102398

Autores: Pena, Alejandro; Morales, Aythami; Fierrez, Julian; Ortega-Garcia, Javier; Puente, Inigo; Cordova, Jorge; Cordova, Gonzalo

Afiliaciones

Univ Autonoma Madrid, BiDA Lab, Madrid 28049, Spain - Autor o Coautor
VINCES Consulting, Madrid 28049, Spain - Autor o Coautor

Resumen

In the digital era, the amount of digital documents generated each day have being increasing exponentially with the years, to a point where it is unfeasible to process them manually. Thus, there has been growing interest from different sectors to develop automatic tools to process digital documents in an automatic manner. Yet useful, this task is challenging, due to both the large variability and the multimodal nature inherent to the problem. In most cases, a text -only approach often falls short in comprehending the information conveyed by diverse components of varying significance. In this regard, Document Layout Analysis (DLA) has been an interesting research field for many years, whose objective it to detect and classify the basic components of a document. Thus, is an interesting task to obtain a first understanding on how the different components of the document interact with each other. In this work, we used a semi -automatic procedure to annotate digital documents with different layout labels, including 4 basic layout blocks and 4 text categories. We apply this procedure to collect a novel database for DLA in the public affairs domain, the PALdb database, using a set of 24 data sources from the Spanish Administration. The database comprises 37.9K documents with more than 441K document pages, and more than 8M labels associated to 8 layout block units. The results of our experiments validate the proposed text labeling procedure with accuracy up to 99%. We also present a novel application of Quickest Change Detection (QCD) techniques on the DLA domain, which we use to continuously detect changes in the layout of the documents from multiple sources.

Palabras clave

Document layout analysisDocument understandingHuman-in-the-looHuman-in-the-loopLegal domainNatural language processingQcd-based detection

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Information Fusion debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición 4/197, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Computer Science, Artificial Intelligence. Destacable, igualmente, el hecho de que la Revista está posicionada por encima del Percentil 90.

2025-07-16:

  • Google Scholar: 1
  • Scopus: 2

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-07-16:

  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 24 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

    Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

    • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
    • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: https://repositorio.uam.es/handle/10486/712089

    Análisis de liderazgo de los autores institucionales

    Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (PEÑA ALMANSA, ALEJANDRO) .

    el autor responsable de establecer las labores de correspondencia ha sido PEÑA ALMANSA, ALEJANDRO.