feat(extracted-text): enforce OCR segment validation with bbox/type/reading_order (!162) · Merge requests · Corpus / Corpus Server Platform

Kushal Lagichetty requested to merge doc-digitization into develop Mar 31, 2026

Title (semantic)

feat(extracted-text): enforce OCR segment validation with bbox/type/reading_order

This merge request implements OCR-specific extracted text segment validation while keeping ASR behavior compatible.

Extended OCR segment support in extracted text schema with:
- bbox
- type
- reading_order
Added OCR-only validation rules:
- bbox, type, reading_order, start, end are required per segment
- end == start + 1 (page-index rule)
- bbox must have 4 values and valid geometry (x2 > x1, y2 > y1)
- type must be one of:
  - Text, Title, Caption, Table, Picture, Formula, Section-header, List-item, Page-header, Page-footer, Footnote
- segment reading_order must be in proper order
Preserved ASR compatibility:
- OCR-only fields are not mandatory for extraction_type="asr"
- existing ASR temporal consistency validation remains

Edited Mar 31, 2026 by Kushal Lagichetty