Dual-Perspective Multi-Level Cross-Modal Recommendation Based on Large Language Models

Si Yiting; Ye Yusong; Li Yiming; Yu Yaxin; Yu Zhisheng

doi:10.7544/issn1000-1239.202550040

Midv699 High Quality Jun 2026

Disclaimer: Always support official releases. The following information is for educational purposes regarding file quality standards.

: It contains 699 different document types , including passports, identity cards, and driving licenses from nearly every country and territory worldwide [1, 2].

MIDV-699 is a specialized dataset used for training and evaluating optical character recognition (OCR) and document understanding systems, focused on low-resolution, real-world identity document images captured by mobile devices. It contains photographs of ID cards and similar documents under varied conditions: motion blur, poor lighting, occlusions, perspective distortion, and compression artifacts typical of smartphone photography. The dataset’s diversity makes it valuable for building robust recognition pipelines that must operate reliably in unconstrained environments.

Disclaimer: Always support official releases. The following information is for educational purposes regarding file quality standards.

: It contains 699 different document types , including passports, identity cards, and driving licenses from nearly every country and territory worldwide [1, 2].

Midv699 High Quality Jun 2026

Export File

Citation

Format

Content