Lianwen Jin

MegaHan97K: A Large-Scale Dataset for Mega-Category Chinese Character Recognition with over 97K Categories

arXiv 2025

OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning

arXiv 2025

Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration

arXiv 2025

Smaller But Better: Unifying Layout Generation with Smaller Large Language Models

arXiv 2025

Datasets for Large Language Models: A Comprehensive Survey

arXiv 2024

Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach

arXiv 2024

PEneo: Unifying Line Extraction, Line Grouping, and Entity Linking for End-to-end Document Pair Extraction

arXiv 2024

DocLayLLM: An Efficient and Effective Multi-modal Extension of Large Language Models for Text-rich Document Understanding

arXiv 2024

SwinTextSpotter v2: Towards Better Synergy for Scene Text Spotting

arXiv 2024

DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks

CVPR 2024 1

Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid

arXiv 2024

OCRBench v2: An Improved Benchmark for Evaluating Large Multimodal Models on Visual Text Localization and Reasoning

arXiv 2024

Predicting the Original Appearance of Damaged Historical Documents

arXiv 2024

Scale-Aware Modulation Meet Transformer

ICCV 2023 1

ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy in Transformer

ICCV 2023 1

FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning

arXiv 2023

Revisiting Scene Text Recognition: A Data Perspective

ICCV 2023 1