广告位

您现在的位置是：主页 > 营销推广 >

TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型

2025-04-23 22:53营销推广人已围观

简介TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型，主要用于文档理解任务。通过Token级对齐，实现了图像Token与语言Token在同一特征空间中的共享，支持Token级图文交互，在...

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型，主要用于文档理解任务。通过Token级对齐，实现了图像Token与语言Token在同一特征空间中的共享，支持Token级图文交互，在处理包含密集文字的图像时表现突出。为了训练该模型，团队构建了业内首个Token级图文数据集TokenIT，包含2000万张图像和18亿高质量的Token-Mask对，数据量远超现有模型。

细粒度图文对齐：TokenFD实现了图像Token与语言Token在同一特征空间中的共享，支持Token级的图文交互。
提升多模态任务性能：TokenFD能显著提升多模态大模型在文档理解任务中的表现。例如，在文本分割任务中，Zero-Shot性能提升了18.78%；在文本理解任务中，Zero-Shot性能提升了1.48%；在文本检索任务中，Zero-Shot性能提升了50.33%。
基座适配与扩展：TokenFD可直接替换其他多模态大模型的基座，无需额外训练即可提升各项评估基准。基于TokenFD作为视觉基础模型，进一步推出了TokenVL，一种全新的多模态大模型图文对齐预训练范式。

BPE分词与像素级掩码标注：TokenFD首创了BPE分词+像素级掩码标注技术。具体而言，将文本分割为BPE子词（如“un-”、“-able”），将每个子词（token）精确对应到图像中的局部区域。使模型能更好地理解图像中的文字信息，支持“图像即文字”的语义映射。
数据集与模型训练：TokenFD依托自主研发的TokenIT数据集进行训练。数据集包含2000万张图像和18亿高质量的Token-Mask对，覆盖自然场景、文档、图表等多种文本图像类型。大规模的细粒度标注数据为模型提供了丰富的语义信息，在文档理解、文本分割等任务中表现出色。