广告位

您现在的位置是:主页 > 营销推广 >

TokenFD – 上海交大联合美团推出的细粒度图文对齐基础模型

2025-04-23 22:53营销推广 人已围观

简介TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在...

TokenFD是上海交通大学联合美团推出的细粒度图文对齐基础模型,主要用于文档理解任务。通过Token级对齐,实现了图像Token与语言Token在同一特征空间中的共享,支持Token级图文交互,在处理包含密集文字的图像时表现突出。为了训练该模型,团队构建了业内首个Token级图文数据集TokenIT,包含2000万张图像和18亿高质量的Token-Mask对,数据量远超现有模型。

  • 细粒度图文对齐:TokenFD实现了图像Token与语言Token在同一特征空间中的共享,支持Token级的图文交互。
  • 提升多模态任务性能:TokenFD能显著提升多模态大模型在文档理解任务中的表现。例如,在文本分割任务中,Zero-Shot性能提升了18.78%;在文本理解任务中,Zero-Shot性能提升了1.48%;在文本检索任务中,Zero-Shot性能提升了50.33%。
  • 基座适配与扩展:TokenFD可直接替换其他多模态大模型的基座,无需额外训练即可提升各项评估基准。基于TokenFD作为视觉基础模型,进一步推出了TokenVL,一种全新的多模态大模型图文对齐预训练范式。
  • BPE分词与像素级掩码标注:TokenFD首创了BPE分词+像素级掩码标注技术。具体而言,将文本分割为BPE子词(如“un-”、“-able”),将每个子词(token)精确对应到图像中的局部区域。使模型能更好地理解图像中的文字信息,支持“图像即文字”的语义映射。
  • 数据集与模型训练:TokenFD依托自主研发的TokenIT数据集进行训练。数据集包含2000万张图像和18亿高质量的Token-Mask对,覆盖自然场景、文档、图表等多种文本图像类型。大规模的细粒度标注数据为模型提供了丰富的语义信息,在文档理解、文本分割等任务中表现出色。
  • 项目官网
  • Github仓库
  • HuggingFace模型库
  • arXiv技术论文
  • 文档理解与处理:TokenFD可以更好地处理包含密集文字的文档图像,例如表格、公式和字符等复杂结构。
  • 图像安全审查:TokenFD可以用于图像安全审查,通过细粒度的图文对齐,能更准确地检测图像中的违规内容,例如包含不当文字或符号的图像。
  • 基于文字的图像检索:TokenFD突破了传统基于文字识别的图文检索方式,通过特征空间直接进行相似度匹配,支持任意文字输入进行图像内容查找。
  • 知识检索增强的大模型:TokenFD可以用于增强知识检索能力,通过细粒度的图文对齐,帮助大模型更好地理解和生成与图像相关的文本内容。

Tags:

广告位
    广告位
    广告位

标签云

站点信息

  • 文章统计1317篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们