图片

本文速览

FastDeploy是基于飞桨框架打造的一款高性能、易用且灵活的端到端大模型推理部署套件,支持ERNIE 4.5系列、PaddleOCR-VL、DeepSeek系列、Qwen系列、GPT-OSS等模型的一键推理服务部署,支持英伟达GPU、昆仑芯XPU、海光DCU等多种硬件平台(详细列表文档请见文末)。FastDeploy 2.3版本现已正式上线,多模态模型推理部署性能极致优化,其中PaddleOCR-VL与ERNIE-4.5-VL-28B-A3B-Thinking模型性能表现领先vLLM,达到最快推理速度!

FastDeploy 2.3版本介绍

FastDeploy 2.3版本在本次更新中重点围绕模型生态扩展、推理性能提升、硬件适配完善开发工具增强四个方面进行了系统性升级,整体显著提升了大模型部署的通用性、可控性与运行效率。

  • 型能力支持新增ERNIE-4.5-VL-28B-A3B-Thinking/PaddleOCR-VL及GLM 4.5/4.6模型的支持;Prefix Caching与受限解码通用性提升,适配多模态与思考模型,强化了复杂推理场景下的生成控制与缓存效率。Safetensors模型格式现已成为默认加载方式,覆盖Qwen2.5-VL与ERNIE-4.5-VL-28B-A3B-Thinking系列,加载速度和稳定性全面提升。同时,CUDA Graphs功能在NVIDIA GPU上能力大幅完善且默认开启,支持混合并行与投机解码,有效提升推理吞吐。

  • 工具与易用性:全新CLI工具集提供了从推理、服务启动、性能测试到环境诊断的完整命令行支持,用户可快速完成端到端验证与部署,显著简化开发流程。离线与在线推理支持更丰富参数与返回信息,进一步满足不同场景下的推理部署需求。

  • 多硬件适配:强化对国产硬件生态的支持,昆仑芯P800、沐曦C500与天数CoreX等平台继续做了不同程度的优化升级,覆盖ERNIE-4.5、DeepSeek及PaddleOCR-VL等系列模型,提升了跨硬件平台上推理部署功能的一致性。

更详细的升级信息,参考FastDeploy 2.3版本 Release Note:

https://github.com/PaddlePaddle/FastDeploy/releases

开源多模态新模型性能继续保持领先

在文心飞桨近期开源的两个重量级模型上,我们在2.3版本的FastDeploy中做了深度集成与优化。

  • PaddleOCR-VL-0.9B

PaddleOCR-VL通过0.9B超紧凑视觉语言模型增强多语种文档解析面向文档解析的SOTA且资源高效的模型, 支持109种语言,在复杂元素(如文本、表格、公式和图表)识别方面表现出色,同时资源消耗极低。我们支持了ViT批处理、CUDA Graphs与FlashAttention-3,使得PaddleOCR-VL模型可以在最低12GB的显存资源下进行部署。我们在多种硬件结合PaddleX联合测试,FastDeploy的吞吐均在不同程度上优于vLLM,具体数据见如下表格

  • ERNIE-4.5-VL-28B-A3B-Thinking

ERNIE-4.5-VL-28B-A3B-Thinking是本周文心新开源的多模态思考模型,仅3B激活参数,媲美顶级大模型性能!在文档与图表理解、理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。

在文心新开源的多模态思考模型下,FastDeploy继续保持了领先的推理性能优势,不同精度下测试性能数据如下表所示:

灵活部署更多选择

支持昆仑芯等国产硬件部署

FastDeploy 2.3在本次更新中,昆仑芯P800、天数天垓150、沐曦曦云C550均增加了多模态模型的支持,它们均已基本完成对ERNIE-4.5全系列的部署支持。P800率先基于FastDeploy完成PaddleOCR-VL的部署支持,沐曦增加了对DeepSeek的支持。 文心开源大模型多硬件支持的情况如下表所示:

*此模型在FastDeploy中支持,但需要安装nightly build版本。

图片

多模态推理加速引擎

从视觉到语言全面优化

从今年6月30日与文心大模型共同开源的2.0版本,到如今发布的2.3版本,FastDeploy在短时间内实现了重要升级,我们一直在与开源社区一起进步,持续支持公司内部业务以及开源社区用户部署需求,不断优化性能和丰富部署能力。

  • 文本类多模态类大模型支持:包括ERNIE-4.5、Qwen、DeepSeek、ERNIE-4.5-VL、Qwen-VL、PaddleOCR-VL等模型结构

  • 生态兼容低使用成本:原生支持HuggingFace Safetensors模型,提供类vLLM接口的离线推理与OpenAI协议兼容的服务部署

  • 丰富的量化精度支持:W8A16、W8A8、W4A16、W4A8、FP8以及超低比特W2A16推理

  • 国产硬件支持:除了英伟达GPU,也支持昆仑芯XPU、海光DCU、天数智芯GPU、燧原GCPU、沐曦GPU、英特尔Gaudi等

本次2.3版本发版要感谢来自硬件厂商昆仑芯、天数智芯、沐曦小伙伴们的协同开发,也欢迎更多外部开发者一起加入FastDeploy开源建设中,欢迎联系我们!

图片

即刻参与实测,瓜分10万元技术奖池!

🎉 FastDeploy性能实测挑战赛已正式上线 🎉

完成以下任一实测挑战,即可获得最高1万奖金(总奖池10万元)及APPLE代金卡、FastDeploy骨瓷马克杯等官方周边!

🎯 赛道一:FastDeploy 2.3 x 多模态模型 推理性能实测。基于FastDeploy 2.3在任一算力环境成功部署PaddleOCR-VL-0.9B或ERNIE-4.5-VL-28B-A3B-Thinking模型,并完成3次基于不同真实多模数据的高效推理,提供实测截图(需含结果数据、性能数据等内容)。

🎯 赛道二:FastDeploy 2.3 x 文本生成大模型 推理性能实测。基于FastDeploy 2.3在任一算力环境完成ERNIE 4.5系列、DeepSeek系列、Qwen系列等大模型或其衍生文本模型的部署,并成功运行3个基于真实数据的推理任务,提供实测截图(需含结果数据、性能数据等内容)。

*注:该赛题不限制模型尺寸,奖金随部署难度递增,如完成千亿级大模型高性能部署则奖金加倍!

🎯 赛道三:FastDeploy 2.3 x 新硬件 专题挑战。基于FastDeploy 2.3在昆仑芯XPU、海光DCU等新硬件平台完成任一大模型推理部署服务,并成功运行3个基于真实数据的推理任务,提供实测截图(需含结果数据、性能数据等内容)。

🚪传送门:

https://www.wjx.top/vm/rH2OyxL.aspx#

文档指引

【项目地址】

https://github.com/PaddlePaddle/FastDeploy

【2.3更新说明】

https://github.com/PaddlePaddle/FastDeploy/releases

【安装文档】

https://paddlepaddle.github.io/FastDeploy/zh/get_started/installation/

【PaddleOCR部署文档】

https://paddlepaddle.github.io/FastDeploy/zh/best_practices/PaddleOCR-VL-0.9B/

【ERNIE-4.5-VL-Thinking部署文档】

https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/zh/get_started/ernie-4.5-vl-thinking.md

【硬件及模型支持列表】

https://paddlepaddle.github.io/FastDeploy/zh/supported_models/

【P800芯片部署文档】

https://paddlepaddle.github.io/FastDeploy/zh/usage/kunlunxin_xpu_deployment/

【天数智芯芯片部署文档】

https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/get_started/installation/iluvatar_gpu.md

【沐曦曦云芯片部署文档】

https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/get_started/installation/metax_gpu.md

【海光芯片部署文档】

https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/get_started/installation/hygon_dcu.md

【Gaudi芯片部署文档】

https://github.com/PaddlePaddle/FastDeploy/blob/develop/docs/get_started/installation/intel_gaudi.md

图片

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐