英特尔酷睿Ultra平台Day 0支持Qwen3-VL轻量化新模型，带来卓越AI体验

winniewei -- 周一, 10/20/2025 - 09:43

10月17日——在阿里通义今晨发布Qwen3-VL系列新成员Qwen3-VL-4B和Qwen3-VL-8B之际，英特尔于今日同步宣布，已经在酷睿 Ultra 平台上完成对这些最新模型的适配。此次Day 0支持延续了十天前对Qwen3新模型快速适配的卓越速度，再次印证了英特尔在加速AI技术创新、积极构建模型合作生态方面的深度投入与行动力。

此次发布的Qwen3-VL系列新模型，在延续其卓越的文本理解和生成、深度视觉感知与推理、更长的上下文长度、增强的空间与视频动态理解及强大代理交互能力的同时，凭借其轻量化的模型参数设计，在英特尔酷睿Ultra平台上可以实现高效部署，为复杂的图片和视频理解及智能体应用带来更出色的性能与体验。

为确保用户能够获得更流畅的AI体验，英特尔在酷睿Ultra平台上，对Qwen3-VL-4B 模型进行了创新的CPU、GPU和NPU混合部署，充分释放了XPU架构的强大潜力。通过精巧地分解并优化复杂的视觉语言模型负载链路，并将更多负载精准调度至专用的NPU上，此次英特尔的Day 0支持实现了：

显著的能效优化：大幅降低CPU占用率，更好地支持用户并发应用。
卓越的性能表现：在混合部署场景中，模型运行吞吐量达到22.7tps。
流畅的用户体验：充分利用酷睿Ultra的跨平台能力，提供无缝的AI交互。

以下的演示视频充分地展示了该成果：Qwen3-VL-4B模型在图片理解与分析任务中，在高效利用NPU算力的同时，显著降低了CPU的资源占用。

（演示视频: 在英特尔在酷睿Ultra平台上，Qwen3-VL-4B释放系统资源带来流畅体验）

快速上手指南

第一步环境准备

基于以下命令可以完成模型部署任务在Python上的环境安装。

python -m venv py_venv

./py_venv/Scripts/activate.bat
pip uninstall -y optimum transformers optimum-intel

pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cpu

pip install git+https://github.com/openvino-dev-samples/optimum.git@qwen3vl

pip install git+https://github.com/openvino-dev-samples/transformers.git@qwen3vl

pip install git+https://github.com/openvino-dev-samples/optimum-intel.git@qwen3vl

pip install --pre -U openvino --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly

该示例在以下环境中已得到验证：

·硬件环境:

o英特尔^® 酷睿™ Ultra 7 258V

oiGPU驱动版本：32.0.101.6733

o内存: 32GB

·操作系统：

oWindows 11 24H2 (26100.4061)

·OpenVINO版本:

oopenvino 2025.3.0

第二步模型下载和转换

在部署模型之前，首先需要将原始的PyTorch模型转换为OpenVINO^TM的IR静态图格式，并对其进行压缩，以实现更轻量化的部署和最佳的性能表现。通过Optimum提供的命令行工具optimum-cli，可以一键完成模型的格式转换和权重量化任务：

optimum-cli export openvino --model Qwen/Qwen3-VL-4B-Instruct --trust-remote-code --weight-format int4 --task image-text-to-text Qwen3-VL-4B-Instruct-ov

开发者可以根据模型的输出结果，调整其中的量化参数，包括：

·--model：为模型在HuggingFace上的model id，这里也提前下载原始模型，并将model id替换为原始模型的本地路径，针对国内开发者，推荐使用ModelScope魔搭社区作为原始模型的下载渠道，具体加载方式可以参考ModelScope官方指南：https://www.modelscope.cn/docs/models/download

·--weight-format：量化精度，可以选择fp32,fp16,int8,int4,int4_sym_g128,int4_asym_g128,int4_sym_g64,int4_asym_g64

·--group-size：权重里共享量化参数的通道数量

·--ratio：int4/int8权重比例，默认为1.0，0.6表示60%的权重以int4表，40%以int8表示

·--sym：是否开启对称量化

第三步模型部署

除了利用Optimum-cli工具导出OpenVINO^TM模型外，我们还在Optimum-intel中重构了Qwen3-VL和Qwen3-VL-MOE模型的Pipeline，将官方示例示例中的的Qwen3VLForConditionalGeneration替换为OVModelForVisualCausalLM便可快速利用OpenVINO^TM进行模型部署，完整示例可参考以下代码流程。

from transformers import AutoProcessor

from optimum.intel import OVModelForVisualCausalLM

# default: Load the model on the available device(s)

model = OVModelForVisualCausalLM.from_pretrained(

"Qwen3-VL-4B-Instruct-ov", device="GPU"

)

processor = AutoProcessor.from_pretrained("Qwen3-VL-4B-Instruct-ov")

messages = [

{

"role": "user",

"content": [

{

"type": "image",

"image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",

{"type": "text", "text": "Describe this image."},

}

]

# Preparation for inference

inputs = processor.apply_chat_template(

messages,

tokenize=True,

add_generation_prompt=True,

return_dict=True,

return_tensors="pt"

)

# Inference: Generation of the output

generated_ids = model.generate(**inputs, max_new_tokens=128)

generated_ids_trimmed = [

out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids)

]

output_text = processor.batch_decode(

generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False

)

print(output_text)

以下为该模型在图像理解任务中的输出示例：

（图片由AI生成，仅做效果演示）

'This is a heartwarming, sun-drenched photograph capturing a tender moment between a woman and her dog on a beach at sunset.\n\n**Key Elements:**\n\n* **The Subjects:** A young woman with long dark hair, wearing a plaid shirt, sits on the sand. Beside her, a large, light-colored dog, likely a Labrador Retriever, sits attentively, wearing a harness. The two are engaged in a playful, paw-to-paw high-five or "pawshake" gesture, a clear sign of their bond.\n* **The Setting:** They are on a wide, sandy beach.

CPU 代号名	设备	模型	精度	输入规模	输出规模	第二个+ token/秒
Lunar Lake	英特尔^® 酷睿™ Ultra 7 258V(XPU)	Qwen3-VL-4B-Instruct	NF4	656(1024 for LLM)	128	22.7

*性能数据基于以下测试获得：在搭载酷睿Ultra 7 258V处理器的平台上，采用OpenVINO框架2025.4.0.dev20250922版本，所有计算均在XPU上完成。测试评估了首个token延迟和在nf4-mixed-cw-sym精度设置下处理1K输入时的平均吞吐量。为保证数据可靠性，每个测试均在预热后执行三次，并取平均值作为最终结果。性能因使用方式、配置和其他因素而异。请访问www.Intel.com/PerformanceIndex了解更多信息。

性能结果基于测试时的配置状态，可能未反映所有公开可用的更新内容。请参阅相关文档以获取配置详情。没有任何产品或组件能够保证绝对安全。您的实际成本和结果可能会有所不同。

相关英特尔技术可能需要启用相关硬件、软件或激活服务。

关于英特尔

英特尔（纳斯达克股票代码：INTC）专注于先进半导体的设计与制造，连接并驱动现代世界。每天，我们的工程师都在不断创造新技术，塑造计算的未来，为我们服务的客户创造更多可能。如需了解英特尔更多信息，请访问英特尔中国新闻中心newsroom.intel.cn以及官方网站intel.cn。

100595635-403921-video17dd80617f276c8be585.mp4

登录或注册后发表评论