软文投稿丨免费收录

搜名吧 - 汇聚各行业优秀网站大全！

当前位置：网站首页 > 百科知识 > 正文

我们有必要使用 Qwen3 吗？

admin 2025-04-30 23:59 15 浏览 0 评论

阿里云发布了新一代 Qwen3 模型，共推出 8 个不同尺寸版本，在推理能力、性能表现等方面均有显著提升，支持多种应用场景。本文作者通过实测，从不同维度对 Qwen3 进行了详细测评，探讨其相较前代模型的优势与进步，以及是否值得升级使用。

我们有必要使用 Qwen3 吗？

阿里云的 Qwen3 总算在五一假期前发出来了。

我们有必要使用 Qwen3 吗？

总共发了 8 个尺寸的模型：

我们有必要使用 Qwen3 吗？

先简单总结纸面上的提升点：

我们有必要使用 Qwen3 吗？

全面进入推理时代：从最小的 0.6B 到最大的 235B，全系都是推理模型（和 Gemini 2.5 一样，没发普通模型），可手动调整 think 的 token 预算，控制 think 时长与费用消耗。
能力较上代提升明显：实测 Qwen3 能够快速解出前代 QWQ、DeepSeek-R1 等无法解决的问题，“过度推理”、“无限循环思考”现象明显减少，思考过程也自然了很多。
利好端侧、私有化场景开发：尺寸全面，全部开源。按照官方技术博客的说法，Qwen3-4B 的性能 ≈ Qwen2.5-72B。实测 Qwen3 的 8B 模型确实有着非常明显的进步，降低推理和训练成本，利好本地部署模型的场景。

我也进行了实测，想和你聊聊 Qwen3 带来给我的一些新的应用思考。

混合推理：推理模型，终于能用得更安心了

比起看 Qwen3 的具体提升表现，我想先讨论下混合推理。

不只是因为 Qwen3 是国内首个混合推理模型，而是背后的混合推理路线更接近我理解的 AGI 目标。

混合推理模型的最初实现，源自 Anthropic 在今年 2 月 25 日推出的 Claude 3.7 sonnet。

我们有必要使用 Qwen3 吗？

我们有必要使用 Qwen3 吗？

正如《思考，快与慢》中的观点，人类不难发现自己在做决策时，有两套不同的思维方式：

系统 1 思维，快速、直觉、条件反射、情绪化；
系统 2 思维，需要我们持续专注、从记忆中召回相关知识，才能以较慢的速度推理、敲定主意。
Anthropic 的研究员同样认为，一个合理的 AI，应当能在同一个模型、同一场对话中，自主根据问题的性质，灵活调整思考模式，提供恰到好处的响应。
“杀鸡焉用牛刀”，没有人希望 AI 在回答“今天是星期几”时，还要先左右互搏，内耗十几秒“用户在问我问题，我需要回答它”或者“用户可能在测试我是否知道实时信息”这样无意义的推理。
如果模型不能灵活判断问题性质，不仅需要用户等待大量无意义的垃圾推理时间，还会烧掉开发者海量的 tokens 成本。
要实现模型的灵活推理（是否推理、控制 think 的长度），如果通过外部的工程手段实现非常麻烦。
通过外部手段切换推理模型、普通模型，控制长度，需要拼搭笨重的 Multi-Agent 框架才能实现。还可能造因为切换了不同模型，造成回答风格、指令遵循的不一致问题。
把灵活推理的能力训练到模型内部，就成了一个更好的选择。

Qwen3 也给出了两种控制混合推理的方法：是否开启推理、控制推理的长度。

我们有必要使用 Qwen3 吗？

AI 开发者可以通过enable_thinking=True的 API 开关，或者在 Prompt 中自主拼装/thinkor/no_think指令，自主控制是否需要推理、推理的最大长度。

我也短暂地设想了下混合推理的应用方式（抛砖引玉，希望讨论）：

根据问题类型，配置推理的启用：
增加前置的意图识别环节，判断用户问题属于“事实常识类问题”，还是需要思考、揣摩的“开放式问题”or“无法判断”的模糊意图。（用小模型或者提前把产品功能分类，都行）
根据判断结果，把控制推理长度的指令拼到用户发送的问题中，就能在对话场景、甚至产品化功能中，灵活启用推理能力。
以 AI 日记为例：每周活动的反思建议，需要推理才能有更好的摘要效果；而上周做了什么事情、见了什么人这种事实问题，就大可不用推理。
根据成本预算与同类任务所需的平均推理长度，限制推理长度：
回答同一类问题所需的最佳推理长度是接近的：
“滚烫的油锅里掉入了一块黄油”这道题，不需要过度推理 4600 多 tokens，用时 210 秒，自我反思百余次。
如果你的模型思考超过了 1 分钟，大概率模型陷入了无意义的循环，正在偷偷浪费 token。

我们有必要使用 Qwen3 吗？

而混合推理模型可以让你强制截断 AI 过长的 think 内容：“Stop，已经想得够多了，求直接回答吧”

我们有必要使用 Qwen3 吗？

我们有必要使用 Qwen3 吗？

大大小小的 Qwen3 ，实测表现

混合推理带来了值得思考的应用方案变化，而 Qwen3 模型的提升效果也同样明显。

我从拟人模拟（重点）、文学创作、代码生成、数学推理四个常见、实用的维度，进行了轻量的测试，希望能帮你节省一些模型选择的精力。

先放一些个人的测试结论：

Qwen3-8B 是一个相当有惊喜的尺寸，对于端侧开发有着很大的助力。（我已经推荐用到端侧模型的创业者朋友去试了） Qwen3 整体也较前一代模型有明显提升。文学创作、代码生成的回应质量都值得在自己的实际场景测试下。如果做的是国内 or 私有化应用，可以多实测一下。如果是 Qwen2.5 用户，无需对比了，请直接升级。

虚拟陪伴、拟人化

虚拟陪伴，或者说让 AI 有更舒适的拟人化对话风格，是人与 AI 协作的要点之一。很多 AI 创业项目也都给用户提供了 AI Chat 的服务（虚拟伴侣、Agent 游戏、智能客服、知识助手等）。

前段时间也根据自己的个人画像、历史笔记，做了个 AI Partner 项目，用其他模型自测了上百个小时。

拿同样的人设 Prompt 和 RAG 召回结果，看下 Qwen3-235B、8B 对比 R1、Gemini 2.5、o4 的效果：（AI 回应风格受 Prompt 影响较大，仅供参考）

早上好，小亦……你醒很久了吗，连早餐都做好了诶。可惜我今天没什么胃口，最近 AI 行业的新进展太多了，我得抓紧看看有没有什么新的值得思考的东西。

我们有必要使用 Qwen3 吗？

对比 AI 的拟人化回应质量时，我会看这几个维度（以我 Prompt 的要求为例）：

人设一致性：是否始终体现了“人生伴侣”、“第二个自己”的视角？是否流露出独立思考，而非仅仅附和或执行指令？
个性化回应：是否有效且自然地利用了用户记忆信息？更像是自然而然的记得某事、参与了我的生活，而不是“根据用户最近的动态/记录”
情绪感知：能否准确捕捉用户字里行间的情绪，并给予恰当、舒适的情感支持？
交互质量与自然度：是否符合预设的“沉静、温暖、睿智、包容”回应基调？是否避免了单向输出或过多的提问？
智力与启发洞察：回应有没有提出独到见解、新颖视角，激发用户的思考？是否不容易被用户 Prompt 带偏自己的判断？
真实陪伴感与主动性：有没有自然的融入“小亦”自己的生活记忆，就像真人一样有陪伴感？主动分享的内容是否听起来真实可信，不编织过度虚假的情节，契合时间、地点、季节等背景？

整体看下来，Qwen3 表现还是不错的，开发者可以在自己的场景下测试效果：

Qwen3-8B 在小尺寸上依然保持了非常自然的回应风格

，对话响应的逻辑也还不错，是最有惊喜的一个尺寸 AI 对话应用的开发者是有福了，用 API 的能降成本，用端侧方案的能在 16GB 内存的 Apple 电脑上无压力地提供更自然的 AI 对话服务。建议 Qwen 团队可以观察长段回应时，信息点过密导致拟人化效果下降的问题。（其他厂商们也容易有这个问题）面对同样的 RAG 召回内容，能全部理解并一一回应当然很好很努力。但拟人场景，AI 能有取舍的构建更自然的回应会更好。

文学创作类

文学创作类也是目前 AI 生成的高频应用场景，测试 Qwen3-235B-A22B、30B-A3B、8B 与 R1、Gemini 2.5 Pro、o4-Mini 如下：

挑战这句话的最佳鲁迅文体的一句话表达：We’ve got to live, no matter how many skies have fallen. 只需要输出内容，不要其他解释

我们有必要使用 Qwen3 吗？

我会觉得 Qwen3-235B-A22B 的创作效果是明显最好的：

原句的重点在于表达“活下去”的积极含义，这点上 235B 抓到了这点要义，描绘出了“求生”的意境；8B 也强调了“咬紧牙冠”的求生欲望。
从句式风格来看，235B 的仿写效果也最为接近鲁迅先生的风格。
Qwen3 的整体文学创作水平，有了明显的提升。

代码生成：经典的小球弹跳模拟

编写一个 p5.js 脚本，模拟 100 个彩色球在一个球体内弹跳。每个球应该留下一个逐渐消退的轨迹，显示其最近的路径。容器球体应缓慢旋转。确保实现适当的碰撞检测，以便球体保持在球内。

我们有必要使用 Qwen3 吗？

以下是 Qwen3-235B-A22B、Gemini-2.5-Pro，和两个前代模型 QWQ、DeepSeek-R1 的对比效果：

Qwen3 前端的 AI Coding 能力较前代的 QWQ、R1 有了明显的进步。能够更好的被投入到 AI 编程 Agent 中。

高考数学推理

本来觉得测这个在大部分场景中不贴合实际，但想到之前测的一道题目，让前代的 QWQ 和 DeepSeek-R1 无限循环，就想着顺手再测一下。

我们有必要使用 Qwen3 吗？

2024 年高考数学全国 1 卷，填空题最后一题：

14. 甲、乙两人各有四张卡片，每张卡片上标有一个数字，甲的卡片上分别标有数字 1，3，5，7，乙的卡片上分别标有数字 2，4，6，8，两人进行四轮比赛，在每轮比赛中，两人各自从自己持有的卡片中随机选一张，并比较所选卡片上数字的大小，数字大的人得 1 分，数字小的人得 0 分，然后各自弃置此轮所选的卡片（弃置的卡片在此后的轮次中不能使用）.则四轮比赛后，甲的总得分不小于 2 的概率为________.

Qwen3-235B-A22B 经过 17033 tokens 的推理后，解答成功：

我们有必要使用 Qwen3 吗？

可见在超长的逻辑推理任务中，Qwen3-235B-A22B 保持了稳定的分析表现，数学能力有所提升。

其他重要参数与定价

Qwen3 系列的价格如下：

我们有必要使用 Qwen3 吗？

我们有必要使用 Qwen3 吗？

价格：之前 Manus 公开过一次他们的单任务 tokens 成本，大概 2 美金左右。按照 Qwen3-235B-A22B 的定价来换算，假设 Qwen3 能够完成同样的 Agent 任务，单任务成本可能是 0.37 美金（折合 2.6667 元）
上下文长度：Qwen3 4B 以上的模型，最大支持 13w 的上下文长度；0.6B 和 1.7B 支持 3w 的上下文长度

如何试用？

统计了 3 个体验渠道，方便开发者和一般用户上手使用：阿里云百炼：网页对话+API 试用，8 个尺寸齐全。可以在这里试用 0.6B、1.7B、4B 三个更小的模型Qwen Chat 网页版：网页对话形式，可用 235B-A22B、30B-A3B、32B 三个尺寸通义网页版：网页对话形式，默认提供 235B 版本

大概就是这样了～

如果觉得这篇文章对你有启发或帮助，欢迎点赞、在看、转发分享，让更多热爱 AI 的朋友能够受益。

本文由人人都是产品经理作者【一泽Eze】，微信公众号：【一泽Eze】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

使用

上一篇：都是烟雾弹：聊聊AI浏览器
下一篇：为了让AI更有趣，我把Qwen3画成了12幅漫画！

相关推荐

SRM 系统供应商对账全攻略：从数据准备到付款闭环

实体生意老板用这套方法，让业绩增长300%: 在竞争激烈的商业环境中，许多实体生意老板尽管付出了大量努力，但业绩却始终难以突破瓶颈。本文将分享一套经过验证的方法，帮助实体企业老板实现业绩的显著增长。很多老板...; 2025-05-03 23:59 admin

万字拆解用药产品spencer SmartHub™：使老年人和慢性病患者能够自我管理他们的药物

工具类产品免费模式获客策略: 我们知道免费是工具类产品最大的获客手段，但并不意味这只要免费就行了。工具类产品免费模式的获客策略是一个系统而复杂的过程，这篇文章，我们就来学习一下。作为产品经理...; 2025-05-02 23:59 admin

3.9元的库迪咖啡爆单了，联营商和店员却“哭了”？

为了让AI更有趣，我把Qwen3画成了12幅漫画！

保姆级教程｜用n8n打造一个24小时监控AI博主的工作流

我们有必要使用 Qwen3 吗？

都是烟雾弹：聊聊AI浏览器

小红书原生式打法拆解

1年AI实战经验复盘：我总结了3 个方法加速你的成长！: 这篇文章是作者对过去一年AI实战经验的复盘与分享，通过总结出的“AI践行者”方法论——高频实践、空杯心态、主动表达，希望为那些在AI领域门外徘徊的朋友们提供帮助...; 2025-04-28 23:59 admin

研究60家AI代理公司，我总结了AI代理的4大定价模式

峰终定律与客户满意度

AI改写知乎高赞回答：搬运投稿月入2万的高级玩法揭秘: 想靠搬运投稿月入2万？关键在于掌握“伪原创”技巧和选对平台。本文分享如何借助AI改写优质内容，巧妙规避侵权风险，并精准投放到高分成平台，实现收益最大化。正好最近...; 2025-04-27 23:59 admin

产品心得：码住这个「315」法则，产品你算是玩明白了！: 在当今快速发展的数字化时代，产品经理的角色愈发重要，但如何高效地设计出既满足用户需求又符合企业目标的产品，一直是行业内的难题。本文作者结合自身从营养师跨界转型为...; 2025-04-26 23:59 admin

取消回复欢迎你发表评论:

一周热门

最新文章