Qwen3震撼发布：解锁大语言模型新纪元，引领智能未来！

41 0 240

Qwen3正式发布

2025年4月29日，Qwen官方团队正式发布了其最新一代大语言模型——Qwen3。这一发布标志着Qwen系列模型在规模、性能和推理灵活性上实现了全方位突破，同时也以开放的姿态，将多个重量级模型悉数开源，为大模型生态的发展迈入了一个全新阶段。

Qwen3系列模型一共包含八款，其中两款为MoE（Mixture of Experts，混合专家）模型，六款为Dense（密集）模型。具体型号及参数如下：

MoE模型：
- Qwen3-235B-A22B：总参数2350亿，激活参数220亿。
- Qwen3-30B-A3B：总参数300亿，激活参数30亿。
Dense模型：
- Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B、Qwen3-0.6B，这些模型均采用Apache 2.0开源协议。

高性能：Qwen3系列模型在多项基准测试中表现出色，如Qwen3-235B-A22B在ArenaHard、AIME’24等测试中优于DeepSeek-R1、o1、Grok-3等模型。同时，Qwen3-30B-A3B也在多项测试中超越了QwQ-32B等模型。
混合推理：Qwen3所有模型均支持混合推理，包括思考模式和非思考模式。思考模式适合复杂问题，支持逐步推理；非思考模式则响应快速，适用于简单任务。用户可根据需求动态切换模式。
多语言能力：Qwen3支持多达119种语言和方言，包括印欧语系、汉藏语系、阿拉伯语、日语、韩语等，基本覆盖了全球主要的语言体系。
优化编码和工具调用：Qwen3优化了编码和工具调用能力，推荐搭配Qwen-Agent使用，支持MCP协议和自定义工具集成。
低推理成本：得益于MoE架构和稀疏激活技术，Qwen3系列模型在保持高性能的同时，降低了推理成本。例如，Qwen3-235B-A22B所需的算力仅为DeepSee-R1旗舰671B版本的25%-35%。