首页icon聊天机器人icon

AI助手

icon

DeepSeek-V3

deepseek-v3-logo

DeepSeek-V3

DeepSeek-V3是一款具备突破性的混合专家(MoE)语言模型,总参数量达671亿,但每个token仅激活37亿参数,因此效率极高。该模型基于14.8万亿token训练,性能超越众多开源模型,可与领先的闭源模型相媲美。

📄详情

核心特性

- 先进架构

1. 混合专家(MoE)架构,总参数量671亿,每次推理激活37亿参数

2. 多头注意力机制(MLA)

3. DeepSeekMoE架构

- 海量训练

1. 基于14.8万亿高质量多样化语料训练

2. 包含更高比例的数学与编程数据

- 卓越性能

1. 超越Llama 3.1、Qwen 2.5等开源模型

2. 比肩GPT-4o、Claude 3.5 Sonnet等闭源领先模型

- 超长上下文支持

1. 支持128,000 tokens上下文长度

- 功能特性

1. 支持函数调用

2. JSON格式输出

3. 填充式生成(FIM)

- 开源许可

1. 采用MIT开源协议

2. 模型检查点可访问GitHub(DeepSeek-V3代码库)

detail-image

🗃️类似产品

© Copyright 2025 All Rights Reserved By Neurokit AI.