SUPERChem
面向多模态化学推理的基准测试平台
数据概览
500
公开测试集(SUPERChem-release)
3000+
专家标注的推理路径
~40%
前沿模型正确率
34
化学领域细分能力
核心特性
从数据来源到评测体系,全流程保障化学推理评测的严谨性
数据来源
- •化学竞赛
- •文献改编
- •专家标注
- •详细专家解析
题目设计
- •选择题格式
- •防背诵设计
- •高区分度
- •多模态对齐
质量保障
- •三阶段审核
- •AI 辅助校验
- •领域专家团队
- •配套平台工具
评估体系
- •正确率: pass@1
- •推理路径一致性
- •细粒度能力画像