火山引擎分享Data Agent评测体系,提出“评估驱动开发”新范式

2025-12-03 13:35:50     来源:

近日,在AICon全球人工智能开发与应用大会上,字节跳动数据平台大模型评测技术负责人系统分享了其团队在Data Agent(数据智能体)自动化评测领域的技术创新与实践。面对大模型在数据行业应用日益广泛但效果评估标准不一的挑战,字节跳动数据平台提出了一套覆盖技术选型、研发迭代至业务效果验证的“三层评测框架”,并倡导以“评估驱动开发”(EDD)的新范式,以推动大模型在数据分析、商业智能等领域的深度赋能与可靠落地。

随着大模型技术不断成熟,其在数仓开发、ChatBI问答及深度分析Agent等场景的应用显著提升了数据处理效率。然而,如何科学、客观地评估这些应用的实际效果,避免“线上表现与线下评测脱节”,已成为行业关注的焦点。据相关负责人介绍,传统软件测试的用例执行方法难以适用于大模型,评测需综合考量效果(如事实性、有用性、无害性)、性能(如响应速度、时延)与稳健性(如容错与抗干扰能力)等多方面指标。

为解决上述问题,字节跳动数据平台团队构建了一套分层评测体系。底层为“基础能力评测”,通过引入多个业界公认的基准测试集,为不同模型设立准入门槛,确保进入实验阶段的模型具备扎实的工具调用、代码生成与复杂指令理解能力。中间层为“组件评测”,将复杂的Agent任务拆解为召回、规划、执行、总结等单元模块,进行精细化评估,以快速定位问题、推动高效迭代。顶层为“端到端业务效果评测”,通过构建贴近真实场景的评测集,并建立“数据飞轮”机制,持续将线上实际案例转化为评测数据,确保评估结果真实反映用户体验。

在Text-to-SQL这一数据领域核心任务的评测中,该团队创新提出基于“语义等价”的自动化评测方法。传统方法依赖执行结果正确性或文本相似度,易因数据不完备或语法差异导致误判。字节跳动数据平台采用Apache Calcite将SQL转换为抽象语法树(AST)与执行层语法表示(RelNode),结合图匹配网络(GMN)计算逻辑层面的相似度。相关方法在多项基准测试中表现优于传统手段,显著提升了SQL准确性评估的可靠性。

面对“深度研究”类Data Agent产品带来的复杂挑战,字节跳动数据平台还探索了“以Agent评测Agent”的前沿路径。基于“挑错易、复盘可行”等原则,评测Agent通过自我反思、多Agent协作及代码复算等方式,对分析报告的深度、准确性、可读性与稳定性进行多维度自动化校验。

分享中谈到,未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合。通过将评估更紧密融入Agent架构,有望实现从“测试驱动”到“评估驱动”的范式转变,最终推动大模型应用更精准、高效地创造业务价值。

 

标签:

猜你喜欢

世贸通英联邦护照移民:瑙鲁投资入籍项目标志性大事件
2025亚太公共卫生大会为全球消除宫颈癌贡献中国智慧
信而泰WIFI耦合测试方案详解
儿童身高增长慢 石家庄六一儿童医院 儿童生长发育专科医院 科学评估绿色增高
全球家:新时代的新电商,助力新消费浪潮
靳艳军:西安交通大学赋
盗龄医生亿万富翁孵化计划,一场闪耀时代光芒的盛事在长沙唱响
2025企业家博鳌论坛“蜀葵花开”品牌发布会在海南举办
瑞众保险山东分公司:深耕服务显担当
太二酸菜鱼加快鲜活升级步伐,满足孩子高品质饮食需求
治疗儿童注意缺陷多动障碍 石家庄六一儿童医院 儿童多动症专科医院 精准评估多维度干预
跨越三十八载的艺术对话,实验歌剧《原野》12月21日京城上演
全球首例!通用型EBV治疗性细胞疫苗成功应用 中国科研全链条创新再破壁垒
信用数据一键穿透,爱企查“信用大数据”功能赋能商查行业智能升级
蓝帽只是及格线,IFOS五星才是高分卷——2025香港原装勿忘恩鱼油领航上市
进贤县青岚学校举办第七届田径运动会
以人文温度,筑健康港湾——天津九洲医院的关爱之路
「火锅推荐官」达人榜前瞻:沸腾城市味道 赋能商家生意
北京大学第一医院皮肤性病科医生涂平12月出诊时间
交通银行广州花都分行开展“法治赋能 金融护航”金融教育宣传活动
沈阳何氏眼科医院首届亲子游园活动邀您体验
智邦国际一体化ERP:赋能塑料制品企业数字化破局之路
拥抱AI时代新机遇 专题研讨共话科技创新与产业创新深度融合之路
90后创业者的3D打印之路:用科技赋能生活,做有趣而有意义的事
2025“好房子 ·悦生活”冬季住房促消费暨“畅联东盟 ·宜居广西”交流活动在南宁举办
鼎桥:“星天地一体”开启应急救援新时代
“通什1988”邂逅冬交会,以特区初心启封关新程
“神仙不老丸”以古方为钥开启人体自愈之门
喜报:康欣口服液防治动脉粥样硬化技术获国家发明专利
太二酸菜鱼“鲜活战略”平衡顾客鲜活体验与门店运营效率