logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
模型定制
模型托管
模型评测
数据管理
产品计费
API说明
常见问题
相关协议
文档中心
控制台介绍数据管理数据集

数据集


数据集是本平台数据服务的核心基础板块,作为模型训练、评测的数据源头,平台提供训练集、评测集、自定义三类数据集,覆盖不同场景的数据需求。当前数据集分为项目数据集和预置数据集:

  • 项目数据集:支持项目维度数据集全生命周期管理,支持对数据集进行多版本迭代、导出和删除等操作。
  • 预置数据集:平台预置的公共数据集,方便用户快速体验模型微调、评测等能力,降低数据获取⻔槛。


适用场景

  • 模型训练数据供给

针对模型训练环节,用户可直接选用平台训练集(由一轮或多轮Prompt+Response组成,适配各类模型训练需求),或通过自定义数据集上传原始素材,借助数据分析、数据工作流生成高质量训练数据,当前支持有监督微调SFT和偏好对齐DPO两种训练方式。

  • 模型评测数据构建

针对模型评测环节,用户可选用平台评测集(用于量化衡量模型在目标场景下的综合性能),或基于自定义数据集,通过数据工作流构建贴合具体评测场景的标准化评测集,确保评测数据的可用性,为模型性能评估提供精准依据。

  • 个性化数据加工

用户可上传未经标准化处理的原始数据材料(自定义数据集不限制数据格式),通过数据工作流灵活组合清洗、增强、抽取及LLM节点,自定义加工逻辑与Prompt模板,实现个性化数据处理,满足差异化模型训练、评测需求,打破标准化数据格式的局限性。


新建数据集

在左侧导航栏模型定制板块,选择「数据集」,点击「新建数据集」进入新建信息填写页面:

  1. 填写名称、描述等基础信息;
  2. 选择数据集类型
  • 训练集:用于模型训练,由一轮或多轮Prompt+Response组成;
  • 评测集:用于模型评测、Prompt评测,不包含模型回答数据。
  1. 选择数据用途、数据格式、存储位置;
  2. 上传数据集文件,平台提供jsonl、csvl、xlsx格式模板

数据集结构示例

SFT示例

[{"prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。\n生成摘要如下:", "system": "你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。", "response": "修改后的立法法全文公布"}]

[{"prompt": "请根据下面的新闻生成摘要, 内容如下:1月18日,习近平总书记对政法工作作出重要指示:2014年,政法战线各项工作特别是改革工作取得新成效。新形势下,希望全国政法机关主动适应新形势,为公正司法和提高执法司法公信力提供有力制度保障。\n生成摘要如下:", "system": "你是一个专业的新闻摘要撰写助手,擅长使用简洁明了的语言来提炼核心信息。", "response": "孟建柱:主动适应形势新变化提高政法机关服务大局的能力"}]

DPO示例

{"messages": [{"role": "system", "content": "你是一个AI助手。你将被给予一个任务。你必须生成一个详细且长篇回答。"}, {"role": "user", "content": "请回答以下问题:为以下文本选择一个类别。选项包括 - 公司、教育机构、艺术家、运动员、公职人员、交通工具、建筑物、自然地点、村庄、动物、植物、专辑、电影或著作。圣何塞和圣马克西米利安科尔贝蒙特维迪奥 - 圣约瑟夫和圣马克西米利安科尔贝教堂(西班牙语:圣何塞和圣马克西米利安科尔贝教堂)通常被称为康文特尔斯教堂(因其作为前修道院的历史而闻名)是乌拉圭蒙得维的亚的一座罗马天主教堂。"}], "chosen": {"role": "assistant", "content": "适当的类别是:建筑。该文描述了位于乌拉圭蒙得维的亚的圣若瑟和圣马西米连科尔贝教堂(Iglesia de San José y San Maximiliano Kolbe),是一座罗马天主教堂区教堂。"}, "rejected": {"role": "assistant", "content": "当然!根据提供的信息,文本的类别应该是:\n\n建筑\n\n文本描述了乌拉圭蒙得维的亚的一座教堂,具体是圣约瑟夫和圣马克西米连·科尔贝教堂,也被称为Conventuales教堂,因为它曾经是一个修道院。这属于建筑类别,因为它是一个用于宗教目的的物理结构。"}}

发布数据集

信息填写完成后点击提交将跳转至版本管理页面,页面右上方可选择「发布」,数据集发布后不可修改。

查看与管理数据集

在左侧导航栏模型定制板块,选择「数据集」,若当前项目下有数据集,将展示数据集列表,用户可查看各个数据集的名称、状态、发布状态、数据集类型等信息。

操作

  • 新增版本:新建数据集版本需填写新版本描述(非必填)、选择是否继承历史版本数据(若继承需选择具体的历史版本);
  • 分析:新建分析任务,将默认使用的当前数据集及版本创建数据分析;
  • 导入:支持将用户本地数据直接导入至选中的数据集;
  • 导出:支持选择导出的版本及数据类型(可选导出原始数据或全部数据)。
上一篇:数据服务下一篇:数据分析
该篇文档内容是否对您有帮助?
有帮助没帮助