logologo
售前咨询
快手万擎(Vanchin)
开始使用
产品介绍
模型介绍
控制台介绍
模型定制
模型托管
模型评测
数据管理
产品计费
API说明
常见问题
相关协议
文档中心
控制台介绍数据管理数据服务

数据服务


数据服务

万擎数据服务致力于满足用户全流程数据支撑需求,构建覆盖数据分析、数据处理、数据增强的全周期服务体系,以“高质量数据供给”为核心,实现数据从原始素材到可用训练/评测数据的高效转化,为模型训练、评测提供精准、优质的数据支撑,最终驱动模型高效迭代,助力用户降低数据加工成本。


核心场景

针对模型研发过程中“数据单一、质量不佳、加工繁琐”等核心痛点,数据服务通过全周期能力覆盖与标准化流程设计,精准解决用户四大核心使用场景:

  • 数据类型单一,适配性不足:打破数据供给局限,提供训练集、评测集、自定义三类数据集,可根据模型训练、评测的差异化需求,灵活选择或构建适配的数据,解决“数据与场景不匹配”导致的模型训练效果不佳问题。
  • 数据数量不够,支撑力不足:结合数据工作流增强能力与LLM节点,可对现有数据进行合理泛化扩充,同时支持无格式限制的原始数据批量上传与加工,快速补充训练、评测所需数据量。
  • 数据质量难以把控,干扰模型研发:通过专业数据分析能力,对数据进行全维度“体检”,精准识别重复数据、分布失衡、编码混乱等质量问题,给出明确优化建议,避免低质量数据进入训练/评测环节。
  • 数据加工流程繁琐,效率低下:以流程化、算子化的方式整合数据清洗、增强、抽取、大模型处理等功能,无需用户手动编码或分步切换工具,通过可视化拖拽配置即可完成批量数据加工,大幅缩短数据预处理周期,降低人力成本。


核心能力介绍

数据集

作为数据服务的基础,数据集板块提供标准化+个性化的数据供给,覆盖模型训练、评测全场景:

  • 训练集:专为模型训练设计,由一轮或多轮Prompt+Response组成,贴合各类模型的训练逻辑,可直接选用投入训练,提升训练准备效率。
  • 评测集:聚焦模型评测需求,用于量化衡量模型在目标场景下的综合性能(如精度、泛化能力、响应质量等),数据经过严格标准化处理,确保评测结果的客观性与可比性。
  • 自定义数据集:用于用户构建专属训练集或评测集,支持上传未经标准化处理的原始数据材料,无数据格式限制,适配各类个性化、特殊场景的数据需求,为后续数据加工提供灵活素材。

详细能力可查看:数据集帮助文档

数据分析

数据分析能力聚焦“数据体检”核心,为数据质量保驾护航,是数据加工、应用的前置关键环节,分析指标主要包括:

  • 异常样本:命中基础问题的样本数量,包括行中单元格存在空值、重复内容、特殊字符在单元格中占比大于20%。
  • 分布质量:衡量样本整体“长度分布”是否健康,是否过度集中在极短/极长。
  • 空值样本:检测数据中的缺失值的问题,输出异常详情,明确数据优化方向。
  • 特殊字符:样本中包含特殊字符的情况(如表情符号、不可见字符和◆●ツシ℃√§″′´¿等)。
  • 重复单元格:统计全部样本中出现“内容完全相同”的重复单元格。

详细能力可查看:数据分析帮助文档

数据工作流

数据工作流能力以可视化、流程化的方式,实现数据从原始素材到可用数据的高效转化,整合四大核心处理环节,支持零代码/低代码操作:

  • 数据清洗:内置15个标准化清洗算子(如移除URL链接、去除网页标识符、Unicode文本标准化、过滤特殊字符等),可批量去除数据噪声,提升数据纯度。
  • 数据增强:包含“泛化列数据”一个核心算子,可对指定列数据进行合理泛化,提升样本多样性,减少模型过拟合风险。
  • 数据抽取:支持按行列规则精准抽取数据,精简数据维度、过滤无效样本,适配不同场景的数据需求。
  • LLM节点:依托平台模型能力,支持指定表头、自定义变量与Prompt模板,实现智能化数据处理(如关键词提取、文本总结等),适配复杂数据加工场景。

详细能力可查看:数据工作流帮助文档

上一篇:性能评测下一篇:数据集
该篇文档内容是否对您有帮助?
有帮助没帮助