咨询电话
400-6240-800
GEO业务专线
400-6298-600
商务邮箱
business@percent.cn
更多联系方式 > >
logo
  • 首页
  • 产品
    arrow
    数据智能引擎
    • 百思数据治理大模型
    • 百思数据治理平台
    • 大数据操作系统
    • 资源服务系统
    • 主数据管理系统
    • 指标管理系统
    • 百思智能应用
    行业智能应用
    • 智能安全分析系统
    • 智慧应急决策系统
    • 舆情洞察系统(Mediaforce)
    • AI搜索洞察系统(Generforce)
    • AI境界
  • 行业服务
    arrow
    智慧政务
    • 数字城市
    • 应急管理
    • 智慧公安
    • 生态环境
    • 数字营商
    • 智慧统计
    数字产业
    • 央国企数字化
    • 零售快消
    • 汽车制造
    • 医药健康
    • 地产行业
    • 媒体报业
  • 案例
  • 生态合作
  • 关于我们
    arrow
    • 公司介绍
    • 新闻动态
    • 加入我们
    • 联系我们
    • 资源中心
  • EN
  • 产品 toggletoggle
    百思数据治理大模型
    百思数据治理平台
    大数据操作系统
    资源服务系统
    主数据管理系统
    指标管理系统
    百思智能应用
    智能安全分析系统
    智慧应急决策系统
    舆情洞察系统
    AI搜索洞察系统
  • 行业服务toggletoggle
    数字城市
    应急管理
    智慧公安
    生态环境
    数字营商
    智慧统计
    央国企数字化
    零售快消
    汽车制造
    医药健康
    地产行业
    媒体报业
  • 案例toggletoggle
    智慧政务
    数字产业
  • 生态合作
  • 关于我们toggletoggle
    公司介绍
    新闻动态
    加入我们
    联系我们
    资源中心
phone咨询电话
400-6240-800
phoneGEO业务专线
400-6298-600
关注我们
关注我们
©2026 百分点科技集团股份有限公司 保留所有权利
京ICP备09109727号-15
京公网安备11010802036555号
法律声明
隐私政策
帮助文档
  • 百思数据治理平台
    • 产品概述
    • 核心能力
    • 典型场景
    • 使用流程
    • 数据与集成
    • 常见问题
      • 产品定位与竞品对比
      • 技术与模型能力
      • 数据治理流程
      • 部署与安全
      • 实施与交付
      • 定制与扩展能力
  1. 百思数据治理平台
  2. >
  3. 常见问题
  4. >
  5. 技术与模型能力

Q:底层是基于什么大模型训练的?参数规模是多少?

A:底层基于Qwen、GLM等模型进行预训练,包含多种参数版本。对于AI-DG这种复杂任务调度的智能体,需要至少200b参数的模型支持(后续随模型计算能力提升,要求会逐步降低)

Q:模型训练了哪些类型的数据?数据量大概多少?

A:经过多年积累,我们在政务、应急、生态环境、国央企等领域近千个数据治理项目的实战案例中,沉淀了数万个数据标准和质量规则、数据模型、ETL逻辑等。

训练数据主要包括:

  • 规范标准类:国家标准、行业标准、地方标准中的数据元定义和规范

  • 方法论类:DAMA、DCMM等数据治理方法论体系

  • 实战案例类:近千个项目积累的ETL逻辑、数据模型设计文档、质量规则配置等

  • 业务知识类:政务、应急、生态环境、公安等领域业务术语、业务字段等业务知识

通过高质量的语料构建及模型蒸馏,各个场景包括数据仓库设计、数据标准、数据质保等语料,每类语料均为5000条以上,部分场景10000条以上。

Q:不同行业是否有现成的预训练模型可以直接使用?

A:有。目前模型内置了应急、生态环境、智慧城市等多个领域的行业数据模型和标准规范等,无需从零训练。

      如需针对特定机构/行业(如制造业务)的业务特点做进一步定制,可在此基础上进行领域微调。

Q:能否针对客户自己的数据训练专属模型?需要那些数据?数据量?周期?

A:支持。在百思基座模型之上,利用客户/行业专属语料进行微调训练,构建深耕特定行业场景的细分领域模型,提升在该领域的理解和生成精准度。

  • 训练语料类别:业务逻辑、政策法规、专业术语、标准文件、业务数据字典等

  • 训练数据量需求:视具体场景而定,建议至少提供3000条高质量领域语料

  • 训练周期:周期视数据量和复杂度而定,一般2-4周

Q:大模型的准确性和可靠性如何保证?会不会出错?

A:两层保障机制:

  • 领域专训:BS-LM百思大模型针对数据治理场景专门训练,领域理解能力明显高于通用模型,生成结果的业务准确性更高

  • 人工确认机制:所有关键步骤(模型设计、SQL生成、规则配置)都需要人工审核确认后才落地执行,AI是效率工具,不是黑盒替代人工判断

AI可以出错,但有人兜底;同时每次的修正也会持续优化后续推荐质量。

Q:系统如何理解我们行业特有的业务术语和规则?

A:通过两个途径:

  • 知识注入:将客户的行业规范、业务文档、数据标准等导入项目知识库,AI在生成时优先参考

  • 领域微调:对模型进行行业定向训练,从语义层面提升对客户业务的理解深度

两者结合,AI对客户业务的理解会持续改善,推荐结果越来越贴合实际。

Q:大模型各阶段的产出物,能标识哪些是AI生成的、哪些是从原始文件提取的吗?

A:可以。平台在关键阶段均支持产出物的来源追溯,确保每一条输出“有据可依”,例如:

  • 标准设计文档:标注标准来源(如国标、行标、客户上传的规范文档)

  • 数仓模型设计:标注来源库表及字段映射关系

  • 指标设计文档:标注参考来源(如业务口径、计算公式的出处)

目前核心环节的溯源能力已经具备,完整的全流程溯源标注也是我们持续完善的重点方向,后续将覆盖更多环节,让每一份产出都可追溯、可审计。

Q:本地部署后,使用期间是否需要连接互联网?

A:支持完全离线的全内网部署,不依赖互联网连接。这也是政企客户最常见的部署形式,满足数据不出内网的安全合规要求。