Q:底层是基于什么大模型训练的?参数规模是多少?
A:底层基于Qwen、GLM等模型进行预训练,包含多种参数版本。对于AI-DG这种复杂任务调度的智能体,需要至少200b参数的模型支持(后续随模型计算能力提升,要求会逐步降低)
Q:模型训练了哪些类型的数据?数据量大概多少?
A:经过多年积累,我们在政务、应急、生态环境、国央企等领域近千个数据治理项目的实战案例中,沉淀了数万个数据标准和质量规则、数据模型、ETL逻辑等。
训练数据主要包括:
-
规范标准类:国家标准、行业标准、地方标准中的数据元定义和规范
-
方法论类:DAMA、DCMM等数据治理方法论体系
-
实战案例类:近千个项目积累的ETL逻辑、数据模型设计文档、质量规则配置等
-
业务知识类:政务、应急、生态环境、公安等领域业务术语、业务字段等业务知识
通过高质量的语料构建及模型蒸馏,各个场景包括数据仓库设计、数据标准、数据质保等语料,每类语料均为5000条以上,部分场景10000条以上。
Q:不同行业是否有现成的预训练模型可以直接使用?
A:有。目前模型内置了应急、生态环境、智慧城市等多个领域的行业数据模型和标准规范等,无需从零训练。
如需针对特定机构/行业(如制造业务)的业务特点做进一步定制,可在此基础上进行领域微调。
Q:能否针对客户自己的数据训练专属模型?需要那些数据?数据量?周期?
A:支持。在百思基座模型之上,利用客户/行业专属语料进行微调训练,构建深耕特定行业场景的细分领域模型,提升在该领域的理解和生成精准度。
-
训练语料类别:业务逻辑、政策法规、专业术语、标准文件、业务数据字典等
-
训练数据量需求:视具体场景而定,建议至少提供3000条高质量领域语料
-
训练周期:周期视数据量和复杂度而定,一般2-4周
Q:大模型的准确性和可靠性如何保证?会不会出错?
A:两层保障机制:
-
领域专训:BS-LM百思大模型针对数据治理场景专门训练,领域理解能力明显高于通用模型,生成结果的业务准确性更高
- 人工确认机制:所有关键步骤(模型设计、SQL生成、规则配置)都需要人工审核确认后才落地执行,AI是效率工具,不是黑盒替代人工判断
AI可以出错,但有人兜底;同时每次的修正也会持续优化后续推荐质量。
Q:系统如何理解我们行业特有的业务术语和规则?
A:通过两个途径:
-
知识注入:将客户的行业规范、业务文档、数据标准等导入项目知识库,AI在生成时优先参考
-
领域微调:对模型进行行业定向训练,从语义层面提升对客户业务的理解深度
两者结合,AI对客户业务的理解会持续改善,推荐结果越来越贴合实际。
Q:大模型各阶段的产出物,能标识哪些是AI生成的、哪些是从原始文件提取的吗?
A:可以。平台在关键阶段均支持产出物的来源追溯,确保每一条输出“有据可依”,例如:
-
标准设计文档:标注标准来源(如国标、行标、客户上传的规范文档)
-
数仓模型设计:标注来源库表及字段映射关系
-
指标设计文档:标注参考来源(如业务口径、计算公式的出处)
目前核心环节的溯源能力已经具备,完整的全流程溯源标注也是我们持续完善的重点方向,后续将覆盖更多环节,让每一份产出都可追溯、可审计。
Q:本地部署后,使用期间是否需要连接互联网?
A:支持完全离线的全内网部署,不依赖互联网连接。这也是政企客户最常见的部署形式,满足数据不出内网的安全合规要求。