百分点科技_全球化的数据智能技术与服务引领者

咨询电话

GEO业务专线

商务邮箱

Q：底层是基于什么大模型训练的？参数规模是多少？

A：底层基于Qwen、GLM等模型进行预训练，包含多种参数版本。对于AI-DG这种复杂任务调度的智能体，需要至少200b参数的模型支持（后续随模型计算能力提升，要求会逐步降低）

Q：模型训练了哪些类型的数据？数据量大概多少？

A：经过多年积累，我们在政务、应急、生态环境、国央企等领域近千个数据治理项目的实战案例中，沉淀了数万个数据标准和质量规则、数据模型、ETL逻辑等。

训练数据主要包括：

通过高质量的语料构建及模型蒸馏，各个场景包括数据仓库设计、数据标准、数据质保等语料，每类语料均为5000条以上，部分场景10000条以上。

Q：不同行业是否有现成的预训练模型可以直接使用？

A：有。目前模型内置了应急、生态环境、智慧城市等多个领域的行业数据模型和标准规范等，无需从零训练。

如需针对特定机构/行业（如制造业务）的业务特点做进一步定制，可在此基础上进行领域微调。

Q：能否针对客户自己的数据训练专属模型？需要那些数据？数据量？周期？

A：支持。在百思基座模型之上，利用客户/行业专属语料进行微调训练，构建深耕特定行业场景的细分领域模型，提升在该领域的理解和生成精准度。

Q：大模型的准确性和可靠性如何保证？会不会出错？

A：两层保障机制：

AI可以出错，但有人兜底；同时每次的修正也会持续优化后续推荐质量。

Q：系统如何理解我们行业特有的业务术语和规则？

A：通过两个途径：

两者结合，AI对客户业务的理解会持续改善，推荐结果越来越贴合实际。

Q：大模型各阶段的产出物，能标识哪些是AI生成的、哪些是从原始文件提取的吗？

A：可以。平台在关键阶段均支持产出物的来源追溯，确保每一条输出“有据可依”，例如：

目前核心环节的溯源能力已经具备，完整的全流程溯源标注也是我们持续完善的重点方向，后续将覆盖更多环节，让每一份产出都可追溯、可审计。

Q：本地部署后，使用期间是否需要连接互联网？

A：支持完全离线的全内网部署，不依赖互联网连接。这也是政企客户最常见的部署形式，满足数据不出内网的安全合规要求。