上篇我们给大家介绍了算法备案里《落实算法安全主体责任基本情况》怎么写?感兴趣的可以通过下方链接回顾下(点击阅读):

1. 算法备案流程与解析

2. 要不要做算法、大模型备案?

3. 算法备案通过后,不做这个最高罚10万!

4. 落实算法安全主体责任基本情况怎么写?

今天我们给大家介绍算法备案里第二个难点,即《算法备案安全自评估报告》,该报告是整个算法备案的核心,专业度难度最大。我们把核心模块逐帧给大家介绍下怎么填写?

#资质代办#算法备案#大模型备案#算法安全自评估报告#大模型登记

图片

一、算法情况

(一)算法流程

要求:绘制一个从原始数据输入到最终结果输出的完整流程图。

关键点:

粒度

流程图中的每个节点(方框)应代表一个单一的算法模型或一个明确的干预策略。例如,“文本预处理”、“图像生成模型(Diffusion)”、“内容安全过滤”、“添加水印”等。

清晰性

使用标准的流程图符号(开始/结束、处理、判断、数据等),箭头表示数据流向。

完整性

覆盖所有关键步骤,包括数据预处理、核心模型推理、后处理、安全审核、结果标识等。

操作:在文档中插入一个清晰的流程图图片或使用绘图工具直接绘制。

图片

(二)算法数据

要求:详细描述流程中各环节的输入、输出数据,以及训练数据。

填写方法:按模板中的子项逐一填写。

图片

(三)算法模型

要求:详细描述流程图中涉及的每一个算法模型(基于机器学习或深度学习的节点)和基于规则的策略。

填写方法:按模板中的子项逐一填写。

图片

关键点:预处理和后处理方法(如数据清洗、归一化、图像增强、结果平滑)也应在此节的相应模型描述中详细说明。

(四)干预策略

要求:描述流程图中非模型的、通过运营或规则设置的机制性节点。

图片

(五)结果标识

《人工智能生成合成内容标识办法》将于2025年9月1日正式施行,配套的国家强制性标准GB 45438-2025《网络安全技术人工智能生成合成内容标识方法》对人工智能生成合成内容标识作出了要求。

简单来说内容标识分为显示标识隐式标识,显示标识包含文本、图片、音频、视频、虚拟场景和交互场景界面等六种标识提示;隐式标识可以通过文件元素、内容隐式标识(如数字水印)等实现。

图片

(显示标识一般提示在右下角)

具体打标识的方法和要求可参考本篇

教你打人工智能生成合成内容(显+隐式)标识

📢填写要求

溯源标识:描述方法(如在图像中嵌入不可见的数字水印)、是否具备追踪溯源功能、如何实现(如通过专用工具解码水印信息,追溯到生成时间、用户ID等);

显示标识:明确说明是否具备显式标识功能。描述标识方法(如在图片角落添加“AI生成”文字标签)、标识是否显著(是否清晰可见)、标识是否可篡改(如标签是否容易被PS去除)、标识位置(如右下角固定位置)。

二、服务情况

要求:描述以该评估算法为主要支撑的具体互联网信息服务。

1. 服务简介:详细描述服务功能(如“用户可输入文字生成艺术画作”)。

  • 上线时间

  • 展现形态(如App内独立功能模块、网页端服务)

  • 在应用产品中的入口位置(如“在百度App搜索‘AI绘画’进入”)

  • 服务流量(如日均使用量)

  • 用户情况(如主要用户群体)

2. 算法在服务中应用情况:

  • 描述线上服务的数据来源(如用户实时输入)

  • 描述算法训练过程中的数据来源

  • 数据的形态(如文本、图片)

  • 算法的更新频率(如每月一次模型微调)

  • 算法中间结果与其他服务或应用的共享情况(如生成的图像是否会被推荐系统使用)

注意⚠️:如果该算法支撑了多个服务,需为每个服务单独填写此部分。

三、风险研判

(一)风险研判

要求:结合算法特点,客观分析可能存在的安全风险。

图片

人工智能领域所面临的安全风险可参考全国网络安全标准化技术委员会发布的《人工智能安全治理框架(V1.0)》

算法备案必备I 人工智能安全治理框架

(二)风险防控情况

要求:详细说明为应对上述风险所建立的防控机制。大部分可引用“落实主体责任基本情况”附件,但需补充具体细节。

图片

四、安全评估结论

要求:基于前面的风险分析和防控措施,给出最终的自评估结论,结论应清晰。

示例1:经评估,本算法存在的主要风险为算法滥用和恶意利用风险。公司已建立完善的算法机制审核、内容安全过滤、用户知情权保障和应急处置等防控机制。经评估,现有安全策略与识别出的安全风险相匹配,风险总体可控。自评估结论为:通过。

示例2:经评估,本算法在【具体方面,如模型鲁棒性】存在较高风险,现有防控措施【具体措施】尚不足以完全消除该风险。建议【具体改进建议】。自评估结论为:不通过/待改进。

如有上述内容上中未涵盖但认为重要的信息可做补充说明,如技术难点、未来改进计划、特殊合规情况等。最终报告需体现 "技术可控、风险可溯、处置可行" 三大原则。

最后提交前再做一遍检查🔎:

1.  替换与删除:所有 【】 内容已替换,所有 () 及其说明文字已删除;

2.  签名与日期:算法安全负责人已签名,所有日期已填写;

3.  一致性(高频驳回原因):报告内容与您提交的“拟公示内容”、“落实主体责任基本情况”等附件内容保持一致;

4.  附件:所有提及的附件(流程图、截图、制度文档等)均已准备齐全,并按要求命名和提交。

图片

END

严正声明:

文章版权归©通晓集团所有,如需转载请联系客服人员

未经允许禁止搬运、引用、抄袭等

否则将视为侵权,我司依法保留追究权

Logo

网易易盾是国内领先的数字内容风控服务商,依托网易二十余年的先进技术和一线实践经验沉淀,为客户提供专业可靠的安全服务,涵盖内容安全、业务安全、应用安全、安全专家服务四大领域,全方位保障客户业务合规、稳健和安全运营。

更多推荐