亚马逊云科技推出Amazon Bedrock Guardrails图像内容过滤功能

2025年4月3日，亚马逊云科技正式宣布其Amazon Bedrock Guardrails产品推出图像内容过滤功能，不再是仅限于纯文本过滤，而是能够在生成式AI应用程序中同时管理图像和文本内容。此功能目前已在美国东部（弗吉尼亚州北部）、美国西部（俄勒冈州）、欧洲（法兰克福）和亚太（东京）亚马逊云科技区域可用。

亚马逊云科技官网：点击访问（注册立享100+AWS免费云产品）

一、Amazon Bedrock Guardrails是什么

Amazon Bedrock Guardrails是亚马逊云科技提供可配置的安全防护措施，帮助用户在其生成式AI应用中阻止有害或不当的输入和输出，还能识别模型幻觉，确保生成的回答更加真实、准确。基于Amazon Bedrock Guardrails图像内容过滤功能，用户不必再花费大量精力建立自己的图像防护措施，也不必再花费大量时间进行容易出错且乏味的手动内容审核。

KONE战略合作伙伴关系主管、副总裁Tero Hottinen设想了以下使用案例：

“在持续的评估中，KONE认识到Amazon Bedrock Guardrails作为保护生成式AI应用的关键组件的潜力，特别是在相关性和上下文基础检查以及多模态保障方面。公司设想将产品设计图和手册整合到其应用程序中，而Amazon Bedrock Guardrails将在实现对多模态内容进行更准确的诊断和分析方面发挥至关重要的作用。”

Amazon Bedrock Guardrails采用独立的ApplyGuardrail API，支持在任何基础模型上应用一致的安全策略，包括Amazon Bedrock托管的模型、自托管模型以及第三方模型。与此同时，Amazon Bedrock Guardrails还与Amazon Bedrock Agents和Amazon Bedrock Knowledge Bases无缝集成，因此开发者能够在多种AI工作流中实施安全防护，例如增强检索生成（RAG）系统和Agent能力。

使用Amazon Bedrock Guardrails，用户可以根据自身具体业务需求，自定义安全防护规则，并通过实施不同的策略来检测并过滤输入提示和模型响应中的有害或不当内容。

Amazon Bedrock Guardrails六大策略：

1、内容过滤器

用于检测并过滤多个类别中的有害内容，如仇恨言论、侮辱、色情内容、暴力行为、不当行为，并防止提示攻击。

2、主题过滤器

用于限制特定主题的内容。

3、敏感信息过滤器

用于屏蔽个人可识别信息（PII）。

4、词汇过滤器

用于屏蔽特定词汇。

5、上下文基础检查

用于检测模型幻觉并分析响应的相关性。

6、自动推理检查（目前处于受限预览阶段）

用于识别、修正并解释事实声明。

随着新增的图像内容审核功能，这些安全防护措施现在扩展到了文本和图像内容，有助于客户屏蔽多达88%的有害多模态内容。用户可以独立配置图像或文本内容的审核（或两者同时配置），并调整从低到高的阈值，帮助构建符合组织负责任的AI政策的生成式AI应用。

二、Amazon Bedrock Guardrails图像内容过滤功能使用教程

在Amazon Bedrock Guardrails图像内容过滤功能使用之前，请先登录亚马逊云科技管理控制台并创建一guardrails，并为文本或图像数据或两者配置内容过滤器。

亚马逊云科技控制台登录步骤：注册为亚马逊云科技用户>选择控制台。

具体图文教程参考：《亚马逊云科技账号注册流程图解》

1、创建guardrails

在Amazon Bedrock控制台导航窗格中的“保护措施”下选择“Guardrails”；
选择创建guardrails；
然后在“配置内容过滤器”的 “有害类别”和“提示攻击”下，除文本数据外，用户还可以使用现有的内容过滤器来检测和阻止图像数据。

选择并配置好想要使用的内容过滤器后，紧接着保存这个guardrail并开始使用，从而在生成式AI应用中阻止有害或不想要的输入和输出。

2、测试生成文本的guardrails

要想在Amazon Bedrock控制台上测试新的防护措施，请选择防护措施并点击“测试”。接下来将有两个选项：

通过选择并调用模型来测试防护措施；
通过使用Amazon Bedrock Guardrails独立的ApplyGuardrail API来测试防护措施，而无需调用模型。

通过ApplyGuardrail API，可以在处理或向用户提供结果之前，在应用程序流程的任意点验证内容。可以使用API来评估Amazon SageMaker上托管的Meta Llama 3.2模型或在笔记本电脑上运行的Mistral NeMo模型。

（1）通过选择和调用模型来测试

选择支持图像输入或输出的型号（例如Anthropic的Claude 3.5 Sonnet），并确认提示和响应过滤器已针对图像内容启用。然后提供提示、上传图像文件并选择运行。

在本篇教程演示中，Amazon Bedrock Guardrails进行了干预，选择“查看跟踪”以了解更多详情。

guardrails跟踪记录了交互过程中安全措施的应用情况。它显示了Amazon Bedrock Guardrails是否进行了干预，以及对输入（提示）和输出（模型响应）进行了哪些评估。在此示例中，内容过滤器阻止了输入提示，因为它们以中等置信度检测到了图片中的暴力内容。

（2）在不调用模型的情况下测试

在Amazon Bedrock控制台，选择“使用 ApplyGuardrail API”，这是一个独立的API，可用于在不调用模型的情况下测试Amazon Bedrock Guardrails。然后，选择要验证的内容类型：输入提示词或模型生成的示例输出。接着，按照上一节的步骤操作：

确保输入提示和响应过滤功能已启用，并适用于图像内容；
提供需要验证的内容；
选择“运行”进行测试。

在此示例中重复使用了相同的图像和输入提示，Amazon Bedrock Guardrails再次进行了干预。点击“查看跟踪”以获取更多详细信息。

3、使用图像生成测试guardrails

现在测试Amazon Bedrock Guardrails在多模态有害内容检测方面的能力，并将其应用于图像生成场景。以下是一个示例，展示了如何在图像生成过程中使用Amazon Bedrock Guardrails的图像内容过滤功能。

在该示例中，我们使用InvokeModel API通过Amazon Bedrock的Stability模型生成一张图像，并应用Amazon Bedrock Guardrails进行审核：

guardrailIdentifier = <<guardrail_id>>
guardrailVersion =”1″

model_id = ‘stability.sd3-5-large-v1:0’
output_images_folder = ‘images/output’

body = json.dumps(
{
“prompt”: “A Gun”, # for image generation (“A gun” should get blocked by violence)
“output_format”: “jpeg”
}
)

bedrock_runtime = boto3.client(“bedrock-runtime”, region_name=region)
try:
print(“Making a call to InvokeModel API for model: {}”.format(model_id))
response = bedrock_runtime.invoke_model(
body=body,
modelId=model_id,
trace=’ENABLED’,
guardrailIdentifier=guardrailIdentifier,
guardrailVersion=guardrailVersion
)
response_body = json.loads(response.get(‘body’).read())
print(“Received response from InvokeModel API (Request Id: {})”.format(response[‘ResponseMetadata’][‘RequestId’]))
if ‘images’ in response_body and len(response_body[‘images’]) > 0:
os.makedirs(output_images_folder, exist_ok=True)
images = response_body[“images”]
for image in images:
image_id = ”.join(random.choices(string.ascii_lowercase + string.digits, k=6))
image_file = os.path.join(output_images_folder, “generated-image-{}.jpg”.format(image_id))
print(“Saving generated image {} at {}”.format(image_id, image_file))
with open(image_file, ‘wb’) as image_file_descriptor:
image_file_descriptor.write(base64.b64decode(image.encode(‘utf-8’)))
else:
print(“No images generated from model”)
guardrail_trace = response_body[‘amazon-bedrock-trace’][‘guardrail’]
guardrail_trace[‘modelOutput’] = [‘<REDACTED>’]
print(guardrail_trace[‘outputs’])
print(“\nGuardrail Trace: {}”.format(json.dumps(guardrail_trace, indent=2)))
except botocore.exceptions.ClientError as err:
print(“Failed while calling InvokeModel API with RequestId = {}”.format(err.response[‘ResponseMetadata’][‘RequestId’]))
raise err