How is AI agent ethics different from chatbot ethics?

A chatbot produces text; an agent takes actions — it calls tools, moves money, sends emails, edits files, and triggers real-world effects. Chatbot ethics is mostly about what is said (bias, toxicity, misinformation). Agent ethics is about what is done: authorization, reversibility, and accountability for irreversible actions. The harm surface is operational, not just informational, so the controls must be engineering controls, not content filters.

What is least-privilege authorization for an AI agent?

Least privilege means an agent is granted only the narrowest permissions needed for its current task, scoped in time and blast radius, rather than broad standing access. In practice: per-task credentials over long-lived API keys, read-only by default with explicit elevation for writes, hard spending caps, allowlisted tools and domains, and automatic expiry. If an agent is compromised or misaligned, least privilege bounds the damage.

Should an AI agent always require human approval before acting?

No — gating every action destroys the value of automation. The right model is risk-tiered: let the agent act autonomously on low-risk, reversible operations (reading data, drafting), require human confirmation for high-risk or irreversible ones (sending external messages, payments, deletions, production deploys), and make every autonomous action auditable after the fact. Reversibility, not blanket approval, is the dividing line.

Who is accountable when an autonomous AI agent causes harm?

Accountability cannot be delegated to the agent — it is not a moral or legal person. The operator who deployed the agent, the developer who built it, and the organization that benefits from it hold accountability. An ethical agent makes this enforceable by maintaining an unbroken chain: every action traces to an authorizing identity, a logged decision, and a human owner. "The AI did it" is never a valid answer.

What is a fail-safe default for an AI agent?

A fail-safe default means that when an agent is uncertain, loses context, hits an error, or exceeds a confidence threshold, it stops and escalates rather than guessing and proceeding. Failure should default to inaction on irreversible operations. A kill switch that halts the agent mid-run, and idempotent operations that can be safely retried, are the minimum engineering expression of this principle.

Can these ethics principles be enforced in code, or are they just guidelines?

Most of them are enforceable in code. Least privilege is scoped credentials and allowlists; auditability is structured logging of every tool call; reversibility is risk-tiered approval gates plus undo/idempotency; bounded autonomy is rate and spend limits; fail-safe is confidence thresholds and a kill switch. Only the intent behind them — deciding which actions are high-risk — requires human judgment. Ethics that cannot be enforced are decoration.

AI Agent 道德准则 2026：7 条可强制执行的规则

关于本文档：这是构建和操作自主人工智能代理的工程师的实用道德准则，该代理是采取行动而不仅仅是生成文本的系统。它是为了可执行而编写的，而不是为了愿望。下面的每条原则都映射到一个控件，您可以在发货前将其放入代码库中。

2025 年的难题是让代理人“有能力”。 2026 年的难题是让有能力的代理“安全部署”。可以浏览、调用 API、编写代码、转移资金以及在无人值守的情况下运行数小时的代理不再是具有额外步骤的聊天机器人，而是具有现实世界爆炸半径的自主参与者。支配它的道德不能成为内容政策。它们必须是一种操作纪律。

这就是纪律，有七个规则。每个人都阐述了一个原则，解释了为什么代理使其不可协商，并提供了将原则转化为强制行为的工程控制。

TL;DR — The Seven Rules #

#	Principle	The one-line rule	Enforced by
1	Authorization	An agent acts only within explicitly granted, least-privilege scope	Per-task credentials, allowlists, spend caps
2	Transparency	Every action is logged, attributable, and explainable after the fact	Structured audit log of all tool calls
3	Reversibility	High-risk and irreversible actions require human confirmation	Risk-tiered approval gates + undo
4	Bounded autonomy	The agent’s freedom to act is capped in rate, scope, and time	Rate limits, token/spend budgets, expiry
5	Accountability	Every action traces to a human owner; the agent is never the answer	Unbroken identity → decision → owner chain
6	Fail-safe	When uncertain, the agent stops and escalates — it does not guess	Confidence thresholds, kill switch, idempotency
7	Privacy	The agent collects, retains, and exposes the minimum data necessary	Data minimization, scoped memory, redaction

Why Agent Ethics Is Not Chatbot Ethics #

聊天机器人最糟糕的情况是它“说出”错误的内容：有偏见、虚假或冒犯性。损害是信息性的，缓解措施是内容过滤器。

代理最糟糕的情况是它“做”错了事：支付错误的发票、删除错误的数据库、通过电子邮件发送错误的客户列表、将损坏的代码部署到生产中。损坏是可操作的，内容过滤器无法阻止它。您可以通过授权范围、审批门和审核日志来阻止它，这与您对具有生产访问权限的初级员工设置的控制相同，只是代理的行动速度快了一千倍，并且永远不会疲倦到放慢速度。

这个单一的转变——从“说什么”到“做什么”——就是为什么代理人道德必须被设计，而不是被监管。

Rule 1 — Authorization: Least Privilege, Always #

原理。 代理仅收到其前面的任务所需的最窄的权限集，范围包括时间和爆炸半径。广泛的访问权限是一种负担，而不是一种便利。

为什么代理会强制这样做。 未对齐或受损的聊天机器人会泄露文本。与您的生产 API 密钥不一致或受损的代理可能会对其采取行动。最小特权是事件和灾难之间的区别。

控制。

与长期 API 密钥相比，更喜欢短期的、针对每个任务的凭证。
默认为只读；任何写入都需要显式的、记录的提升。
对任何不可逆转的事情设置硬性上限——支出限制、速率限制、删除的行数限制。
将代理可能接触的工具、域和帐户列入白名单。清单上没有的一切都被拒绝。
任务结束时访问权限自动失效。

如果你不能回答“这个特工现在能造成的最大伤害是多少？”，那么它拥有太多的特权。

Rule 2 — Transparency: If It Wasn’t Logged, It Didn’t Happen #

原理。 代理采取的每项操作都记录在结构化的、防篡改的日志中：它做了什么、调用了哪个工具、使用了什么参数、在谁的权限下以及为什么。

为什么特工强制这样做。 自治系统的行动速度比人类可以看到的要快。保持监督有意义的唯一方法是让每项行动在事后都可重构。您无法审核的代理就是您不能信任的代理。

控制。 将每个工具调用记录为结构化事件 - 时间戳、代理身份、工具、参数、结果以及导致其的推理跟踪。保持日志不可变且可审查。主体的“可解释性”不是一种哲学属性；而是一种哲学属性。它是完整的、可查询的决策和行动记录。

Rule 3 — Reversibility: Gate the Irreversible #

原理。 可逆动作可以是自主的。不可逆转或高影响力的行动需要有人参与。可逆性——而不是一揽子批准——是区分代理人可以单独做什么和不可以做什么的界限。

为什么代理会强制这样做。 要求人类批准“所有事情”会破坏自动化的价值；批准“什么都不做”是鲁莽的。解决方案是风险分级：在错误成本低且无法挽回的地方让代理自由运行，在错误永久性的地方停止代理。

控制。

第 0 层（自主）： 读取数据、起草、分析、任何微不足道的可撤消的事情。
第 1 层（确认）： 发送外部消息、花钱、修改生产、删除数据以及人们想要签署的任何内容。
通过设计使第 0 层操作可逆（幂等、可撤销），并明确确认第 1 层操作。
当对某个级别有疑问时，请将其视为第 1 级。

Rule 4 — Bounded Autonomy: Freedom With a Ceiling #

原则。 特工的行动能力是有上限的——行动的频率、程度、时间和距离。自治权是在一个盒子内授予的，而不是作为空白支票。

为什么代理会强制执行此操作。 一次性脚本中的错误会运行一次。自治循环中的错误会一直运行，直到有东西阻止为止。有限的自主权可以保证某些事情能够阻止它发生。

控制。 每分钟操作的速率限制。代币和支出的硬预算。代理可以在无人值守的情况下运行多长时间的时间限制。范围限制单次运行可以触及的记录数。这些界限并不是对“行为良好”代理的约束——行为良好的代理永远不会触及这些界限。它们的存在是为了遏制行为不端的人。

Rule 5 — Accountability: The Agent Is Never the Answer #

原理。 自主代理的每一个动作都会追溯到人类所有者。责任在于部署它的运营商、构建它的开发人员以及受益的组织，而不是代理本身。

为什么特工强制这样做。 “人工智能做到了”是部署人工智能中最危险的一句话。代理人不是道德人或法人；它不能承担责任。如果让责任消失在系统中，那么就没有人对伤害负责——而无法回答的伤害就是信任的消亡。

控制。 维持一条完整的链条：每项行动 → 授权身份 → 记录的决策 → 指定的人类所有者。代理身份与人类身份不同，但始终与人类委托人绑定。当出现问题时，问题是“谁负责？” 每次都必须有一个名字作为答案。

Rule 6 — Fail-Safe: When Uncertain, Stop #

原则。 面对不确定性、上下文丢失、错误或信心不足时，代理会停止并升级，而不是猜测和继续。失败默认是对任何不可逆转的事情不采取行动。

为什么特工会强迫这样做。 一个不确定的人会放慢速度。如果没有这条规则，一个不确定的代理人就会全速朝错误的方向前进。为优雅的失败而设计并不是悲观主义——而是认识到每个系统都会失败，并且只有失败模式是一种选择。

控制。 设置置信阈值，低于该阈值代理将升级而不是采取行动。构建一个终止开关，在运行过程中停止代理并使世界处于可恢复状态。使操作具有幂等性，这样安全重试就不会造成损害。默认未知情况停止，而不是凑合。

Rule 7 — Privacy: Collect the Minimum, Expose the Minimum #

原则。 代理收集、保留和显示完成其工作所需的最少数据。内存是一个有成本的功能，而不是默认最大化。

为什么代理会强制执行此操作。 代理会积累上下文（对话历史记录、文件内容、凭据、个人数据），并在运行期间保留它。保留的每个字节都是可能泄漏、被传唤或被滥用的字节。代理的内存是一个攻击面。

控制。 尽量减少进入上下文的内容。将内存范围分配给任务并使其过期。在机密和个人数据到达日志或模型提供者之前对其进行编辑。明确说明第三方模型 API 的界限。像对待生产数据库一样对待代理的持久内存，因为它就是这样。

The Pre-Deployment Checklist #

在自治代理上线之前，您应该能够选中每个框：

范围 — 我可以用一句话说明该特工现在可以造成的最大伤害吗？
凭证 — 它是否在最低权限、时间范围的访问而不是广泛的长期密钥上运行？
审核 — 每个工具调用是否都已记录、可归因且可在事后审查？
盖茨 — 明确的人工确认背后是否存在不可逆转的高风险行为？
界限 — 速率、支出、时间和范围限制是否在代码中强制执行，而不仅仅是有意为之？
终止开关 — 我可以在运行中停止它并使系统处于可恢复状态吗？
所有者 — 每项行动是否都可以追溯到指定的负责人？
隐私 — 是否收集和保留最低限度的信息，并在秘密离开之前对其进行编辑？
自动防故障 — 它会停止并升级不确定性而不是猜测吗？

如果未选中任何框，则代理尚未准备好 - 不是因为它缺乏功能，而是因为它缺乏确保功能安全的控制措施。

Putting It Into Practice #

这些规则故意与框架无关。无论您是基于托管代理 SDK、开源编排框架还是您自己的循环进行构建，这七个控件都会映射到相同的位置：凭证层、工具调用边界、日志记录管道和人工审批步骤。

一些实用的锚点：

在隔离的一次性基础设施中运行代理，因此行为不当的运行被包含在内，并且终止开关实际上会终止它。一个便宜的、隔离的云实例 - 用于快速沙箱的 DigitalOcean 或隔离的 VPS，例如 HTStack - 胜过在与您关心的其他所有内容相同的机器上运行自治代理。
将审核日志视为生产数据，而不是调试后的想法 - 从第一天起就结构化、持久且可查询。
让终止开关成为现实并经过测试。 您从未触发过的终止开关是一种希望，而不是一种控制。

自主代理人的道德规范不是您发布的声明。它是您发布的一组控件。遵循这七项规则的代理人的能力并不逊色——它是组织可以负责任地为其命名的唯一一种有能力的代理人。

此道德准则是在 CC-BY-4.0 下发布的——可以自由地将其改编到您自己的代理治理文档中。如果您的团队将在 2026 年交付自主代理，那么连接这些控件的正确时间是在第一次生产运行之前，而不是在第一次事件之后。