文章围绕 Databricks 中的密钥管理展开,先解释了 secrets 在数据与 AI 工作流中的重要性,再介绍 Databricks 原生 secret scope 的工作方式、权限模型和使用命令,并指出其在跨工作区共享、自动轮换、审计能力和规模上存在明显限制。
发表于 2025 年 8 月 30 日星期六

MLOps 市场正在爆发式增长,预计到 2034 年将达到 390 亿美元;然而,在每个数据技术栈中都存在一种持续性的风险:Secrets。尽管各组织投入数百万美元建设数据基础设施,但只要有一个凭证被攻破,就可能引发连锁反应,导致灾难性的安全泄露,使这些努力付诸东流。
更具体地说,这也是一个规模问题——尤其是在数据工作流中。数据工作流通常需要 10 到 50 个甚至更多外部服务的凭证。随着数据保护支出预计显著增长,再加上 SOC 2、GDPR 和 HIPAA 等合规标准伴随严厉处罚,组织需要强大的 Secrets 管理策略,而不能仅停留在基本的凭证存储上。
Databricks 提供了自己的原生解决方案,本文将对此进行探讨。
Secrets 是应用程序访问受保护资源所需的敏感认证凭证。在数据环境中,这些包括:
Databricks 是一个统一的分析平台,充当现代数据栈的中央处理引擎。Databricks 基于 Apache Spark 构建,并由 Unity Catalog 提供治理能力,几乎可以与现代数据生态中的所有组件集成,从 Fivetran 这样的数据摄取工具,到 Tableau 这样的可视化平台。
这种中心角色带来了广泛的凭证需求。Databricks 必须与数据源、云存储、API 以及下游分析工具进行认证,同时支持多个团队共享工作区和资源的协作工作流。
Databricks 通过“secret scopes”提供内置的 Secrets 管理方式,这些作用域是用于组织相关凭证的容器。此类由 Databricks 支持的 Secrets 存储在由 Databricks 管理的加密数据库中。
Secret scopes 会按环境、团队或应用程序对凭证进行组织。访问控制通过三种权限级别运作:
该平台会自动在 notebook 输出中对 secret 值进行脱敏,用 [REDACTED] 占位符替换,以防止意外泄露。
开发者通过 Databricks CLI 创建 scopes:
databricks secrets create-scope <scope-name>
之后,开发者可以使用 Databricks CLI 或其 SDK 插入 secrets:
databricks secrets put-secret --json '{
"scope": "<scope-name>",
"key": "<key-name>",
"string_value": "<secret>"
}'
随后,这些 secrets 可以通过 Databricks CLI 执行 bash 脚本,并使用 get-secret 函数来读取:
databricks secrets get-secret <scope-name> <key-name> | jq -r .value | base64 --decode
虽然对于基本用例来说已经够用,但 Databricks 的原生 Secrets 管理仍存在一些重要限制,可能会带来安全漏洞:
对于认真对待数据安全的组织而言,有多种替代方案可以在提供企业级能力的同时解决 Databricks 的限制。Infisical 是一个颇具吸引力的现代替代方案,它直接针对 Databricks 的限制,同时优先考虑开发者体验:
要为 Databricks 设置 Infisical,开发者只需使用 Infisical 专门提供的 Databricks integration,可从产品的 Integrations 页面访问。

之后,开发者需要配置 Databricks environment、path 和 scope,以便将 secrets 集成进去。Infisical 将处理其余部分(包括 secrets rotation),并开始将 secrets 同步到 Databricks 中正确的 scopes。
SOC 2、GDPR 和 HIPAA 等监管要求规定了特定控制措施,包括静态和传输中的加密、全面的审计轨迹以及文档化的访问控制。请选择能够提供合规就绪能力的解决方案,而不是自行构建定制化的合规能力。
随着数据和 AI 工程在 2025 年逐步成熟,组织应当:
随着 2025 年网络安全支出增长 12.2%,以及 MLOps 市场快速扩张,投资于强大的 Secrets 管理不再是可选项;它对于保护你的数据基础设施和保持竞争优势至关重要。
在 Databricks 中成功进行 Secrets 管理的关键,在于认识到其原生能力虽然可用,但往往无法满足企业级安全要求。Infisical 凭借 developer-first 的方式和云无关的灵活性,使组织能够超越基础的凭证存储,实施真正端到端的 secrets 生命周期管理。
从评估你当前的 Secrets 管理实践开始,消除眼前的安全风险,并采用 Infisical,在安全要求与运营效率之间取得恰当平衡。主动进行 Secrets 管理的成本,与数据基础设施中基于凭证的安全泄露可能造成的影响相比,几乎微不足道。
随着 Databricks workloads 变得日益复杂,今天集成 Infisical 的组织将在未来几年中具备安全、可扩展增长的优势。
- 原文链接: infisical.com/blog/how-t...
- 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
如果觉得我的文章对您有用,请随意打赏。你的支持将鼓励我继续创作!
作者暂未设置收款二维码