ML 系统书籍:麻省理工学院出版社关于机器学习系统工程的教科书

The ML Systems Book is an MIT Press textbook covering distributed training, model serving, hardware acceleration, and ML infrastructure. Essential reading for ML engineers.

  • Go
  • Python
  • MIT
  • 更新于 2026-05-15

{</* 资源信息 */>} ## 问题:算法只是成功的一半 您掌握了神经网络、梯度下降和反向传播。 但在生产中: - 在单个 GPU 上训练需要数周时间

  • 模型在现实交通中崩溃
  • 延迟会影响用户体验
  • 成本失控
  • 调试分布式故障是一场噩梦 算法是必要的,但还不够。 现代机器学习需要系统工程。 ## 什么是机器学习系统书籍? ML Systems Book 是麻省理工学院出版社的一本教科书,它弥合了机器学习理论和生产系统之间的差距。 它涵盖了从分布式训练到模型服务、硬件加速到成本优化的一切。 它由来自 Google、Meta 和领先 AI 实验室的工程师撰写,是需要大规模交付模型的 ML 工程师的权威指南。 ## 涵盖的关键主题 ### 1. 分布式训练 - 数据并行性 — 跨 GPU 拆分批次
  • 模型并行性 - 跨设备分层
  • 管道并行性 - 重叠计算和通信
  • 联邦学习 - 基于去中心化数据进行训练
  • 容错 — 自动从节点故障中恢复 ### 2. 模特服务 - 批量推理 — 最大化离线作业的吞吐量
  • 实时服务 — 最大限度地减少在线预测的延迟
  • 模型版本控制 — A/B 测试和安全回滚
  • 自动扩展 — 在不过度配置的情况下处理流量峰值
  • 缓存策略 — 减少冗余计算 ### 3. 硬件加速 - GPU 优化 — CUDA 内核和内存管理
  • TPU 利用率 — XLA 编译和 Pod 调度
  • 定制 ASIC — 为特定工作负载设计芯片
  • 量化 — 降低精度以加快推理速度
  • 修剪 — 删除不必要的权重 ### 4. 机器学习基础设施 - 特征存储 — 共享和重用特征工程
  • 实验跟踪 — 记录指标、参数和工件
  • 数据管道 — ETL、验证和监控
  • 用于 ML 的 CI/CD — 自动化训练和部署
  • 监控和警报 — 检测模型漂移和数据质量问题 ### 5. 成本优化 - Spot 实例 — 使用抢占式计算进行训练
  • 模型压缩 — 在不损失准确性的情况下减小尺寸
  • 动态批处理 — 分组请求以提高效率
  • 多租户 — 跨模型共享资源
  • 碳足迹 — 测量并尽量减少能源使用 ## 谁应该阅读这本书? ### 机器学习工程师 如果您训练需要在生产中运行的模型,本书将教您:
  • 将训练扩展到数百个 GPU
  • 为模型提供低于 100 毫秒的延迟
  • 基础设施成本降低 50% 以上 ### 软件工程师 如果您正在过渡到机器学习,本书将涵盖:
  • 应用于机器学习的分布式系统概念
  • 性能优化技术
  • 生产最佳实践 ### 研究人员 如果您的实验太慢,请学习:
  • 并行化超参数搜索
  • 优化数据加载
  • 分析和调试 GPU 利用率 ### 工程经理 如果您需要建立机器学习团队,请了解:
  • 所需的基础设施投资
  • 团队架构及职责
  • 生产机器学习的风险管理 ## 书籍结构 本书分为 12 章: 1. 机器学习系统简介 — 为什么系统很重要
  1. ML 工作负载 — 计算、内存和通信模式
  2. 分布式训练 - 并行策略和同步
  3. 模型服务 — 大规模推理架构
  4. 硬件加速器 — GPU、TPU 和定制芯片
  5. 机器学习操作 — 管道、监控和自动化
  6. 数据管理 — 存储、预处理和特征存储
  7. 优化 — 编译、量化和修剪
  8. 可靠性 — 容错、测试和调试
  9. 安全性 - 模型隐私、对抗鲁棒性和访问控制
  10. 可持续性 — 能源效率和碳减排
  11. 未来方向——新兴趋势和未解决的问题 ## 真实案例研究 本书包含以下详细案例研究: - Google 搜索 — 每天提供数十亿次查询
  • Meta Feed — 对 30 亿用户的内容进行排名
  • OpenAI GPT — 训练大型语言模型
  • Tesla Autopilot — 边缘的实时计算机视觉
  • Netflix 推荐 — 大规模个性化 ## 与其他资源的比较 | 资源 | 焦点 | 深度 | 实用性| |

💬 留言讨论