ML 系统书籍:麻省理工学院出版社关于机器学习系统工程的教科书
The ML Systems Book is an MIT Press textbook covering distributed training, model serving, hardware acceleration, and ML infrastructure. Essential reading for ML engineers.
- Go
- Python
- MIT
- 更新于 2026-05-15
{</* 资源信息 */>} ## 问题:算法只是成功的一半 您掌握了神经网络、梯度下降和反向传播。 但在生产中: - 在单个 GPU 上训练需要数周时间
- 模型在现实交通中崩溃
- 延迟会影响用户体验
- 成本失控
- 调试分布式故障是一场噩梦 算法是必要的,但还不够。 现代机器学习需要系统工程。 ## 什么是机器学习系统书籍? ML Systems Book 是麻省理工学院出版社的一本教科书,它弥合了机器学习理论和生产系统之间的差距。 它涵盖了从分布式训练到模型服务、硬件加速到成本优化的一切。 它由来自 Google、Meta 和领先 AI 实验室的工程师撰写,是需要大规模交付模型的 ML 工程师的权威指南。 ## 涵盖的关键主题 ### 1. 分布式训练 - 数据并行性 — 跨 GPU 拆分批次
- 模型并行性 - 跨设备分层
- 管道并行性 - 重叠计算和通信
- 联邦学习 - 基于去中心化数据进行训练
- 容错 — 自动从节点故障中恢复 ### 2. 模特服务 - 批量推理 — 最大化离线作业的吞吐量
- 实时服务 — 最大限度地减少在线预测的延迟
- 模型版本控制 — A/B 测试和安全回滚
- 自动扩展 — 在不过度配置的情况下处理流量峰值
- 缓存策略 — 减少冗余计算 ### 3. 硬件加速 - GPU 优化 — CUDA 内核和内存管理
- TPU 利用率 — XLA 编译和 Pod 调度
- 定制 ASIC — 为特定工作负载设计芯片
- 量化 — 降低精度以加快推理速度
- 修剪 — 删除不必要的权重 ### 4. 机器学习基础设施 - 特征存储 — 共享和重用特征工程
- 实验跟踪 — 记录指标、参数和工件
- 数据管道 — ETL、验证和监控
- 用于 ML 的 CI/CD — 自动化训练和部署
- 监控和警报 — 检测模型漂移和数据质量问题 ### 5. 成本优化 - Spot 实例 — 使用抢占式计算进行训练
- 模型压缩 — 在不损失准确性的情况下减小尺寸
- 动态批处理 — 分组请求以提高效率
- 多租户 — 跨模型共享资源
- 碳足迹 — 测量并尽量减少能源使用 ## 谁应该阅读这本书? ### 机器学习工程师 如果您训练需要在生产中运行的模型,本书将教您:
- 将训练扩展到数百个 GPU
- 为模型提供低于 100 毫秒的延迟
- 基础设施成本降低 50% 以上 ### 软件工程师 如果您正在过渡到机器学习,本书将涵盖:
- 应用于机器学习的分布式系统概念
- 性能优化技术
- 生产最佳实践 ### 研究人员 如果您的实验太慢,请学习:
- 并行化超参数搜索
- 优化数据加载
- 分析和调试 GPU 利用率 ### 工程经理 如果您需要建立机器学习团队,请了解:
- 所需的基础设施投资
- 团队架构及职责
- 生产机器学习的风险管理 ## 书籍结构 本书分为 12 章: 1. 机器学习系统简介 — 为什么系统很重要
- ML 工作负载 — 计算、内存和通信模式
- 分布式训练 - 并行策略和同步
- 模型服务 — 大规模推理架构
- 硬件加速器 — GPU、TPU 和定制芯片
- 机器学习操作 — 管道、监控和自动化
- 数据管理 — 存储、预处理和特征存储
- 优化 — 编译、量化和修剪
- 可靠性 — 容错、测试和调试
- 安全性 - 模型隐私、对抗鲁棒性和访问控制
- 可持续性 — 能源效率和碳减排
- 未来方向——新兴趋势和未解决的问题 ## 真实案例研究 本书包含以下详细案例研究: - Google 搜索 — 每天提供数十亿次查询
- Meta Feed — 对 30 亿用户的内容进行排名
- OpenAI GPT — 训练大型语言模型
- Tesla Autopilot — 边缘的实时计算机视觉
- Netflix 推荐 — 大规模个性化 ## 与其他资源的比较 | 资源 | 焦点 | 深度 | 实用性| |
💬 留言讨论