Haystack: 一种分布式对象存储系统

假如你维护着一个社交媒体公司的图片服务，每天都会有几十亿张照片、缩略图需要存储，还需要快速响应对所有历史照片的随机查询请求，那么你会怎么进行系统设计呢？

需要解决的核心问题有：

怎么存放海量的图片，因为单机可能放不下
怎么节约磁盘空间，因为会有很多小文件，比如缩略图什么的
怎么快速响应查询请求，比如查询1年前上传的图片
（可靠性不在本文的讨论访问内）

分布式存储

我们可以用多台服务器组成一个分布式系统来存放大量的图片文件，只需要有一台或多台 metaserver 来记录每个文件存放在哪台机器上及其具体路径。

合并文件内容

文件系统存放数据的最小单元是 Block，而不是 Byte。一般一个 Block 大小是 4KB。如果图片比较小的话，比如只有1KB，那么它实际占用的存储空间会是 4KB，有3KB的空间就被浪费掉了。

比如上图中的 a.txt文件内容实际上只有 10 Byte，但是仍然会占用 4KB的空间。当有上亿个这样的小文件存在时，就会有大量的存储资源被浪费。因此，我们可以考虑将多个文件合并存放到一个大文件中，尽量避免产生浪费。然后再单独地维护一份元信息，记录每个小文件存储在哪个大文件中，及其offset。