跳转到内容

大文件版本控制工具 git lfs

Git 是业界流行的分布式版本控制工具,本地仓库与远端仓库同样保存了全量的文件和变更历史,这样让代码协作变得简单和高效。但也正因为如此,Git 针对大型文件(例如图片、视频或其他二进制文件)的版本控制,也会存在一些问题,主要有两点:

  1. 效率变慢:不管实际上用户是否使用到这些大文件(即使删除也保留了一份记录),都需要把每一个文件的每一个版本下载到本地仓库。毫无疑问,下载耗时的增加给用户带来了更多的等待时间。

  2. 空间变大:一个Git仓库存放的大型的文件越多,加之伴随着其关联提交不断增多,Git仓库会以非常快的速率膨胀,占用更多的磁盘空间。

这两方面的问题,让很多喜爱 Git 的用户非常的”难过”,例如一些游戏开发工程师、设计工程师和文档管理者等等,他们每天面对的很多仓库都是这种情况。一方面,他们希望继续使用 Git 的版本控制和工作流能力,在另一方面 Git 仓库中大文件及其历史不断增多,导致工作效率越来越差。所以,针对上述的问题,Git LFS 应运而生,是目前针对大文件场景下的主流的解决方案。

LFS 的指针文件是一个文本文件,存储在 Git 仓库中,对应大文件的内容存储在 LFS 服务器里,而不是 Git 仓库中,下面为一个图片 PDF 文件的指针文件内容:

version https://git-lfs.github.com/spec/v1
oid sha256:eaf171f1567825c25f7afcda7fc04537ba9193ac8271b7c9c7d12be14f9a204c
size 22266384

指针文件很小,小于 1KB。其格式为 key-value 格式,第一行为指针文件规范 URL,第二行为文件的对象 id,也即 LFS 文件的存储对象文件名,可以在.git/lfs/objects 目录中找到该文件的存储对象,第三行为文件的实际大小(单位为字节)。所有 LFS 指针文件都是这种格式。

在你的工作副本中,你只会看到实际的文件内容。这意味着你不需要更改现有的 Git 工作流程就可以使用 Git LFS。你只需按常规进行 git checkout、编辑文件、git add 和 git commit。git clone 和 git pull 将明显更快,因为开发者只会下载实际检出的提交所引用的大文件版本,而不是曾经存在过的文件的每一个版本。