为什么复制大文件时进度条在后半段突然加速?

 

将 脚本之家 设为“星标⭐”

第一时间收到文章更新

图片

出品 | 码农的荒岛求生 (ID:escape-it)

当你第一次打开一个10MB大小的PPT文件时,可能需要等待5秒钟,然而,第二次再打开同一个文件时几乎秒开,这是为什么呢?

当你复制粘贴一个大文件时,进度条在开始时进展缓慢,但到了后半段突然加速。这又是为什么?

操作系统是如何做到“越用越快”,“越用约顺手”的呢?实际上,这一切都归功于计算机中的一项关键技术——PageCache。

存储介质的性能鸿沟

计算机系统中,不同存储设备的速度差异巨大。机械硬盘与内存的读写速度能有百倍的差距(这里引用的数据相对较远,比较新的没找到):

这种差距意味着,直接从磁盘读取数据会极大地影响系统的响应速度和用户体验,为了弥补这一鸿沟,操作系统引入了PageCache机制:

道理和CPU和内存之间增加L1、L2、L3 cache一样,只不过L1、L2、L3 cache实现在硬件层面——CPU中,而pagecache实现在软件层面——操作系统中。

什么是PageCache?

PageCache由物理内存中的页面组成,这些页面的内容对应于磁盘上的物理块:

物理内存中的页面当然主要用来装入运行的进程,剩下的空闲内存用来当做PageCache:

因此pagecache的大小是动态的,它可以增长以占用任何空闲内存:

也可以缩小以缓解内存压力:

文件读取

当一个进程发起read 系统调用时,内核会首先检查所需的数据是否在页面缓存中。如果在缓存中,内核可以跳过访问磁盘,直接从内存中读取数据,这称为缓存命中(cache hit):

如果数据不在pagecache中,称为缓存未命中(cache miss),此时内核必须发起磁盘I/O 操作,从磁盘读取数据。数据从磁盘读取后,内核将数据填充到页面缓存中,以便任何后续的读取操作都能直接从缓存中进行。

并不是整个文件都需要被缓存,页面缓存可以将A文件完整缓存,而只缓存B文件的一个或两个页面,缓存什么取决于被访问的内容,假设某个文件有4页,但经常被使用的是第1号页,那么pagecache中可能就只有这一页:

这解释了为什么第一次打开一个10MB大小的PPT文件时,可能需要等待5秒钟,然而,第二次再打开同一个文件时几乎秒开,因为第一次打开PPT后整体PPT是通过磁盘IO加载到内存的,而第二次访问PPT将命中pagecache,如果全部命令那么这将会纯内存操作,当然能做到秒开。

文件写

当一个进程通过write系统调用写入磁盘时,会发生什么呢?

操作系统通常采用write-through策略,内核将进程的写操作直接写入pagecache而不会立刻同步更新磁盘,因此在这种策略下文件写也是纯内存操作,速度非常快,进程不会被阻塞:

复制粘贴大文件时数据需从磁盘先加载到PageCache,受限于磁盘顺序读取速度进度条增长缓慢,此时复制速度取决于磁盘读取性能。当文件数据已完全加载到 PageCache 后,后续读取直接从内存完成。

写数据时数据会暂存于内存,进度条反映的是写入PageCache的完成度,而非实际落盘进度,此时写速度从磁盘 I/O 提升到内存访问速度,进度条会突然加速。

待更新到磁盘的页会被内核标记,然后内核周期性地将这些页面异步写回磁盘,将内存中的缓存与磁盘的数据进行同步:

当然,除了基本的读写流程外,PageCache还包含了一些关键机制来进一步优化性能。例如,预读(Read-ahead)技术能够预测性地加载后续的数据块,使得顺序读取大文件时效率更高。此外,为了管理有限的内存资源,PageCache采用了LRU(最近最少使用)算法来进行缓存替换决策。

PageCache带来了显著的性能优势,尤其是在重复访问同一文件或顺序读取大文件时表现尤为突出。比如在编译代码、频繁读取配置文件、视频编辑及处理数据库日志等场景下,PageCache都能发挥重要作用。

实验验证

接下来在一台Linux机器上验证一下pagecache,首先创建一个大小为1G、内容为随机数的文件:

dd if=/dev/urandom of=testfile bs=1M count=1024

然后清空系统中所有的pagecache,可以使用这个命令:

sync && echo 1 > /proc/sys/vm/drop_caches  

接着我们读取一下刚创建的这个文件,并统计完全读取整个文件需要的时间,由于在读取文件之前清空了所有pagecache,因此读取testfile文件时将触发磁盘IO:

$ time cat testfile > /dev/nullreal    0m6.176suser    0m0.028ssys     0m0.731s

这里输出的含义是:

  • • real (实际时间): 总共经过的时间,包括所有等待时间(如I/O等待)。

  • • user (用户CPU时间): 程序在用户模式下执行所花费的时间。

  • • sys (系统CPU时间): 程序在内核模式下执行所花费的时间。

可以看到,读取这1个G的文件总耗时达到了6.1s左右,因为这涉及磁盘IO,因此读取速度缓慢,读完后这个文件将被放到pagecache,接着我们再读一次:

$ time cat testfile > /dev/null real    0m0.309suser    0m0.011ssys     0m0.298s

可以看到,这次读取文件只用了0.3s,相差了接近20倍,就是因为第二次读取几乎是纯内存操作。

现在你应该明白pagecache的作用了吧。

图片

  推荐阅读:

  • 还在用HttpUtil?SpringBoot 3全新HTTP客户端工具来了,用起来够优雅!

  • 丢弃掉那些 BeanUtils 工具类吧,MapStruct 真香!!!

  • 互联网大厂为啥不把研发迁到二三线城市?

  • 华为小艺接入DeepSeek,苹果AI也有救了

  • 有可能一人搞定CPU、操作系统、编译器吗?

  • (0)
    wd123_cnwd123_cn
    上一篇 2025年3月23日 上午10:20
    下一篇 2025年3月23日 上午10:21

    相关文章

    • 布兰登·斯克莱纳澄清胸针事件:纯属巧合,无任何隐含信息

      演员布兰登·斯克莱纳近日在出席新片《Drop》的SXSW首映式时,被问及此前在奥斯卡派对上佩戴的胸针是否隐含某种信息。对此,斯克莱纳明确表示,这纯属巧合,并无任何特殊含义。 胸针事件引发猜测 斯克莱纳在3月2日的《名利场》奥斯卡派对上佩戴了一枚引人注目的花朵胸针,并在Instagram上分享了一张照片,配文“胸针万岁”。然而,这一选择很快引发了网友的猜测,因…

      2025年3月11日
    • 洗衣好帮手:硼砂的妙用,让衣物焕然一新!

      硼砂,又名硼酸钠,是一种天然矿物,它在洗衣方面有着悠久的历史,被人们视为可靠的洗衣助剂。硼砂能增强洗衣液的清洁能力、有效去除异味,甚至可以软化硬水。那么,硼砂究竟是如何发挥作用的呢?又该如何在日常洗衣中有效地使用它呢? 我们采访了清洁专家,深入了解了硼砂背后的科学原理、它的诸多益处,以及将其安全地融入洗衣流程的最佳方法。无论您是想处理顽固污渍、消除难闻气味,…

      2025年3月13日
    • 美国卫生部长呼吁食品公司转向更健康食材

      美国卫生与公众服务部长罗伯特·F·肯尼迪(Robert F. Kennedy Jr.)近日与福克斯新闻主持人肖恩·汉尼提(Sean Hannity)一同访问了佛罗里达州的一家Steak ‘n Shake餐厅。此举发生在该公司宣布将在所有门店使用100%天然牛脂烹饪招牌细薯条之后。 肯尼迪在汉尼提的节目中表示:“Steak ‘n Shake做得非常好,我们非常…

      2025年3月12日
    • 美上热搜!刘亦菲身穿粉色羽毛裙压轴亮相红毯,惊艳众人获全场惊呼

      来源 | 潇湘晨报综合 3月19日晚,演员刘亦菲应邀出席2025电视剧品质盛典,并作为压轴亮相红毯。刘亦菲一出场,就惊艳众人,全场惊呼太美了! 她身穿Elie Saab 2025春夏高定系列粉色羽毛裙,搭配宝格丽高级珠宝,整体造型被形容为“春日花仙”与“行走的玫瑰”。 一时间各种话题都登上热搜榜。 据悉,2025年电视剧品质盛典于3月19日在上海举…

      2025年3月20日
    • 南卡罗来纳州女子因引发大规模山火被捕,波及2059英亩土地

      上周,南卡罗来纳州一名女子因涉嫌引发一起波及2059英亩土地的大型山火而被捕,该山火导致迈尔特尔海滩地区数百户居民被迫疏散。 事件经过 据南卡罗来纳州林业委员会称,40岁的亚历山德拉·比亚卢索夫(Alexandra Bialousow)于3月1日在卡罗莱纳森林的康文顿湖小区后院的一个火坑附近故意点燃了火源,随后被多名邻居举报。官员们指控她未能采取适当的预防措…

      2025年3月8日
    • 黑加仑:你可能错过的健康宝藏,7大益处助你提升免疫力、保护心脏

      在健康领域,黑加仑可能是一个容易被忽视的宝藏。尽管很多人对它及其相关补充剂了解不多,但或许是时候重新认识这种水果了。黑加仑富含多种化合物,可能有助于改善消化、增强免疫力,并降低患慢性疾病的风险。甚至,它还能为处于围绝经期和更年期的女性提供身体所需的营养支持。 什么是黑加仑? 黑加仑是一种深紫色的小浆果,常用于制作果酱、果汁和糖浆。内科和成瘾医学双重认证医师P…

      2025年3月29日