对于重复数据删除电视剧片头的存储选项

现代文件系统一样的APF,增加了Btrfs,XFS和ZFS支持重复数据删除文件和文件块。可以存储重复数据删除可用于减少类似的电视节目的介绍序列存储需求?有什么其他的选择有哪些?

同样的电视节目多数情节都会有相同的序列介绍。没有人希望通过存储相同数据的多个副本浪费自己的可用存储空间。(除用于备份的目的,当然。)让我们来探讨可用存储重复数据删除方法和它们如何适用于这个问题。

有几种不同的方法来文件系统级存储的重复数据删除。它的要点是,相同数据块可以由多个文件而不消耗额外的存储空间中被引用。如何实现它的具体细节有很大的差异,我将在这篇文章中的几个触摸。最后,我也将讨论一些替代重复数据删除的文件系统。

写一个大文件到任何存储介质之前,它分解成更易于管理的块。块的大小是最经常匹配到下面的存储媒体的块大小。为文件系统的重复数据删除的主要方法是块级重复数据删除。这可以带块是通过比较所有其它块的表写之前完成。这种方法的缺点是,它需要用于存储所述比较表巨额存储器。另外,也可以在以后的时间做出来的带外。

这种方法是不适合我们的场景非常有用。前奏序列可能不会在每集同一挂钟时间启动。即使他们做到了,他们还是会被编码并存储在文件中对应于每一集不同的位置。这是极不可能的两个集将在大块的确切时间顺序介绍开始和结束。

有这种做法,与自己的文件做一个更根本的问题。视频编解码器具有固有损耗和不可预知的结果样本的原始数据。重新编码两次相同的视频序列是不可能产生完全相同的文件。压缩方案也将基于在视频前随附的数据不同催芽。视频看起来可能等同于人类,但文件是完全不同的。

你可以通过编码在每个文件中适当的时间介绍序列一次,拼接它弥补这个问题。许多视频容器格式支持拼接不同剪辑在一起成一个文件。无损视频拼接复杂自身,当你要保留确切的基本文件结构的任务大大复杂化。

这仍然是不够对准一个固定长度的文件组块的块。有迹象表明,可以采取这个问题的关心,以及两个选项。

第一种选择将是介绍序列前添加零字节填充与分块对齐。这将需要在目标文件系统和媒体容器格式的精确知识。BTRFS,OCFS2和XFS在Linux上支持称为APIfideduperange可用于dedupplicate块对齐的相同的数据。

第二个选择是,以取代一些更聪明的固定长度的组块。一个滚动分块读取的最小长度到该文件,然后查找该文件中的模式在那里可以做裁减。它不能保证,但更可能在大块同一个地方不同的文件,从而产生重复的块。没有文件系统目前使用滚动组块,但是。

然而,也有其他的选择要考虑全在一起。我早些时候,视频编码器可以合并拼接不同的视频到对方提及。A few media container formats — including MKV, WebM, and QuickTime — lets you reference media segments external to the file itself. You can encode the intro sequence once in a separate file (or even as a part of e.g. the first episode), and then include references to that sequence in other files. This is a variation of the methods that I’ve already discussed. However, you run into different problems like limited player app support for external segment references.

一个更好的和更广泛的支持的方法是创建每集播放列表。还有的XSPF和M3U8媒体播放列表文件的广泛支持。您可以完全接受媒体块,并将其保存为独立的文件,而不是教学文件系统或媒体播放器魔术。这是很容易创建的重复数据删除的视频文件的播放列表比它要仔细操作视频文件变得更加deduplicateable。每集将至少包含三个视频文件:前奏,共享介绍序列之前和之后的前奏。作为一个不错的奖金,前进按钮将让你刚好跳过介绍序列!

因此,有多少空间可以为您节省?让我们看看星际之门SG-1的一个插曲。平均插曲是42分25秒。前奏序列是约58秒(情节的2,28%)。那你可能会希望在理想条件下保存量的。

但是让我们假设你愿意延长甚至更多的努力去复制你的媒体文件!的米高梅狮子吼在每一集的开始和结束4秒。这可能会被削减,甚至在同一个情节重复数据删除。双重秘密制作和壁虎电影公司片尾处,每次3秒结束比赛。包括前奏,可以可靠地进行重复数据删除每集至少72秒(2,83%)。

因为他们不同于情节情节片尾很难重复数据删除。这也将是难以同步上涨的音乐。However, with effort — it should be possible to deduplicate at least parts of the end credits between some episodes.

像星门SG-1 A显示还具有很多是在不同的情节重用计算机生成图像的。这是可以想到去复制至少一些纺纱星门的外视对的一空间舰场景。然而,该节目试图从使用技巧,例如水平翻转现场每集区分这些场景。

所有这一切都需要努力的非常小的收益数额巨大。如果您在存储一个非常高品质的电视连续剧的大量这可能是值得的。然而,这将是一个巨大的工作量,并没有任何工具来自动此任务。

一个高效的重复数据删除文件系统的吸引力在于它理论上自动处理这一切。这听起来很有道理,一个重复数据删除文件系统应该能够处理重复的媒体内容。不幸的是,因为这在这篇文章中探讨,这个问题就会变得混乱,只要你涉及到真实的数据。真实的数据往往是较为凌乱比人们第一眼承担。

有可能是一个平行宇宙,在那里,就是类似于我们自己的,但他们从来没有设法显著增加容量,降低数字存储的成本。在这一理论的平行宇宙,我敢肯定,出现了很多更多的精力投放到自动化,使这种类型的优化更为可行。或者,也许他们已经集中全部精力投入到荒谬的高效压缩和视频编解码器呢?

有趣的奖金的事实:从不同的电视节目在文章顶部的功能图中的重复帧仍然可以进行重复数据删除!图像可送达无论是作为PNG或大小适合您的设备无损WebP的文件。在更小的图像尺寸,重复的帧得到由每个格式的本地压缩重复数据删除。它不会在因为与前瞻/图像格式的缓冲区背后尺寸限制的大尺寸工作。