如何对抗格式老化

美国国会图书馆为您撑腰

Jay Bendt

加入我们的科学爱好者社区!

我不是第一个对数据老化发出警报的技术作家,数据老化可以被描述为“当计算机文件的存储介质进入天堂般的CompUSA时,计算机文件变得无法访问的趋势。” 多年来,我们将我们的写作、商业文件、音乐和艺术委托给诸如穿孔卡、磁带、软盘和Zip磁盘等现已失效的格式。如果你认为CD-ROM和DVD-ROM还能伴随我们很久,那你就疯了。

不过,我今天来到你们面前,是为了让你们晚上睡不着觉的更险恶的东西:文件格式老化

这就是你不用担心存储介质,而是担心文件文档格式的地方。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关发现和塑造我们当今世界的想法的具有影响力的故事的未来。


当我今年早些时候尝试打开一些旧的Microsoft Word文档时,这个问题像大锤一样击中了我。它们打不开! 2017年左右的Microsoft Word无法打开1989年左右的自己的文档。这难道不像是违反了某些基本定律吗? 某些隐含的保证? 这就像有一天早上醒来发现今天的螺丝刀不适合将我们的建筑物固定在一起的数万亿颗螺丝。

在我的职业生涯的头十年,刚从大学毕业后,我在纽约市担任百老汇音乐剧的编曲和指挥。我一生中的几年都在使用早期的乐谱软件(如Professional Composer、Deluxe Music Construction Set和HB Engraver)创作乐谱。 每一个都花费了数小时又数小时又数小时。 而现在呢? 我无法看到那些乐谱。 除了我拥有的打印稿之外,我再也看不到它们了。 父软件程序早已消失——随之消失的是所有永远锁定在文档中的音符和和弦。

那么,我们如何期望后代能够打开我们的剧本、小说、照片、视频和其他创作作品呢?

你知道谁花大量时间担心这个问题吗? 美国国会图书馆。 它正在进行一项耗资数百万美元的努力,以数字化其7000万份手稿、1400万张照片和80万本珍本书籍。 这样做的目的是为了保存它们,并使它们可以在互联网上供公众使用。

几年前,我有机会采访了图书馆的印刷品和照片主管海伦娜·津克汉姆。 她指出,纸张不仅被证明是最好的文档格式之一,而且纸张是最好的。 她告诉我:“纸张在15世纪、16世纪、17世纪实际上要坚固得多,因为他们用布料、碎布、亚麻基纸和棉基纸制作纸张。” “但在19世纪,为了大规模生产纸张,他们开始在生产过程中引入化学物质。” 这些化学物质导致了更快的劣化。

因此,如果您是美国国会图书馆,并且您非常清楚文件格式老化,并且您希望为后代保存您的藏品,那么您的扫描计划是什么? 您可能期望哪种计算机文件格式在200年后仍然存在?

好吧,首先,您选择尽可能开放的格式,一种不会被一家软件公司嫉妒地守护的格式。 图书馆在数字化其照片、书籍和文档时选择了TIFF文件。 津克汉姆说:“这似乎给了我们最大的希望,能够多年迁移[这些文件]。”

事实证明,这就是关键:重新转换已纳入图书馆的计划中。 当图书馆在1990年代中期开始其扫描程序时,整个图像的分辨率非常低——420 x 560像素。 今天,每次扫描都有数千像素高和宽。

当然,这意味着转换文件格式的工作实际上永远不会结束。 美国国会图书馆已经在重新扫描其最重要的文档和图片,以利用位深度和分辨率的进步——并计划永远定期这样做。

事实证明,这也应该是我们的策略。 如果我打开那些Word 1.0文档并每隔几年使用后续版本的Word重新保存它们,我仍然会拥有它们。 我没有勤奋地重新转换我的文件,因为我什至没有意识到这个问题。 现在,至少您没有那个借口了。

© . All rights reserved.