本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
当我与大多数科学家交谈并提到“元数据”这个词时,他们看着我就好像我长出了第二个头。尽管这些人经常使用和创建元数据(不要与元数据或“大数据”混淆,那是完全不同的主题),但许多人没有听说过这个术语。
广义而言,元数据只是对其他事物的结构化描述。元数据最流行的例子来自图书馆目录。每本书在在线目录中都有标题、作者、索书号、出版商、ISBN 等信息。这些要素构成了这本书的元数据,并且有一些规则来确保事物标准化。
如果没有元数据,数字信息的发现和重用将困难得多。这就是为什么自二十世纪下半叶以来,关于元数据的讨论大幅增加。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
理解元数据的最好方法是查看一些元数据实际应用的例子。
这是一部分数字数据表
如果您在网上偶然发现了这个列表,您或许可以猜到它是什么,但您不能确定。如果您正在寻找这个列表,也很难再次找到它。列表创建者可能会觉得这非常有用,但如果他或她与他人共享,我们希望添加一些信息来帮助新用户理解他或她正在看什么:这就是元数据。
此数据文件的元数据
数据创建者:圣诞老人,北极。有个电子邮件地址就更好了。这样,如果我们需要澄清,我们就有一些联系信息。
标题:“我的列表”不是一个有助于再次找到该文件的标题。虽然可能很想直接称其为“圣诞老人的列表”,但这无助于其他看到此文件的人。标题应该描述数据文件包含的内容,“圣诞老人的列表”可能有很多含义:圣诞老人的驯鹿列表?圣诞老人需要制作的玩具列表?更具描述性的标题可能是“圣诞老人的顽皮和乖孩子名单”。
创建日期:我们不想将今年的列表(2012 年)与去年的列表(2011 年)混淆。这可能会导致各种不幸事件,例如乖孩子得到煤块,顽皮的孩子得到礼物,或者婴儿(在 2011 年还没出生)什么也得不到。
数据文件的创建者:也许数据是圣诞老人创建的,但随后使用精灵将数据输入到计算机文件中。许多计算机程序会自动记录此信息,尽管您可能没有意识到这一点。
列表的创建方式:行为扫描?父母调查?架子上的精灵报告?以上所有?为了在未来的研究项目中重用这些数据,我们需要知道它是如何收集的,包括收集工具和方法。
所用术语的定义:什么是“顽皮”,什么是“乖”?圣诞老人如何将孩子归入一个类别或另一个类别?
文件类型:它是什么类型的文件?这里的数据非常简单,但圣诞老人有很多不同的文件格式可供选择:excel、.csv、xml 等。了解文件类型有助于最终用户确定他们是否可以使用该数据
当然,不同类型的项目可能具有完全不同的元数据集合。
这是我妈妈最喜欢的我的圣诞照片
我妈妈记得这张照片拍摄的地点、时间和方式的细节,但如果她不在身边讲述故事,元数据可以提供帮助
这张照片的元数据
照片拍摄日期:1981 年 12 月。数字版本创建于 2012 年 12 月 13 日
照片拍摄者:商场员工。这可能会对谁拥有使用和分发图像的权利产生影响。摄影师?支付拍照费用的人?
用于拍摄照片的相机:我不知道这张照片使用了什么相机。幸运的是,现代数码相机通常会自动将此信息记录为 .jpg 文件的一部分。数码相机还可以记录所有详细的相机设置(对于那些了解这些东西的人)。
照片拍摄地点:纽约州霍斯海兹的阿诺特购物中心。一些数码相机也可以使用内置 GPS 自动捕获此信息。
图片格式:.jpg
图片尺寸:照片的原始尺寸为 3.5 x 5.5(我认为)。原始扫描图像为 852 x 1116 像素。
照片描述:目前,搜索图像的主要方式是让计算机搜索相关的文本。好的文件名和好的描述可能是再次找到图像的关键。邦妮·J·M·斯沃格,3 岁,坐在圣诞老人的腿上。她的祖父带她去商场拜访圣诞老人。虽然她对此并不热衷,但她爱她的祖父,并顺从他坐在圣诞老人的腿上。
版权信息:我认为 1981 年商场圣诞老人的人们没有考虑版权,因为当时没有简单的方法复制照片。如今,明确声明其他人使用图片的权利非常重要。知识共享许可非常适合明确用户可以对您的内容做什么。
根据数据类型的不同,可能还有更多元数据元素。地理空间数据、化学数据、天文数据等各有其特定的描述性元素。许多组织已经制定了标准,描述应包含哪些类型的元数据以及元数据应如何格式化。这有助于数据创建者添加可以被计算机读取并被其他感兴趣的人重用的元数据。
一旦您有了完善的元数据格式,您就可以开始分析元数据。用于评估学术出版物的常用指标(影响因子、替代计量指标等)都依赖于高质量的元数据。
我认为我们可以同意圣诞老人会使用健全的数据管理实践,包括创建和使用适当的元数据,来跟踪他的礼物赠送和后勤数据。他会希望我们其他人也使用良好的元数据,这样我们就可以随时找到那张 30 年前的他的照片。
像圣诞老人一样,确保您的数据可查找和可重用:使用良好的元数据!
有关元数据的更强大(但清晰易懂)的定义,请参阅 NISO 的《理解元数据》(PDF)。