月球上的“水”意味着什么

月球上的“水”意味着什么

当地时间10月26日,美国国家航空航天局(NASA)首次证实,在月球上受阳光照射的表面探测到水分子。这一发现表明,水可能广泛分布在月球表面,而不局限于月球上寒冷或阴暗的地方。

就在本月初,麻省理工学院(MIT)宣布永久删除了包含8000万张图像的Tiny Images数据集,并公开表示歉意。其原因是,有关研究人员发表了一篇论文指控Tiny ImageNet数据集存在多项危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。

研究人员在论文中表明,

NASA在公报中表示,SOFIA在月球南半球的克拉维于斯火山口探测到水分子,这是从地球上可见的月球最大火山之一。

  上古世纪,无所畏惧。

  《上古世纪》国服五周年之际,远在韩国的宋在京先生特意录制祝福视频。视频中他提到,“《上古世纪》在中国第一次被介绍的场面还记忆如新”。此外,宋在京先生还对国内玩家对游戏的支持表示诚挚的谢意,他提到“上古世纪国服能够走到现在都是源于中国玩家的不懈支持,正因为有了你们的支持,我们才有信心坚持到现在,感谢一路相随,五周年快乐”。

当WordNet提供一个名词后,根据它设定的语音层次结构,ImageNet需要对该名词的父类节点同义词进行扩充,并以此作为搜索的关键词。比如“ whippet”分类名词(父类节点为:“dog”)的搜索还会包括“ whippet dog” 。

* 网友发言均非本站立场,本站不在评论栏推荐任何网店、经销商,谨防上当受骗!

  宋在京:玩家的不懈支持成就了上古世纪

此前,人类曾探测发现月球表面存在某种形态的氢,但无法确认究竟是水还是其近似物羟基。此次的探测数据显示,水被“困在”分布于月球表面的土壤中,浓度为百万分之100至412。

2009年,美国科学家又利用火箭末子级撞击月球表面,撞出的物质飞上太空被卫星拍下照片。通过对这些尘埃物质进行光谱分析,科学家发现这些物质是含水的。

但ImageNet的数据标签可能不是女孩,也可能是唱麦或者吉他,重要的是ImageNet只会标注一个标签,这样可能就会导致ImageNet在目标识别中出现失误。

此外,目前学术界已经越来越关注数据集相关缺陷问题,在本月初计算机语言协会(ACL)还重点讨论了这一问题。

简单举个栗子:假如此图是ImageNet数据集中的一张高清图像,我们可以看到图片中不止包含了一个对象目标,包含女孩、吉他和唱麦,而且图片的主目标应该是女孩。

除了近期麻省理工学院因涉嫌种族歧视而删除了包含8000张图像的Tiny Image数据外,此前,一款图像修复算法PULSE,在学术圈同样引起轩然大波。有网友发现,PULSE在修复马赛克图像时,将奥巴马变成了高分辨率的白人,这一事件引起了黑人网友的不满。

大规模ImageNet数据集的出现,可以说意味着机器学习深度变革的一个新起点。2009年,李飞飞领衔的研究团队在计算机视觉与识别模式大会(CVPR)上首次推出ImageNet,ImageNet数据集包含10000个分类,超过一百万个图像,数据量之大是此从未有过的。

因此,可以说图像标签在很大程度上依然取决于自动检索(WorldNet)过程,同时众包过滤的审查过程还有很大的提升空间。

  此外,官方还准备了超优惠的充值活动,活动期间充值便可获得每日充值福利以及每日小惊喜,冥界之石等道具免费领取,还可通过道具砸彩蛋获得丰厚奖励。

看到这里你可能会疑惑,为什么不能准确对图像进行标记?其实问题的关键在于ImageNet所使用的标记工具WorldNet。

但从当前来看,这种方法非常不切实际。事实上,诸如ImageNet此类数据集均是从互联网搜索引擎抓取的图像,质量参差不齐,而图像审查不够严谨。同时大量数据的专家手动标记也很难实现。不过,如本次研究所称,可以通过技术进一步改善图像自动审查的过程来提高数据集的质量。

  此前,《上古世纪》官网便上线了不限号5周年专属礼包,与玩家一起庆祝《上古世纪》周年纪念日。宗师/巨匠成长礼包、强化礼包、新月石材料包、召唤兽礼包、生活礼包、图纸礼包、家具礼包等多重纪念礼包均可超值限购。此外,还有不限号五周年金宝箱、燃烧的赤金华贵宝石盒等特殊礼盒。玩家还可以通过兑换券兑换未拆封的加菲露露荷叶等道具。

  周年专属礼包,共庆《上古世纪》五周年

涉嫌种族歧视,大规模数据集争议不断

而且下图表明,尽管只感知到单个对象,它们也经常会选择多达10个类别标签。因此,对于单一目标的图像,ImageNet验证过程也无法得到准确的标签。

有科学家表示,在其他星球上找到氧比较容易,因为岩石里包含金属氧化物,有丰富的氧元素,但是氢却不容易找到。如果月球上的水冰能够被提取,经过电解之后就可以得到液氢、液氧,用它们制备效率较高的火箭燃料,可以极大地降低太空任务的成本。

  五周年之际,《上古世纪》还推出经典服务器,经典服预约页面上线短短几天,预约人数便突破了20000人,无数的老玩家回归,大批新玩家听到消息后也纷纷预约经典服。新服中经典的单币制及自由交易系统,装备系统调整,给国内玩家呈现原汁原味的《上古世纪》,受到广大玩家的一致好评。

不管怎么说,此次月球上水的发现,将给人类的太空探索带来更大的想象空间。

正是因数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。但是,麻省理工研究团队在最近的研究中却指出:

ImageNet基准测试与实际不符

月球上有没有水?如果有水,又是以什么形式存在的?在很长时间内,都曾是科学家们争论不休的问题。

科学家表示,当太空机构谈及月球的就地资源利用时,水一直是该计划的关键和核心。从此意义上讲,NASA公布的这一发现,很可能开启一个全新的未来。

另一方面对于ImageNet而言,WordNet获取的只是初始数据标签,其准确性还需要通过相关模型进行再次验证。总体来讲,ImageNet数据集的创建过程,分为自动图像收集(automated data collection)和众包过滤(crowd-sourced filtering)两个阶段,而众包过滤就是所谓的审核阶段,它分为以下5个步骤:

作为人工智能技术的基础,数据集在诸多研究领域都有着广泛的使用场景,尤其是在计算机视觉领域。近些年,因数据集的使用引发的隐私泄露、种族歧视等问题接连不断,导致人工智能技术的发展备受争议。

论文中表明,ImageNet在语义结构分析上,使用的WordNet名词,它包含了种族歧视等危险内容,同时,由于图像过小,数据量过大,并未手动对图像标签进行逐一核对,由此导致了问题的出现。

1994年和1998年,美国两次发射月球探测器。两次探测的结果都显示,月球上可能有水。

他们发现,ImageNet数据集中大约有20%的图像包含两个或更多的对象目标。

雷锋网原创文章,。详情见转载须知。

引用链接:雷锋网雷锋网雷锋网(公众号:雷锋网)

在通过对多个目标识别模型进行分析后,数据表明包含多个对象目标的照片会导致总体基准的准确性下降10%。

ImageNet存在明显的“系统标注问题”,导致其用作基准数据集时与实际情况并不一致。

对于未来如何优化数据集的创建任务,研究人员在论文中表明,我们认为开发注释流程,尤其是审查阶段以更好地捕获基本事实,同时保持可扩展性是未来研究的重要途径。”

SOFIA是波音747SP型飞机在改装后,搭载了直径约2.69米的望远镜,它能够有效捕捉水分子的特定波长。SOFIA在超过1.3万米的高度飞行,这一高度让SOFIA得以避开水蒸气干扰,更加清晰地观测宇宙。

 今年因数据集而引发种族歧视事件颇多,而解决这些数据集争议,无非是从数据收集和标记阶段进行改进。研究人员称,对于大型数据集,理想的方法是按指定目标在全世界范围内收集图像,并让专家按确切类别进行手动筛选和标记。这里需要注意的是,非专家的人工标记也可能出现错误。

1961年,美国科学家肯尼思·沃森等人首次提出了月球存在水冰的设想。

WordNet在1980年代由George Armitage Miller创立,被广泛用于数据集的收集和标记过程。简单的理解,ImageNet会根据WorldNet提供的名词和它的语义层次结构,在搜索引擎或者Flickr之类的网站进行图像搜索,作为数据集的初始来源。

在对月球表面的研究中,发现“水”的一种重要方法是红外探测。人类通过航天器携带的仪器探测来自月球的反射波谱,测量它在特定波长下反射的能量。NASA就是通过“平流层红外天文台(SOFIA)”首次在月球的太阳照射面发现的水。

WordNet名词标记是关键

既然如此,那为什么WordNet名词还能够广泛应用于数据集创建过程中呢?

但这里的重点是,对于每个检索到的图像已经确定了标签,如果该标签包含在数据集中,则将分配给该图像。也就是说,标签仅由用于相应搜索查询的WordNet节点给出。

对此,图灵奖之父Lecun发表twitter称,训练结果存在种族偏见,是因为数据集本身带有偏见,工程师在使用过程中应该加注意这一点。

此外,月球的引力只有地球的六分之一,如果月球上能够发现足够多的资源,并能够利用起来,将来人类在去往火星或其他星球的时候,从月球补充物资会更容易。同时,如果能在月球表面制备水的话,成本会低很多。

不过,对于NASA此次宣布的新发现,俄卫星社表达了一些“不屑”。他们表示,如果NASA的科学家们多了解一些苏联科学家的研究成果,可能就会意识到,苏联的月球探测器“月球24号”早在1976年就发现了这一现象。

与原始ImageNet标签相比,经过众包过滤后生成的注释能够以更细粒度的方式表征图像的内容,但研究者发现,这些注释内容可能并没有达到期待的效果,如下图,CONTAINS任务会选择多个标签对图像有效,而对于70%的图像而言,注释选择的标签频率至少是ImageNet的原始标签的一半。

而在这一过程中,WordNet的语义结构会将非主要目标的图像纳入数据集中,出现上文提到标记偏差。如论文中的数据显示,同一分类却出现了不同的物体目标。(如图)

这类似于我们经常看到的“相关搜索”。为了进一步扩展图像池,数据集创建者还会使用多种语言进行了搜索。

  9月16日,《上古世纪》经典服服务器将全面开放,届时三大新服将同时开启,《上古世纪》经典回归,届时,老玩家可带上昔日好友重回经典,新玩家也可约上好友一起探索原汁原味的上古世界。

众所周知,知名数据集ImageNet也使用了WordNet用于语义结构分析,那么,ImageNet数据集是否也存在同样的问题?对此,麻省理工研究团队给出了答案。

天极新媒体 最酷科技资讯 扫码赢大奖

“总体而言,单个ImageNet标签可能不能总是捕获到ImageNet图像的主要表物体目标。但是,当我们进行培训和评估时,却将标签视为图像的根本事实,因此,这可能会导致ImageNet基准测试与现实世界中的对象识别任务之间出现不一致,而且这在模型执行和评估性能方面都是如此。”

一方面是因为WorldNet可以完成大量数据的自动标记工作。我们知道,所有数据集在使用前都要先完成标记任务,而一个优秀的数据集规模又是很大的,如果全部手动标记,难度非常高,而WorldNet却可以很好的解决这一问题。

潜在标签(Candidate Labels):通过现有ImageNet图像标签与模型预测的前5个标签进行组合,获得每张图像的潜在标签。 选择高频率标签(Selection Frequency):通过Mechanical Turk(MTurk)平台,将潜在标签与注释内容对比,经过反复过滤循环后,出现频率最高的为最佳标签(一般少于5个)。 CLASSIFY任务:给获得的少量多标签(Multiple labels)重新定义一组新的注释内容,根据注释信息为不同对象赋予标签,并确定一个主要对象的标签,这个过程称为CLASSIFY。 对象注释(Object Annotation):汇总以上训练后,获得更为细粒度的图像注释;