企鹅中文

阅读记录  |   用户书架
上一页
目录 | 设置
下一章

第90章 顶尖算法团队的赞叹(2 / 2)

加入书签 | 推荐本书 | 问题反馈 |

在现今评估自动文本摘要质量的两种方法:人工评价方法和自动评价方法。

人工评估就是邀请若干专家人为制定标准进行人工评定,这种方法比较接近人的阅读感受。

但是耗时耗力,不但无法用于对大规模自动文本摘要数据的评价,和自动文本摘要的应用场景也并不符合。

最关键的是以拥有主观思想的人进行摘要的评价的话,很容易出现偏差,毕竟一千个人眼里有一千个哈姆雷特,每个人对新闻摘要的衡量都有自己的准绳,或许一个衡量团队可以制定一个统一的衡量标准,但换一个衡量团队很可能衡量标准便不一样。

这就很容易导致在评判准确度的时候因为评判团队的不同,同一次的摘要结果会得到截然不同的评价。

评判团队千差万别,很容易导致一些明明有实力做好算法的团队却因为评判团队拉跨出师未捷身先死。

伊芙·卡莉他们团队的文本摘要算法之前一度能够在全球领先。

跟他们和牛津、哈佛、耶鲁三所大学的语言学方面深度合作有着很大的关系。

但这终究不是长久之计,人工的评估方法因其固有的局限性注定了走不远。

因此,文本摘要算法研究团队积极地研究自动评价方法。

自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。

比较著名的会议或组织包括ac、dc、tac(tetanalyference)等。

尽管相关的团队在积极研究自动评价方法,在现今评估自动文本摘要质量的两种方法(人工评价方法和自动评价方法)还是以人工评价方法这个评估方法最为常用。

很多自动评价方法的原理主要是将摘要算法生成的新闻摘要和参考摘要进行比较通过最大拟合程度来进行评价。

这个评价的过程虽然是自动的,但参考摘要却是人工撰写的。

也就是说即便是所谓的自动评价方法,也摆脱不了主观因素的介入。

那样的话何苦多费一遍功夫用什么自动评价方法?

也正因为如此很多团队在评估摘要质量时选择的方式依旧是人工评估。

而人工评估这种主观东西就很难对结果进行客观的量化。

正因为这种情况,尽管之前不少团队摘要算法准确度都还算不错。

但涉及到新闻摘要准确度方面的宣传,大家都选择性的遗忘了。

就这种情况下,为什么南风app的开发者在软件介绍中却言之凿凿地称这款软件准确度比同类软件高出270。

这个所谓的270究竟是基于什么标准去衡量的呢?一时之间伊芙·卡莉陷入了沉思。

无论这个270是怎么得出来的,想来应该不是无中生有。

在别的国家的软件宣传是什么规矩伊芙不清楚,但是在米国如果没有一个逻辑自洽的衡量模型作为理论支撑就贸然进行这种无中生有的量化宣传的话,很容易被罚的底裤都不剩。

即南风app这个所谓的“270”大概率是建立在足够强大并且能够逻辑自洽的准确度衡量模型的基础之上的。

不过也不好说,每年为了博眼球而不顾宣传规矩的开发者比比皆是。

出于严谨的科研态度,伊芙·卡莉以【文本摘要准确度衡量模型】为关键词进行了检索。

在检索结果中伊芙·卡莉一眼就看到了混杂在一众模型之中的有一个新出现的准确度衡量模型。

没办法,很难注意不到,以往的十多个对文本摘要准确度进行衡量的模型,伊芙·卡莉说是如数家珍也不为过。

现在这个名为“l文本摘要准确度衡量模型”伊芙·卡莉之前就从来没见过。

大致看了一下这个模型采用的准确度衡量方法。

伊芙意外的发现通过这种全新的准确度衡量模型,评估人员不需要引入任何主观因素介入到摘要准确度的评估的过程中。

正因为没有主观因素的介入,这个准确度评估方法完全可以对现有的全部文本摘要算法的摘要准确度进行量化分析。

这个衡量模型还演示了几个使用范例。

在尼克雅虎新闻摘要那个软件里的算法经该模型衡量之后,准确度分数居然只有1分。

而南风app则获得了37分的分数。

看到这个结果,伊芙明白了南风app所谓的摘要准确度领先270是怎么来的了。

看来这个l文本摘要准确度衡量模型一定也是南风app的开发者搞定的了。

即便不是南风app开发者搞定的,两者之间应该也有某种联系。

不然这个模型的衡量结果怎么会同南风app的软件宣传的数据出现高度的同质化。

不得不说,这个名为l的全新的衡量准确度的方式让伊芙·卡莉有种豁然开朗的感觉。

通过利用该衡量模型,他们今后的研究也会更顺畅一些。

不过让伊芙·卡莉比较意外的是“l文本摘要准确度衡量模型”并不是以论文的形式单独出现的,

而是出现在一个名为“生成式文本摘要算法”的专利中。

在专利中出现的衡量模型?无疑意味着即便这个模型很高效,但在实际使用时理论上还是要得到专利所有者的授权。

这也太狗了吧?哪有把这种模型往专利里放的道理。

而且只是一个算法有必要申请专利吗?

尽管伊芙·卡莉他们之前的算法很强大,但是他们也并没有申请专利。

不过对此伊芙也没什么好说的。

他们之所以不申请算法专利不是因为他们大公无私。

而是因为他们之前的算法只是在前人的基础上改进,并不具备完全的独创性。

另外申请专利多多少少都会涉及到一定程度的技术公开。

虽然专利申请者可以不公布全部的细节,但即便是不公布细节,也需要把技术路线说明。

在知道技术路线的情况下,世界上顶尖的研发团队也不是吃素的。

虽然不能按照专利里阐述的技术路线开发出一个一模一样的算法明着侵权。

但是通过专利里公开的技术路线受到的思维启发却很容易让别的相似技术弯道超车。

事实上也正因为担心技术路线泄露的问题,这些年在米国很少出现专门的算法专利。

额,还是说这个专利所有者就是那么自信,根本不怕别人追赶?

伊芙看到“生成式文本摘要算法”这项专利的拥有者是l

从拼读上看似乎是个中文名字,对于这个名字伊芙茫然无知。

不过通过谷歌搜索l,伊芙倒是很容易搜到了一堆相关信息。

然而这些信息对伊芙来说都算不上什么好消息。

伊芙看到l虽然是在专利中提出的“l文本摘要准确度衡量模型”。

但他似乎没有将该模型私有的打算。

反而主动将这个模型呈报给美國国国家标准委员会以及国际标准化组织进行审核。

即l非但不介意将这套评估方式公开,反而致力于将这套衡量体系作为新闻摘要行业里衡量摘要准确度的标准。

也可以理解,哪个人不渴望自己随便做的一个框框成为全世界通用的标准呢?

现在新闻摘要行业除了l模型之外,几乎没有一种完全不需要引入主观因素的衡量准确度的模型。

在这种情况下,这个“l文本摘要准确度衡量模型”大概率将成为文本摘要准确度衡量的唯一客观标准。

这是什么概念?正所谓一流团队做标准,二流团队做技术。

在伊芙他们团队还在浮于技术层面进行算法研究时。

真正有雄心的开发者l不但着手搞定了更有效率文本摘要算法。

同时还谋求对行业标准进行统一。

所以说他们一开始就落败了么?

尽管一向波澜不惊,此时伊芙·卡莉也不免有些黯然。

她默默地将l这个极其自信并且有远见的中國人的名字记在了心中。

上一页
目录
下一章
A- 18 A+
默认 贵族金 护眼绿 羊皮纸 可爱粉 夜间