中国科技期刊研究

综合新闻

机翻降重?掩饰抄袭?SCI期刊上的奇言怪语,不

来源:中国科技期刊研究 【在线投稿】 栏目:综合新闻 时间:2021-08-21

机器之心报告

编辑:蛋酱

深度神经网络是如何转化为“深度神经组织”的?

如果你经常看计算机领域的论文,你肯定会发现一些神奇的词,比如“假冒意识”、“深刻的神经组织”、“巨大的信息”。资料)”。

这是什么?每个字母都知道,但是放在一起很奇怪,总觉得意思不够清楚。

结合上下文,读者恍然大悟:哦,原来是“人工智能”、“深度神经网络”、“大数据”。

这些不为人知的词汇在学术界都有自己的名字:“折磨词组”。

今年7月,法国图卢兹大学学者Guillaume Cabanac和同事在arXiv平台上传了27页的论文,介绍了一些关于这一现象的发现。

论文链接:https://arxiv.org/pdf/2107.06751.pdf

自动文本生成器一直被用于“科学文献写作”,那些毫无意义的论文很容易被人和机器发现。然而,今天的人工智能技术已经能够产生更多的“假与真”文本,这些文本与人类编写的文本无法区分。一般来说,“被折磨的词组”可能是自动翻译的结果,也可能是文章内容中试图掩盖抄袭的结果。

表1首先展示了研究人员在各种文档中发现的奇怪短语,并给出了它们实际对应的术语。起初,这只是一个偶然的发现。当研究人员发现这种现象出现过于频繁时,他们采取了认真的态度,并使用既定术语进行了滚雪球搜索。

“人脸识别”变成了“人脸识别”,“人工智能(AI)”变成了“(假冒|人造)意识”,设计准备单元实际上是GPU,焦点准备单元实际上是一个 CPU,简直太离谱了……

表 1。

< p>当研究人员以“深刻的神经组织”为关键词搜索Dimensions时,至少有860篇文章包含该词组,其中31篇发表在同一期刊《微处理器与微系统》上。

随后研究人员将研究重点放在了《微处理器与微系统》杂志的上一页,他们使用可以识别文本是否由 GPT 生成的工具调查了该期刊和其他期刊的一系列摘要。

表 2 显示了该期刊 2017-2019 年发表的 378 篇文章中贡献前 5 位的国家/地区和机构。

接下来,研究人员对2018年2月至2021年6月的数据进行了更深入的分析。图 2 显示了从 2020 年开始每期发表文章数量的变化。

研究者用“Editorial Evaluation”表示从投稿到收到稿件的时间,包括:初选、审稿人邀请、同行评审和最终决定。每篇论文的已发布元数据将其编辑评估节点划分为三个日期:提交、修订和接受。

根据投稿日期和接受日期的分析,2021年出版的每一期的编辑评价一下子缩短了。大多数文章都是经过编辑评审后发表的,但评审周期出乎意料地短。

从 2021 年 2 月的第 80 卷开始,更短的处理时间(少于 40 天)变得普遍。编辑评估时间(表3) 2018-2020年的数字与2021年初的数字相比,平均处理时间减少到五分之一,中位时间减少到六分之一。这些论文的许多作者来自中国。

表3:编辑评估时间的变化。

有些论文的投稿、修改和接受日期相同,大部分出现在该期刊的特刊中。这种现象很可疑。特刊通常由客座编辑负责,侧重于特定的研究领域。

研究人员基于GPT检测工具,对实验组和对照组的摘要进行了评估。如下图所示,在《Microprocessors and Microsystems》期刊中,GPT分数较高的文章集中度最高,为72.1%,而其他期刊的最高值为13.6%。

“论文数”一栏显示,在其他期刊发表的许多论文摘要都获得了高GPT分数。虽然高分并不一定代表文章有缺陷,但此类文章在某些期刊中的高度集中会引起人们进一步思考。

论文发表后,2021年7月中旬,《微处理器与微系统》出版商爱思唯尔展开了调查。涉及的论文正在一一重新评估。一位爱思唯尔发言人表示,作者很可能使用逆向翻译软件来掩盖抄袭,这可能是这些词的来源。

令人惊讶的是,一些网站专门从事免费文本重写服务,主要负责生成那些“长而折磨人的词组”,形成产业链。

你觉得呢?

参考链接: