很多查重的小伙伴,可能都会遇到这样的问题 ,相同的内容为何两次标记的重复不同。
小编在平时也遇到不少咨询这个问题的客户。
根据日常使用ithenticate系统经验,以及系统判定重复的原理
今天就这个疑问给大家做下详细的解析
首先,系统如何判定重复?
Ithenticate默认的查重参数是6个单词及以上计算重复,系统根据语义计算重复, 并不是简单的单词逐一比对。只要系统判断到跟数据库的内容相似,都会标示出来,并且有可能分布在前后几句里。
改动之后怎么第一不算重复的地方,第二次算重复了?
l 系统判定重复是根据全文的改变而改变的,某些语句的改动也会影响其它语句的查重结果,总重复率不同,重复的内容也不同。单一引用的百分比是根据重复内容计算出来的。查重结果是没有人工干预的。换种说法就是,本来一句话第一次查重是不被标为重复,但第二次查重时就重复了,或者第一次被标为重复,第二次就莫名的不重复了。
l 如果某处修改前原来5个连续重复没标出,修改后变成连续6个重复了就会标出来重复,而且不单单标出这连续的六个,即使连续不够6个单词,分布在前后几句的不连续的疑似与数据库重复的部分也会标记出来。
l 如果某篇文献重复的字数不多还不足以作为一个重复源,也就没有显示跟这篇文献有重复的句子。但是文章修改了以后,这篇文献重复的内容增加了足以作为一个重复源了,那么就会出现以前不是重复的句子现在变为重复。
l 处理方法:如果不连续的6个重复单词,那么将其中2个重复单词之间的重复内容修改为大于等于4个不重复的单词,那么这6个单词就不算重复。
另外,我们要确认的是,前后两次查重,只要文章完全一样,系统查重结果肯定就一样。除非两次查重间隔时间太长,导致数据库有了变化,那么查重结果也就不一样了。
总之,iThenticate查重系统并不是简单的单词比对,ithenticate检测系统这种检测方法更能检测和防止抄袭。这个系统查重非常严苛,有的时候也会导致查重过于严格和造成很多不合常理的地方。但小伙伴们也不要过分担忧,出版社和编辑接受一篇文章,考察重复率仅是一方面,更多的是考察论文是否真的具有创新性。