今天在百度社区看到版主征集百度原创相关问题答案,正好本人对于百度原创问题也一直在跟踪研究,所以针对相关问题发表了个人愚见!以下是问答集锦:

1、对于原创文章在搜索结果页是否应该加上 原创 标识:

对于这点比较认可,保护给于原创作者该有的肯定和尊重,才会更有动力去创造原创,相反原创得不到保护,采集横行,徒给互联网制造垃圾!

 2、什么样的文章才算是原创?比如引用了其他文字的一句或一段话是否还是原创?

对于原创百度有自己的判断机制,比如分词后关键词的相似性(这个可以参考TF-IDF与余弦相似性)当然百度算法肯定复杂的多,个人认为采用一句话肯定没有影响,因为中国的语言文化就在用名言警句,这个引用肯定很多的,至于一段句子就看这个句子在整个内容页的占比了吧!

 3、如何避免假原创或机器生成的文章?

这个避免还真不好避免,一些高端的可以模拟蜘蛛分词,也许读起来毫不通顺,正常人一看就是垃圾,但是对于百度就不好识别了,起码现在是,目前好多利用工具生成伪原创依然排名很好,最近医疗新闻源很多案例!也许百度将来有办法识别这种!

4、根据一个网站的原创率是否应该进行整体权重加分或减分?

这个应该加分吧,这样也算是支持站长更好的原创,至于加多少还得结合页面质量来吧,只有原创,页面质量不行加分了,排名高了,并不是用户想看的内容或不能解决用户问题!

 5、对于网站来讲,原创文章和转载的高质量文章孰重孰轻?

我认为原创文章理论上应该重一些吧,但这个跟用户有关,大家都知道用户点击在百度算法占很大一部分,一些原创文章在不知名小网站和被大网站转载,用户肯定更喜欢点击大网站浏览!但是感觉现在百度是直接给大网站加权没有考虑原创网站,所以百度应该做一些相应的机制,应该根据一些维度赋予原创文章应有的排名标上原创标示,然后让用户去选择原创文章和转载的高质量文章孰重孰轻,而不是现在的只要是大网站转载收录后就超过原创文章排名,还是得考虑到用户!最起码给原创文章一个用户认可的机会!

6、如果你是百度工程师,如何去识别原创?

①、识别原创方面可以先让原创网站认识到原创文章在百度的优势,然后让他们知道利用百度相应的工具,比如之前的ping功能,现在的主动推送,或者将来出个相应的原创提交通道,让百度第一时间抓取到,这样就可以从抓取时间上进行初步区分。

这样也只能初步判断,因为互联网这么大肯定有站长不知道使用工具提交,就不能保证第一时间被抓取的就是原创。

②还得结合其他算法,比如通过内容相似程度算法来聚合采集和原创,可以将相似网页聚合在一起作为原创识别的候选集合!

③对原创候选集合可以统计文章来源,文章作者,发布时间,这些数据都可以作假,但也可以作为一个参考维度,毕竟作假占少数。

④作者和站点的历史原创情况,如果一个网站原创内容占比几乎没有,突然多了篇原创文章这个就值得怀疑,当然也不能一票否决,也可以作为一个维度,因为这种网站大部分都是采集站!

⑤文章转载情况(这里提醒大网站转载最好留有文章出处链接或者来源作者名称),因为大网站更得到百度信任所以他们转载的也可以作为一个判断标准,当然也得看是不是大网站都实时求是的做,转载上面所留链接指向(这个得培养用户和站长的转载习惯,比如转载请注明出处,很多人转载都给去除了),转载轨迹,文章评论情况,百度分享轨迹等!这些也可以作为一个维度!

⑥以上数据都不能单独拿来判断原创性,所以还得结合多种维度判断!个人认为培养站长的知识面让站长都知道原创重要性,所有站长都主动提交原创,转载都保留出处,形成良好的生态圈子这样对用户对互联网的发展都是必要的!

识别原创是一个很漫长的路,我们期待着、成长着!

点赞 0 已收藏未收藏

发表评论

0 已收藏收藏