针对这一典型采集泛滥的现象,基于业界领先的安全大数据和大规模机器学习平台,研 发和上线了“后羿算法”:对低劣的采集站点加以控制,对原创和稀缺性网页进行保护和提权,同时确保新闻网站之间正常的转载行为不受影响。
“后羿”算法:
对于内容丰富的优质网页(如原创、稀缺资源、精心编辑的内容页等),会增加其在用户面前展现的机会;对于滥用采集手段的行为(如整站大规模采集,页面内容拼凑、含有大量广告干扰用户阅读、恶劣弹窗跳转、大量堆砌无关热词、站内搜索结果页等),会显著降低其展现机会和网页收录量。
“后羿算法2.0”,针对的问题包括但不限于如下类别:
- 页面标题与正文语义不一致,页面内容用机器批量构造;
- 站点内容存在淫秽低俗等诱导倾向;
- 页面排版混乱,存在多幅广告,巨型广告、弹窗过多等站点;
- 未经授权的采集和盗图;
- 导购类和网购类站点的关键词堆砌和采集行为;
- 页面内容与站点主营业务无关;
- 由建站程序批量制造的垃圾站;
本文由网上采集整理发布,不代表本站观点和立场,如有侵权请告知本站删除,本站不负任何责任和承诺。如若转载,请注明原文和注明出处:https://www.chengtianseo.com/seojishu/seosuanfa/360suanfa/2919.html