基于机器学习的通用辨别方法。近年来伴随机器学习算法的兴起,不少文献提出将有关算法用到垃圾页面辨别并已经获得了非常不错的成效。 因为从本质上来讲垃圾页面辨别是一个二值分类问题,而机器学习中有不少相应的算法可以被借助。这类算法的一同点一般都是先将网页数据集分为练习集和测试集,然后对网页数据进行预处置,去除数据中的无用信息包含HTML标签、Java script脚本代码、很多存在的图片等等,然后对网页内容特点(网页字数、标题字数、热点关键字、网页压缩率等)和链接结构特点(入链数、出链数、入链出链比率、Page Rank值等)进行提取作为练习集的输入得出输入输出的映射关系,最后将这种映射关系用测试集进行验证。