
互联网中的网站数目异常庞大,这其中包括各种各样的网站,如:新闻类的网站,体育类的网站,购物类的网站等等。面对各种各样的网站,企业或组织常常需要对网站进行过滤,禁止内部人员访问指定类别的网站。这里,确定一个网站是否需要过滤掉,首先需要对网站进行分类。
目前,网站分类一般依赖于网站分类字典,也就是,针对每一类网站设置一个网站分类字典,网站分类字典中包括:词语和权重值的对应关系。这样,就可以根据网站分类字典,确定待分类网站中的网页内容对应的权重值,进而根据权重值,确定待分类网站的网站类别。
但现有技术中,网站分类字典中词语的权重值都是统一设置的,并未考虑词语在各个网站分类字典中的分布情况,这导致权重值的设置并不是很合理,进而使得网站分类的准确度不高。
参考图1,图1为本专利提供的一种网站分类字典的构建方法的流程示意图。
图1网站分类字典的构建方法的流程示意图
下面结合图1通过具体的例子进一步说明该网站分类字典的构建过程。
1、在N个初始网站类别后,对于每一初始网站类别,可以获取初始网站类别对应的至少一个样本网站的URL,通过网络爬虫工具按照网站类别访问相应的样本网站的URL,并从样本网站反馈的内容中提取出该样本网站的网页内容。
其中,初始网站类别可以包括:“新闻”、“体育”、“金融”等等。另外,可以将所有的网站分类设置为一级分类,也可以再细分为二级和三级分类,如:可以设置“新闻”为一级分类,在“新闻”分类下设置二级分类:“时事”、“体育”、“购物”等;可以设置“金融”为一级分类,在“金融”分类下设置二级分类:“银行”、“证券”等。
2、对于每个初始网站类别,获取到对应的每个样本网站的网页内容后,可以先移除对应的每个样本网站的网页内容中的无用字符集,例如:非网页有效内容的网页代码、脚本字符集、注释掉的字符集等;之后,对对应的每个样本网站的网页内容进行分词,移除无效词语,获得至少一个有效词语;然后根据预设的加权算法,为每个有效词语配置初始权重值。
上述预设的加权算法可以为:TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)算法、TF-ITF(Term Frequency-Inverse Term Frequency,词频-逆向词语频率)算法、或TF-IDF和TF-ITF这两种算法的变种算法。
3、统计每个有效词语对应的初始网站类别的个数。
例如,统计得到:7个初始网站类别中包括有效词语“资讯”,初始权重值为3.98;5个初始网站类别中包括有效词语“汽车”,初始权重值为4.02;3个初始网站类别中包括有效词语“官方”,初始权重值为4.58;1个初始网站类别中包括有效词语“就医”,初始权重值为5.74,则统计得到每个有效词语对应的初始网站类别的个数及初始权重值,如表1所示。
表1词语所属分类个数及权重表
4、将统计得到的个数大于1的有效词语的初始权重值调小,确定每个有效词语的最终权重值。
对于每一有效词语,若统计得到该有效词语对应的初始网站类别的个数大于1,说明该有效词语分布较均匀,对网站分类结果影响较小,需要调小该有效词语的初始权重值,将调小获得初始权重值确定为该有效词语的最终权重值。
可以根据以下公式,确定每个有效词语的最终权重值:
其中,对于第i个有效词语,统计得到第i个有效词语对应的初始网站的个数大于1,Ki为第i个有效词语的最终权重值,Qi为第i个有效词语的初始权重值,Mi为第i个有效词语对应的初始网站类别的个数,x为预设参数,x>1。
这里,x的取值范围可以为:1.3~6。
仍以表1中的例子进行说明,若x为2,统计得到“资讯”对应的初始网站类别的个数为7,7>1,则“资讯”的最终权重值为:
同理,计算得到:“汽车”的最终权重值为:K汽车=1.8;“官方”的最终权重值为:K官方=2.64;另外,统计得到“就医”对应的初始网站类别的个数为1,1不大于1,因此不对“就医”的初始权重值进行调整,直接将其初始权重值作为其最终权重值,也就是,K就医=5.74。
5、对于每个初始网站类别,将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中。
网站分类字典可以为表格形式,也可以为文本形式。所有的网站分类字典可以置于一个分类字典集中,也就是,所有的网站分类字典可以置于一个表格或文本中,如表2所示;当然,每一网站分类字典也可以单独存储,也就是,每一网站分类字典置于一个表格或文本中。
表2 分类字典表
在将对应的每个有效词语和最终权重值对应存储至该初始网站类别的网站分类字典中之后,网站分类字典构建完成。在利用本专利提供的网站分类字典构建方法构建的网站分类字典对网站进行分类时,以最终权重值作为计算参数,按照现有的网站分类计算方法,就可以提高网站分类的准确度。
专利点评>>
通过使用本专利提供的网站分类字典构建方法的关键点在第4步,对于每一有效词语,若统计得到该有效词语对应的初始网站类别的个数大于1,说明该有效词语分布较均匀,对网站分类结果影响较小,那么需要调小该有效词语的初始权重值,将调小获得初始权重值确定为该有效词语的最终权重值。也就是说,本专利在构建网站分类字典时考虑了词语在各个网站分类字典中的分布情况,权重值的设置更加合理,利用本专利提供的方法构建的网站分类字典进行分类,能够提高网站分类的准确度。