自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 实现文本自动分类的基础----Term频率计算方法

 实现文本自动分类的基础----Term频率计算方法    据说如今互联网上的文档每天以100万的数量增长,这么大的增长量使得Google可能需要1个月甚至更长的时间才能光顾你的网站一次。所以如果你今天对你的网页做了优化,那么1个月后在看Google的反应吧。这真是信息爆炸的年代。互联网刚诞生的时...

2005-01-26 23:05:00 3785 3

原创 通过分析html格式确定网页主体内容的想法

通过分析html格式确定网页主体内容的想法    做Web编程有时候需要了解html文件的大小,组成等信息,为以后的各种处理做准备。比如通过crawler抓取网页对网页内容自动分类的时候,最好能提取网页中的主要信息,过滤掉页头,页角的非主体信息;还有比较2个网页内容相关性的时候也需要类似的技术。最...

2005-01-23 22:05:00 3327 6

原创 一种面向搜索引擎的中文切分词方法

一种面向搜索引擎的中文切分词方法    首先说一下搜索引擎切分词的产生的原因。    在进行全文检索时,首先将要检索的内容分割成较短的文字序列。然后生成在每个文字序列中所包含字符串的对应表(索引)。当输入检索语句后,也同样进行分割,与索引进行比较。也就是说,两者即使包含有同样的文字排列,但分割方法...

2005-01-08 11:51:00 11484 5

原创 计算所汉语词法分析系统ICTCLAS 字典格式解析(字典格式说明)

     在 计算所汉语词法分析系统ICTCLAS 字典格式解析  一文中简单介绍了一下 ICTCLAS 。本来是要把字典格式一并写上去,无奈不知道怎么描述这个格式,现在终于写出了第一个Java版本的代码,也理清了思路。这个文件格式可以这样来描述:    先用文字描述一下:    ictclas的...

2005-01-03 12:32:00 4283 1

提示
确定要删除当前文章?
取消 删除