论文部分内容阅读
电子商务网站中可以挖掘中大量有价值信息。本文通过数据库与web挖掘技术相结合,对电子商务网站进行挖掘。通过开源的爬虫框架heritrx,对购物网站进行爬取,使用htmlparse对网页进行抽取,对抽取后的数据进行清洗存入数据库中。最后对数据库中的数据进行分析、挖掘,找出有价值的信息,对用户进行推荐等。通过web内容挖掘和数据库技术相结合,所挖掘出来的信息具有较高的可信度,具有一定的价值。