联高 > 网络爬虫 | 嵌入式网络爬虫VRobot | 下载VRobot | VRobot安装使用手册 | 服务价格 |

嵌入式网络爬虫VRobot使用说明

联高公司嵌入式网络爬虫提供可管理的蜘蛛入口,抓取策略设置及抓取文章过滤;自动过滤重复文章;智能分析页面类型,入口页面或目录型页面可定时重复抓取;针对抓取结果自动进行中文分词、词频统计及简要分类。

1 安装VRobot

1.1 网站软件系统需求

您的网站需要具备如下条件(呵呵,一般都可以啊):
操作系统:Windows 2003/Windows 2008
数据库:Microsoft SQLserver 2000 及以上
软件平台:Microsoft.NET Frameworks 2.0 及以上

1.2 VRobot的安装

这个比较简单了。拷贝文件或FTP上传即可。 请先下载 VRobot最新版本,解压后拷贝或FTP即可。
需要注意(1)/bin 目录的权限(2)/Admin/site.aspx等没有设置操作权限,请自行设置。

2 初始化VRobot

2.1 VRobot相关数据库表/存储过程的创建与基础数据导入

安装之后,请立即修改 /web.config 文件的 appSetting 之 SpiderDatabase 内容。
<appSettings>
<add key="SpiderCertify" value="验证码写在这里" />
<add key="SpiderDatabase" value="DATA SOURCE=(local);UID=DB11;PWD=123456;DATABASE=DEMO" />
</appSettings>
确保数据连接准确后,运行 /admin/setup.aspx (时间稍长,请耐心等待一下)
如果运行准确,请删除或修改 setup.aspx 程序,以免重复运行。

2.2 入口URL设置

现在可以进入 /admin/site.aspx 进行入口URL 的设置了。
网络蜘蛛
您想抓哪个网址的,或者是其二级域名,或者其某个文件夹下的信息都可以啊。
您还可以设置必须包含,或不得含有的文字(词),提高抓取质量。
需要注意的是:不要设置Google Baidu 等搜索引擎为入口,他们可不能随便让您抓取的哦。

3 运行VRobot

3.1 点击触发式

VRobot抓取信息由 /admin/go.aspx 读取入口及任务信息而进行。
依据我们多年的SEO经验,谷歌百度等不会一次性抓取您网站的很多信息,他们重点看网站相关页面的更新速度。
因此我们不建议不停的抓!而是随机性地抓取,并在首页予以体现,这样最有利于SEO。
我们重点建议您的网站采取点击触发式:请在您的网站用户浏览比较多的页面内,添加1句:
<script language="javascript" src="/admin/jSpider.js"></script>
即可实现。在用户点击您的页面时自动实施抓取或分析关键字的工作。
细节请阅读 /admin/go.aspx.cs 程序。
注意:请保证 /admin/jspider.js 所指目录与 go.aspx 目录的一致性。
网络蜘蛛

3.2 软件触发式

如果您打算扒光某个网站,而且带宽和服务器可以承受,呵呵!
您可以采取这种方式,当然,我们建议您在局域网内做这个。

可以下载联高软件的网页触发器程序,不断地抓!抓!抓!

4 VRobot参考资料

4.1 VRobot程序列表

压缩文档 spider.rar 内包含如下文件:
  • /bin/K50018.Spider.DLL 爬虫核心库
  • /bin/K50018.Basic.DLL 基础库
  • /admin/setup.aspx + setup.aspx.cs 初始化程序(运行1次即可)
  • /admin/site.aspx + site.aspx.cs 入口设置程序
  • /admin/jspider.js 用户点击触发抓取相关代码
  • /admin/go.aspx + go.aspx.cs 用户点击触发抓取相关代码
  • 4.2 VRobot数据库列表

    VRobot初始化后将自动创建如下数据库列表:
  • [dbo].[tblSPIDER_DICTIONARY] 分词库
  • [dbo].[tblSPIDER_REMOVE] 过滤词
  • [dbo].[tblSPIDER_HOSTS] 站点信息
  • [dbo].[tblSPIDER_TASKS] 任务信息
  • [dbo].[tblSPIDER_RESULTS] 抓取结果(您从该表查询并显示抓取结果即可)
  • [dbo].[tblSPIDER_KEYWORDS] 关键字表
  • [dbo].[tblSPIDER_RELATIONS] 关联表