关关采集器 关关采集器使用教程
基础设置概述
一、目录结构配置
在系统的文件夹结构中,有一个特定的`rules`文件夹用于存放所有关于数据采集的XML格式规则文件。这些规则指导软件如何准确地从目标网站提取信息。还有一个`log`文件夹,用于记录采集过程中可能出现的任何错误或问题,方便后续的问题排查和修复。
二、首次配置步骤
首次启动`NovelSpider.exe`时,用户需要进行一些基础的系统设置。这包括指定本地网站目录的位置,例如`D:\\xiaoshuo`,以及配置数据库连接字符串。这个字符串包含了连接到数据库所需的所有信息,如数据库服务器的地址(DataSource)、数据库名称、用户名(UserID)、密码(Password)、端口号(port)和字符集(charset)等。
三、规则编写详解
为了从目标网站获取数据,需要创建和编写相应的采集规则。这些规则写在XML文件中,放置在`rules`文件夹内。通过菜单栏的【规则】→【规则管理器】可以方便地加载和管理这些规则。在规则编写过程中,会使用到一些常用的正则标签,如`\d`表示数字,`\s`表示空格或换行,`.+`表示非空字符等。例如,为了采集小说的标题,可以针对源码中的标题标签编写相应的规则。
四、采集操作流程
采集操作分为本地采集和远程采集两种模式。在本地采集模式下,选择【采集】→【标准采集模式】即可启动采集器。如果某些章节采集失败,可以尝试取消勾选【检测重复章节】。对于远程采集(主要在Linux环境下),需要开放数据库的特定端口,并设置相应的权限。通过SFTP等工具可以映射本地目录,方便数据的传输和同步。
五、特殊问题处理及注意事项
在采集过程中可能会遇到一些特殊问题,如Unicode编码内容和乱码问题。对于Unicode编码的内容,可以通过建立代理页面进行解码后再进行采集。针对乱码问题,需要确认目标网站的字符编码(如GBK或UTF-8),并在采集规则中匹配对应的字符集。在使用采集器时,要避免多次点击启动,以防止进程重复打开。分类设置需要与网站后台的分类对应,确保数据的正确归类和存储。