nutch爬行中的depth（层数，深度？）

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 6711 次

锁定老帖子主题：nutch爬行中的depth（层数，深度？）精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2006-11-27 相关推荐: 兼容所有浏览器的Web打印控件的设计方案 web打印实现几种方法 HTML分页打印。Web打印控件，完美解决页面排版、结构复杂，内容、图片、表格跨页断裂，自定义页面设置、页眉、页脚、页码，保持原文CSS等难题 WEB打印控件---无限制完全免费版发现了一个好用的WEB项目打印控件--四方打印更多相关推荐一直搞不清楚nutch中的depth是什么意思，就照着字面意思理解，认为是指html文件所在文件夹的相对于网站的深度。今天做了个小实验，证明并不是这样，下面来看看先在Tomcat里面建一个示例网站Test，网站根目录下建四个网页index.html, a.thml, b.html, c.html.建一个文件夹1，内有1.html，在文件夹1中建文件夹2，建2.html。它们的链接关系：index.html中有a.html和1.html的链接，a.html中有b和c的链接，1.html中有2.html的链接。这个示例网站是按我原来的意思建的：第一层有四个文件，且包含了蜘蛛能访问到的链接，第二层有一个文件1.html,第三层为2.html。这是一个以文件夹为深度的例子。启动nutch的爬虫爬行网站（配置可以网上查，很多）。 cmd代码 nutch crawl urls -dir c:\Test -threads 5 -depth 1 先爬行一层，如果是以文件夹为深度，那么第一层的4个文件都将爬到。让我看下结果： cmd 代码 F:\code\nutch\bin>nutch readdb c:\Test\db -dumppageurl 061127 150112 parsing jar:file:/F:/code/nutch/nutch.jar!/nutch-default.xml 061127 150112 parsing jar:file:/F:/code/nutch/nutch.jar!/nutch-site.xml 061127 150112 No FS indicated, using default:local org.apache.nutch.db.WebDBReader@13f5d07 Page 1: Version: 4 URL: http://localhost:8080/Test/ ID: 59ba405710e0b0a631562a040e30865c Next fetch: Wed Dec 27 14:55:52 CST 2006 Retries since fetch: 0 Retry interval: 30 days Num outlinks: 2 Score: 1.0 NextScore: 1.0 Page 2: Version: 4 URL: http://localhost:8080/Test/1/1.html ID: 2c6dadf23768abaca03c8f7135b99436 Next fetch: Mon Nov 27 14:55:52 CST 2006 Retries since fetch: 0 Retry interval: 30 days Num outlinks: 0 Score: 1.0 NextScore: 1.0 Page 3: Version: 4 URL: http://localhost:8080/Test/a.html ID: a588737b7cd966929644a731445dffeb Next fetch: Mon Nov 27 14:55:52 CST 2006 Retries since fetch: 0 Retry interval: 30 days Num outlinks: 0 Score: 1.0 NextScore: 1.0 事实是只有三个网页被抓到了：index.html,1.html,a.html。b和c都没有抓进来。可以说nutch爬行深度是依据网页上的链接的，也就是说nutch把爬行的第一个页面上的链接当作第一层，依次类推第一层页面上的链接是第二层。还可以看三个数据的Num outlinks。index的有两个，1和a明明设了链接的值却为零。可见nutch爬虫在扫描页面链接的时候就把设定层外的链接给丢弃了。把index中1的链接改成2的链接更可以验证nutch的深度是依据链接的。这样设计的爬虫容易控制。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

shaucle 等级: 性别: 文章: 435 积分: 443 来自: 上海	发表时间：2006-11-28 想倒过来问，难道还可以按目录来爬？服务器上的目录是虚拟的，而且有权限设置的，怎么爬？
返回顶楼	回帖地址 0 0 请登录后投票

javaeyes 等级: 初级会员文章: 56 积分: 20 来自: ...	发表时间：2006-11-29 文件夹目录是虚拟的，但可以把“/”分隔的路径看成文件夹呀
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → Java企业应用版

跳转论坛: