第(3/3)页 闻言,克里斯一愕。 泰勒也愣了愣。 罗曼和其他人也有些呆。 你说什么?你猜测的流程?这他妈也能猜测啊还能对我们有启发?昨天还说要找人问问,怎么现在又变成你自己猜测了?这么多精英技术人员攻克了许久的都只是稍有眉目而已,你一个连互联网都不懂的人光靠猜测就行了?我去,你以为你是上帝啊?是造物主啊?怎么想都能变成现实? 众人已经全部无语。 克里斯憋了半天,也没好意思说别的,“那你说我们听听。” 张伟也知道他们不相信,道:“反正你们就听听看又没什么损失对不对?” 泰勒难以置信道:“会对我们有启发?” “应该会有吧。”张伟瞟了眼本子上的文字,说道:“需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的资源管理器队列。” 郑文不太懂,瞟了瞟众人。 可是眼前这些人懂啊,他们乍一听的感觉……简直惊艳!按照张伟所说的里面包含了三个步骤,一,用户提供种子URL;二,种子URL进入linkbase中新URL队列中;三,调度模块选取url进入到抓取模块的待抓取队列中,大家都是专业人士,一听就知道完全可行啊!张伟这个推测简直太棒了!听着这个推测,他们都面面相觑,怎么这么简单的事情他们就没想到呢?在场十几个精英都没想到的事情,居然让一个不懂网络的人想到了! 克里斯忍不住赞叹道:“好创意!” 张伟笑眯眯道:“我继续说下去,然后根据一定的搜索策略从队列中选择下一步要抓取的网页资源,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被抓取的网页西药存贮,再进行一定的分析、过滤,并建立索引,以便之后的查询和检索。” 克里斯兴奋了起来,道:“那就是抓取模块读取站点的配置文件,可以按照执行的频率进行抓取,等到抓取到结果就返回pipeline接口中,这就是完成了抽取!” 罗曼也道:“然后把新发现的连接在linkbase里面进行dedup,并push到linkbase的新URL模块里面,最后让调度模块选取url进入抓取模块的待抓取队列,之后就能反馈了啊!” 张伟和郑文不懂这些,听得雨里雾里,可是接下来这些专业人士说的话让他们至少明白一点,这个推测可行! 泰勒结结巴巴道:“这……这就是抓取流程了?” 克里斯非常坚定道:“我觉得有百分之八十的成功率!可以试试看!” 听到最专业的克里斯这么说,十几个人都非常惊奇地看了一眼张伟,他们怎么也想不明白,一个网络上的外行,却能大致推算出流程?难道这就是天生的妖孽?怪不得人家十几岁就能执掌庞大的资产!怪不得华金资本被经营的有模有样!上天果然是有区别的,有些人一出生就他妈和别人不一样啊!(未完待续。) 第(3/3)页