将本站设为首页
收藏开心官网,记住:www.happyvege.net
账号:
密码:

开心书阁:看啥都有、更新最快

开心书阁:www.happyvege.net

如果你觉得好,恳请收藏

您当前的位置:开心书阁 -> 重生87:开局截胡港岛女神 -> 第1741章 别被技术细节吓住

第1741章 别被技术细节吓住

温馨提示:如果本章属于内容错误等情况,请点击下面的按钮发送报告,我们会在一分钟内纠正,谢谢

  办公室的白板上写满了字。

李明的粉笔停在半空,眉头皱成一个疙瘩。

他转身看向另外四个同伴,又看看坐在会议桌旁的贾瀞雯。

“贾总,这个‘网页爬虫’的概念……我们研究了三天,还是有点不明白。”他放下粉笔,拍了拍手上的粉灰,“文档上说,要让程序像蜘蛛一样在网上爬,自动发现和收集网页。

但具体怎么实现?”

张涛推了推眼镜,翻开陈浩写的技术框架文档:“这里写了一些思路--从几个种子网站开始,提取页面上的链接,然后访问这些链接,再提取新链接。

理论上可行,但实际做起来问题很多。”

“什么问题?”贾瀞雯问。

“比如,有些网站不允许被访问。”说话的是王磊,团队里最年轻的一个,北大研究生在读,“还有,网页格式千奇百怪,怎么准确提取链接?再比如,如果程序陷入死循环怎么办?”

贾瀞雯点点头。

这些她也不懂,但她知道该问谁。

“今天先到这里。”她看看表,“晚上我打电话问问陈总。

大家继续研究其他部分,分词算法那边有进展吗?”

张涛摇摇头:“更难。

英文有空格分隔单词,中文是连在一起的。

‘中华人民共和国’怎么分?是‘中华’‘人民’‘共和国’,还是‘中华人民’‘共和国’?不同的分法,意思差别很大。”

会议室里一阵沉默。

五个年轻人你看看我,我看看你,都从对方眼里看到同样的困惑--这个项目,比他们想象的要难得多。

晚上八点,贾瀞雯在办公室拨通了陈浩的电话。

“喂?”陈浩的声音有点喘,背景里有嘈杂的人声。

“在忙?”

“刚下戏,换衣服呢。”陈浩走到安静的地方,“说吧,今天遇到什么问题了?”

贾瀞雯把白天的讨论复述了一遍。

陈浩听完,笑了:“正常,这些确实是难点。

你记一下,我一个个说。”

贾瀞雯拿起笔。

“第一,爬虫的伦理问题。

我们要遵守rObOtS协议,就是网站根目录下的一个文本文件,告诉爬虫哪些页面可以访问,哪些不行。

这个必须遵守,不然我们会惹麻烦。”

“第二,网页格式问题。


  本章未完,请点击下一页继续阅读!
上一页 1234下一页

看了《重生87:开局截胡港岛女神》的书友还喜欢看

攀高枝
作者:海草在跳舞
简介: 灵堂捉奸遭暗杀?温苒继承遗产,睡了渣夫他叔。假意爱慕,踩他上位。

...
更新时间:2025-12-25 21:54:30
最新章节:第7章 属狗的?
大汉之我是刘病已
作者:乔木兮有思
简介: 他,生于皇室,却长于牢狱。他,少年浪荡,却成为复兴大汉的中兴之主。

更新时间:2025-12-25 21:48:00
最新章节:第505章 霍光的算计
年代:从下乡后开始的咸鱼生活
作者:毛遂爱吃糖
简介: 穿越,我却只想过咸鱼一样的生活。这里有温馨善良的家人,有有亭亭玉立的小百花,有千娇百...
更新时间:2025-12-25 22:00:00
最新章节:第九百零四章 :合情合理合法、离开
百世情途铸魔尊
作者:墨衍真
简介: 云烬魂穿修仙界,开局成了阴魔宗外门弟子,身无修为,命如草芥。 此宗以媚术掠灵闻名,男...
更新时间:2025-12-25 21:24:00
最新章节:第25章 符引噬灵心机险,暗语挑唆局中局
大楚第一逍遥王
作者:打得你喵喵叫
简介: 社畜方阳穿越到了一个历史上从未出现过的朝代,成为了纨绔败家的成国公之子。
<...
更新时间:2025-12-25 22:05:00
最新章节:第一卷 第526章 军器展开展
徒儿,出狱祸害你未婚妻去吧
作者:一只狸猫
简介: 林默奉师尊之命,镇守关押无数狂徒的黑狱三年。岂不料,三年期满,出狱当天,女战神来此竟...
更新时间:2025-12-22 21:15:35
最新章节:第1433章 太子爷的风头