爬虫采集是一种站长圈的普遍需求,所以不乏体验不错的商业软件。
看吧,这就是技术中立的绝佳体现。
经过搜索,李耕发现未来自己用过的“火车头采集器”这时也已经出现了。
这个经典的采集软件非常易用,而且也足够的开放,如果使用者有特殊的需求,还可以方便地运行 Python/PHP/C#写的外挂插件。
不过李耕并没有打算使用火车头。
一方面,商业软件一般都很贵,全功能版本好几千块的价格还不是买断,而是一年一付。
考虑到商业软件的迭代和维护成本,这种订阅成本也并不是不可接受的。本来作为自知的菜鸟,有现成的工具可以节省时间,李耕很乐意使用。
但是他穷啊,买一份火车头,他能够使用的资金直接就去了三分之一,那域名就没啥预算空间了。
另一方面,作为一名野生程序员,李耕信奉开源和吃自己的狗粮(Eating your own dog food)。
一件事情如果有开源软件做了,那就优先使用开源软件,比如压缩软件,他就喜欢使用 7zip。
如果没有,那优先考虑自己实现,尤其是一些平时经常碰到的简单需求,他有一箩筐的文本处理脚本。
只有的确有必要,比如商业软件的体验有质的领先的情况下,他才会付费使用昂贵的商业软件。
尤其未来诸多软件应用的付费方式从买断转向订阅制成为一种潮流,动不动就年付几十上百刀,家里有矿也扛不住啊!
如此种种原因,李耕对商业软件的使用就更加克制了。
碰巧,做采集爬虫的技术门槛不算高。
而且打一开始,李耕也考虑清楚了,他不想做一个只赚快钱的垃圾站,所以对采集的需求注定是短期过渡的,自然就更加没有必要买一个上千块钱还只能用一年的商业软件了。
做出决定后,李耕马上动手。
安静并配置了一下 Python 的开发环境,下载了几个必要的库后,他开始从头构建一个爬虫。
“人生苦短,我用 Python。”
作为大多数非 Python 程序员的第二语言,所有非程序员的唯一语言,著名的胶水语言 Python 用来做复杂庞大的工程或者力有未逮,但是快速写些简单的脚本却完全胜任,甚至在采集、爬虫的工具链上还意外的出色。
李耕前世用过几年时间的 Python,还做过类似的项目,写起来那是嗖嗖的快。
如果被采集的网站赤裸裸敞开大门,没有做任何防爬虫的措施,那写一个爬虫是非常简单的。
抓取页面数据,解析页面内容,清洗保存数据,就 OK 了。
但人家站长的心再淳朴,也不可能是傻子,同一 IP 短时间内访问抓取站内大量内容,而且看身份证,还不像是一个正常用户的浏览器。
那肯定是坏人啊,拉黑!
所以伪装是必要的,面对越高等级的防爬虫措施,伪装也要越高级。
道高一尺,魔高一丈。
爬虫的最基本原则,就是让批量抓取目标网站数据的行为看起来像是一个个真实用户的行为。
……
人一旦忙起来,时间就过得飞快。
李耕正沉浸在写代码的快乐中,不知不觉,已经到了吃午饭的时间了,罗金强来喊他。
“耕哥,耕哥?吃饭去嘛?”
罗金强喊了几声,发现李耕没有回应,又凑近拍了拍他。
这下李耕才回过神来,下意识地跳起来,回头看了罗金强一眼。
“啊,怎么了?”
“整啥嘞,这么投入?”
罗金强盯着电脑屏幕猛瞧。
李耕前两天动不动就发呆,从昨天开始到今天一个上午,一有时间就对着屏幕默默忙活,游戏也不玩了,小说也不看了,浪也不冲了。
在旁人看来,多少是有些反常。
作为 512 的常驻嘉宾,罗金强看在眼里,也被勾起了好奇心。
“在弄个网站。”
李耕轻描淡写。
住集体宿舍就是这样,难以保有秘密。
当然他也可以把电脑搬到床上去用,舍友就没那么容易随时窥屏了。
但是那又太煞有其事了,也不至于,又不是策划抢银行。
“哦,这样,我都看不懂!”
罗金强挠挠头,看着李耕编辑器里打开着的 Python 爬虫工程代码。
“你想看懂也不难,只是没需求而已。”
李耕摊了摊手。
虽然程序员被戏称为超能力者,但是简单的 Python 语法其实花几个小时差不多就看明白了,上手门槛不高,不然后世也不至于遍地 Python 培训班。
当然,罗金强对技术也不感兴趣,只是这么一说而已。
李耕回答了两句,还准备继续梳理一下采集程序的逻辑。
“快一点了,出去吃饭不?”
“这么快?”
李耕看了一下时间,发现果然已经很晚了。
可能还比较上头,他这个时候完全不觉得饿,但是想到下午还有两节课,还是决定先到这里,上完课再回来继续搞。
花了大约两节课多一点的时间,他基本写好了整个采集程序,也就是爬虫的简易架构。
自己写给自己用的程序,当然就没有可能做到火车头那样尽善尽美。
目前他的整体思路是,写好定时调度器和页面解析规则,直接挂到服务器上,每天执行几次抓取和清洗文本数据。
处理完的文本直接 POST 到 WordPress 后台,但不会直接发布,而是保存为草稿,需要自己手动修改一遍后再选择发布。
这样虽然简单粗暴,不够易用,更不够自动化,可以预见的时候每天的工作量不会小。
但是,可以确保李耕自己能过一遍发布前的内容,还没有额外的商业软件成本,度过一开始的原始积累期也足够了。
再说了,知道什么叫完美的洗稿不?
(战术后仰)
机器是搞不出来的,人工参与程度越高才能越完美,洗稿也需要用心啊!
……
李耕的原则是,先把东西做出来再慢慢改,但想要稳定可用,一个晚上都不知道搞不搞得定,还吃先去吃饭上课吧。
保存了一下文档,啪嗒一声合上电脑,李耕站起身来。
“走,恰饭!”
看到李耕这么干脆利落,倒是消解了罗金强对他在做的事情的好奇心。
虽然没看懂,但罗金强转念一想,确实也不算什么。
李耕本来就喜欢搞些有的没的,大二的时候,他研究黑苹果那般如痴如狂,废寝忘食的模样可比现在疯狂多了,这会儿至少还顾得上吃饭睡觉呢。
喜欢梦回一零请大家收藏:(m.caixaja.com)梦回一零晋江免费小说更新速度全网最快。