1
xieyudi1990 2015-03-31 12:07:01 +08:00
以前用纯C + socket实现过一个podcast自动下载器的路过...
|
2
limbo0 2015-03-31 12:34:01 +08:00
C socket -> python爬虫 -> scrapy框架 -> 分布式爬虫 -> ....
|
3
clino 2015-03-31 12:41:26 +08:00
python对多线程不友好,要用多进程或者协程
|
4
fengchang 2015-03-31 12:44:20 +08:00 1
1.写成每条保存一次就行了。运行的时候系统会给你做缓冲区的。
2.异常很简单的。外面套个try,然后except里忽略就行了。不用异常处理会变得更麻烦。 3.用多线程 4.区别不大,不过将来想挂在VPS上的话,还是得用Linux |
5
shyangs 2015-03-31 12:49:44 +08:00 1
python的排版都被吃掉了,你不会贴到gist吗?
|
7
sujin190 2015-03-31 12:59:35 +08:00
多线程吧,异常的话其实很简单的,你仔细看下它的介绍,一下就会了,python的错误处理很依赖于异常
|
8
Kirscheis 2015-03-31 13:06:33 +08:00 via iPhone
python代码没有缩进几乎看不懂啊。。。
只是需要在有异常的时候忽略跳过的话,用try…except…finally…就可以了 |
9
tsingyi 2015-03-31 13:16:11 +08:00
你确认程序真正正常执行结束过么?
我发下你的递归是永远停不下了的哟~ 话说,为什么这里要用递归啦? |
10
yuewolf OP @tsingyi 正常结束了的
没排版好的缘故吧。 这个是递归吗?呃哈哈,看来真是啊。 我开始的想法是:如果每条都读写一次,量大会影响硬盘,所以设置了个300一组。比如先判断 2000这个号到2300 这里有多少符合条件,然后一起写一次硬盘,看上面朋友的说法,应该是多虑了。 |
12
Pastsong 2015-03-31 14:00:55 +08:00 1
@yuewolf https://gist.github.com/ 适用于贴代码片段
|
15
kohnv 2015-03-31 19:35:27 +08:00
我觉得用argparse等命令解析的包, 直接在运行的时候指定你那些start_num等参数, 这样逼格高一点蛤蛤
|