自己撸的一个 nodejs 版 dht 爬虫,用来加入 dht 网络,获取 infohash ,代码见 gayhub.
gayhub: https://github.com/beilunyang/dhtCrawler
从昨天晚上 8 点开爬至今,已经用我 5 美刀的 DO vps 爬了 1200 多万 infohash 。。由于还没搞定 metadata 获取的代码,所以具体有多少真实种子还不知道(手工试了几个,发现获取率还挺高的)。
我遇到的问题,以及一些琐碎都已经在代码里注释了,欢迎对 dht 感兴趣的新人参考(大佬们,多给点意见( ⊙ o ⊙ )啊!)。
1
xiaoyu9527 2016-05-09 21:07:12 +08:00
node js 比 python 还牛逼?
|
2
xiaoyu9527 2016-05-09 21:07:49 +08:00
求教使用教程
|
3
beilun OP @xiaoyu9527 没用 python 写过,但光从 infohash 的获取来说,应该是 nodejs 要快。
|
4
beilun OP @xiaoyu9527 见文档
|
5
congeec 2016-05-09 21:28:42 +08:00
>采用 nodejs 编写,由于 js 天生优秀的异步非阻塞 io 支持,无需向 python 等其他语言一样采用超时机制同步等待响应,所以速度非常快。
.....Python 也有协程,有 async/await 。原生支持异步。看看 uvloop 你就知道有多快 |
6
miyuki 2016-05-09 21:36:10 +08:00 via Android
注意蜜罐
|
7
miyuki 2016-05-09 21:42:32 +08:00 via Android
|
8
beilun OP @congeec 已充电。。对 python 的了解并不多,只用过 python2 ,没接触过 python3, 在我映像中 python2 异步一般都是通过 twisted ,谢谢指正。
|
9
gamexg 2016-05-09 23:24:22 +08:00 via Android
Python + gevent 或者 golang ,代码直接按同步多线程写,语言自动转换成为异步协程,很省事。
|
10
ljcarsenal 2016-05-09 23:30:46 +08:00
有什么 dht 的入门资料?
|
11
beilun OP @gamexg gevent 对 windows 的支持貌似不怎么好,而且 js 天生就是异步,觉得还是 js 更省事。 golang 完全没接触过(๑•ั็ω•็ั๑)
|
12
beilun OP |
13
NullMan 2016-05-10 08:31:05 +08:00
|
14
Soar360 2016-05-10 08:52:32 +08:00
我大 C#使用异步之后会更快吧~
|
16
neocanable 2016-05-10 09:42:22 +08:00
实现过一个 ruby 的,在国内非公网的 ip 上爬,并且拿到 infohash 在各个种子网站上下载,内容丰富~
|
18
puorg 2016-12-02 22:15:35 +08:00
es2015 版本的 dht 爬虫 https://github.com/callmelanmao/p2pspider
|
19
buseni 2017-08-09 10:40:31 +08:00
不错,先学习了
|
20
DaTaoGe 2018-04-26 11:42:52 +08:00
您好,我测试了一下,速度确实很快,但是还没有成功解析一个了,我这里有一个 python 实现的,获取的能一多半解析吧,但是速度太慢了,想问下楼主,您现在还搞这个么?
|
21
soho176 2018-05-03 16:43:02 +08:00
收藏了
|