有没有大佬给指点一下 如何爬取全国的律师
1
fatcheung 2018-11-27 14:41:43 +08:00
好像是犯法的,想蹲号子吗兄嘚?
|
2
Archangell OP @fatcheung 我不知道啊 刚刚有想要我去爬什么企业信息 说企查查天眼查什么的 都是网上公开的 这么跟他讲呢
|
3
coderluan 2018-11-27 15:09:10 +08:00
律师基本信息律协都有公开的,http://www.szlawyers.com/lawyer-list 唯一麻烦是每个省的律协网站都是独立的,爬虫不通用。企业信息
有问题能不能先搜索下...... 这么工作不怕冻死在“寒冬”吗....... |
4
Archangell OP @coderluan 感谢老铁了 老板丢了个 http://oa.acla.org.cn/login.jsp 这个网站 他就觉得全国所有的律师都在一个库里 还有那个企查查天眼查什么的 他想法就是 都在一个库里想办法把他给弄下来 不过我觉得我能力有限 弄不下来啊
|
5
yjxlovejsn 2018-11-27 15:13:26 +08:00 via iPhone
@fatcheung 为啥是犯法的啊,律师信息不都公开的嘛
|
6
tt67wq 2018-11-27 15:14:13 +08:00
我们老板还让我爬整个今日头条,我说啥了吗
|
7
coderluan 2018-11-27 15:17:08 +08:00
@Archangell 你老板这个确实犯法...... 但是天眼查那个能弄,每个分类爬一次就行了。
|
8
Archangell OP @tt67wq 我跟你情况不太一样 你今日头条是直接展示的 这些是搜索查询的 没有说有个网站返回所有的律师信息给我 都是你去查律师执业证号 可是我这执业证号没地方来
|
9
gamexg 2018-11-27 15:32:10 +08:00 1
@yjxlovejsn #5 一般网站都有反爬措施,爬取时如果采取措施规避反爬虫限制,就会构成非法获取信息罪。
刑事判决书: http://wenshu.court.gov.cn/content/content?DocID=cc5d28b2-ecca-45a9-9409-a85600ef4202 |
10
coderluan 2018-11-27 15:43:41 +08:00
PS:关于反爬这个,可以考虑用 Tampermonkey 脚本爬,虽然性能和效率不高吧,但是基本完美回避风险。
|
11
Faratv2 2018-11-27 15:51:40 +08:00
比较好奇爬下来做什么?做成天眼查那种?
从去年到今年,司法局和律协进行了好几次登记了,每次都在不同的信息管理系统。不过看律协最近一次通知的,好像都是那个“同道”公司开发、运营的。虽然在填的时候就预见到肯定会有信息泄露,但是没想到…… |
12
Heavytiger 2018-11-27 15:55:19 +08:00
@coderluan 基本完美回避风险,为啥?
|
13
coderluan 2018-11-27 16:13:19 +08:00 1
@Heavytiger 那个,我刚埋汰过你懒不搜索吧....... 因为 Tampermonkey 他是把页面加载到本地后,在本地浏览器上运行的,不访问对方服务器,对方反爬措施基本都用不上,顶多判定你访问页面太快。
|
14
csx163 2018-11-27 16:32:47 +08:00
现在看到律师们都在用 alphalawyer.cn ,希望对你有帮助吧
|