V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  wuhx  ›  全部回复第 3 页 / 共 12 页
回复总数  237
1  2  3  4  5  6  7  8  9  10 ... 12  
2017-04-25 18:47:39 +08:00
回复了 wuhx 创建的主题 程序员 Selenium 爬虫检测
@gouchaoer 是的,移动端没考虑
chromium 还有 headless 模式,简直完美,主要问题是资源占用太高
2017-04-25 18:40:34 +08:00
回复了 wuhx 创建的主题 分享创造 山寨了一个 IFTTT
@Comdex CloudMonad 用的定时器就是秒级定时的,但后台有限制, 5 分钟之内最多执行一次。
2017-04-25 18:37:15 +08:00
回复了 wuhx 创建的主题 程序员 Selenium 爬虫检测
@binux 没错,这就这些小 trick
另外这是一个测试用例,单纯破解练习用的 并不是拿来部署的
@nicevar
键盘事件确实没考虑,要增加也没问题,但也还是能绕过去,理论上 Selenium 是没有办法完美检测的
2017-04-25 11:09:18 +08:00
回复了 wuhx 创建的主题 分享创造 山寨了一个 IFTTT
@gyorou 是的, docker 是部署应用程序的神器。 openwhisk 其实就是一个即销即用的 Docker 镜像。
2017-04-24 16:51:06 +08:00
回复了 wuhx 创建的主题 分享创造 山寨了一个 IFTTT
@gyorou 多谢提供这个信息,

仔细看了一下,这两者有很多不样的地方。

huginn 还是一个传统爬虫加一些 pipe 函数做数据处理。
而 CloudMonad 注重的是浏览过程和交互,比如说我要获取 V2EX 分页帖子的所有回复,一般爬虫的做法是以页码为参数自动生成的分页 url 地址分别采集,而 CloudMonad 会去
下一页那个按钮,然后不停的点击采集,只到最后一页(当然也支持拼 url 的方式)。
看了一下 huginn 的自定义 Agent 格式,只有 extract 字段,应该不支持任何交互。这样它的采集能里就会很弱,而演示中哪些看上去很酷的图表,
其实只是最基本的数据处理,完全可以把这两部分分开来么,
数据采集用「造数」这类专业的爬虫,然后自建一个 Hadoop 之类数据中心,定时把数据丢进去分析,专业性和稳定性瞬间就提升一个档次了。

另外,CloudMonad 在设计之初有一个小目标:要在尽可能低的系统资源下支持高扩展性(Scalable),而爬虫特别是 Headless 浏览器是高资源消耗操作,
如何在系统低载时尽可能少的消耗资源,又能应付突发大流量请求是一个难题。最后的解决方案是各种按需付费的云服务。
CloudMonad 用了多种云资源,
包括一个整合了阿里云 MNS 和亚马逊 SQS 双备份的 CloudQueue 用于任务分发。
LeanCloud 数据库配合阿里云 OSS 用于前后端通信。
IBM 的 openwhisk ,亚马逊的 Lambda , DigitalOcean 按需使用的虚拟主机用于动态调整资源。
目前整个 CloudMonad 系统的硬性支出只有一台阿里云最低配虚拟主机,其他资源都是按需使用的,目前还都在免费额度内(当然,用户少:()
那台阿里云虚拟机上运行着一个 Akka node 用于协调资源,用户管理等工作,具体的脏活都时候外包给其他云服务做。

说回 huginn ,它似乎更像一个传统的单机版应用,需要安装 mysql 数据库,对系统要求也很高。
github 首页还挂着一个一年前的内存泄漏 issue ,系统的水平扩展会很成问题
2017-04-24 10:34:15 +08:00
回复了 wuhx 创建的主题 分享创造 山寨了一个 IFTTT
@mekhi 有什么推荐的替代品?
2017-04-24 10:33:47 +08:00
回复了 wuhx 创建的主题 分享创造 山寨了一个 IFTTT
@mawing
@achaocha 请看 5 楼
2016-06-20 23:57:02 +08:00
回复了 firhome 创建的主题 程序员 手机设备号能修改吗?
https://github.com/wuhx/shelldroid
专门用来干这个的,除了 imei 还能改手机型号和品牌
用了 Xposed
2016-06-07 14:41:29 +08:00
回复了 cache 创建的主题 分享发现 一个开源的微信多开 App
@touzi 提示什么错误?
为了编译快点只支持 Api23 以后的系统,你可以改一下试试
2016-06-07 14:37:44 +08:00
回复了 cache 创建的主题 分享发现 一个开源的微信多开 App
@batnss 可能不支持 miui ,主要给自己用没测试过其他手机
2016-06-07 13:47:09 +08:00
回复了 cache 创建的主题 分享发现 一个开源的微信多开 App
@reHuo 有,看 README
2016-06-07 13:45:52 +08:00
回复了 cache 创建的主题 分享发现 一个开源的微信多开 App
@batnss 没有 Xposed 用不了手机型号伪装,其他功能还是能用
2016-06-07 13:44:36 +08:00
回复了 cache 创建的主题 分享发现 一个开源的微信多开 App
@Rorysky 并不是真的重装,备份还原不同的 Application Data 而已
2016-06-07 13:06:35 +08:00
回复了 cache 创建的主题 分享发现 一个开源的微信多开 App
@designer 不会,每次切换帐号相当于重装了一次微信,微信作为一个 App 的功能是完整的,并没有做任何修改。

ps : 我是作者 :)
2016-05-20 18:57:08 +08:00
回复了 cqcn1991 创建的主题 问与答 求助一个微信公众号,图片外链的问题
你的 refere 被拒绝了, 测试了一下,有些域名没问题,有些就不行,不知道是什么算法
你的域名换成 https 也 ok ,直接开 https 吧

测试结果看 size , 44820 字节是正常, 8196 是拒绝图片
wuhx@gynoid:λ curl --referer "http://productchaseapp.herokuapp.com/misc/tjhot" -Lo "b.jpeg" "http://read.html5.qq.com/image?src=forum&q=5&r=0&imgflag=7&imageUrl=http://mmbiz.qpic.cn/mmbiz/4SzSI83cwBUnBJoBy4Hjp2cYfdE6uBJHicw0d4178n3nvDjx6syBZYBEZLOuPxd75sJpLk3ib5ngXA8334UDUhvA/0?wx_fmt=jpeg"
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 8196 100 8196 0 0 9180 0 --:--:-- --:--:-- --:--:-- 9178
wuhx@gynoid:λ curl --referer "https://productchaseapp.herokuapp.com/misc/tjhot" -Lo "b.jpeg" "http://read.html5.qq.com/image?src=forum&q=5&r=0&imgflag=7&imageUrl=http://mmbiz.qpic.cn/mmbiz/4SzSI83cwBUnBJoBy4Hjp2cYfdE6uBJHicw0d4178n3nvDjx6syBZYBEZLOuPxd75sJpLk3ib5ngXA8334UDUhvA/0?wx_fmt=jpeg"
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 44820 100 44820 0 0 63717 0 --:--:-- --:--:-- --:--:-- 63664

wuhx@gynoid:λ curl --referer "http://xun.im/" -Lo "b.jpeg" "http://read.html5.qq.com/image?src=forum&q=5&r=0&imgflag=7&imageUrl=http://mmbiz.qpic.cn/mmbiz/4SzSI83cwBUnBJoBy4Hjp2cYfdE6uBJHicw0d4178n3nvDjx6syBZYBEZLOuPxd75sJpLk3ib5ngXA8334UDUhvA/0?wx_fmt=jpeg"
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 44820 100 44820 0 0 27698 0 0:00:01 0:00:01 --:--:-- 27700
2016-04-01 09:34:43 +08:00
回复了 liuys36 创建的主题 问与答 osx 可以原生安装 docker 了吗?
等不及官方的可以试试这个
https://github.com/nlf/dlite
@woochun
apt-get install gcc-multilib

然后随便写个 helloworld.c
gcc -m32 helloworld.c -o hello
用 file hello 看一下是不是 32 位的程序
2016-03-20 14:55:52 +08:00
回复了 hggg 创建的主题 编辑器 Vim 明显高于 Emacs,圣战要结束了?万万没想到第一是 notepad++
@hei1000 imap 设置一下插入模式的 ctrl + f ctrl+b 就行了

vim 的最大优势是各大 linux 发行版自带,不用安装。
1  2  3  4  5  6  7  8  9  10 ... 12  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2812 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 29ms · UTC 09:31 · PVG 17:31 · LAX 01:31 · JFK 04:31
Developed with CodeLauncher
♥ Do have faith in what you're doing.