V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 48 页 / 共 186 页
回复总数  3717
1 ... 44  45  46  47  48  49  50  51  52  53 ... 186  
上周用油猴自动爬了 2w+页面,用无头总是被 cloudfare 拦截,懒得研究 cookies ,干脆开油猴上,反正也不多
如果说的是 APP 登录的话,我从来没登录过,根本就没装过
你下载用的是官方 client 么?看看帐号有没有搞错,是不是有两个号
116 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 #7
肯定是逐个 case 处理
我的意思是 sql 做这个是挺难的,不如 pandas 当成字串用正则,可以用向量或者 numba/c++处理
至于那些逻辑不对的,只能先转 8 位,并打 tag“日期异常”交给下家判断,清洗人员只做基础逻辑判断,数据实际意义也做判断就是“僭越”了

那些异常数据其实可以猜测,就是原始记录是有入库时间的,可以通过入库时间计算,只是人家本来就没有日期查询和展示的需求,可能只有月日或者年龄的需求,所以入库时就顺便变了形式,汇总(采集)时不会去拿那个入库时间,自然格式就不对了
116 天前
回复了 TimG 创建的主题 程序员 求问数据清洗的简易方法
@wxf666 #5
刚遇到一个,你看看, 数据目标意义为日期
年月日
日月年
月日年
6 位数
7 位数
8 位数
4 位数:只有年、或只有月日
2 位数:年龄
23.3.24 或 11.12.13 (搞不清年月日分别是哪个)
……
以上情况混杂都有
117 天前
回复了 huyiwei 创建的主题 问与答 注销卸载了,这辈子不再信网盘。。。
人生问题:
从几岁开始不再尽信父母?
从几岁开始不再尽信老师?
从几岁开始不再尽信课本?
从几岁开始不再尽信文章?
……
从哪年开始不再信老板?
从哪年开始不再信广告?
从哪年开始不再信媒体?
……
从哪年开始不再信朋友?
从哪年开始不再信共和党、民主党?
……
从哪年开始不再信子女?
从哪年开始不再信伴侣?

都没有,你的世界才是真的真美好啊
119 天前
回复了 guoguobaba 创建的主题 Python 郁闷,折腾了一周的爬虫
最近在重拾前端做自动化,一些网页或网站打开就自动提取信息
不过倒不是爬大量页面,就是打开哪个是哪个,减少一顿 select ctrl-c open ctrl-v close 的手工操作而已

爬虫还是要找些机器一起爬才行,单机单 ip 遇到 5 秒反爬确实搞不了,我以前都是爬外站多,没什么线下问题,最多把我“升级”称为“中国黑客”,笑
qpushbutton clicked 发送一个 checked 的 bool 信号,默认 false ,button 可以 setcheckable
qthread start 参数是 0~7 的 int 信号,默认 7 ,QThread::Priority
看看是不是这个原因,我也不了解 QT C++,只写过 pyqt
先申请西瓜成熟度的国标吧,不然法院也审不了判别对错的纠纷
没有这样的库,还是那个原因:页面 js 不能操作本地文件
js 读不到浏览器缓存,所以,js 要转图片为 base64 ,需要重新请求一遍,通过 canvas 转 base64
而且还有前置工作是 parse 整个页面,还有非图片的二进制文件如字体,我还想不到怎么做,还有跨域问题,归结一句就是个单页面爬虫了,不如发给其他工具完成
但扩展是有权限读取缓存的,所以就容易很多了

这复杂程度,个人觉得页面 js 不能完成,起码要扩展或者发送给外部完成
没有自动熄屏么?
因为页面内 js 不能操作文件,不然可以存木马了,所以需要扩展或可操作本地文件的程序
这完全是从未开过房的表现啊,你是从未开过房的不喜欢?重口味啊,佩服
1 ... 44  45  46  47  48  49  50  51  52  53 ... 186  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3040 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 53ms · UTC 00:38 · PVG 08:38 · LAX 16:38 · JFK 19:38
Developed with CodeLauncher
♥ Do have faith in what you're doing.