V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  fisherman0459  ›  全部回复第 4 页 / 共 7 页
回复总数  137
1  2  3  4  5  6  7  
2022-05-24 00:55:37 +08:00
回复了 Wsdba 创建的主题 问与答 如何一条 sql 查询出来随机 n 个公司的 n 条记录
不负责瞎写🤣
select t2.*
from table t1
left join table t2 on t2.dept_name = t1.dept_name and t2.id in (select t.id from (select t3.id from table t3 where t3.dept_name = t1.dept_name order by rand() limit 1) t)
group by t1.dept_name;
2022-05-11 19:49:15 +08:00
回复了 1340976576 创建的主题 程序员 为什么 IDC 无法拦截未备案域名
试试 Nginx 的 444 Code:

server {
listen 80 default_server;
server_name _;
return 444;
}
2022-02-18 22:43:04 +08:00
回复了 herozzm 创建的主题 信息安全 网站被拥有强大 ip 代理池的爬虫搞, ua 随机变化,怎么办
用字体反爬给爬虫喂点“屎”
参考天眼企查猫眼这些
https://v2ex.com/t/779527

https://v2ex.com/t/606561

上个同主题已经被 MOD 挪到 /go/promotions ,大家的意见建议批评也不在乎,你只管一而再再而三的推广。
出发点是好的 帮助部分人找感兴趣项目
但是怎么评选的呢 介绍只有别人库的一句 slogan 很难看到这个库额外做了什么对人有价值的整合
如果能结合机器学习做到理解用户输入来搜索相关库那就很好了
star 不应该是这个库的主要动力,这样很难让人不疑惑会不会慢慢变成竞价排名
@aino #33
觉得爬虫这件事如果从爬取事件本身入手可能会好一点.
感觉数据都可以造,低成本数据像 headers 这种造起来成本很低, 防起来感觉意义不是特别大,
但是如果数据本身的造假难度很高的话, 可能很容易会影响正常的用户使用体验.
可以考虑字体混淆(随机字体生成+随机映射+随机字体扭曲)+定期更新随机策略.
不过也是防不了人工和 OCR, Fingerprints + 限流 + 代理池检测可能有点帮助.
如果只针对登录用户的数据请求, 以上策略绑定到用户再加上接口流量检测及时账号自动管控这样应该能防止大部分的异常请求吧.
2021-11-24 11:04:13 +08:00
回复了 smileherd 创建的主题 分享发现 分享下我对挣大钱的一些思考
尹吾唱《各人》了吗
2021-08-04 17:39:52 +08:00
回复了 LeeReamond 创建的主题 问与答 Chrome 有什么办法离线封存当前工作标签吗?
Stash
1  2  3  4  5  6  7  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5416 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 01:47 · PVG 09:47 · LAX 17:47 · JFK 20:47
Developed with CodeLauncher
♥ Do have faith in what you're doing.