V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  locoz  ›  全部回复第 306 页 / 共 324 页
回复总数  6470
1 ... 302  303  304  305  306  307  308  309  310  311 ... 324  
腾讯:用户你好,我是你爸爸。
twitter 有个叫 SnowFlake 的自增无序唯一 ID 算法,可以了解一下。不过你做这个其实只能隐藏自己的业务量,并不能防止爬虫去爬你的数据,毕竟只要是普通用户能在列表页看到的爬虫就能爬到,而用户看不到的那些其实价值也不会太高。
2018-12-17 10:47:01 +08:00
回复了 changwei 创建的主题 问与答 Bilibili 上面那些数据可视化的视频,数据都是来自哪里?
@changwei #19 百度指数那部分没问题,正常情况就能爬到,就是 B 站内的那部分数据有点怪而已。
然后那个认证内容是“ bilibili 知名科普 UP 主”,并不能说明数据的真实性。而且审核人员的级别也不高,也无法得知数据是不是真实的。
2018-12-17 10:42:26 +08:00
回复了 Ewig 创建的主题 Python 谁抓包过咸鱼的 app
@Ewig #9 没打空格隔开后面的部分也被当成 url 的一部分了,手动复制出这个就行了。。https://zhuanlan.zhihu.com/p/46433599
2018-12-15 20:59:16 +08:00
回复了 Ewig 创建的主题 Python 谁抓包过咸鱼的 app
阿里系 APP 自带一个简单的反抓包,你可以看看我之前写的应对这种问题的方案,https://zhuanlan.zhihu.com/p/46433599。不过其实你抓到包也没啥用,阿里系 APP 有个通用的加密头,代码混淆了几百层调用,想破解出参数的加密方式很掉头发。
2018-12-15 14:08:37 +08:00
回复了 Tumblr 创建的主题 宽带症候群 深圳的电信宽带有什么推荐套餐么?
如果优先考虑价格就淘宝搞那种提速的,城中村宽带+提速 100M 下行 5M 上行很便宜,就是上传速度低。
如果优先考虑速度就极客宽带,200M 下行 100M 上行一个月 299。
2018-12-15 05:47:08 +08:00
回复了 changwei 创建的主题 问与答 Bilibili 上面那些数据可视化的视频,数据都是来自哪里?
@locoz #16 补充第一点的对比,可以看到用 [2017 年 8 月 17 号的全站数据] 统计出来的 [发布时间小于等于 2009 年 10 月 1 日的视频] 的收藏数都要比视频中的高出很多。
https://i.imgur.com/LwEUjrd.png
https://i.imgur.com/F7Z3XWj.png
2018-12-15 05:40:19 +08:00
回复了 changwei 创建的主题 问与答 Bilibili 上面那些数据可视化的视频,数据都是来自哪里?
首先从八年前开始爬到现在的概率非常低,这个 up 主的账号是 2014 年注册的,八年前他可能还不知道 b 站,或者并不会觉得这个网站的数据能有什么意义。
然后根据他发的视频内容来看,av26727147 这个视频里在 2009 年的时候就出现了广告和时尚区的记录,而这两个区在我的印象中是最近一两年才出来的;还有一点就是所有视频的开头都是有一部分不为 0。
推测出可能的情况:
1、根据发布时间筛选那个时间以前的视频,并计算需要的值的总和。(但是根据我服务器上 2017 年 8 月 17 日的全站数据来看,按这种方式算出来的值与视频中的对不上)
2、数据来源于第三方监控平台。(但是起始时间太早了,那时候一是可能没有这种监控平台,二是当时 b 站只是小众圈子,就算有监控平台也不太可能收录)
3、b 站官方记录的数据,py 交易得来。(概率较低,那么早的时候 b 站会专门存这种每天的记录?)
4、爬网页时光机、快照之类的东西,得到历史网页并解析出当时的实际值。(覆盖面不广、没有完整的数据,视频里看着又挺多,也不太可能)
5、用评论来做估值,根据评论时间和数量判断当时的值是多少,并生成假数据。(有点可能性,但存在评论很少播放量 /收藏量很高的视频,这么弄的话误差可能比较大)
6、以部分时间节点为关键点,并根据现在的数据来生成假数据。
所以很可能是假数据 https://ws1.sinaimg.cn/bmiddle/62e721e4gw1et00rsrkrnj200k00k3y9.jpg
2018-12-12 18:19:46 +08:00
回复了 yongliang 创建的主题 问与答 问下原生 Android 爱好者,现在都用什么手机?
华为 mate20pro。。懒得折腾了,不推广告就行了
2018-12-12 17:24:55 +08:00
回复了 yuanrenxue 创建的主题 Python 又来个爬虫小偏方:修改 referer 绕开访问控制
2018-12-12 11:12:01 +08:00
回复了 cxa 创建的主题 Python 异步编程之使用 yield from
@xpresslink #12 hhhhhhhhh 明明根本连输出都不会有
2018-12-12 10:54:47 +08:00
回复了 locoz 创建的主题 全球工单系统 广东电信的兄 dei 进来看看
@tomhuang #3 另一个呢?我这现在看 gd.189.cn 也不报不安全了
2018-12-11 11:14:22 +08:00
回复了 luosuosile 创建的主题 信息安全 token 真的安全吗?
上了 https+ssl pinning 之后其实就很难被拦截了,毕竟就算是用户自己想要抓这个包都挺麻烦的,又是装证书又是强制解除 ssl pinning,第三者在没有办法控制用户手机的情况下很难做到这些操作
2018-12-11 10:51:51 +08:00
回复了 locoz 创建的主题 全球工单系统 广东电信的兄 dei 进来看看
@skylancer #1 我知道啊 https://ws2.sinaimg.cn/bmiddle/62e721e4gw1et00rujyz4j200k00k3y9.jpg 但是普通用户看到这个会怎么想?
2018-12-09 14:33:39 +08:00
回复了 MuscleOf2016 创建的主题 程序员 昨天同事分享的假肯德基链接简单分析了下。
然后你如果顺着注册信息摸下去还会发现这些注册信息也是假的或者是小号,后面是不知道多少个同类型网站以及各种黑产服务
2018-12-06 15:47:41 +08:00
回复了 punkAssOnEos 创建的主题 程序员 如何刷实时热度?大佬们给个思路?
@punkAssOnEos #4 为什么要模拟点击,抓包直接看协议啊,有协议了想怎么搞不跟玩一样的?
2018-12-06 14:50:17 +08:00
回复了 punkAssOnEos 创建的主题 程序员 如何刷实时热度?大佬们给个思路?
@punkAssOnEos #2 那你就模拟一堆假人开一堆房啊
2018-12-06 14:23:56 +08:00
回复了 punkAssOnEos 创建的主题 程序员 如何刷实时热度?大佬们给个思路?
模拟一堆假人进房不就行了吗
2018-12-06 10:35:20 +08:00
回复了 jackblack369 创建的主题 程序员 在什么时期开启第二语言的学习比较合适?
需要用的时候
1 ... 302  303  304  305  306  307  308  309  310  311 ... 324  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2711 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 56ms · UTC 00:33 · PVG 08:33 · LAX 16:33 · JFK 19:33
Developed with CodeLauncher
♥ Do have faith in what you're doing.