V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  makdon  ›  全部回复第 5 页 / 共 6 页
回复总数  102
1  2  3  4  5  6  
2019-06-25 00:26:40 +08:00
回复了 Wa1k3r 创建的主题 深圳 腾大附近租房求建议
同求。
你说的公寓指的是自如之类的吗?是怎么样个太贵了呢?
2019-06-23 21:59:20 +08:00
回复了 ginakira 创建的主题 分享发现 那一天,我再次想起了被 CTex 支配的恐惧
@yzwduck 是用的 xeCJK, 应该没有用 AutoFakeBold (因为本地编译的时候提示没有找到加粗字体,如果开了自动假黑的话就不会这样报错)。也可能 overleaf 给偷偷用了?我不是很了解 LaTeX 全家以及相关生态,所以也没找到为啥,最后还是本地安装编译了。
2019-06-23 12:42:52 +08:00
回复了 ginakira 创建的主题 分享发现 那一天,我再次想起了被 CTex 支配的恐惧
@zst xelatex
2019-06-23 11:47:11 +08:00
回复了 ginakira 创建的主题 分享发现 那一天,我再次想起了被 CTex 支配的恐惧
@Wincer 这玩意编译出来的 pdf,实测在维普、paperpass 等查重平台出来之后是乱码。如果没有查重需求倒还好,有的话,最后还是需要折腾本地环境的。
2019-06-17 00:51:17 +08:00
回复了 palmers 创建的主题 Python 新手请教关于 Python 函数参数默认值设计的问题
官方的话,我印象中 Guido van rossum 似乎在博客还是采访中提到过这个的设计,但是我刚刚找了一圈没找到,也可能是记错了。
可以参考一下[这个讨论]( https://stackoverflow.com/questions/1132941/least-astonishment-and-the-mutable-default-argument)
还有这个“您”字我受不起受不起
2019-06-16 23:33:40 +08:00
回复了 palmers 创建的主题 Python 新手请教关于 Python 函数参数默认值设计的问题
默认参数只初始化一次
2019-06-08 10:50:39 +08:00
回复了 Qiaogui 创建的主题 程序员 Tripod-语言参考规范(草案)
这么长,有热心群众画一下重点吗
《我的博客搭建之 Django 实现网站在线人数统计功能》这篇文章里面,你缓存的 online_ips 只有加,没有减,所以统计的是历史访问人数吧。虽然有 cache.set(ip,0,60), 但是这个缓存过期应该只是把 ip 为键的缓存清除了,online_ips 里面似乎还是不会减少?
而且为啥 timeout 为啥要写 1 * 60,直接写 60 就好了吧
刚刚查阅的文档现学现卖,说错了的话请楼主指出谢谢啦。
2019-05-28 15:45:45 +08:00
回复了 ps1aniuge 创建的主题 奇思妙想 庆 61,找抽脑洞,我又发明了文件校验码
但是你怎么样证明你这个校验码足够唯一?假如有两个文件:
A 的 md5:1123----6677
B 的 md5:1134----5577
A 的 SHA1:aabb----yyzz
B 的 SHA1:aacc----xxzz

那得到的结果都是 1177aazz
这只是个例子,的确 md5 和 sha 都有可能发生两个不同内容出来的值相同,但是你怎么证明你的这个想法中,产生冲突的可能性足够小可以用于实际应用。
2019-05-25 10:53:52 +08:00
回复了 hackyuan 创建的主题 随想 农场与咖啡馆
@dxgfalcongbit 所以“兴趣使然的咖啡店”就是说人家本来就不愁吃不愁穿吗,那可真让人羡慕(
2019-05-19 20:26:28 +08:00
回复了 leisurelylicht 创建的主题 Python 请教一道面试题!
没有考虑的极端情况:
日历不是按时间排序的(不按时间排序就不是日志了吧。。。
因为服务器时间同步导致的日志时间抖动:例如在 00:00:05 的时候,服务器收到校准时钟信号,把自己时间调到 00:00:00,那出来的日志就是:
00:00:03:blablabla
00:00:04:blablabla
00:00:05:blablabla
00:00:00:blablabla
00:00:01:blablabla
2019-05-19 20:17:47 +08:00
回复了 leisurelylicht 创建的主题 Python 请教一道面试题!
@makdon #22
果然把我的缩进都删掉了。。。
主函数写错了,应该是
if __name__ == '__main__':
with open('file') as logs:
for log in logs:
map2file(log)

result = new_file
for file in working_dir:
if file 点 first_line == 'Hit':
result 点 append(file 点 name)


附 gist:
htt 他 ps:/不 /gist 点 gi 让 thub 点 co 我 m/Mak 插 Don/4aa9 外 138b9f 链 3a5c89c745b6f4b9a5ea82.js
2019-05-19 20:11:09 +08:00
回复了 leisurelylicht 创建的主题 Python 请教一道面试题!
问题:有一个大文件日志,日志内容包含 访问时间 和 访问 IP,问如何统计每分钟访问次数超过 100 次的 IP ?
keyword:日志、大文件、访问频率

题目并没有说明的内容:
日志时间跨度:这么大个文件是一天日志还是一分钟日志,还是说其它时间跨度
分钟切分粒度:假如在 00 分后半分钟访问 50 次,01 分钟前半分钟访问 51 次,算不算“访问次数超过 100 次”

那就按照最极端的情况来考虑:这个文件是两分钟的日志文件,体积极大,需要任意 60 秒时间段内访问次数不超过 100.

按照这种极端情况考虑的话,前面的“以分钟切片单位,用字典记录用户访问,每分钟清除一遍字典”之类的方法就不适用了,因为使用的内存量是跟用户量成正比的:假如日志中,有极多用户,每个用户只访问一遍,那字典需要的内存比文件本身一半(假定两分钟的日志)还要大,显然会炸内存。

我个人认为,在大文件的前提下,只能按照用户进行切片,而不是时间为单位切片,因为每分钟的数据量在这个场景上没有上限,但是用户的数据上限是 100。而且使用用户 IP 作为切片的 Key,可以上 Hadoop、Spark 等分布式计算框架。(时间作为 key 也可以上分布式,不过可能切片太大,计算量集中到单机)。

当本地操作时,时间 O(n),内存占用 O(1),硬盘占用 O(n);用分布式框架时,时间 O(n),内存 O(n),硬盘 O(1)

在加个极端条件:这个大文件是 1 个用户在 2 分钟内疯狂访问生成的几十 G 的日志。检查可知,就算是这种情况,按照用户切片,最多只需要记录 100 次访问记录。

最后,我是云编程玩家,以下是伪代码:


def map2file(log):
with open(log['ip]) as file:
if file.first_line != 'Hit':
file.append(log)
check(file)


def check(file):
while last_line.time - first_line.time > 60:
delete(first_line)
if file.num_of_line >= 100:
delete_all_lines()
file.append("Hit")




if __name__ == '__main__':
with open('file') as logs:
for log in logs:
map2file(log)

result = []
for file in working_dir:
result.append(file.name)




(其实就是把那个字典记录在文件系统里面
(是不是觉得我扯了这么多花里胡哨的,10 行代码 9 行 error
(总感觉我哪里搞错了但是没找出来,有错误请把我往死里锤(反正不可能真的顺着网线砍我(
2019-05-14 10:24:01 +08:00
回复了 lance123 创建的主题 Python 求 Python web 开发坑位 @青岛
@makdon #18
刚刚说错了,是跳转到豆瓣的《计算机系统要素》了。
2019-05-14 10:23:02 +08:00
回复了 lance123 创建的主题 Python 求 Python web 开发坑位 @青岛
逻辑门->CPU->汇编器->虚拟机->编译器->操作系统的整套模拟实现
这个链接跳到了豆瓣首页了。
康了一下感觉自学的深度已经比较 ok 了,(甚至比我个科班瓜皮学得还要多还要深)
不过 Python Web 的岗位相对还是较少(从校招来看),要不看看测试开发的岗位,似乎有一定量的测试框架都是用 Python 写的。
2019-05-12 23:53:08 +08:00
回复了 skyrem 创建的主题 分享发现 后端 API 开发流程分享-自动生成文档
谢谢分享。postman 的自带的文档只能在线看不方便归档,找了各种方法没解决,当时听说过 blueprint,想不到还有
postman 转 blueprint 的工具。
2019-04-12 12:18:45 +08:00
回复了 Gruel2396 创建的主题 Android 即会写 Java 项目又会写 C/C++项目是一种什么感觉?
就像是一个大二学生写期末作业的感觉
2019-02-26 13:52:51 +08:00
回复了 pinn 创建的主题 iOS 在 Boss 上投简历,都不回复什么鬼,大家有遇到的吗?😢
你发在了 IOS 节点上了
2019-02-21 11:56:12 +08:00
回复了 pig1983 创建的主题 iPhone iPhone se 尚能饭否
2016 年中入手,8102 年底换一块电池,目前使用感觉良好,估计还能用个一年,不过已经开始偶见卡顿了。

@h404bi 我换电池之前电池健康卡了 87%很久了,到官方换电池时检测 2000+循环,客服说健康肯定没有 87%了。可能是个电池健康值不会更新的 bug,要不你也去售后看看。
1  2  3  4  5  6  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1026 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 30ms · UTC 19:52 · PVG 03:52 · LAX 11:52 · JFK 14:52
Developed with CodeLauncher
♥ Do have faith in what you're doing.