V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  hallDrawnel  ›  全部回复第 5 页 / 共 10 页
回复总数  185
1  2  3  4  5  6  7  8  9  10  
2021-09-04 20:53:18 +08:00
回复了 terrytw 创建的主题 程序员 诸位猜猜看,我的隐私是如何泄露的
连过同一个 WiFi 吗?
2021-09-04 14:24:00 +08:00
回复了 alexkkaa 创建的主题 程序员 广告与监听
@alexkkaa 你搜索一下 WiFi 探针 就知道了,技术很成熟。从无差别监听录音上来说,算法方面的确是一个难以解决的问题,那样得到的数据太脏了,基本无法用。如果你有做过一些算法的工作,或者打过一些比赛的话,你会发现目前有效的算法对数据的清洁程度要求是很高的。而无差别录音提特征,就有点像一个做车道线识别的 CV 算法,给他输入了大量的图片,但只有 1%是马路的图,那这个模型的召回率肯定很糟糕。

WiFi 探针只是一个被公开锤过,但还在持续用的技术,还有其他各种各样的姿势能做这些事情,有的我们能推测到,有的可能知道的人还不多。比如第三方支付码扫码直接精准定位,还能知道你的消费类型,消费价格,精准画像。各种 app 时不时地获取一下地理位置信息,
2021-09-04 14:03:43 +08:00
回复了 alexkkaa 创建的主题 程序员 广告与监听
siri 和小爱不一样的。你给 siri 和小爱说的话都是有限的简单的命令语句,并且有明确的触发条件,有明确的领域相关性。模型训练可以针对性训练提高精度。

假设要监听你的对话,首先要一直采集分析,这就是一个性价比很低的手段,本地分析耗电、精度不够,容易被发现,远程分析需要一直发送网络请求,得到的数据全是琐碎的音频数据,算法需要做到:

1. 过滤出人声,这点很成熟
2. 提取:因为采集的是完全随机的对话信息,没有任何特性,有无数的关键字,得有一个十分全的数据集来训练。
3. 拿到那一大坨噪音(数据噪音不是音频噪音)那么多的原始输入数据,我的天要怎么套模型(逃

这还是解决了不让用户、不让第三方技术分析厂商抓包 app 悄悄录音的情况下,后续才需要去解决的问题。技术能不能是一码事,法务和风控直接就过不了的。

所以说偷听性价比真的很低,就目前的算法水平,弄到了分析起来也是头皮发麻。现在用户画像很强的,大公司的用户画像除了自身平台,还有很多合作数据源,所有和你有关联的人或物都有很多结构化的数据,比录音性价比高多了。公司也没听说过有这种组。

我觉得更有可能的是,假设你的 WiFi 没有开启随机 MAC 地址(即使开启了,还得考验操作系统厂商的节操),那么你去过的大多数地方做了停留就能被探针记录,不需要你连接任何热点,这样的探针无处不在。这些探针厂商基本是拿着数据瞎卖的,你也锤不了他们,然后不知道过了多少手大厂肯定能拿到这些数据,他们的模型接着就能够把你和所有在你这台手机登陆过的账号匹配起来。于是就能做基于地理位置的行为分析,包括时间和空间上的。

接着基于地理位置的一些关联算法就会发现你和培训老师有过交集,然后那个老师也以同样的用户画像方法被分析过。并被打上了各种标签。同时,你有小孩,年龄多大,什么性别估计模型也猜了个八九不离十。

中途省略无数你,以及在空间、时间上和你有过关联的信息流分析。

接着,到了 CTR 预估环节。结合你的其他行为,包括地理位置啊什么的,来猜测给你什么样的广告点击率会高。这其中除了参考楼主的行为,还会参考和楼主相似的用户的行为的点击结果。(最简单的模式是:买了这个商品的用户还买了哪些商品,那就给准备买这个商品的用户推送那些商品的广告) CTR 预估是广告系统核心的核心,它能够综合到的数据源可能比用户自身要多得多,并且是学术和工业界发力的重点。然后,这些信息生成了一个向量,里面的某个值比其他值要高一点,让与之相关的某一条广告被选中了,接着你被命中了,多少成为了 CTR 的一个正样本。而要做到这些都不需要去冒风险录音。
2021-09-04 10:28:07 +08:00
回复了 Macklemore 创建的主题 程序员 [为什么要抱怨同事代码很差]
说明你们的团队没有规范。
2021-09-03 21:04:19 +08:00
回复了 wh469012917 创建的主题 程序员 同事代码写的太烂了怎么办?
如果需求需要改动到旧代码,就跟 leader 说明情况,适度重构一小片代码出来,脱离原有的路径,隔离出一个范围自己开发。
如果是新的功能,做非侵入式修改,然后把逻辑嵌入到旧代码里。

然后写个文档充分说明这个情况,把风险尽量告知相关人,不然出了事情还得背锅。推动 code review,当然有的 leader 自己就很菜,他根本没办法区分什么是好代码什么是坏代码,只是风起飞了把这只猪给吹上去了。
2021-09-02 00:18:16 +08:00
回复了 exceldream 创建的主题 程序员 大家如何打造自己高效的开发环境
人肉装,享受安装配置过程,感觉像在布置新家一样。
2021-08-06 21:37:43 +08:00
回复了 polyang 创建的主题 程序员 提交代码时 git commit message 是不是写的详细点比较好?
1111 这不得打一顿?后面的人看了全不知道你干了啥呀。我们对 mater 的所有合并都会发通知到开发群里,群里所有人都能看见你在 commit message 上写了啥。commit message 要求用 commitizen 。
2021-07-29 00:33:58 +08:00
回复了 heavyrainn 创建的主题 硬件 想问问各位,有用游戏本办公写代码的朋友吗…
自己台式配了 32G 内存不知道干嘛,但是看着就是爽。
2021-07-25 11:16:06 +08:00
回复了 James369 创建的主题 Linux ubuntu 下的 sshd 是否具备抗暴力破解的拒绝服务功能?
直接关闭密码登录
2021-06-02 22:26:01 +08:00
回复了 liyaojian 创建的主题 Go 编程语言 大佬们求解一个 go map 无序的问题
把 key 复制出来放到 slice 排序后从 map 取值拼接。这是要做啥?某种奇怪的需要按照顺序的签名 or 校验操作?
2021-05-26 20:00:49 +08:00
回复了 szzhiyang 创建的主题 程序员 感觉未来不会再有新的编程语言投入广泛应用了
可能量子计算普及后,现有语言描述能力就不一定能行了。
2021-05-24 01:14:55 +08:00
回复了 wunonglin 创建的主题 程序员 这样的微服务目录结构该如何优雅地编译
每个会被独立编译的服务我们都有自己的 go.mod 来解决依赖问题。这样做好处很多,具体见 https://medium.com/@ckeyes88/go-modules-in-real-life-87a21fb4d8aa
2021-05-17 01:28:51 +08:00
回复了 XiLemon 创建的主题 Java 业务代码写单元测试的最佳姿势是什么?
单元测试要求在开始写代码的时候,就需要考虑可测试性,还得准备一堆基础设施才行,例如单元测试的时候日志系统和配置系统要能够更方便支持单元测试的场景,要比 mock 做得更方便才行,不能什么都靠 mock,至少基础设施要对单元测试友好。遗憾的是很多项目开始就没有考虑过,后期引入就代价很大。而且很多代码生命周期太短了,没啥测试的价值,引用个需求文档后期要改有个参考就行。
2021-05-09 18:38:48 +08:00
回复了 xiaofan2 创建的主题 Java 大数据量下的精确统计解决方案
2T 是不是记录了太多不相关的数据?可以减少数据量吗?
2021-04-17 14:06:46 +08:00
回复了 pkwenda 创建的主题 程序员 大容量硬盘成为新的理财产品
Chia 不太消耗 HDD,等一波矿难收来刷 PT
2021-03-19 21:36:39 +08:00
回复了 SSang 创建的主题 Go 编程语言 Golang 如何转换 map key 是 struct 的 json
能看到服务器的代码吗?好奇怎么拼出来的,这样真的符合 JSON 的标准吗?
2021-03-09 23:11:24 +08:00
回复了 leishi1313 创建的主题 程序员 我知道 Google 养老,原来可以这么养老吗 part 2
@hoyixi 共和国需要你这样的同志!
2021-03-09 21:47:07 +08:00
回复了 nagatoism 创建的主题 程序员 用 redis 做分布式锁这种骚操作是怎么流行起来的?
你就不能有条有理的说出来,非要用嘲讽的语气和吵架的态度?
1  2  3  4  5  6  7  8  9  10  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3492 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 34ms · UTC 04:48 · PVG 12:48 · LAX 20:48 · JFK 23:48
Developed with CodeLauncher
♥ Do have faith in what you're doing.