V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  kwklover  ›  全部回复第 1 页 / 共 12 页
回复总数  236
1  2  3  4  5  6  7  8  9  10 ... 12  
2021-03-14 20:49:38 +08:00
回复了 zeo 创建的主题 Web Dev 有没有好办法快速查找网站违禁词?
可以试试多六六查词工具,就是做网站违禁词查询,输入网站首页地址,就可以全站扫描检测的软件:
https://www.duo66.com/
2021-03-11 09:07:50 +08:00
回复了 yuptyy 创建的主题 职场话题 想开了, 人生苦短, 及时行乐
如果家庭只有你一个人有收入,20K,后续养娃,养车,供房,各种支出会感觉很拮据的,如果夫妻双方有收入,父母本身有退休金之类的,那这个收入水平在三线城市也算滋润了。

不过,没有绝对养老这么一说的,工作不忙了,但人还是要进步的,闲久了会有其他的焦虑和压力的,要不然哪天被小年轻刷下来了,可别怪愤愤不平了。

而且社会不是静态不变的,10 年作为一个周期,如果 10 年你没有什么进步,你会发现你比周围的人已经落后很多了。
@dongxiao
@igeeky
感谢,先保留,后续逐一研究学习。
@jeeyong 不是默认,本来就是小打小闹的,欢迎大牛提供好的思路,目前的解决方案,解决百来万级的数据查重,勉强够用,再上一个量级,比如千万级数据量,那肯定慢死了,就是想征集一下不同的思路和方案。
@ntest
网上搜索了一下 SimHash 的资料,大概就是给每个文档建立一个 Hash,然后比较,所以比较的实现方式决定了最终的效率,不过 SimHash 可以计算出相似,但是具体相似多少,没法得出。
感觉大学前几年应该打理论基础,学好计算机基础,数据结构,算法这些比较基础的,出社会工作了,很难静下心学习这些基础知识的。

至于具体语言的东西,大同小异的。
可以研究一下招聘信息,找到自己的定位,小公司一般比较在意会某些语言,有项目经验,来了就能 CRUD 干项目,大一点的公司,一般在意基础,会一种语言就行,大部分的语言都是相通,会 C,学 C#,JAJA,PYTHON 这些一点都不难的,来来回回就那些基础的语法结构+一堆类库。会一种语言,培训一下,一周就能学会另外一种。

经验和基础倒是需要时间熬和悟的。
@jeeyong
我也不是专业 NLP,如果建立向量速度快,比较速度快,倒是可以研究一下。
通过搜索的方式+字表比较的方式也能解决问题,就是建立 Lucene 索引的过程也是很吃资源,很耗费时间的,不过就是搜索快。
@sampeng
向量的比较真的有那么高效?一百万多数据,先得建立一百多万的向量,然后每个文档与一百多万的向量做比较,效率真的能飞快?

刚开始的时候,也从网上看过一些文章,比如谷歌工程师写的按余弦夹角理论。但感觉实现起来比较复杂啊。


@jeeyong
分词的方式,依赖词库的分词方式,往往不太准确,结果就差别很大了,效果未必准确,小样本下测试偏差较大,大样本下没做测试,最后改为不分词,直接比较字。
不仅是婆媳关系,所有关系都一样,都取决于双方。如果妻子和父母比较通情达理,一般情况下,矛盾不会太深的。只要有一方没那么通情达理或比较强势,一般矛盾很难调和。因为人的观念和生活习惯很难改变,比如教育小孩,两代人之间本身就有很多观念冲突的。

如果确实无法调和,而且家庭问题,清官难断对错的,不妨考虑分开居住,但是不要隔太远,可以互相照顾的同时,保持一定的空间独立,矛盾自然消失了,反而会更加亲近。
国企现在都不讲编制了,不敢随便给建议,怕误导人,只是觉得不满现状不是出走的理由,有更好的发展空间才是,如果自己有规划,找到了更心仪的工作,也是可以考虑离开的。
2020-12-30 14:20:01 +08:00
回复了 felixin 创建的主题 数据库 在云上开上万个小型独立数据库有什么便宜的方案?
sqlite 或单机版的 NOSQL 都可以的,当然这些数据库的并发与事务性肯定不如关系型数据库。但是小的用户其实对并发和故障率要求并不高。
可以这样设计:
每个插件用一个单机版 NOSQL 做数据存储,使用的时候全部 LOAD 入内存,完全没有并发问题了,不过可能存在稳定性问题,所以需要把插件的数据设计成一个可序列化的对象存储到 mysql 中某个表当做备份,一个插件,一条记录即可。
@tqrj 百度是出了一个算法,按打击恶意聚合页的,不过恶意与非恶意本身比较模糊的,一旦触发算法,结果是限制展现,非 K 站,而且首页和列表页本身也是聚合页的一种,权衡收益与风险,目前,只能内容与词有一定行业相关性,还是可以做的。
性格外向活跃的话,混几年熟悉小城市的生活方式会有出路的,性格内向就比较麻烦,小城市有技术需求,但是杂而宽泛,业务能力最重要,大多数的本地业务操作思路都是接到什么业务,再想办法找解决方案。不是你会什么做什么,而是有业务就想办法找人,找方案,好多笑公司就一个人,但什么都能干的。

小城市,培训班很好赚的。好多公务员很舍本,找对需求就行,找对业务渠道就行。
比如一个教小孩学篮球,先找机会进幼儿园做教练,一两年就很多客源了。

我在小城市呆了很多年,性格喜静,很多事情懂,但做不了的。
2020-10-30 13:38:59 +08:00
回复了 apiziliao 创建的主题 分享创造 百度蜘蛛日志分析工具-处理黑站一句话木马
百度蜘蛛日志,还是需要通过 IP 反查判断真伪比较靠谱
可以试试这个桌面端的工具: https://www.duo66.com/rizhi/
别交流,直接开干就是了,没有经历过事,聊来聊去除了空洞的理想,就是无意义的吹水。
你有焦虑?困惑?交流后会更多。
去别人的平台,多看少说话,然后少想多干。
现在个税是分段计税的啊,有很多地方可以减免啊:
1,公积金不纳税,按 12%缴纳公积金,一个月差不多减去 2K 了。
2,父母赡养与子女教育,各 1K,至少能减少 2K 了。
3,首套房的贷款利息也可以减免不一部分的。
4,再减去一年 6W 免税额

减去上面免税的部分,剩下的分段计算。3.6W 的部分,3 个点,3.6W-14.4W 的部分,10 个点,所以年收入 20W 左右,综合税率怎么都不会 10%,估计是 2-5 左右吧。
2020-05-22 11:04:07 +08:00
回复了 hanxu317138 创建的主题 程序员 想了解一下 35 以上的程序员.都去哪了做什么了.
在大城市工作三年,回老家体制内工作十几年,然后因为内部斗争玩不过人家,烦躁就干脆辞职不干了,赋闲在家带娃了…

赋闲这半年时间思考了很多,偶尔接点项目糊口,开始尝试做独立开发者了。

商业世界本质从未改变,想赚钱?都是压榨劳动力剩余价值,要么压榨自己,要么压榨别人。
@iplayio2019 劲风算法打击的恶意的,其实网站首页就可以理解为聚合页的一种啊,确实,如果会搭建全文检索,这个不难,这个小工具就是面向小规模网站使用,小网站搭建个全文检索,感觉有点拿大炮打蚊子的感觉,就是为了简化操作,比较方便,技术谈不上复杂。
1  2  3  4  5  6  7  8  9  10 ... 12  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1025 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 32ms · UTC 22:06 · PVG 06:06 · LAX 14:06 · JFK 17:06
Developed with CodeLauncher
♥ Do have faith in what you're doing.