一个服务器只有几台,最大内存不到 16G 的软件公司 想搞爬虫、大数据,抓取的数据库主要用 SQLSERVER 。 搞数据抓取的只有一个新人,这算什么样的公司
1
crazykuma 2017-04-24 14:38:12 +08:00 5
老板脑洞比虫洞还大的公司吧
|
2
webjin1 2017-04-24 14:40:05 +08:00 via Android
走人
|
3
crab 2017-04-24 14:42:32 +08:00
爬 V2 吗 O(∩_∩)O
|
4
qiayue 2017-04-24 14:46:01 +08:00
搞爬虫没问题啊
搞大数据就你也没有提供更多的信息,不评论 |
5
jarlyyn 2017-04-24 14:46:48 +08:00
爬虫不是要 ip 池和带宽么?
|
6
LU35 2017-04-24 15:00:32 +08:00
快走人,下一题.
|
7
murmur 2017-04-24 15:01:50 +08:00
先搞起来骗到风投,没差
|
8
gouchaoer 2017-04-24 15:02:24 +08:00
最重要的是钱给够了,为什么不能搞?
看不起 sqlserver 么,比 mongo 靠谱 爬虫又咋吃 cpu 和内存 |
9
alwayshere 2017-04-24 15:02:31 +08:00
爬虫 16G 貌似也行
|
10
ryanzyy 2017-04-24 15:03:51 +08:00
看主要的开发者是否有实力吧
初期服务器弱没问题啊 |
11
server 2017-04-24 15:06:45 +08:00
服务器够了,剩下自己发挥
|
12
Aliencn 2017-04-24 15:06:49 +08:00
有志向的公司
|
13
marlboros 2017-04-24 15:07:55 +08:00
搞
资金流到位 升级服务器 老板跟你提效率问题了吗? |
14
Hozzz 2017-04-24 15:13:21 +08:00 1
单从数据库方面来说, sqlserver 现在可是三大主流数据库之一...
|
15
cnfzv OP |
17
jarlyyn 2017-04-24 15:20:39 +08:00 1
|
18
cnfzv OP @gouchaoer 那个 java 新人就是我, spring 都不会用,也就用个 webmagic 抓俩网站,数据库服务器都是我在弄,基本什么都干。工作不重,但是很杂
|
19
yanzixuan 2017-04-24 15:26:19 +08:00
要是用 erlang , 16G 应该够用了。。。掩面跑开。。。
|
20
ytmsdy 2017-04-24 15:40:15 +08:00
估计老板被人忽悠了,觉得手里有个十几个 G 的数据,然后分析分析就是大数据了!
|
22
sweb 2017-04-24 15:47:12 +08:00
主要看钱,楼主纠结啥?
|
23
benbenlang 2017-04-24 15:48:28 +08:00
老板被卖服务器的忽悠了,,,你要再和他争辩他会觉得你能力不行。。。
|
25
firefox12 2017-04-24 16:00:47 +08:00 via iPhone
512M 主机 每天 20 分钟扫描京东全网,不过那是 5 年前了。在 512m 主机上 每天还完成 1800 万房产数据的排序。
我不觉得这样的设备有什么差的 现在端口支持 reuse 。抓多少数据只是受限于网络和 cpu |
26
towser 2017-04-24 16:01:50 +08:00
公司名字叫什么
|
27
cnfzv OP @qqpkat2 我就是那个 java 新人,开发水平比较低,数据库基本维护就是我在弄,服务器基本没人管理,我大概做一点简单的维护,里面跑的都是公司正在用的项目程序,需要什么东西自己一点点在上面研究部署。
|
29
Felldeadbird 2017-04-24 16:10:13 +08:00
这要看你们要爬什么数据了。 16G 内存,可以实现很多东西。
我司的爬虫才 1G 内存。主要爬对手商品信息,动态。 楼主你这种没有详细信息的内容,真让人为怀疑你是为了喷而喷。 |
30
cnfzv OP @benbenlang 并没有,都是好久之前的服务器,起码 2011 年之前的吧
|
31
stabc 2017-04-24 16:18:48 +08:00
如果是专业领域的大数据也不一定需要非常大容量啊。
|
32
bravecarrot 2017-04-24 16:22:13 +08:00
大数据 不一定是数据量很大很大
|
33
cnfzv OP @Felldeadbird 三台服务器,全是 windows , 6 、 7 年前的机器吧,两台在外网的都是公司正在用的项目,不敢大折腾,剩下的一台是个 8g 内存的塔式,抓数据、入库、数据处理、数据查询都要在上面进行。带宽不到 1MB 吧,其实能跑的动,只是我水平不够,也只有我去弄爬虫,心累。
|
34
cnfzv OP |
35
simapple 2017-04-24 16:38:20 +08:00
也行 先跑着呗 等不够用了 上云
|
36
reus 2017-04-24 16:39:56 +08:00 6
水平不足赖硬件……
16G 不小, SQLServer 不差,做爬虫一个人也够。 问题在于你,你能力不够,又不肯学习,才赖硬件,赖数据库,赖人手,赖公司。 抱歉,实在不知道你有什么可以抱怨的。 |
37
deadEgg 2017-04-24 16:42:57 +08:00
16G 真的够了,你怕内存爆了,很多框架都有类似于 placeholder 的机制。
你用心去做绝对搞得出成果的,不过可能时间上和过程上比较困难一点点而已 |
38
Jimrussell 2017-04-24 16:46:25 +08:00 1
大家没注意到楼主说的是“软件公司”么。很明显老板想开拓新业务,然后挑了楼主在试水啊。花钱让你涨技术涨经验,这样的好事并不多的好吗。
|
39
windfarer 2017-04-24 16:47:59 +08:00
楼主觉得多大的内存才能跑爬虫。。
|
40
cnfzv OP @reus 心情不太好,抱怨下能让自己好过点就碎嘴一会吧。我并不完全算开发吧,要研究爬虫,要去查数据库,比对数据字典导数据,偶尔兼职测试按要求去测业务。做的一堆东西从来没有开发文档,口头需求,现做现改,所有东西全靠自学,不会的全靠百度,最近又弄了堆破事,有心无力,允许我抱怨下吧
|
42
killerv 2017-04-24 16:59:33 +08:00
多大的业务? 16G 应该够了啊
|
43
cnfzv OP @killerv 只是爬虫 8g 都够了,可惜还有很多乱起八糟的东西跑着,而我也不只是去弄开发。我只是心情很不好,而这个公司发展方向确实也不太好,他们主要靠业务吃饭,开发并不重要。
|
44
klxq15 2017-04-24 17:10:59 +08:00 via Android
大数据也没规定多大数据就算大数据啊。。。
|
46
we3613040 2017-04-24 17:24:51 +08:00
听着挺爽的,不过就是发展不怎样,混日子还行
|
47
Felldeadbird 2017-04-24 17:28:20 +08:00
8G 的服务器,足够你用爬虫了。只是带宽出口 1M ,太少了。估计爬起来效率很低。你另外还有 2 台服务器,可以让他们做爬虫业务。反正我司 1U1G 100M 的服务器,每天爬 100 万的数据都没任何压力、一部分展示业务也在这台机器上进行。楼主自己做参考。
|
48
bk201 2017-04-24 17:29:13 +08:00
window 这内存不够吧, linux 倒是可以。
|
49
eDeeraiD0thei6Oh 2017-04-24 17:29:23 +08:00
一个小目标 我觉得楼主多虑了
|
50
cnfzv OP @Felldeadbird redis 队列,数据库、爬虫都在这一个 8g 上面,另外两个机器也跑着爬虫,但是得用这个机器入库,另外两个机器跑不动 redis
|
51
Felldeadbird 2017-04-24 17:32:31 +08:00
补充一点,服务器数据是定时删除的。如果楼主公司业务需要展示以前的数据,在数据大了的情况下,单机肯定是不够用的。但是不论怎样也好。刚开始的时候,数据量不大就别去担心硬件这个事情了。等到不够用的时候,直接向上面申请。他们不审批也没关系,让他们继续等待缓慢的服务……
|
52
brucedone 2017-04-24 17:43:01 +08:00
很好奇一个爬虫,后面没有跟着算法等数据专家, 能搞成什么样的大数据。
|
53
hundan 2017-04-24 17:47:11 +08:00 via Android
我觉得楼主这样完全可以单干,自己开公司……
|
54
jiangzhuo 2017-04-24 17:52:46 +08:00
16G 没什么问题吧,如果爬垂直领域的, 32 台 500M 的爬虫也挺好,另外谁有国内比较便宜的代理池子给推荐一下。
|
56
gamecreating 2017-04-24 18:30:02 +08:00
跟机器有关系吗? PC 电脑一样采集..
|
57
lyhiving 2017-04-24 18:52:07 +08:00 via Android
有内幕,估计就是爬了“大数据”三个字
|
58
fermiz 2017-04-24 18:57:21 +08:00
我们学校给论坛的都 64G 。。。。
|
60
SlipStupig 2017-04-24 19:10:14 +08:00
2G 内存+2Core 每天抓取上千万的电商数据.....
|
61
XDA 2017-04-24 19:33:18 +08:00 via iPhone
对比我们自建机房上百台物理机啥也没干不好,每月几十万的服务器租赁费用,没有对比就没有伤害
|
62
jyf 2017-04-24 20:33:20 +08:00
内存不是问题 主要是出口 ip 另外我想楼主可能是想吐草大数据这三个字
|
63
wdlth 2017-04-24 21:34:47 +08:00
配置不是大问题,数据的处理才是……
|
65
sagaxu 2017-04-24 21:58:29 +08:00
我手上 4 台专用的,没有内存低于 32G 的,虽然只用了不到 4G ,但是公司采购不到这么低内存的双 CPU 机器
|
66
roist 2017-04-24 22:02:02 +08:00
听起来像是
老板有亲戚在当大官,能拿到政府补贴或者订单的 |
67
scofieldpeng 2017-04-24 22:11:33 +08:00
我家里一个上网本, 2g 内存, atom 的 cpu , 250 的 sata 硬盘,爬了 几千万的数据,还做分析。你这硬件我都很口水好么==
|
68
hpeng 2017-04-24 22:28:48 +08:00 via iPhone
港真,爬个数据要给我这么大内存我就偷笑了,又不在这台机上处理。我就不信要多差的技术的爬虫才会用到 16g 内存不够用的,带宽给足,什么都好说。
|
69
victory 2017-04-25 04:05:37 +08:00
可以去华强北组一个二手服务器来他个 64G 内存 而且 2011 年服务器肯定用的 DDR3 内存 现在 DDR3 洋垃圾内存白菜价
|
71
Leafove 2017-04-25 08:18:03 +08:00
员工工资都发不起结果 CEO 整天在整人工智能的公司我都见过
|
72
phpiis 2017-04-25 08:23:59 +08:00
先爬再说啊,赚到钱了自然可以游说升级服务器
|
73
dsg001 2017-04-25 09:05:56 +08:00
家用 pc 都不止这个配置吧
|
74
wizardoz 2017-04-25 09:10:55 +08:00
为什么不可以搞?硬件等到不够用的时候再升级有什么问题?
|
75
jianghu52 2017-04-25 09:31:08 +08:00
跟你说个真实的事情。我们公司,现在 3 台机器。 4G 内存内存,两台 python ,一台 java ,用了 2 条联通,一条电信。一个月,一台机器爬两百万条数据。你知道怎么搞定 IP 池的么。断线换 IP !
|
79
cnfzv OP |
80
cnfzv OP |
81
zhengxiaowai 2017-04-25 10:10:28 +08:00
管爬不管修
|
83
xiaoyu9527 2017-04-25 10:12:38 +08:00
@jianghu52 断线换 IP 的效率好么? 每次重播都是不同的 IP 么?
|
84
10years 2017-04-25 10:27:17 +08:00
反正爬数据是够了.
|
85
xiaoyang7545 2017-04-25 10:27:19 +08:00
现在。。大数据这个东西。。概念模糊。。多大的数据才算大数据。。所以好多人喊着做大数据的口号,其实做的就那么点屁大的东西
|
86
firefox12 2017-04-25 11:11:19 +08:00
@razrlele 下面很多人都做到了,不难的,爬京东是垂直网站,做好匹配 很快的, cpu 会是瓶颈,用正则和不用,性能差别不小,但是对垂直网站而言简单。 那时候京东不过 50 万种商品,现在大概几百万种了。
|
87
herozzm 2017-04-25 11:45:50 +08:00
面对 lz 不想说什么了
|
88
Tunar 2017-04-25 12:02:44 +08:00
数据具体什么级别啊
|
89
mathgl 2017-04-25 12:11:05 +08:00
sqlserver 挺好的,没啥问题,当然要是没钱买是另外一件事了。
|
90
allgy 2017-04-25 14:01:57 +08:00
我们服务器 2G
|
91
alphadog619 2017-04-25 14:41:54 +08:00
凑热闹的公司
|
92
BlackCat02 2017-04-25 18:11:42 +08:00
16G 是够磕碜。。公司分的开发机还有 32G 内存
|
93
allansun 2017-04-25 19:11:45 +08:00
在用 512M 内存小机器跑 Redis 的人飘过。。。。
|
94
imherer 2017-04-25 19:17:45 +08:00
我们服务器全是 1CPU 1 内存的
|
96
Nitromethane 2017-04-25 19:29:06 +08:00
是比我们实验室的机器少点~
1000 万的量还不够大数据的标准~实验室机器上屯了 15T 脱敏的数据。。 |