V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  est  ›  全部回复第 349 页 / 共 619 页
回复总数  12363
1 ... 345  346  347  348  349  350  351  352  353  354 ... 619  
2015-11-02 22:16:44 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@binux 求分块树相关 case 。

还有就是你们是怎么保存富文本数据的?直接 html 还是?
2015-11-02 21:57:31 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@menc wikipedia 的页面特定模板解析起来很有意思的。比如可以绘制出地球上人口超过 20w 的城市分布图。但是我感觉这个属于另外一个话题了。
@Sivan 国产的。就当 299 的普通电饭煲用。
@harry890829
@wkdhf233

问了下,买的那家,咬着不放。。因为都好评了。

便宜的那家,说是做活动。名额有限。

包装都拆了。。。。
2015-11-02 20:59:24 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@hooopo 我还以为去了隔壁 rubychina 。。。哈哈。用 ES 的确可以做到。赞。
KV 数据库很少有支持 array 的。 redis 是异端。别人号称 data structure server
2015-11-02 16:40:12 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@chairuosen 不是通用不通用的问题,而是爬出不仅要保留文字本身的信息量,还要保留当时标题,段落。排版,展现格式,甚至页面环境等信息量。

虽然我估计 99% 的页面,都是一种字号不分大小写不分段落标题格式通吃,但是总有那么一些出彩的页面,很注重行文的附加信息。
2015-11-02 16:37:43 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@iyaozhen
@chairuosen
@anexplore

我想知道业界有没有一些比较好的 case 。

脑洞一下,比如很多时候读到 nytimes 的文章,一些亮点主题词语是 斜体 的。有木有一个搜索引擎能统计一下:“ NYTimes 斜体名词的分类”。。。。。。。。。。这里面涉及到爬虫,数据处理,清洗,如何索引富文本。。。感觉脑细胞不够用了。希望看到有别人的案例我来抄袭一下 hahahaha
2015-11-02 16:31:24 +08:00
回复了 est 创建的主题 Python 这么多搞爬虫的,有木有直接解析 HTML 的呀?
@chairuosen 只是一个想法,可能没用。但是我觉得信息量丢了。。。

首先,当然,语义是很重要的一个方面。比如 <code> 里是代码,就知道这一定是个码农发的贴子。。。。

再比如论坛里一些帖子,有些内容,发帖人喜欢 红七醒目 。。比如做主题归纳,感觉因该提高重点文字的权重。而不是纯文本那样所有字符平等对待。

只是一个粗略想法。。。。。我知道有不实际的地方。。。乃们就不要喷我不实际了。。。


我的脑洞就是, NLP 是自然语言处理,那么 HLP 算不算超文本处理。。。。
LZ 怎么发现的,好奇。
2015-11-01 18:14:46 +08:00
回复了 est 创建的主题 游戏 日, insurgency 的电脑真是碉堡了。我出门就挂
量子服打了一天,真是无语了。。我也成了猥琐流打法了。。。这游戏冲冲冲就是送死。。。。。。。。。。
2015-11-01 10:46:36 +08:00
回复了 nightv2 创建的主题 Android 支付宝京东是怎么在禁止联系人权限的情况下访问联系人的?
百度全家桶的做法是本地开端口, json 互传。只要一个 app 有权限全家桶就有权限。上次还爆了 wormhole 漏洞
2015-10-30 23:23:17 +08:00
回复了 hzgmaxwell 创建的主题 Vim 美国人民其实也挺认真的,我丢人了
LZ 回复一句: thank your grammer nazi 。保证气他吐血。
FTTH 入户 100M 的表示, 2 年前装修还满以为 100M 的网线够用 20 年了。没想到这么快就满了。。。。
我网线 8 根, 4 跟走 100M 到路由器, 4 根走 iTV ,现在一双拨,电视就卡比了!!!!!!!!!悲剧啊!!!!!!!!!
2015-10-30 20:16:27 +08:00
回复了 imcoddy 创建的主题 Bitcoin BTC 最近涨得有点猛
2015-10-30 20:16:11 +08:00
回复了 imcoddy 创建的主题 Bitcoin BTC 最近涨得有点猛
@WayToPlay 出门问问现在这么出名了?
2015-10-30 20:11:09 +08:00
回复了 master13 创建的主题 Python 写了个从 pcap 文件中提取 HTTPS 链接证书的小工具(.py)
楼主 ID 这么叼,吓得我赶紧 star 了。
2015-10-30 09:09:49 +08:00
回复了 master13 创建的主题 Python 我就想不明白了, scapy 这么好用,为什么 libdnet 那么难装!
libdnet 是构造 IP 包的。相当碉堡的工具。
1 ... 345  346  347  348  349  350  351  352  353  354 ... 619  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1349 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 4972ms · UTC 17:43 · PVG 01:43 · LAX 09:43 · JFK 12:43
Developed with CodeLauncher
♥ Do have faith in what you're doing.