Telegram 的网页主要内容提取真是一个黑科技

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

› Telegram Messenger

› Telegram Messenger for iOS

› Telegram Messenger for Android

› MTProto

› Telegram Bot Platform

这是一个创建于 3503 天前的主题，其中的信息可能已经有所发展或是发生改变。

大家可以试试把各种链接（微博，Twitter，V2EX……）发到聊天框里，Telegram 似乎总是可以提取到页面上最重要的内容。

微博

提取

16 条回复 • 2015-06-08 00:46:25 +08:00

hjc4869

2015-06-07 12:24:53 +08:00

自己试了一下，这个是在服务端采集的，所以具体细节无从得知了。。

oott123

2015-06-07 12:32:26 +08:00 via Android

这算法不难吧，Readability 啊 Pocket 之类的不就有类似的嘛。

isaced

2015-06-07 12:33:09 +08:00

真厉害，试了下 cnBeta、36Kr、SegmentFault，甚至连我一个人博客随便一篇文章都能识别出来...

wy315700

2015-06-07 12:35:27 +08:00

这不就是搜索引擎的技术吗，

also24

2015-06-07 12:36:36 +08:00

以前似乎是直接抓取 description 的，不知道现在是怎样

Livid

MOD

2015-06-07 12:39:28 +08:00

@also24 谢谢提醒，我找一些没有 desc 的页面试试。

Livid

MOD

2015-06-07 12:42:05 +08:00

好吧，看起来，确实和 desc 有关系：

http://vagabond.github.io/rants/2015/06/05/a-year-with-go/

czheo

2015-06-07 12:46:57 +08:00

@also24 现在好像也基本上是这样

Laforet

2015-06-07 14:59:27 +08:00

现在机械语义分析可用性已经很高了，比如下面这个bot

https://www.reddit.com/user/bitofnewsbot

还有上次推特财报被提前公布也是用了爬虫+语义分析，跳过人工审阅直接发新闻。

xhacker

2015-06-07 15:09:39 +08:00

@also24 @Livid: desc 是什么？

orzfly

2015-06-07 15:11:31 +08:00

@xhacker http://en.wikipedia.org/wiki/Meta_element#The_description_attribute

binux

2015-06-07 15:21:17 +08:00

http://checi.org/nanchong/

xhacker

2015-06-07 15:26:26 +08:00

@orzfly: 比如我在单条推的页面没有看到这个 attribute 啊……

icedx

2015-06-07 17:30:11 +08:00 via Android

Verizon 家的Message+ 表示不服

inmyfree

2015-06-07 23:59:55 +08:00

哈哈，推荐我写的一个小东东哈，基于readability
比如我的一个[博客](http://www.mk5i.com/opensource_workplan/)
[效果](http://42.121.117.150:15002/readability?dsturl=http://www.mk5i.com/opensource_workplan/)
[开源项目git地址](https://github.com/inmyfree/readability)

0x17e

2015-06-08 00:46:25 +08:00

新闻类的页面的正文提取是最简单的，包含短楼层或评论的页面是最难提取的。可以试试提取 V2EX，如果能把每个回复都单独提取出来合并成正文，那么才算是厉害的算法，可惜目前主流的笔记软件好像还没有这样的功能，除了某些采集软件。