V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
wenxiang0207
V2EX  ›  苏州

[前端] 关于爬虫,关于 facebook

  •  
  •   wenxiang0207 · 2017-02-23 15:11:53 +08:00 · 3506 次点击
    这是一个创建于 2859 天前的主题,其中的信息可能已经有所发展或是发生改变。
    今天爬 facebook 网站的时候遇到一个奇怪的现象,有一条网址链接( facebook 站外),浏览器上是显示放在了<a>Tag 下的 href 里,但是我用爬虫工具(微软开发提供)的时候,工具里面显示的却是这样一串链接:
    http://l.facebook.com/l.php?u=http%3A%2F%2Fwww.15wing.af.mil%2FUnits%2F735thAirMobilitySquadron.aspx&h=ATNg9KAgWaURccDb_FrA2uwozGwj0h3u_LIfRLjEawpTgETIW5_CIKrTaRzu5hDdvzBEIvz352BsKMeKvK9TizrS09bTfmWuPZFxTpDNTfwKELjX3hs3p4TdFWA&s=1
    差不多二次跳转的意思,这个是怎么实现的,我的理解是 facebook 为了防爬虫做的一个保护,但事实我又抓到了链接数据,完整的 Tag 是这么写的
    浏览器:<a href="http://www.elephantjournal.com/" target="_blank" rel="nofollow" onmouseover="LinkshimAsyncLink.swap(this, &quot;http:\/\/www.elephantjournal.com\/&quot;);" onclick="LinkshimAsyncLink.referrer_log(this, &quot;http:\/\/www.elephantjournal.com\/&quot;, &quot;\/si\/ajax\/l\/render_linkshim_log\/?u=http\u00253A\u00252F\u00252Fwww.elephantjournal.com\u00252F&amp;h=ATP5Caih-YKbb5V_iuyP2oFeV1FXrh3P3KmTSjf-b9xeGTfgtIAzUpfOZ7CfRRRYfiULH6pIVvWIt66KhCWD7rhOpVfZC-ThhOaMU7CR_AEvo7BzANvpaXhKQT3f&amp;render_verification=0&amp;enc&amp;d&quot;);">www.elephantjournal.com/</a>
    爬虫工具:<a href="http://l.facebook.com/l.php?u=http%3A%2F%2Fwww.15wing.af.mil%2FUnits%2F735thAirMobilitySquadron.aspx&h=ATNg9KAgWaURccDb_FrA2uwozGwj0h3u_LIfRLjEawpTgETIW5_CIKrTaRzu5hDdvzBEIvz352BsKMeKvK9TizrS09bTfmWuPZFxTpDNTfwKELjX3hs3p4TdFWA&s=1" target="_blank" rel="nofollow" onmouseover="LinkshimAsyncLink.swap(this, &quot;http:\/\/www.elephantjournal.com\/&quot;);" onclick="LinkshimAsyncLink.referrer_log(this, &quot;http:\/\/www.elephantjournal.com\/&quot;, &quot;\/si\/ajax\/l\/render_linkshim_log\/?u=http\u00253A\u00252F\u00252Fwww.elephantjournal.com\u00252F&amp;h=ATP5Caih-YKbb5V_iuyP2oFeV1FXrh3P3KmTSjf-b9xeGTfgtIAzUpfOZ7CfRRRYfiULH6pIVvWIt66KhCWD7rhOpVfZC-ThhOaMU7CR_AEvo7BzANvpaXhKQT3f&amp;render_verification=0&amp;enc&amp;d&quot;);">www.elephantjournal.com/</a>
    那么问题来了 这里的 onmouseover="LinkshimAsyncLink.swap(this, &quot;http:\/\/www.elephantjournal.com\/&quot;);"事件是什么意思 我写 JS 从来没见到过, facebook 自带的 React 框架也没这语法啊 还有就是页面上现实的 herf 为何与我爬下来的不一样
    1 条回复    2017-02-23 15:55:30 +08:00
    RE
        1
    RE  
       2017-02-23 15:55:30 +08:00
    为啥在苏州节点…
    为啥不能排个版…
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1041 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 23:15 · PVG 07:15 · LAX 15:15 · JFK 18:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.