node.js写马蜂窝爬虫有关ajax

前言

之前写的爬虫都是直接获取网页内容，解析保存需求数据。然而我后来又遇到一些网页数据使用Ajax获取的，数据不存在于网页的源代码。(高手大神请无视我的见识浅薄) 后来经过学习，终于搞明白这类的网页怎么抓去信息。废话不多说，我们就以马蜂窝为例，做一个简单爬虫。

目标

马蜂窝爬取北京的热门景点。

具体流程

编写代码前，先来到这个网页 http://www.mafengwo.cn/jd/10065/gonglve.html 最下面北京全部景点模块。

打开chrome inspect under network 是这样的

看到这里就可以开始写代码了

核心代码

attractionsList = function(i,cityname){
    superagent
    .post('http://www.mafengwo.cn/ajax/router.php')
    .type('form')
    .send({
        'sAct':'KMdd_StructWebAjax|GetPoisByTag',
        'iMddid':10065,
        'iTagId':0,
        'iPage':i,
      })
    .set('User-Agent', 'Mozilla/5.0')
    .end(function(err, res){
    
         var jsonstring = JSON.parse(res.text);
         var $ = cheerio.load(jsonstring.data.list)  
         $('li').each(function(){
             var data = $(this);
             var href  = data.find('a').attr('href');
             var title  = data.find('a').attr('title');
             superagent.get('http://www.mafengwo.cn'+href)    
               .end(function(err,docs){ 
                 if(!err){
                     var $ = cheerio.load(docs.text)  
                     var summary = $('div.summary').text()
                     console.log(title);
                     console.log(summary);
                    }
                })
            })
         var $$ = cheerio.load(jsonstring.data.page);
         if ($$('a.pi.pg-next').length) {
             getList(i+1,cityname)
         };   
    });
}