[node] [问题]刚接触nodeJS的爬虫问题

楼主: HenryLiKing (HenryLiKing)   2016-06-24 21:19:04
嗨版上的前辈们
我最近(前两天)就在期末考中突然想要学nodeJS
所以考完后我就开始尝试自学了
由于我在自学时很容易出现卡住的地方
所以会有很多基本的问题希望大家能帮我解答
=========================================
因为是突然想要自学所以我不知道要重哪里着手
所以我就想说我干脆来爬一下八卦板上面文章的标题好了
https://gist.github.com/anonymous/c0daeb3c6677d0dd249eb3b544cef1c9
这是我写的code
但是我爬下来却出现一堆看不懂的格式
例如:
https://gist.github.com/anonymous/a94109ce2111e1b5b2dd48c51e708dcf
里面就是我爬下来的样子
我不懂为什么会是这个格式耶
希望大家可以帮我指点迷津一下
还有
我在学的时候发现好像cheerio这个模组是专门为了Jquery所做的
但是却不能用下面这类型的方式去寻找Tag
var $ = cheerio.load(body);
var title = $('.title:first');
这种:first的方式去找
也想请教大家这是为什么?
先谢谢大家了!!
作者: mmis1000 (秋月恋枫)   2016-06-24 22:24:00
因为title其实是个对元素的封装,他就是个物件阿这个lib的api基本上跟jquery一样,你可能得先看完用法在用。以你的例子而言,应该要对她加上 .text() 才能取得文字https://github.com/cheeriojs/cheerio#text-textstringhttps://goo.gl/ePzEeC 太长重缩
楼主: HenryLiKing (HenryLiKing)   2016-06-24 23:35:00
我好像知道为什么了因为八卦版有年龄限制 进入版前要先点以满18的按钮所以才会抓不到
作者: mmis1000 (秋月恋枫)   2016-06-25 11:33:00
要正常下载八卦版文章,需要加一个cookie欧打开浏览器f12看就知道了然后title其实不需要 :first ,因为title根本不会超过1个,除非网页本身有问题
作者: s25g5d4 (function(){})()   2016-06-25 17:37:00
他抓的是 .title 不是 title

Links booklink

Contact Us: admin [ a t ] ucptt.com