[问题] 网页抓资料特殊符号处理

楼主: zilong308 (大师兄)   2015-01-27 09:44:25
大家好
小弟最近使用python抓取网页资料
在网页原始档中有td标签如下的
<td align="right" width="56">
755
</td>
都能顺利读取其值 755
使用方法是SGMLParser
但现在有个问题
<td align="middle" class="12red" width="61">
<font color="red">
▲+8
</font>
这种的td标签虽然有3个attrs,若没有下面的font标签,我想也不难抓取值
但现在不只有font标签,而且"▲"这个要怎处理?
小弟现在以parse标签带三个属性的方式硬处理,结果未能抓取其值(或抓取到空白?)
因为print出来似乎是一个空格而已
希望板上大大能帮忙解惑,感恩~

Links booklink

Contact Us: admin [ a t ] ucptt.com