[问题] 如何移除tag保留里面内容呢?

楼主: aitbtitw (你好)   2016-05-10 18:49:35
小弟是python新手 最近刚开始学习爬虫
但是最近遇到一个问题 就是怎么都移除不了<li>
以下部分是程式码
import urllib.request
import re
from bs4 import BeautifulSoup as bs4
page = urllib.request.urlopen('http://health.udn.com/disease/sole/185');
html = str(page.read(),'utf-8')
soup = bs4(html, 'html.parser')
s = soup.select('.outbreak > ul')
s = s[0]
print(s)
输出结果为:
<ul><li>随年龄增长而提高。男性大于45岁,女性大于55岁,又男性发生率高于女性。
</li><li>患有高血压、糖尿病、高血脂等疾病者。尤其糖尿病患常合并有三高,加上多
重代谢异常,坏胆固醇容易囤积在血管内,造成大规模阻塞病变。</li><li>情绪容易紧
张、易怒、忧虑和恐慌者。</li><li>过度劳累、生活压力大者。</li><li>缺乏规律运动
习惯者。</li><li>胆固醇、血脂肪及三酸甘油脂数值过高者。</li><li>菸瘾者,因抽烟
会加速粥状动脉硬化。</li><li>冠状动脉心脏病患者,或有冠状动脉心脏病家族史者。
患者因动脉硬化血管腔狭窄,很容易造成阻塞。</li></ul>
烦请各位高手指点了 谢谢大家
作者: obelisk0114 (追风筝的孩子)   2016-05-10 19:49:00
请看 beautifulsoup 的官方文件,里面有写
作者: octantis (@.@)   2016-05-10 21:30:00
看你是要全部抓一起还是一个个抓,全部抓一起用s.text分开抓用s.strings或s.elements.text
作者: woogee (woogee)   2016-05-11 04:55:00
print s.text
作者: ripple0129 (perry tsai)   2016-05-12 01:41:00
你干脆用regex自己把tag移除掉
楼主: aitbtitw (你好)   2016-05-12 15:44:00
谢谢各位。已经解决了

Links booklink

Contact Us: admin [ a t ] ucptt.com