[问题] 爬虫问题

楼主: iftrush (绫绢姊)   2018-07-17 10:11:56
小弟爬虫新手
目前正在爬字典(已成功用网页API爬出意思)
假如我想爬apple(不使用API)
从page source里知道意思在下面程式码的content里
<meta name="twitter:description" content=" "/>
我要如何用findall 或是 find 找到这句
然后print出content的" "里的意思?
自己写的程式码
from urllib.request import urlopen
from bs4 import BeautifulSoup
def DictRequest(word):
html = urlopen("https://www.merriam-webster.com/dictionary/"+ word)
bsobj = BeautifulSoup(html.read(), 'html')
meaning = bsobj.findAll('meta', name = 'twitter:description')
TypeError: find_all() got multiple values for argument 'name'
作者: TitanEric (泰坦)   2018-07-17 10:55:00
建议用with statement去抓urlopen
楼主: iftrush (绫绢姊)   2018-07-17 10:28:00
有办法只产生" "里的东西吗?我自己是可以把meaning = str(meaning)return meaning[15:-53]还是有其他方法可以用?
作者: bibo9901 (function(){})()   2018-07-17 10:17:00
.select('meta[name="twitter:description"]')[0]
作者: coeric ( )   2018-07-17 10:57:00
findAll('meta', attrs={'name':'twitter:description'})我自己习惯用attrs # . 这之类的我比较记不住

Links booklink

Contact Us: admin [ a t ] ucptt.com