[问题] 爬虫问题 iftrush PTT批踢踢实业坊

[问题] 爬虫问题

楼主: iftrush (绫绢姊) 2018-07-17 10:11:56

小弟爬虫新手
目前正在爬字典(已成功用网页API爬出意思)
假如我想爬apple(不使用API)
从page source里知道意思在下面程式码的content里
<meta name="twitter:description" content=" "/>
我要如何用findall 或是 find 找到这句
然后print出content的" "里的意思?
自己写的程式码
from urllib.request import urlopen
from bs4 import BeautifulSoup
def DictRequest(word):
html = urlopen("https://www.merriam-webster.com/dictionary/"+ word)
bsobj = BeautifulSoup(html.read(), 'html')
meaning = bsobj.findAll('meta', name = 'twitter:description')
TypeError: find_all() got multiple values for argument 'name'

作者: TitanEric (泰坦) 2018-07-17 10:55:00

建议用with statement去抓urlopen

楼主: iftrush (绫绢姊) 2018-07-17 10:28:00

有办法只产生" "里的东西吗?我自己是可以把meaning = str(meaning)return meaning[15:-53]还是有其他方法可以用?

作者: bibo9901 (function(){})() 2018-07-17 10:17:00

.select('meta[name="twitter:description"]')[0]

作者: coeric ( ) 2018-07-17 10:57:00

findAll('meta', attrs={'name':'twitter:description'})我自己习惯用attrs # . 这之类的我比较记不住

继续阅读

[问题] 学完语法，如何进阶？ching4562 [问题] 如何在matplotlib中使用Index呢?avlin [问题] 使用 dict.get('key') 还是 dict['key']jacobcan118 [问题] multiprocessing执行问题ponwar87123 [问题] 升级3.7后无法使用3.6时安装的模组bjchiou [问题] socket中PF_socket vs AF_socketyabegirl25 [问题] jupyter无法连上这个网站zxc741qaz123 [问题] 遇到JS加密MAXCAI [问题] VSCODE的环境dauntless [问题] pandas dataframe 转 spark dataframe 出现null值zeus83157