最近尝试把新闻爬虫做得系统化,也发现各新闻网站的技术问题
大致上整理了两份表格,可以知道有哪些技术债还没还
如果想去这些新闻媒体 coding 可以推测要拆的雷
https://github.com/virus-warnning/twnews/blob/feature/search-news/docs/SOUP_NOTES.md
如果觉得这爬虫有用,也欢迎抓来玩玩
只要在 Python 3.5 以上这样装就可以了
pip3 install twnews
详细请见
https://pypi.org/project/twnews/