Re: [问题] NCBI爬虫问题

楼主: Neisseria (Neisseria)   2017-08-22 15:41:45
※ 引述《dummytrue (就只是大叔而已)》之铭言:
: 想要找目前做某个东西的论文中标题出现某个字的出现频率
: 写了一只爬虫(有用到selenium、BeautifulSoup)
: 结果NCBI会封ip
: 不知道有推荐其他方法的吗?
NCBI 自己有出工具啊
E-utilities:
Web API,但是没有包成 RESTful API,是老式的 web 呼叫
范例是用 Perl,但其实用其他 http clients 也可以
Python 的话推荐用 requests
Entrez Direct:
一组 Unix 命令列工具,将上述 web 呼叫包成命令列工具
同样也是用 Perl 写成;我试过,在类 Unix 系统才能使用
NCBI 一定会封 IP,不要浪费时间去试爬虫
作者: dummytrue (就只是大叔而已)   2017-08-22 17:27:00
XD 也是po完才找到这些工具 感谢原po囉
作者: Godkin (山里的人)   2017-08-22 21:42:00
用这些工具也是一样,只要你单位时间内query太多次就会封我会宁愿去他的ftp下载那些资料回来再慢慢处理

Links booklink

Contact Us: admin [ a t ] ucptt.com