HathiTrust Digital Library这个典藏网站,欧美名校有合作关系的,可以点选
画面的 Download whole book (PDF),没有合作的学校只能一页一页抓了。
像我看到的这份资料,想要抓其中一卷,线上观看的网址是这个:
https://babel.hathitrust.org/cgi/pt?id=nnc1.cu04711483;view=2up;seq=3
按右键就可以看到他的原始连结,也可以下载,网站本身是没有禁止的,所以我
写了一个循环的语法,显示我要抓的1~30页超连结。
不过遇到的问题是,他的图档是jpg和png混杂
例如第3页是jpg档
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=3
第5页则是png档
https://babel.hathitrust.org/cgi/imgsrv/image?id=nnc1.cu04711483;seq=6
因此我用firefox的downthemall插件,快速抓下来以后,即使是按时间排列,图
档的顺序仍会错乱。所以想问这个网站,应该要用什么软件来下载呢?