[问题] 爬取图文成档案

楼主: s4028600 (佑)   2019-12-25 00:28:11
爬文都只有只爬取图片或文字
用requests和bs4爬取文字或图片是会了
但是想要爬取成图文混排
所以txt是没办法了
目前能够图文混排的格式打算用world或epub
但是不知道要怎么爬取图文
用bs4只会跑出图片的连结
没有头绪了...
作者: Hsins (翔)   2019-12-25 00:59:00
能够爬取连结就能够对互联网资源进行存取,再透过相关的套件操作 word 或 epub。关键字可以自己去搜,作法有很多,实际上要混排你也可以使用 html。两年前你可以是小白,但不应该这么久过去了,还不能够自己找答案呀。
作者: junwh (What the hell)   2019-12-25 02:35:00
用Markdown如何
作者: dennisxkimo (Dennis(一上B就糟糕))   2019-12-25 09:36:00
选个可图文并茂的档案格式 爬到的内容写出入该格式markdown(.md)或html都可 爬到资料怎么使用 自由发挥载图嵌入路径 还是插连结 是看有没有离线保存需要
作者: Hsins (翔)   2019-12-25 12:40:00
就算不是同一个功能,你两年来似乎也没有为了让自己更理解这个工具去把英文念好不是吗?当你要做的功能越趋复杂(对于你而言),你没有让自己有足够的能力听懂别人要表达什么的时候,问再多都没用。
作者: kobe8112 (小B)   2019-12-25 16:54:00
world...? 是指办公室软件word吗?
楼主: s4028600 (佑)   2019-12-25 19:00:00
对 我现在才发现多一个l
作者: dennisxkimo (Dennis(一上B就糟糕))   2019-12-25 19:29:00
你能爬资料 找到 文字 与图片的连结 从来没想过可以收集起来 再自己写个程式 把收集来的 写成一个档案?看回应的code只接受现成的function套上而已这样能力会被受限 永远只能玩门口的东西
作者: s860134 (s860134)   2019-12-25 19:46:00
唉 建议学点 copy paste 外的东西
作者: vi000246 (Vi)   2019-12-26 00:27:00
拆解问题是解决问题的开始 爬到图片网址 把图载下来或是取得图片stream 再随便你要存成什么排版
作者: jiyu520 (不要鲫鱼我)   2019-12-26 14:57:00
加油

Links booklink

Contact Us: admin [ a t ] ucptt.com