[询问] IMPORTXML&HTML 限制问题

楼主: neil0123 (wow)   2021-08-02 02:22:31
Hi ALL
小弟最近想做个资料分析,想抓一些yahoo 上的新闻回来分析
目前想用这个网址 https://tw.news.yahoo.com/world
所以有几个问题,想请问
1. importxml 好像有网址长度的限制, 有什方式可解决?
系统说:指定网址内容的资源超出大小上限。
https://imgur.com/QpjwYsD
2. importxml or importhtml 有什办法可取得资料时又同时取得网址?
又或者有什其它参数or 工具可取得?
https://imgur.com/ynz7L5x
3. importhtml 会只抓第一页资料,有什方式可以让它也会向下滚动,
可以去抓第二页以上的资料?
像是https://tw.news.yahoo.com/world,他默认只能显示一页资料,可
必需要侦测到下滚的动作,才会显示第二页的资料。
4. importxml or importhtml抓的资料,会同一格去显示多行的资料,有什
指令可以让他切成多行?
请多指教,谢谢。
作者: microloft (微阁)   2021-08-02 09:08:00
1. 超出大小的是网页内容,不是网址2. 用 XPath 自行筛选出超连结的 href 属性3. 这种动态加载的网页,要去找背后 XHR 的网址跟参数然后再用该网址跟参数去抓资料
作者: PsMonkey (痞子军团团长)   2021-08-02 20:06:00
考虑用传统程式语言的方式去解决吧,不然 AppSheet 也好ㄟ等等,不是 AppSheet,我是说指令码编辑器..
楼主: neil0123 (wow)   2021-08-02 23:34:00
感谢两位,偶会把他写成AppScript,只是XHR还找不到范例还不清楚要怎看XHR的网址跟参数
作者: PsMonkey (痞子军团团长)   2021-08-03 05:45:00
最直接的方式就是用 Chrome DevTool 看 network最保险的方式是从上面的方式再去追 source code 怎么写但是有很高的机率不是你想像的那样,除非 importXXX不是我想像的那样 XDDDD(谜之声:哪样?)

Links booklink

Contact Us: admin [ a t ] ucptt.com