[询问] IMPORTXML&HTML 限制问题 neil0123 PTT批踢踢实业坊

[询问] IMPORTXML&HTML 限制问题

楼主: neil0123 (wow) 2021-08-02 02:22:31

Hi ALL
小弟最近想做个资料分析，想抓一些yahoo 上的新闻回来分析
目前想用这个网址 https://tw.news.yahoo.com/world
所以有几个问题，想请问
1. importxml 好像有网址长度的限制, 有什方式可解决?
系统说：指定网址内容的资源超出大小上限。
https://imgur.com/QpjwYsD
2. importxml or importhtml 有什办法可取得资料时又同时取得网址?
又或者有什其它参数or 工具可取得?
https://imgur.com/ynz7L5x
3. importhtml 会只抓第一页资料，有什方式可以让它也会向下滚动，
可以去抓第二页以上的资料?
像是https://tw.news.yahoo.com/world，他默认只能显示一页资料，可
必需要侦测到下滚的动作，才会显示第二页的资料。
4. importxml or importhtml抓的资料，会同一格去显示多行的资料，有什
指令可以让他切成多行?
请多指教，谢谢。

作者: microloft (微阁) 2021-08-02 09:08:00

1. 超出大小的是网页内容，不是网址2. 用 XPath 自行筛选出超连结的 href 属性3. 这种动态加载的网页，要去找背后 XHR 的网址跟参数然后再用该网址跟参数去抓资料

作者: PsMonkey (痞子军团团长) 2021-08-02 20:06:00

考虑用传统程式语言的方式去解决吧，不然 AppSheet 也好ㄟ等等，不是 AppSheet，我是说指令码编辑器..

楼主: neil0123 (wow) 2021-08-02 23:34:00

感谢两位，偶会把他写成AppScript，只是XHR还找不到范例还不清楚要怎看XHR的网址跟参数

作者: PsMonkey (痞子军团团长) 2021-08-03 05:45:00

最直接的方式就是用 Chrome DevTool 看 network最保险的方式是从上面的方式再去追 source code 怎么写但是有很高的机率不是你想像的那样，除非 importXXX不是我想像的那样 XDDDD（谜之声：哪样？）

继续阅读

[询问] google one 可以一个帐号买200G+100G吗k04121226 [询问] 数位行销证照如何改名?sjerrysss [询问] 已图搜图没显示尺寸大小了minyann [ GC ] 回前个版本?koheik2 [询问] 将别人与我共用的档案传到自己的云端hellotoast [询问] 如何调整Google Map在中国地图的偏移PeterChen [询问] 如何知道自己的Google帐号用在哪里pikapi1012 [询问] youtube品牌帐户没有办法汇出waakye [询问] 我们侦测到您尝试存取的帐户有异常活动zt3344 Re: [Tube] YT算法有办法自己控制吗?tbpfs