[询问] 试算表IMPORTXML的xpath_query用法

楼主: iltet2003 (屁毛)   2016-12-18 11:34:55
hi 大家好,
小弟目前想用google试算表自动抓取网页的某个特定字段
看起来IMPORTXML(url, xpath_query)可以符合我的需求
但卡在xpath_query这参数怎么用都不顺
举例来说
我要抓网页: https://statementdog.com/analysis/tpe/2324#2324
的最新3年平均现金股息殖利率: 6.78
下的参数是
url: https://statementdog.com/analysis/tpe/2324#2324
xpath_query: //*[@id='dataTable']/table/tbody/tr[3]/td[72]
这会导致汇入内文空白的error
说明一下上述的xpath_query是来自于:
1. 使用chrome浏览器开启该网页
2. 把6.78框起来点右键 => 按检查
3. 把反蓝的那一行语法点右键 => copy => copy xpath
4. 得到//*[@id="dataTable"]/table/tbody/tr[3]/td[72]
5. 把上述xpath中的双引号改成单引号
得到//*[@id='dataTable']/table/tbody/tr[3]/td[72]
6. 使用chrome套件xpath helper验证5.的xpath的确可以取得6.78这个值
所以看起来这个xpath是对的
想请版上高手解惑以下问题
1. 为何输入到试算表后会得到"汇入内文空白"的error?
2. 如何解决问题1?
3. 使用试算表,是否有更简易快速的作法能做到这件事?
先行谢过!
作者: bestpika (飞影‧忌子)   2016-12-19 11:20:00
因为这网页是动态网页...而且资料是 js 去捞的Google 试算表应该不会去执行 jsGoogle 那个应该只能抓 ctrl + u 看原始码有的资料
作者: Lierl (~梨儿~)   2016-12-19 19:04:00
这几天也在弄这个…你只要把‘//*[@id="dataTable"]’括号内的删除应该就可以了
楼主: iltet2003 (屁毛)   2016-12-19 20:58:00
楼上大哥,我用/table/tbody/tr[3]/td[72]也不行...
作者: Lierl (~梨儿~)   2016-12-20 09:34:00
那就只能换个网站查询了

Links booklink

Contact Us: admin [ a t ] ucptt.com