[问题] 爬虫表格的问题

楼主: ptoyhawinf (沉睡的毛利小五郎)   2017-08-05 02:37:53
各位前辈好
小弟最近试着爬一些设备端的网页,想取得设备目前运作状态
(snmp竟然没办法取得我想要的资讯)
试着用bs及pyquery来实作
但在table这卡关,希望有经验的前辈可以解惑一下
html如下
<table>
<thead>
<tr>
<th>
字段1</th>
<th>
字段2</th>
<th>字段3</th>
<th>字段4</th>
<th>字段5</th>
<th>
字段6</th>
</tr>
</thead>
<tbody>
<tr>
<td rowspan="2">
AB</td>
<th>a0</th>
<td class="bold green_border">a1<br></td>
<td class="grey">a2</td>
<td class="grey">a3</td>
<td rowspan="2">ab4</td>
</tr>
<tr>
<th>b0<br></th>
<td class="bold">b1</td>
<td class="grey">b2<br></td>
<td class="grey">b3</td>
</tr>
<tr>
<td rowspan="2">
CD</td>
<th>c0</th>
<td class="bold">c1</td>
<td class="grey">c2</td>
<td class="grey">c3</td>
<td rowspan="2">cd4</td>
</tr>
<tr>
<th>d0<br></th>
<td class="bold green_border">d1</td>
<td class="grey">d2</td>
<td class="grey">d3</td>
</tr>
</tbody>
</table>
大致上,是要取得class = green_border的值,但也要取得它前后的一些字段
但因为有的td rowspan =2,所以不管是直接filter green_border,再往前后取得值
或是取得tr后,再find,好像都拿不到rowspan的值
比如我要找的值是d1(字段3),但我要怎么拿到CD(字段1)或cd4(字段6)的值呢?
麻烦有经验的前辈指导一下,谢谢你们了。
作者: hoho8 (hoho)   2017-08-05 03:53:00
假设格式永不改变,硬拆的话 http://imgur.com/aHSbGZr.png
楼主: ptoyhawinf (沉睡的毛利小五郎)   2017-08-05 04:14:00
谢hoho8大的回应,但green_border的所在td会随着设备状况改变而改变。所以我需要select .green_border后,再抓前后对映的td[rowspan="2"]的值,应该不能用硬拆的?
作者: hoho8 (hoho)   2017-08-05 06:15:00
所以绿灯会在 a0~d3 这4x4空间中亮起一个http://i.imgur.com/adj0tEv.png亮b2,就取b2 AB ab4......亮c1就取 c1 CD cb4,这样?cb4 →cd4
作者: ntumath (math mad)   2017-08-05 07:24:00
http://imgur.com/uN9jRnW.png 你要的是这样的吗?这取决于表格的相对位置,顺便附上code,可以看你怎么改https://goo.gl/F5o3EN
作者: s860134 (s860134)   2017-08-05 18:19:00
xpath 可以用 .. 取得上一层,这是你要的吗?
楼主: ptoyhawinf (沉睡的毛利小五郎)   2017-08-06 02:50:00
谢谢ntumath的指导,原来是要用previous_siblings解决

Links booklink

Contact Us: admin [ a t ] ucptt.com