[问题] 解析类似html的Dataset

楼主: unimaybe (unimaybe)   2018-07-31 16:36:29
各位版友好,小弟是新手><,最近想利用python处理这类的文件
是一个sogou-QCL的一个Dataset
这是参考的网址
http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0
下图是Dataset的结构
https://i.imgur.com/M3jsivD.png
想建立一个这样的模型
简单来说就是把每一种query会搜寻到哪种document
建立成一个list,所以一个query里面会存很多document
而document后面存放五个相关度的数值
像下面这样
┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五个相关度)
│ ├ doc_id_02 ─ [TCM_value........
│ ├ doc_id_03
│ ├ doc_id_04
│ └.......
├ query_id_02 ┌.....


│.........
原本想用beautifulsopu来处理
但是因为每一个子doc标签里面有<html></html>的标签
搜寻只会在第一个document就结束了
有想过用Regular Expression来处理
可是也遇到不少障碍
因为标签类型不对,所以也不能用elementTree
想请问各位版友有没有什么建议
作者: handsomeLin (DoGLin)   2018-07-31 18:18:00
依据doc分开之后用re去找吧应该是最快的比较没效率但直接string find open tag closed tag中的index差就能找到你要存的东西
作者: InfinityGate (小鸟)   2018-07-31 23:56:00
lxml
作者: s860134 (s860134)   2018-08-01 21:36:00
他例子的资料有问题<TACM>0.499875283413</TACMM> 不对称 tag这个可能要 hardcode 清理除去这个你就直接拿 lxml.etree.XML 一爬就解

Links booklink

Contact Us: admin [ a t ] ucptt.com