楼主:
unimaybe (unimaybe)
2018-07-31 16:36:29各位版友好,小弟是新手><,最近想利用python处理这类的文件
是一个sogou-QCL的一个Dataset
这是参考的网址
http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0
下图是Dataset的结构
https://i.imgur.com/M3jsivD.png
想建立一个这样的模型
简单来说就是把每一种query会搜寻到哪种document
建立成一个list,所以一个query里面会存很多document
而document后面存放五个相关度的数值
像下面这样
┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五个相关度)
│ ├ doc_id_02 ─ [TCM_value........
│ ├ doc_id_03
│ ├ doc_id_04
│ └.......
├ query_id_02 ┌.....
│
│
│.........
原本想用beautifulsopu来处理
但是因为每一个子doc标签里面有<html></html>的标签
搜寻只会在第一个document就结束了
有想过用Regular Expression来处理
可是也遇到不少障碍
因为标签类型不对,所以也不能用elementTree
想请问各位版友有没有什么建议