[问题] 解析类似html的Dataset unimaybe PTT批踢踢实业坊

[问题] 解析类似html的Dataset

楼主: unimaybe (unimaybe) 2018-07-31 16:36:29

各位版友好，小弟是新手><，最近想利用python处理这类的文件
是一个sogou-QCL的一个Dataset
这是参考的网址
http://www.thuir.cn/sogouqcl/?from=timeline&isappinstalled=0
下图是Dataset的结构
https://i.imgur.com/M3jsivD.png
想建立一个这样的模型
简单来说就是把每一种query会搜寻到哪种document
建立成一个list，所以一个query里面会存很多document
而document后面存放五个相关度的数值
像下面这样
┌ query_id_01 ┌ doc_id_01 ─ [TCM_value, DBN_value,...(五个相关度)
│ ├ doc_id_02 ─ [TCM_value........
│ ├ doc_id_03
│ ├ doc_id_04
│ └.......
├ query_id_02 ┌.....
│
│
│.........
原本想用beautifulsopu来处理
但是因为每一个子doc标签里面有<html></html>的标签
搜寻只会在第一个document就结束了
有想过用Regular Expression来处理
可是也遇到不少障碍
因为标签类型不对，所以也不能用elementTree
想请问各位版友有没有什么建议

作者: handsomeLin (DoGLin) 2018-07-31 18:18:00

依据doc分开之后用re去找吧应该是最快的比较没效率但直接string find open tag closed tag中的index差就能找到你要存的东西

作者: InfinityGate (小鸟) 2018-07-31 23:56:00

lxml

作者: s860134 (s860134) 2018-08-01 21:36:00

他例子的资料有问题<TACM>0.499875283413</TACMM> 不对称　tag这个可能要　hardcode 清理除去这个你就直接拿 lxml.etree.XML 一爬就解

继续阅读

[问题] 请教有无跟 vpython 功能类似的模组star07 Re: [问题] 新手请教一些音乐相关问题sma1033 [问题] flask内使用keras模组ggbast [问题] 新手请教一些音乐相关问题phoenixlife [问题] 网页爬虫juust Re: [问题] Dataframe 合并(想让资料膨胀)Raymond0710 [问题] Dataframe 合并(想让资料膨胀)a52053100 Re: [问题] 爬虫图片遇到编码问题(日文)eight0 [问题] pandas read_sql(mysql) 资料大时很慢atoo333 [问题] (已解决)爬虫图片遇到编码问题(日文)laiDark