[请益] 撷取网页内容时，想把不要的内容排除 poeta PTT批踢踢实业坊

[请益] 撷取网页内容时，想把不要的内容排除

楼主: poeta (键盘诗人) 2015-10-19 16:52:13

我现在要做一个事情，是分析歌词里常出现的词句。
当然首先就要先收集大量的歌词，我就去常见的歌词网来
找，他们的歌词都有写在网页的meta里，像这样
<meta name="description" content="八卦黄安作曲八卦八卦我牵挂" />
所以很容易用 get_meta_tags就可以截取出来，我撷取出
来以后，先把每一句歌词后面的空白变成 ，然后每遇
到一个 ，就把它放入阵列里面。这样echo阵列，就会
印出每一句歌词。
但是印出阵列时，我发现除了歌词之外，还会撷取到
词曲作者的资讯，这不是我需要的，大概会变成这样：
作词：黄安 
演场：白安 
/ 
李庆安 
导演：李安 
八卦八卦我牵挂 
找不到你爸爸 
找不到你妈妈 
找不到你全家 
我目前遇到的两个问题是，有两个演唱人时，原本他是用
/ 和空白区隔，都被我的 处理到了。另一个问题就是
上面提到的，作曲人资讯我完全不需要，有什么办法可以
把那些资讯剃除掉呢？
目前想到的方法是，把导演、作词、作曲等等所有的
资讯都收集起来，做一个判断式，遇到了就不输出。可是
这就面临前一段指出的，双演唱人误判的问题。而不先处
理空白变成 ，把歌词分段输入阵列，就不能做判断，
所以就卡关了。

作者: rockmanalpha (KIN) 2015-10-19 17:06:00

直接撷取网页中的会不会比较好因为显示在网页的都有换行我意思是从<body></body>里面撷取而如果在meta里面抓用正则来处理比较好

作者: kuoll (kuoll) 2015-10-19 23:18:00

substr截取前两个字如果==作词or作曲or编曲那一项就不要echo就好了至于/的问题你先把" / "取代成"/" 再把空格换成 会不会比较容易一点？

楼主: poeta (键盘诗人) 2015-10-20 02:56:00

对对，一时没想到，谢谢两位。

作者: Peruheru (还在想) 2015-10-20 09:30:00

作词作曲编曲原作翻唱客串如果有歌词真的是"编曲"开头就挂了，建议用编曲：

继续阅读

[请益] php取得特定目录里的问题terrybob [请益] 网站透过google sign取得email地址jians Re: [请益] 执行exe问题poi987poi987 Re: [分享] 尚未定义名称的ci扩充功能tkdmaf [请益] 如何有效的删cookie！？删除的疑问ahoo122002 [请益] html调用外部后台phpphpjson [请益] 请问 DOCUMENT_ROOT 默认是在哪个位置?hchs1101 [请益] 执行exe问题Nexus5566 [情报] PHP 也有 Day #20rickysu [请益] 网页上email转寄功能lk2986706we