前天开始研究RexExp,这东西令人恼羞.做了两天以后才弄好想要的东西
所以在此分享给大家.语法为C#
说明:html是用HttpWebRequest抓出来的网页资料,
目标是抓出<dt>...</dt>里面的资料
string pattern = @"<dt[^>]*?>(?<word>.*?)</dt>";
Regex regex = new Regex(pattern, RegexOptions.IgnoreCase);
MatchCollection matches = regex.Matches(html);
int index = 0;
foreach (Match match in matches)
{
GroupCollection groups = match.Groups;
string x = groups["word"].Value.Trim();
if (x != "") //因为抓到不明空白,所以在此解决
Response.Write( x + "<BR>");
要条列序号的话就把++index加入上行
}
输出资料
1: absolute bolometric magnitude 绝对热星等
2: absolute zero 绝对零度,绝对零点
3: acceleration 加速度
4: acceleration of gravity 重力加速度
5: accretion 吸积
6: Achernar 水委一
7: achondrites 无球粒陨石
8: achromatic lens 消色差透镜
9: albedo 反照率
10: Alcaid 摇光
11: Alcor 辅、开阳伴星
12: Alcyone 昂宿六
Html原始码(节录)
<dt><b>absolute zero 绝对零度,绝对零点 </b></dt>