使用QQAP或WXAP进行头条新闻地址采集
1.找个要采集的网页地址
随意找了个新闻网站:www.01-123.com
2.在网页页面右键或者工具栏选择查看源代码
3.在源代码里找到要截取的信息内容
4.截取需要的新闻连接与新闻标题
通过查看源代码或者我需要的新闻连接代码为:
<a href =’/go.php?http://www.xinhuanet.com/politics/leaders/2019-04/08/c_1124340702.htm‘>党和国家领导人参加首都义务植树活动</a></div>
这里我需要取出连接和标题及 <a href =’/go.php? 与</a></div>之间的内容
可以使用正则截取<a href =’/go.php?{{内容}}</a>
5.根据获取到的信息新建交互查询表单
如图:
6.我们来测试下效果
测试发现显示的会把‘> 也会出现,而且不够整洁
7.对结果进行替换
把http前面的?替换掉,把’>替换掉,并且把标题换行
替换说明: ‘>+\n 表示把 ‘> 替换成 \n (\n表示换行)
?http+http 表示把 ?http替换成 http
其中的|为多个替换分割符号
好了最终看下效果