博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
实例演示php采集新浪sina首页的新闻
阅读量:6545 次
发布时间:2019-06-24

本文共 768 字,大约阅读时间需要 2 分钟。

  hot3.png

今天我来实例演示一下用php怎样抓取sina首页的新闻。 博客文章已经全部迁到了,欢迎访问! 先贴上我的效果图: 在此输入图片描述

如上图:显示的是新浪sina首页的新闻|财经模块。

下面介绍我的实现过程。

用到的函数主要有file_get_contents,preg_match等。

过程也非常简单。

$file=file_get_contents('http://www.sina.com.cn/');preg_match('/([\s\S]*)<\/head>/',$file,$head);print_r($head[0]);echo '
';preg_match('/
([\s\S]*)
<\/span>/',$file,$body);print_r($body[1]);echo '';echo '
';

看到没有,就是简单的几步,就实现了效果。如果对样式有不满意的地方,可以再自行修改。


总结:


博客文章已经全部迁到了,欢迎访问!

1:我们使用preg_match正则匹配要抓取模块的div,然后再输出就行了。


2:这个例子比较简单,当遇到稍微复杂一点的需求的时候,告诉大家一个调式的好办法。


比如说上面的例子当中你想要看看head部分究竟输出的是什么,可以使用htmlspecialchars函数,来防止转义:htmlspecialchars($head[0]), 这样输出的就是正则匹配的head部分的代码,方便你的查看和调式。

博客文章已经全部迁到了,欢迎访问!

转载于:https://my.oschina.net/justdo/blog/95414

你可能感兴趣的文章
我们评测了几百款机器人产品 发现五个问题看到无数机会
查看>>
浅析若干Java序列化工具
查看>>
Java-类库-Guava-EventBus
查看>>
Mysql group replication复制原理
查看>>
WinSCP和PuTTY的搭配与使用--转载
查看>>
vc.net2003下安装和使用blitz++详细指南
查看>>
我理解的“前端架构”(来自2014年)
查看>>
解读中国首个LTE IoT多模外场测试:产业链协作化解长尾碎片化难题
查看>>
《Java核心技术 卷Ⅱ 高级特性(原书第10版)》一2.1.2 完整的流家族
查看>>
LSTM的“前生今世”
查看>>
达沃斯论坛为何圈地宽 源为全球问题融资平台
查看>>
IBM推动OpenStack项目互操作性升级
查看>>
随视传媒助力传统企业谋“变”
查看>>
为什么没人比程序员更讨厌软件
查看>>
降低人工智能成本50%阿里云推出新一代异构实例GN5i
查看>>
Check Point为端点设备提供零日保护 SandBlast Agent确保端点安全并加速安全响应
查看>>
锐捷把云办公理念运用到政企工作效率上去
查看>>
50多亿条个人信息泄露,背后竟有“内鬼”作祟
查看>>
为电子书包而生 华三发布三叉戟无线AP
查看>>
灵动高效 简化运营
查看>>