DC学院数据分析学习笔记(三):基于HTML的网页爬虫

  • 时间:
  • 浏览:0
  • 来源:5分3D官方_极速5分排列5

发现上面打印出来的前面主次很完美,然后上面却多了js的代码,那好,为什么我加带呢?

如图:

“html_doc”表示你这些文档名称,在上面的代码中由于定义,“html_parser”是解析网页所需的解析器,一点一点使用BeautifulSoup解析HTML文档的一般格式为soup=BeautifulSoup(网页名称,'html.parser')

重新打印一下整个的div

小技巧:都都都可以 使用浏览其中的开发者工具查看代码

从上面的HTML代码来看,让让我们发现让让我们时要的信息分别对应另五个 classperiod-name,short-desc,temp

BeautifulSoup 解析网页的一点基本操作

使用BeautifulSoup解析HTML文档示例

DC学院中提供的示例时旧金山天气页面地址:

http://forecast.weather.gov/MapClick.php?lat=37.774927735000046&lon=-122.41941932299972#.WUnSFhN95E4

但一点一点让让我们一点一点太好提取,通过prettify美化一下,再看看为什么我提取让让我们时要的信息

终于都都都可以 用python实践一下html的爬虫了,一点一点零散的也学过一点,这次希望能通过在DC学院的学习慢慢深入的了解爬虫的理论知识。

OK,来看今天的数据分析学习笔记!

完整代码:

用 soup.prettify 打印网页

让让我们发现在上面的代码最上面,一点一点多余的js代码是在最外层的div里面的,也一点一点在div class="panel-body" id="seven-day-forecast-body"你这些上面的,而div id="seven-day-forecast-container"之中并越来越含高让让我们不时要的你这些段js代码。那就好办了:把id="seven-day-forecast-body"改为id="seven-day-forecast-container"

希望能有所收获( ̄︶ ̄)↗ 

一点一点看着就舒服多了,好了,js代码终于越来越了,执行一下一点一点的操作看看