【求助】用 BeautifulSoup 分析百度贴吧的页面

只看楼主
收藏
回复

钢登
白丁
1

用 BeautifulSoup 分析百度贴吧的页面，为什么只能提取前 60 多行的数据呢？
f = urllib.urlopen(url).read()
soup = BeautifulSoup(f, 'html.parser')
如上面的代码，f打印出来看了是完整的页面，有几百行，但是把soup打印出来只有60多行。爬取其他网页的数据整成，就是爬百度贴吧的帖子会出现这种情况，是什么原因呢？

san11030
童生
2

我之前碰到过一次,你试一试lxml 去解析
soup = BeautifulSoup(f, 'lxml')
记得 pip install lxml

电离的Tesla
探花
10

原因是百度的html有错

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧页面意见反馈
违规贴吧举报反馈通道
贴吧违规信息处理公示

4回复贴，共1页

<<返回python吧

分享到:

日	一	二	三	四	五	六