【学习交流】python简易爬虫入门- 第4 页- 技术交流与词典编修 ...

相关文章推荐

急躁的自行车 · 深入解读：Scikit-learn、Pyth ...· 1 月前 ·

追风的花生 · 【学习交流】python简易爬虫入门- ...· 1 月前 ·

不拘小节的牛腩 · 欢迎访问PinPong ...· 1 月前 ·

谦和的打火机 · 2023“相约青州乐享隆冬”冬游记开始啦~· 5 月前 ·

越狱的鼠标 · 使用Adobe Experience ...· 5 月前 ·

年轻有为的热带鱼 · 周六航影丨《博物馆奇妙夜》-新闻网· 7 月前 ·

茫然的木瓜 · 中国足协（北京）青训中心召开2023年教练员 ...· 1 年前 ·

想表白的山羊 · 坐在车中拍照- 马拉内罗的法拉利博物馆- ...· 1 年前 ·

測試大量文件時報錯：9千多個html

Traceback (most recent call last):
  File "G:\2000.py", line 35, in <module>
    content = f2.read()
  File "C:\Programs\Python\Python39\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 338: invalid continuation byte
这个要复杂些，需要先提取出所有相关的 a 标签，判断那个 a 标签是否隐藏，再点击，可以参考下面代码的实现。如果还有更复杂的情况可以参考后面两个链接中的文档。
# 等待2秒，确保动态网页也可以爬取
time.sleep(2)
# 查询所有需要展开的 a 标签
elements = page.query_selector_all("a:has-text('展开阅读全文 ∨')")
# 遍历 a 标签
for elem in elements:
    # 判断 a 标签是否可见
    if elem.is_visible():
        # 点击 a 标签，展开
        elem.click()
        # 等待2秒，确保动态网页加载完
        time.sleep(2)
# 读取网页内容
content = page.content()
# 打印文本行，去除前后空格换行，响应内容长度
print('current: ', i, line, len(content))
https://playwright.dev/python/docs/selectors#text-selector

      playwright.dev
              @last_idol 請教一下：正在嘗試弄 wiktionary，想偷個懶用網頁的 .js，能不能幫忙看一眼？
主要的功能好像都在這個 .php 裏，也用到 mediawiki，可能有用的文件我都打包了
test.7z (510.5 KB)

https://en.wiktionary.org/wiki/free

推荐文章

急躁的自行车 · 深入解读：Scikit-learn、Python版本与PyTorch的区别与联系

1 月前

追风的花生 · 【学习交流】python简易爬虫入门- 第4 页- 技术交流与词典编修 ...

1 月前

不拘小节的牛腩 · 欢迎访问PinPong Python库教程文档! — pinpong 0.1 文档

1 月前

谦和的打火机 · 2023“相约青州乐享隆冬”冬游记开始啦~

5 月前

越狱的鼠标 · 使用Adobe Experience Platform Web SDK管理個人化體驗的閃爍 ...

5 月前

年轻有为的热带鱼 · 周六航影丨《博物馆奇妙夜》-新闻网

7 月前

茫然的木瓜 · 中国足协（北京）青训中心召开2023年教练员工作总结会- 北京市体育 ...

1 年前

想表白的山羊 · 坐在车中拍照- 马拉内罗的法拉利博物馆- Ferrari.com

1 年前