V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Apol1oBelvedere
V2EX  ›  问与答

如何快速下载网页上 PDF 并自动按照超链接展示文字进行重命名? PDF 的 URL 文件名是 md5 字符串。

  •  
  •   Apol1oBelvedere · 24 天前 · 365 次点击

    如何快速下载网页上几十个 PDF 并自动按照超链接展示文字进行重命名? PDF 的 URL 文件名是 md5 字符串。

    • 举例:网页超链接是“xxx 说明书”,链接里的 PDF 文件名是 1246541321657.pdf 。
    • 需求:通过某个扩展或脚本,快速下载网页内所有 PDF 文件,并可读化重命名。
    3 条回复    2024-06-03 14:22:37 +08:00
    googlefans
        1
    googlefans  
       24 天前
    用 Python 结合 requests 和 BeautifulSoup 库
    kiracyan
        2
    kiracyan  
       24 天前
    直接爬虫解析了在代码里下载保存被
    Apol1oBelvedere
        3
    Apol1oBelvedere  
    OP
       23 天前
    @googlefans 谢谢,调试通过可用的代码:

    ```
    # 原先安装 pip install requests beautifulsoup4

    import os
    import requests
    from bs4 import BeautifulSoup
    from urllib.parse import urljoin

    # 提示用户输入要抓取的网页 URL
    url = input('请输入要抓取的网页 URL: ')

    # 创建一个目录来保存下载的 PDF 文件
    download_dir = 'pdf_downloads'
    os.makedirs(download_dir, exist_ok=True)

    # 获取网页内容,并显式指定编码为 UTF-8
    response = requests.get(url)
    response.encoding = 'utf-8'
    response.raise_for_status()

    # 解析网页内容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 查找所有的 PDF 链接
    pdf_links = soup.find_all('a', href=True)

    for link in pdf_links:
    href = link['href']
    if href.lower().endswith('.pdf'):
    # 获取超链接文本作为文件名
    file_name = link.get_text(strip=True) + '.pdf'
    # 处理文件名中的非法字符
    file_name = "".join(x for x in file_name if x.isalnum() or x in " ._-")

    # 拼接完整的下载 URL
    download_url = urljoin(url, href)

    # 下载 PDF 文件
    pdf_response = requests.get(download_url)
    pdf_response.raise_for_status()

    # 保存文件
    file_path = os.path.join(download_dir, file_name)
    with open(file_path, 'wb') as f:
    f.write(pdf_response.content)

    # 打印下载信息,确保控制台输出使用 UTF-8 编码
    print(f"Downloaded: {file_name}")

    print("All PDF files have been downloaded.")


    ```
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1093 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 18:55 · PVG 02:55 · LAX 11:55 · JFK 14:55
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.