""" Script Name: Description: 获取 javdb 数据, prompt: 我们需要访问 https://javdb.com/search?f=all&page={p}&q={str} 这个地址,并返回数据,以下是需求详细描述: q 参数,我们有一个数组,分别是 qlist = ['MKBD', 'LAFBD', 'S2MBD', 'SKYHD', 'SMBD', 'CWPBD', 'DRGBD', 'DSAMBD'] p 参数,是要访问的页码,它通常从1开始。 我们循环遍历 qlist,对每一个值,从 p=1 开始,组成一个访问的 URL, 获取该 URL 的内容,它是一个页面; 对页面内容,循环读取每一行,进行查找: 如果能匹配
SHIIKU-001 性奴●飼育マニュアル THE MOVIE
这个格式,那么我们把其中标签修饰的两段文本找出来,分别记为 str1 和str2,然后输出 str1__str2 这样的格式;如果格式不匹配,则不输出; 如果匹配
这个格式,那么读取它的下一行,去掉空格与tab符号之后,会剩下一个日期字符串,把这个字符串记为 pubdate; 我们会得到 str1__pubdate__str2 这样的文本,把它保存到一个变量 res 中; 继续遍历页面,如果找到匹配 格式的一行,说明还有下一页,把其中的 page=5 的数字提取出来,修改上面的 URL,填入新的 p值,继续访问;如果无法匹配,那就代表着结束,我们把 res 输出到一个文件中,它命名为 {q}_all.txt 请你理解上述需求,并写出对应的python代码。 Author: [Your Name] Created Date: YYYY-MM-DD Last Modified: YYYY-MM-DD Version: 1.0 Modification History: - YYYY-MM-DD [Your Name]: - YYYY-MM-DD [Your Name]: - YYYY-MM-DD [Your Name]: """ import requests #from bs4 import BeautifulSoup import re import time # 参数定义 qlist = ['MKBD', 'LAFBD', 'S2MBD', 'SKYHD', 'SMBD', 'CWPBD', 'DRGBD', 'DSAMBD'] base_url = "https://javdb.com/search?f=all&page={}&q={}" # 临时跑数据 qlist = ['SMBD', 'CWPBD', 'DRGBD', 'DSAMBD'] # 正则表达式匹配模式 title_pattern = r'
(.*?)\s*(.*?)
' meta_pattern = r'
' next_page_pattern = r'