modify scripts

2025-03-23 10:25:25 +08:00
parent 37b82e5e5c
commit 5f835443e8
1 changed files with 4 additions and 0 deletions
--- a/aabook/src/scraper.py
+++ b/aabook/src/scraper.py
@ -292,6 +292,10 @@ def parse_content_page(soup, url):
                cleaned_text = process_paragraph(paragraph)
                content.append(cleaned_text)

+    # 某些页面只有<br>标签，soup.stripped_strings：返回去除空白后的所有文本节点。
+    if len(content) == 0:
+        content = [block.strip() for block in soup.stripped_strings if block.strip()]
+
    return content

 # 通用的 HTML 结构验证器