resources/aabook/src/utils.py

import requests
import re
import os
import json
import time
import csv
import logging
from datetime import datetime
import config

# 从"创建时间  2025-03-08 13:57:00" 中提取时间
def extract_create_time(input_str):
    pattern = r'\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2}'
    match = re.search(pattern, input_str)
    if match:
        datetime_str = match.group(0)
        return datetime_str
    else:
        return input_str

# 从 "read-374864.html" 中获取数字编号
def extract_page_num(page_str, default_num = 0):
    # 定义正则表达式模式
    pattern = r'read-(\d+)\.html'
    # 使用 re.search 查找匹配项
    match = re.search(pattern, page_str)
    if match:
        number = match.group(1)
        return number
    else:
        return default_num

# 从 "book-5549.html" 中获取数字编号
def extract_book_num(page_str, default_num = 0):
    # 定义正则表达式模式
    pattern = r'book-(\d+)\.html'
    # 使用 re.search 查找匹配项
    match = re.search(pattern, page_str)
    if match:
        number = match.group(1)
        return number
    else:
        return default_num

# 目录页，获取更新时间和字数
def extract_chapter_uptime_words(input_str):
    # 定义正则表达式模式
    words_pattern = r'字数：(\d+)'
    words_match = re.search(words_pattern, input_str)
    words = words_match.group(1) if words_match else 0

    update_time_pattern = r'更新时间：(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})'
    update_time_match = re.search(update_time_pattern, input_str)
    update_time = update_time_match.group(1) if update_time_match else datetime.now().strftime("%Y-%m-%d %H:%M:%S")

    return words, update_time

# 处理 [都市] 的方括号
def remove_brackets_regex(input_str):
    pattern = r'\[(.*?)\]'
    match = re.match(pattern, input_str)
    if match:
        return match.group(1)
    return input_str