modify scripts

2025-07-19 17:17:35 +08:00
parent 19353a830c
commit 6522970dcb
2 changed files with 178 additions and 5 deletions
--- a/scrapy_proj/scrapy_proj/db_wapper/spider_db_handler.py
+++ b/scrapy_proj/scrapy_proj/db_wapper/spider_db_handler.py
@ -3,6 +3,7 @@ import sqlite3
 import json
 import logging
 from datetime import datetime
+from typing import List, Dict
 from scrapy_proj.db_wapper.sqlite_base import SQLiteDBHandler, default_dbpath, shared_db_path
 import scrapy_proj.comm.comm_def as comm

@ -83,7 +84,7 @@ class ClmDBHandler(SQLiteDBHandler):
        if item['item_type'] == comm.ITEM_TYPE_CLM_INDEX:
            self.insert_index(item)
        elif item['item_type'] == comm.ITEM_TYPE_CLM_KEYWORDS:
-            self.insert_or_update_common(item, self.tbl_name_clm_keywords, uniq_key=None, exists_do_nothing=True)
+            self.insert_or_update_common(item, self.tbl_name_clm_keywords, uniq_key=None, exists_do_nothing=False)
        else:
            logging.error(f"unkown item.") 

@ -115,13 +116,14 @@ class ClmDBHandler(SQLiteDBHandler):
                "id": " AND id = ?",
                "words": " AND words LIKE ?",
                "groups": " AND groups LIKE ?",
+                "tags": " AND tags LIKE ?",
                "start_id": " AND id > ?",
            }

            for key, condition in conditions.items():
                if key in filters:
                    sql += condition
-                    if key == "words" or key == 'groups':
+                    if key == "words" or key == 'groups' or key == 'tags':
                        params.append(f"%{filters[key]}%")
                    else:
                        params.append(filters[key])
@ -280,6 +282,110 @@ class IAFDDBHandler(SQLiteDBHandler):
            logging.error(f"查询 href 失败: {e}")
            return None

+    # 按条件查询 href 列表 
+    def get_iafd_actors(
+        self,
+        names: List[str],
+        tbl = 'stu'
+    ) -> Dict[str, List[Dict[str, str]]]:
+        """
+        分两步查询指定发行商对应的女性演员（使用临时表减少内存占用）
+        
+        步骤1：筛选目标发行商及其关联的影片，存入临时表（小集合）
+        步骤2：用临时表的影片ID关联演员表，获取女性演员信息
+        """
+        tbl_name = 'iafd_studios' if tbl.lower() == 'stu' else 'iafd_distributors'
+        join_key = 'studio_id' if tbl.lower() == 'stu' else 'distributor_id'
+        if not names:
+            return {}
+
+        # 结果容器
+        final_result: Dict[str, List[Dict[str, str]]] = {}
+
+        try:
+            # --------------------------
+            # 步骤1：创建临时表，存储目标发行商及其关联的影片
+            # --------------------------
+            # 先删除可能残留的临时表（避免冲突）
+            self.cursor.execute("DROP TABLE IF EXISTS temp_distributor_movies")
+            # 创建临时表（只在当前连接可见，连接关闭后自动删除）
+            self.cursor.execute("""
+                CREATE TEMPORARY TABLE temp_distributor_movies (
+                    distributor_id INTEGER,
+                    distributor_name TEXT,
+                    movie_id INTEGER,
+                    PRIMARY KEY (distributor_id, movie_id)  
+                )
+            """)
+
+            # 批量插入目标发行商及其关联的影片（小集合）
+            # 先筛选发行商，再关联影片，结果插入临时表
+            insert_sql = """
+                INSERT INTO temp_distributor_movies (distributor_id, distributor_name, movie_id)
+                SELECT 
+                    d.id AS distributor_id,
+                    d.name AS distributor_name,
+                    m.id AS movie_id
+                FROM 
+                    {tbl_name} d
+                INNER JOIN 
+                    iafd_movies m ON d.id = m.{join_key}
+                WHERE 
+                    d.name IN ({placeholders})
+            """.format(
+                tbl_name=tbl_name,
+                join_key=join_key, 
+                placeholders=', '.join(['?'] * len(names))
+            )
+
+            logging.info(f'{insert_sql}')
+
+            self.cursor.execute(insert_sql, names)
+            self.conn.commit()  # 提交临时表数据
+
+            # --------------------------
+            # 步骤2：用临时表关联演员信息（仅处理小集合）
+            # --------------------------
+            query_sql = """
+                SELECT 
+                    t.distributor_name,
+                    p.name AS performer_name,
+                    p.href AS performer_href
+                FROM 
+                    temp_distributor_movies t
+                INNER JOIN 
+                    iafd_performers_movies pm ON t.movie_id = pm.movie_id
+                INNER JOIN 
+                    iafd_performers p ON pm.performer_id = p.id
+                WHERE 
+                    p.gender = 'Woman'  
+                ORDER BY 
+                    t.distributor_name, p.name
+            """
+
+            self.cursor.execute(query_sql)
+            rows = self.cursor.fetchall()
+
+            # 整理结果：按发行商分组
+            for row in rows:
+                dist_name = row['distributor_name']
+                performer = {
+                    'name': row['performer_name'],
+                    'href': row['performer_href']
+                }
+                if dist_name not in final_result:
+                    final_result[dist_name] = []
+                final_result[dist_name].append(performer)
+
+            # 主动清理临时表（可选，连接关闭后会自动删除）
+            self.cursor.execute("DROP TABLE IF EXISTS temp_distributor_movies")
+
+        except sqlite3.Error as e:
+            print(f"查询失败：{e}")
+            return {}
+
+        return final_result
+

@register_handler(comm.SPIDER_NAME_PBOX)
 class PboxDBHandler(SQLiteDBHandler):
--- a/scrapy_proj/scrapy_proj/spiders/clm_spider.py
+++ b/scrapy_proj/scrapy_proj/spiders/clm_spider.py
@ -50,9 +50,16 @@ class ClmSpider(BaseSpider):

        self.keywords = keywords
        self.min_size = float(min_size) if min_size else 1.0
+        self.run_task = True

-        #self.initDB()
+        # 增加一个暗号
+        if keywords and keywords.lower() == 'reload' :
+            self.initDB()
+            self.init_load_actors_from_others()
+            self.run_task = False
+            self.logger.info(f"reload keywords db succ!")

+    # 指定的关键词，导入到数据库
    def initDB(self):
        for row in default_keywords:
            for group, items in row.items():
@ -63,15 +70,75 @@ class ClmSpider(BaseSpider):
                    words_item['groups'] = group
                    words_item['tags'] = ''
                    words_item['index_count'] = 0
-                    db_tools.insert_item(words_item)
+                    db_clm.insert_item(words_item)
                    self.logger.debug(f"insert item: {item}: {group}")

+    # 从其他数据源获取到演员列表，导入到数据库
+    def init_load_actors_from_others(self):
+        all_likes = {
+            'vixen' : ['vixen.com', 'Vixen Video'],
+            'tushy' : ['tushy.com', 'tushyraw.com', 'Tushy', 'Tushy Raw'],
+            'blacked' : ['blacked.com', 'Blacked', 'blackedraw.com', 'Blacked Raw'],
+            'x-art' : ['x-art.com', 'X-art'],
+            'nfbusty' : ['nfbusty.com']
+        }
+        # 先转换个格式
+        all_key_group = {}
+        all_keys = []
+        for group, keys in all_likes.items():
+            for key in keys:
+                all_key_group[key] = group
+                all_keys.append(key)
+        
+        # 查询数据库，并转换数据
+        actor_tags = {}
+        total_lines = 0
+        results = db_comm.get_iafd_actors(names=all_keys, tbl='stu')
+        for dist, actors in results.items():
+            self.logger.info(f"dist: {dist}, actors count: {len(actors)}")
+            total_lines += len(actors)
+            for actor in actors :
+                #self.logger.debug(f"get {dist} : {actor['name']}, {actor['href']}")
+                actor_name = actor['name']
+                current_tag = all_key_group.get(dist, '')
+                if actor_name not in actor_tags:
+                    actor_tags[actor_name] = set()  # 用set自动去重
+                if current_tag:
+                    actor_tags[actor_name].add(current_tag)  # set的add方法，重复值会自动忽略
+        self.logger.info(f"total actors in iafd: {len(actor_tags)}, total lines: {total_lines}")
+
+        # 查询另一个数据表，获取结果
+        load_results = db_comm.get_lord_actors()
+        if load_results:
+            self.logger.info(f"total actors in lord: {len(load_results)}")
+            for row in load_results:
+                actor_name = row['name']
+                if actor_name not in actor_tags:
+                    actor_tags[actor_name] = set()  # 用set自动去重
+                actor_tags[actor_name].add('thelordofporn')  # set的add方法，重复值会自动忽略
+
+        self.logger.info(f"after merge, total actors: {len(actor_tags)}")
+        for actor, tags_set in actor_tags.items():
+            tag_str = ','.join(tags_set)  # set直接支持迭代，无需额外转换
+            self.logger.info(f"actor: {actor}, tags: {tag_str}")
+            words_item = ClmKeyWordsItem()
+            words_item['item_type'] = ITEM_TYPE_CLM_KEYWORDS
+            words_item['words'] = actor
+            words_item['groups'] = 'actress'
+            words_item['tags'] = tag_str
+            words_item['index_count'] = 0
+            db_clm.insert_item(words_item)
+            #self.logger.debug(f"insert item: {words_item}")
+
    # 入口函数，由基类的方法触发
    def custom_start_requests(self):
+        if not self.run_task:
+            return 
+
        if self.debug:
            keywords = db_clm.get_key_words(limit =5)
        else:
-            keywords = db_clm.get_key_words()
+            keywords = db_clm.get_key_words(groups='actress', tags='vixen')
        
        for item in keywords:
            words_id = item['id']