diff --git a/research/pdf_downloader/translate-news.py b/research/pdf_downloader/translate-news.py index 6651183..af3eb62 100644 --- a/research/pdf_downloader/translate-news.py +++ b/research/pdf_downloader/translate-news.py @@ -21,14 +21,11 @@ DB_CONFIG = { TRANSLATE_API_URL = "http://47.113.231.200:28081/translate" # 指定时间(格式:YYYY-MM-DD HH:MM:SS) -LOADTIME_AFTER = "2026-01-16 10:40:00" +LOADTIME_AFTER = "2026-02-10 11:59:00" # 目标站点列表 TARGET_SRCNAMES = [ - 'http://www.rodong.rep.kp/ko/index.php?MUBAMUAxQA==', - 'http://www.kcna.kp/kp/category/articles/q/5394b80bdae203fadef02522cfb578c0.kcmsf', - 'https://energynow.com/category/press_releases/', - 'https://www.fao.org/newsroom/en' # 添加你的站点 + 'https://www.38north.org/' # 添加你的站点 ] # 单次请求间隔(秒),避免 API 被限流 @@ -104,7 +101,7 @@ def translate_content_with_paragraphs(content: str) -> str: def update_record(cursor, es_sid: int, new_title: str, new_content: str): update_query = """ UPDATE indeximos - SET es_title = % s, es_content = % s + SET es_abstract = % s, es_content = % s WHERE es_sid = % s """ cursor.execute(update_query, (new_title, new_content, es_sid)) @@ -122,8 +119,8 @@ def main(): SELECT es_sid, es_urltitle, es_urlcontent FROM indeximos WHERE es_loadtime > %s - AND (es_title IS NULL OR TRIM(es_title) = '') - AND es_srcname IN ({placeholders}) + AND (es_content IS NULL OR TRIM(es_content) = '') +-- AND es_srcname IN ({placeholders}) AND LENGTH(es_video) > 5 """ params = [LOADTIME_AFTER] + TARGET_SRCNAMES diff --git a/spiders/MediaSpiders/MediaSpiders/scrapy_selenium/middlewares.py b/spiders/MediaSpiders/MediaSpiders/scrapy_selenium/middlewares.py index a6db10b..bc3b37d 100644 --- a/spiders/MediaSpiders/MediaSpiders/scrapy_selenium/middlewares.py +++ b/spiders/MediaSpiders/MediaSpiders/scrapy_selenium/middlewares.py @@ -76,7 +76,7 @@ class SeleniumMiddleware: } edge_options.add_experimental_option("prefs", prefs) - self.driver = Edge(executable_path="C:/Users/DELL/Downloads/edgedriver_win64/msedgedriver.exe", options=edge_options) + self.driver = Edge(executable_path=r"C:\Program Files\Python38\msedgedriver.exe", options=edge_options) @classmethod def from_crawler(cls, crawler): diff --git a/spiders/WebsiteSpider/WebsiteSpider/utils/date_utils.py b/spiders/WebsiteSpider/WebsiteSpider/utils/date_utils.py index c213da3..c0c646b 100644 --- a/spiders/WebsiteSpider/WebsiteSpider/utils/date_utils.py +++ b/spiders/WebsiteSpider/WebsiteSpider/utils/date_utils.py @@ -137,7 +137,7 @@ def get_format_time(pattern, time_str): if __name__ == '__main__': # a = [' 令和4年6月9日', 'www.kcna.kp (主体111.6.6.)', '民國111年06月09日 ', 'Jun. 9, 2022', '111年 06月 21日'] - a = ['2026년 1월 6일 화요일 1면 [사진있음]'] + a = ['Wed, 12/03/2025 - 12:00'] for _ in a: - # print(get_time_stamp(_)) - print(get_time_stamp(_, {r"(\d{4}년 \d{1,2}월 \d{1,2}일)\D*(\d{2}:\d{2}:\d{2})*\D*": ['%Y-%m-%d %H:%M:%S']})) + print(get_time_stamp(_)) + # print(get_time_stamp(_, {r"(\d{2}.\d{2}.\d{4})\D*(\d{2}\d{2}\d{2})*\D*": ['%d-%m-%Y %H:%M:%S']})) diff --git a/spiders/WebsiteSpider/WebsiteSpider/utils/traslate_utils.py b/spiders/WebsiteSpider/WebsiteSpider/utils/traslate_utils.py index 11cb332..042df1e 100644 --- a/spiders/WebsiteSpider/WebsiteSpider/utils/traslate_utils.py +++ b/spiders/WebsiteSpider/WebsiteSpider/utils/traslate_utils.py @@ -73,3 +73,6 @@ def update_record(cursor, es_sid: int, new_title: str, new_content: str): WHERE es_sid = % s """ cursor.execute(update_query, (new_title, new_content, es_sid)) + +if __name__ == "__main__": + print(translate_content_with_paragraphs("ВСУ провалили наступление на Сумском и Харьковском направлениях, сообщили РИА Новости в силовых структурах. В результате слаженных действий российских бойцов контратаки отражены, а противник обращен в бегство. Введенные ЕС ограничения на передвижения российских дипломатов противоречат Венской конвенции о дипломатических сношениях и мешают нормальной работе дипмиссий. Об этом заявил РИА Новости посол России в Бельгии Денис Гончар. Вице-президент США Джей Ди Вэнс посетит с визитом Армению и Азербайджан. Поездка в Ереван состоится 9-10 февраля, в Баку – 10-11 февраля. В Вашингтон Вэнс вернется \"в среду вечером\", сообщает его пресс-пул. Либерально-демократическая партия под руководством премьер-министра Японии Санаэ Такаити победила на выборах в ключевую нижнюю палату парламента. Представители ЛДП получат 316 из 465 мандатов и смогут проводить законопроекты, даже если они не получат поддержки верхней палаты, где партия не имеет большинства. В России самая низкая безработица в странах \"Большой двадцатки\", выяснило РИА Новости, изучив данные национальных статслужб по итогам 2025 года. Уровень безработицы в России в декабре составил 2,2 процента, что на одну десятую процента ниже показателя 2024 года.")) \ No newline at end of file