最新ソースを追加する

2025-09-16 16:49:54 +09:00 · 2025-09-16 16:49:54 +09:00 · da2e40f478
commit da2e40f478
parent c09b288ff6
33 changed files with 2054 additions and 2 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1,5 +1,6 @@
 data/
-!.gitkeep
+!data/.gitkeep
+x_cookies.json

 # ---> Python
 # Byte-compiled / optimized / DLL files
--- a/docs/sns.md
+++ b/docs/sns.md
@ -0,0 +1,76 @@
+## X
+
+### 公式API
+
+* ポストの投稿
+  * 自社のサービスからXに投稿できる
+* ポストの取得、検索
+  * 特定のキーワードやハッシュタグを含むポストを検索できる
+
+
+無料プランの制限
+
+| プラン       | FREE       |
+| ------------ | ---------- |
+| ポスト投稿   | 1,500件/月 |
+| 月間投稿取得 |            |
+|              |            |
+
+
+**手順**
+
+* https://qiita.com/dl_from_scratch/items/75d3bb60fc2a93da9917
+* https://qiita.com/neru-dev/items/857cc27fd69411496388
+* https://zenn.dev/masuda1112/articles/2024-10-26-craete-post-by-python
+
+* アカウントからAPIキーを発行する
+  * https://developer.twitter.com/ja
+* APIの利用目的の記載が必要
+* APIKEYを取得する
+* User authentication settingsで権限を設定する
+  * Read(デフォルト) -> Read and write
+
+sample
+
+```txt
+I plan to use the X API to collect and analyze public conversations (tweets and replies) related to AI, technology, and news.
+The purpose is non-commercial research and educational use, such as understanding discussion trends and generating summary reports.
+Data will not be shared with third parties and will only be stored temporarily for analysis.
+All usage will comply with X’s Developer Policy and data protection requirements.
+私は X API を利用して、AI、テクノロジー、ニュースに関連する公開の会話（ツイートやリプライ）を収集・分析する予定です。
+目的は、議論の動向を理解したり要約レポートを作成したりするなど、非営利の研究や教育利用です。
+データは分析のために一時的に保存するだけで、第三者と共有することはありません。
+すべての利用は X の開発者ポリシーとデータ保護要件に従います。
+```
+
+#### 取得フィールドについて
+
+**tweet.fields**
+
+* created_at ツイートの投稿日時 (UTC, ISO8601形式)
+* author_id 投稿者ユーザーの ID （数値文字列）
+* conversation_id 会話スレッドを一意に識別する ID
+（同じ会話に属する全ツイートで同じIDになる）
+* public_metrics インタラクション数
+（retweet_count, reply_count, like_count, quote_count など）
+* referenced_tweets このツイートが返信・引用リツイート・リツイートかどうかを示す情報
+
+
+**expansions**
+
+IDだけではなく関連オブジェクト（ユーザーやメディアなど）を
+「展開」して返す指定。
+
+* author_id (author_id を展開)
+  * ユーザー情報を includes.users に含めて返す。
+
+
+**user.fields**
+ユーザーオブジェクトに欲しい追加情報を指定。
+
+* username ＠なしのスクリーンネーム (例: jack)
+* name 表示名 (例: Jack Dorsey)
+* verified 認証済みアカウントかどうか（True/False）
+
+
+### スクレイピング
--- a/examples/example_csv.py
+++ b/examples/example_csv.py
@ -0,0 +1,95 @@
+import sys
+import os
+import pandas as pd
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+from dotenv import load_dotenv
+load_dotenv(".env")
+
+import lib.custom_logger as get_logger
+logger = get_logger.get_logger(level=10)
+
+from models.csv_rss_item import RSSItem
+from lib.rss_reader_client import  RSSReaderClient
+from lib.csv_collector import CSVWriter,CSVReader,CSVEditMapper,CSVAnalyzer
+from utils.translate_deepl import DeepLTranslateClient
+
+def example_fetch():
+    url="https://openai.com/news/rss.xml"
+    items = RSSReaderClient.fetch(url,from_at="2025-09-12 21:00:00+09:00")
+    logger.info(f"Fetched {len(items)} items")
+
+# example_fetch()
+
+def example_writer():
+    url="https://openai.com/news/rss.xml"
+    items = RSSReaderClient.fetch(url)
+    csv_data = RSSItem.to_csv_from_items(items)
+    CSVWriter.write(
+        records=csv_data,
+        domain="tech/ai",
+        layer="bronze",
+        event="openai_news",
+        is_year=True, is_month=True, part=1,
+    )
+example_writer()
+
+def example_reader():
+    client = DeepLTranslateClient()
+    file_path = "data/tech/ai/bronze/y=2025/m=09/openai_news_2025-09-15_part-001.csv"
+    data = CSVReader.read(file_path)
+    header_map = CSVReader.header_map(data[0])        
+    logger.info(f"header_map: {header_map}")
+    mapper = CSVEditMapper(header_map=header_map)
+    mapper.add_column("uid")
+    mapper.add_column("title")
+    mapper.add_column("link")
+    mapper.add_column("summary")
+    def call_back_text_ja(row_idx:int,row:list,header_map:dict) -> str:
+        title = mapper.get_column_values("title",row)
+        summary = mapper.get_column_values("summary",row)
+        val = f"{title}\n\n{summary}"
+        val_ja = client.translate(val, from_lang="en", to_lang="ja")
+        return val_ja
+    mapper.add_callback("text_ja", call_back_text_ja)
+    mapper.add_column("published_at", key_name="published_parsed")
+    edited_data = mapper.edit(data)
+    edit_filename = "data/tech/ai/silver_work/y=2025/m=09/openai_news_2025-09-15_part-001_edit01.csv"
+    CSVWriter.write_with_filename(
+        records=edited_data,
+        filename=edit_filename,
+        is_update=False
+    )
+
+# example_reader()
+
+def example_reader2():
+    file_path = "data/tech/ai/silver_work/y=2025/m=09/openai_news_2025-09-15_part-001_edit01.csv"
+    data = CSVReader.read(file_path)
+    header_map = CSVReader.header_map(data[0])        
+    logger.info(f"header_map: {header_map}")
+    mapper = CSVEditMapper(header_map=header_map)
+    mapper.auto_columns()
+    mapper.add_value("created_at", value="2025-09-15 00:00:00+00:00")
+    edited_data = mapper.edit(data)
+    edit_filename = "data/tech/ai/silver_work/y=2025/m=09/openai_news_2025-09-15_part-001_edit02.csv"
+    CSVWriter.write_with_filename(
+        records=edited_data,
+        filename=edit_filename,
+        is_update=False
+    )
+
+# example_reader2()
+
+def example_edit_priod():
+    file_path = "data/tech/ai/silver_work/y=2025/m=09/openai_news_2025-09-15_part-001_edit02.csv"
+    data = CSVReader.read(file_path)
+    CSVAnalyzer.write_separated_month(
+        data,
+        domain="tech/ai",
+        layer="silver",
+        event="openai_news",
+    )
+
+# example_edit_priod()
+
--- a/examples/example_duckdb.py
+++ b/examples/example_duckdb.py
@ -0,0 +1,29 @@
+import sys
+import os
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+import lib.custom_logger as get_logger
+logger = get_logger.get_logger(level=10)
+
+from providers.duck_db_provider import DuckDBProvider
+
+def example_duckdb():
+    logger.info("Starting example_duckdb function.")    
+    file_path = "data/tech/ai/bronze/y=2025/m=*/openai_news_*.csv"
+    provider = DuckDBProvider()
+    result = provider.max_value(
+        file_path=file_path,
+        column="published_parsed",
+    )
+    
+    print("latest published_parsed:", result)
+
+example_duckdb()
+
+
+
+    # con.execute(f"CREATE TABLE IF NOT EXISTS data AS SELECT * FROM read_csv_auto('{file_path}')")
+    # logger.info("Table 'data' created successfully.")
+
+
+
--- a/examples/example_pipeline.py
+++ b/examples/example_pipeline.py
@ -0,0 +1,19 @@
+import sys
+import os
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+import lib.custom_logger as get_logger
+logger = get_logger.get_logger(level=10)
+
+from pipeline.pipeline_base import PipelineBase
+from jobs.job_collect_rss_open_ai import JobCollectRSSOpenAI
+
+def example_pipeline():
+    pipeline = PipelineBase()
+    logger.info("Pipeline initialized with context: %s", pipeline.context)
+    # Here you can add jobs to the pipeline and run it
+    # e.g., pipeline.add_job(SomeJob(context=pipeline.context))
+    pipeline.add_job(JobCollectRSSOpenAI())
+    pipeline.run()
+
+example_pipeline()
--- a/examples/example_scraper.py
+++ b/examples/example_scraper.py
@ -0,0 +1,37 @@
+import sys
+import os
+import pandas as pd
+import asyncio
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+from dotenv import load_dotenv
+load_dotenv(".env")
+
+from lib.custom_logger import get_logger
+logger = get_logger(level=10)
+
+from providers.scraper.anthropic_scraper_provider import AnthropicScraperProvider
+from models.csv_scrape_item import ScrapeItem
+from lib.csv_collector import CSVWriter
+    
+
+def example_scraper():    
+    client = AnthropicScraperProvider()
+    items = client.crawl_sync()
+    logger.info(f"Scraped {len(items)} items")
+    csv_data = ScrapeItem.to_csv_from_items(items)
+    CSVWriter.write(
+        records=csv_data,
+        domain="tech/ai",
+        layer="bronze",
+        event="anthropic_news",
+        is_year=True, is_month=True, part=1,
+    )
+
+
+    # async def run():
+    #      async with httpx.AsyncClient() as client:
+
+
+
+example_scraper()    
--- a/examples/example_sns.py
+++ b/examples/example_sns.py
@ -0,0 +1,29 @@
+# pip install requests requests-oauthlib
+import sys
+import os
+import requests
+from requests_oauthlib import OAuth1
+
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+
+from dotenv import load_dotenv
+load_dotenv(".env")
+
+from lib.custom_logger import get_logger
+logger = get_logger(level=10)
+
+from providers.sns.api_sns_x import APISNSX
+
+def example_get_tweet():
+    items  = APISNSX.search_recent_tweets(
+        query="OpenAI lang:ja -is:retweet",
+        max_results=10
+    )
+    logger.info(f"Found {len(items.get('data', []))} tweets")
+    for tweet in items.get("data", []):
+        logger.info(f"- {tweet['id']}: {tweet['text']}")
+
+
+
+example_get_tweet()
--- a/examples/example_sns_scraper.py
+++ b/examples/example_sns_scraper.py
@ -0,0 +1,93 @@
+# pip install requests requests-oauthlib
+import sys
+import os
+import asyncio
+
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+
+from dotenv import load_dotenv
+load_dotenv(".env")
+
+from lib.custom_logger import get_logger
+logger = get_logger(level=10)
+
+
+from providers.sns.x_sns_scraper import XScraper
+
+async def first_time_login():
+    bot = XScraper(storage_state="x_cookies.json", headless=False, slow_mo=50)
+    await bot.start()
+    await bot.login_manual()
+    input("ログイン完了後に Enter を押してください...")
+    ok = await bot.is_logged_in()
+    print("Logged in?", ok)
+    await bot.save_state()
+    await bot.stop()
+# asyncio.run(first_time_login())
+
+async def run_headless():
+    bot = XScraper(storage_state="x_cookies.json", headless=True)
+    await bot.start()
+    print("already logged in?", await bot.is_logged_in())
+    # ここに処理を書く（検索/会話取得など、次のステップで実装）
+    items = await bot.search_tweets("OpenAI lang:ja -is:retweet", 30)
+    logger.info(f"Found {len(items)} tweets")
+    for tweet in items :
+        logger.info(f"- {tweet['id']}: {tweet['text']}")
+
+
+    await bot.stop()
+asyncio.run(run_headless())
+
+
+
+# async def example_get_tweet_scraper():
+#     bot = XScraper(storage_state="x_cookies.json", headless=False, slow_mo=100)
+#     await bot.start()
+
+#     # 初回だけ：手動ログインして Cookie を保存
+#     # await bot.login_manual()
+#     # await asyncio.sleep(240)  # 60秒待つ
+
+#     # 検索で収集
+#     res = await bot.search_live("OpenAI lang:ja -is:retweet", scroll_secs=6)
+#     print("search tweets:", len(res))
+#     if res:
+#         print(res[0])
+
+#     await bot.stop()
+
+
+# asyncio.run(example_get_tweet_scraper())
+
+
+from pathlib import Path
+from playwright.async_api import async_playwright, TimeoutError
+STATE = "x_cookies.json"
+
+async def save_state_once():
+    async with async_playwright() as p:
+        browser = await p.chromium.launch(headless=False, slow_mo=50)
+        ctx = await browser.new_context()
+        page = await ctx.new_page()
+        await page.goto("https://x.com/login", wait_until="domcontentloaded")
+        input("ログインを完了したら Enter...")
+        # ホームが開ける＝ログイン確認してから保存
+        await page.goto("https://x.com/home", wait_until="domcontentloaded")
+        await page.wait_for_selector('[aria-label="Account menu"]', timeout=15000)
+        await ctx.storage_state(path=STATE)  # ★ここで保存
+        await ctx.close(); await browser.close()
+
+async def use_saved_state_headless():
+    async with async_playwright() as p:
+        browser = await p.chromium.launch(headless=True)
+        ctx = await browser.new_context(storage_state=STATE)
+        page = await ctx.new_page()
+        await page.goto("https://x.com/home", wait_until="domcontentloaded")
+        # ここでログイン要求が出るなら state が効いていない
+
+
+# save_state_once()
+# asyncio.run(save_state_once())
+asyncio.run(use_saved_state_headless())
--- a/requirements.txt
+++ b/requirements.txt
@ -17,4 +17,13 @@ deepl

 # transformers
 # sentencepiece
-# torch
+# torch
+
+# scraper
+httpx[http2]
+selectolax 
+
+playwright==1.52.0
+
+# SNS(X)
+requests-oauthlib
--- a/src/jobs/init.py
+++ b/src/jobs/init.py
--- a/src/jobs/job_base.py
+++ b/src/jobs/job_base.py
@ -0,0 +1,24 @@
+from lib.custom_logger import get_logger
+from pipe_context import PipeContext
+class JobResult:
+    """ジョブの実行結果"""
+    def __init__(self, success: bool, message: str = "", data: any = None):
+        self.success = success
+        self.message = message
+        self.data = data
+
+
+class JobBase():
+
+    """ジョブの基底クラス"""    
+    def __init__(self, name="JobBase",context:PipeContext=None):
+        self.logger = get_logger()
+        self.context = context or PipeContext()
+        self.name = name
+        self.logger.info(f"{self.name} initialized")
+
+    
+    def execute(self)->JobResult:
+        """ジョブの実行"""
+        self.logger.info(f"{self.name} execute called")
+        raise NotImplementedError("Subclasses must implement this method")
--- a/src/jobs/job_collect_rss_open_ai.py
+++ b/src/jobs/job_collect_rss_open_ai.py
@ -0,0 +1,53 @@
+from jobs.job_base import JobBase, JobResult
+from lib.csv_collector.csv_writer import CSVWriter
+from lib.rss_reader_client import RSSReaderClient,RSSItem
+from providers.duck_db_provider import DuckDBProvider
+from pipe_context import PipeContext
+
+class JobCollectRSSOpenAI(JobBase):
+    """OpenAIのRSSフィードを収集するジョブ"""
+
+    def __init__(self, context: PipeContext = None):
+        super().__init__(name=self.__class__.__name__, context=context )
+        self.description = "Collect RSS feeds from OpenAI"
+        self.domain = "tech/ai"
+        self.layer = "bronze"
+        self.event = "openai_news"
+        self.is_year = True
+        self.is_month = True
+
+    def execute(self):
+        try:
+            self.logger.info(f"{self.name} started")
+            # RSSフィードを収集する処理を実装
+            url = "https://openai.com/news/rss.xml"
+
+            # CSVに保存されている最新日時を取得する
+            provider = DuckDBProvider()
+            published_parsed_max = provider.max_value(
+                file_path=f"data/{self.domain}/{self.layer}/y=*/m=*/{self.event}_*.csv",
+                column="published_parsed",
+            )
+            
+            items = RSSReaderClient.fetch(url, from_at=published_parsed_max )
+            if not items or len(items) == 0:
+                self.logger.info("No new items found.")
+                return JobResult(success=True, message="No new items found.")
+        
+            # 取得したアイテムをCSV形式に変換して保存
+            csv_data = RSSItem.to_csv_from_items(items)
+            filename = CSVWriter.write(
+                records=csv_data,
+                domain=self.domain,
+                layer=self.layer,
+                event=self.event,
+                is_year=self.is_year,
+                is_month=self.is_month,
+            )
+            self.context.set("output_filename",filename)
+            self.logger.info(f"{self.name} finished")
+            return JobResult(success=True, message="Job completed successfully")
+
+        except Exception as e:
+            self.logger.error(f"Error in {self.name} during setup: {e}")
+            return JobResult(success=False, message=str(e))
--- a/src/lib/csv_collector/init.py
+++ b/src/lib/csv_collector/init.py
@ -0,0 +1,12 @@
+from .csv_writer import CSVWriter
+from .csv_reader import CSVReader
+from .csv_editor import CSVEditColumn,CSVEditMapper
+from .csv_analyzer import CSVAnalyzer
+
+__all__ = [
+    "CSVWriter",
+    "CSVReader",
+    "CSVEditColumn",
+    "CSVEditMapper",
+    "CSVAnalyzer",
+]
--- a/src/lib/csv_collector/csv_analyzer.py
+++ b/src/lib/csv_collector/csv_analyzer.py
@ -0,0 +1,118 @@
+import os   
+import pandas as pd
+from zoneinfo import ZoneInfo
+from typing import Union
+from utils.types import DataLayer
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+from .csv_writer import CSVWriter
+from .csv_reader import CSVReader
+
+class CSVAnalyzer:
+
+    @classmethod
+    def _separate_month_to_df(
+        cls,        
+        header: list,
+        data_rows: list,
+        date_key: str = "published_at",
+        tz: str | None = None) -> pd.DataFrame | None:
+
+        if not data_rows:
+            return None
+
+        df = pd.DataFrame(data_rows, columns=header)
+        # 日付のデータ列を加工する(datetime型に変換,タイムゾーン変換)
+        df[date_key] = pd.to_datetime(df[date_key], errors="coerce", utc=True)
+        if tz:
+            df[date_key] = df[date_key].dt.tz_convert(ZoneInfo(tz))
+        # 年月列を追加
+        df["year_month"] = df[date_key].dt.to_period("M")
+        # 7) グループごとにdictリストへ
+        return df
+
+    @classmethod
+    def separate_month_to_dict(
+        cls,
+        header: list,
+        data_rows: list,
+        date_key: str = "published_at",
+        tz: str | None = None) -> dict[str, list[dict]] | None:
+        """
+        年月ごとにデータを分割する(list of list形式-> dict of list of dict形式)
+        """
+        df = cls._separate_month_to_df(header, data_rows, date_key, tz)
+        if df is None:
+            return None
+        
+        return {
+            str(ym): g.drop(columns=["year_month"]).to_dict(orient="records")
+            for ym, g in df.groupby("year_month", sort=True)
+        }
+
+    
+    @classmethod
+    def write_separated_month(
+        cls,
+        records,
+        domain: str,
+        event: str,
+        layer:Union[str, DataLayer],
+        prefix: str = None,
+        data_format: str = "%Y-%m",
+        is_year: bool=True,
+        is_month: bool=True,
+        data_key: str = "published_at",
+        tz: str | None = None,
+    ):
+        """年月ごとにデータを分割してCSVファイルに保存する"""
+        if not records or len(records) < 2:
+            logger.warning("No records to process.")
+            return
+        header = records[0]
+        data_rows = records[1:]
+
+        df = cls._separate_month_to_df(header, data_rows, data_key, tz)
+        if df is None:
+            return
+        
+        for ym, g in df.groupby("year_month", sort=True):
+            logger.info(f"Processing year-month: {ym}")
+            y, m = str(ym).split("-")
+            folder_path = CSVWriter.get_filepath(
+                domain=domain,
+                layer=layer)
+            if is_year:
+                folder_path = f"{folder_path}/y={y}"    
+            if is_month:
+                folder_path = f"{folder_path}/m={m}"
+
+            filename = CSVWriter.get_filename(
+                event=event,
+                prefix=prefix,
+                date_format=data_format,
+                dt=str(ym) + "-01",
+                extension=".csv"
+            )
+            fpath = os.path.join(folder_path, filename)
+            os.makedirs(folder_path, exist_ok=True)
+            logger.info(f"Writing to file: {fpath}")
+            g.drop(columns=["year_month"]).to_csv(fpath, index=False, encoding="utf-8")
+
+            
+
+
+
+
+
+
+        # result = {}
+        # for year_month, group in df.groupby('year_month'):
+        #     year = year_month.year
+        #     month = year_month.month
+        #     logger.info(f"y={year}/m={month:02d}")
+            
+
+
--- a/src/lib/csv_collector/csv_editor.py
+++ b/src/lib/csv_collector/csv_editor.py
@ -0,0 +1,110 @@
+
+# import os
+# import csv
+from typing import Optional, TypeVar,Callable
+from dataclasses import dataclass
+from .csv_reader import CSVReader
+
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+T = TypeVar("T")
+ColCallback = Callable[[int, list, dict], T]
+
+
+
+@dataclass
+class CSVEditColumn():
+    """CSV編集用の列情報"""
+    name: str
+    value: any = None
+    key_name: str = None
+    cb: Optional[ColCallback] = None
+
+    def execute(self, row_index: int, row: list, header_map: dict) -> any:
+        """値を取得する"""
+        try:
+            if self.cb:
+                return self.cb(row_index, row, header_map)
+            elif self.key_name and self.key_name in header_map:
+                index = header_map[self.key_name]
+                return row[index]
+            else:
+                return self.value
+        except Exception as e:
+            logger.error(f"Error in CSVEditColumn.execute: {e}")
+            logger.error(f"row_index: {row_index}, row: {row}, header_map: {header_map}")
+            logger.error(f"Column info - name: {self.name}, value: {self.value}, key_name: {self.key_name}, cb: {self.cb}")
+            raise e
+
+class CSVEditMapper:
+    """CSV編集用のマッパー"""
+    def __init__(self, header_map: dict = None):
+        self.columns: list[CSVEditColumn] = []
+        self.header_map: dict = header_map if header_map else {}
+
+    def add(self, column: CSVEditColumn):
+        self.columns.append(column)
+
+    def add_column(self, name: str, key_name: str = None):
+        if not key_name:
+            key_name = name
+        self.columns.append(CSVEditColumn(name, None, key_name))
+
+    def add_value(self, name: str, value: any):
+        self.columns.append(CSVEditColumn(name, value))
+
+    def add_callback(self, name: str, cb: callable):
+        self.columns.append(CSVEditColumn(name, cb=cb))
+
+    def auto_columns(self):
+        """既存のヘッダー情報から自動的に列を追加する"""
+        if not self.header_map or len(self.header_map) == 0:
+            return
+
+        # 自動的に追加するが順番はインデックス順
+        sorted_items = sorted(self.header_map.items(), key=lambda item: item[1])
+        for key, idx in sorted_items:
+            self.add_column(name=key, key_name=key)
+
+    def get_column_values(self,key_name:str,row,null_value:any=None) -> any:
+        idx = self.header_map[key_name]
+        if idx is None or idx < 0:
+            return null_value
+        
+        return row[idx]
+    
+
+
+
+    def edit(self, records: list[list]) -> list[list]:
+        """CSVデータを編集する"""
+        new_records = []
+        # ヘッダー行を追加する
+        header = []
+        for col in self.columns:
+            header.append(col.name)
+        new_records.append(header)
+        if not records or len(records) < 2:
+            return new_records
+
+        if self.header_map is None or len(self.header_map) == 0:
+            self.header_map = CSVReader.header_map(records[0])
+
+        # データ加工を実行する
+        for i,rows in enumerate(records[1:]):
+            new_row = []
+            for col in self.columns:
+                _value = col.execute(i, rows, self.header_map)
+                new_row.append(_value)
+            new_records.append(new_row)
+
+        return new_records
+
+
+        
+    
+
+
+    
--- a/src/lib/csv_collector/csv_reader.py
+++ b/src/lib/csv_collector/csv_reader.py
@ -0,0 +1,39 @@
+import os
+import csv
+from typing import List,Union
+from datetime import datetime
+from utils.types import DataLayer
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+class CSVReader:
+    """CSVファイル書き込みユーティリティ"""
+    BASE_DIR = "data"
+
+    @classmethod
+    def read(cls, file_path: str) -> List[any]:
+        """CSVファイルを配列として読み込む"""
+        if not os.path.exists(file_path):
+            logger.warning(f"File not found: {file_path}")
+            return []
+
+        with open(file_path, mode="r", newline="", encoding="utf-8") as f:
+            reader = csv.reader(f)
+            return list(reader)
+
+
+    def read_dict(cls, file_path: str) -> List[dict]:
+        """CSVファイルを読み込む(辞書型)"""
+        if not os.path.exists(file_path):
+            logger.warning(f"File not found: {file_path}")
+            return []
+
+        with open(file_path, mode="r", newline="", encoding="utf-8") as f:
+            reader = csv.DictReader(f)
+            return list(reader)
+
+    @classmethod
+    def header_map(cls, headers: list) -> dict[str,int]:
+        """CSV配列のヘッダー情報よりマッピング辞書を生成"""
+        return {h: i for i, h in enumerate(headers)}
--- a/src/lib/csv_collector/csv_writer.py
+++ b/src/lib/csv_collector/csv_writer.py
@ -0,0 +1,162 @@
+import os
+import csv
+from typing import List,Union
+from datetime import datetime
+from utils.types import DataLayer
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+
+
+class CSVWriter:
+    """CSVファイル書き込みユーティリティ"""
+    BASE_DIR = "data"
+
+    @classmethod
+    def get_filepath(cls,
+                        domain: str,
+                        layer:Union[str, DataLayer],
+                        is_year: bool=False,
+                        is_month: bool=False,
+                        is_day: bool=False,
+                        is_hour: bool=False,
+                        dt: Union[str,datetime]=None
+                    ) -> str:
+        """フォルダパスを生成する"""
+        parts = [cls.BASE_DIR]
+        parts.append(domain)
+        parts.append(layer)
+        if dt is None:
+            dt = datetime.now()
+        elif isinstance(dt, str):
+            dt = datetime.fromisoformat(dt)
+        if is_year:
+            parts.append(f"y={dt.strftime('%Y')}")
+        if is_month:
+            parts.append(f"m={dt.strftime('%m')}")  
+        if is_day:
+            parts.append(f"d={dt.strftime('%d')}")
+        if is_hour:
+            parts.append(f"h={dt.strftime('%H')}")
+        folder_path = os.path.join(*parts)
+        logger.debug(f"Generated CSV folder path: {folder_path}")
+        return os.path.join(*parts)
+
+
+    @classmethod    
+    def get_filename(
+            cls,
+            event: str,
+            prefix: str = None,
+            date_format: str = "%Y-%m-%d",
+            dt: Union[str,datetime] = None,
+            part: int = None,
+            extension: str = ".csv") -> str:
+        """
+        CSVファイルのパスを生成
+
+        Args:
+            prefix (str, optional): ファイル名の接頭辞. Defaults to None.
+            date_format (str, optional): 日付フォーマット. Defaults to None. 例: "%Y-%m-%d"
+            dt (datetime, optional): 日付情報. Defaults to None.
+            part (int, optional): パーティション番号. Defaults to None.
+            extension (str, optional): ファイル拡張子. Defaults to ".csv".        
+        """
+        file_names_part = []
+        if prefix:
+            file_names_part.append(prefix)
+        file_names_part.append(event)
+
+        if date_format:
+            # 日時データに変換
+            if dt is None:
+                dt = datetime.now()
+            elif isinstance(dt, str):
+                dt = datetime.fromisoformat(dt)
+            date_str = dt.strftime(date_format)
+            file_names_part.append(date_str)
+
+        if part is not None:
+            file_names_part.append(f"part-{part:03d}")
+        file_name = "_".join(file_names_part) + extension
+        logger.debug(f"Generated CSV file name: {file_name}")
+        return file_name
+
+
+    @classmethod
+    def write(
+        cls,
+        records:List,
+        domain:str,
+        layer:Union[str, DataLayer],
+        event: str,
+        prefix: str = None,
+        date_format: str = "%Y-%m-%d",
+        dt: Union[str,datetime] = None,
+        part: int = None,
+        extension: str = ".csv",
+        is_year: bool=False,
+        is_month: bool=False,   
+        is_day: bool=False,
+        is_hour: bool=False,
+        is_update: bool=False,
+        ) -> str:
+        """CSVデータを文字列として生成"""
+        if not records:
+            logger.warning("No records to write.")
+            return ""
+        folder_path = cls.get_filepath(
+            domain=domain,
+            layer=layer,
+            is_year=is_year,
+            is_month=is_month,
+            is_day=is_day,
+            is_hour=is_hour,
+            dt=dt
+        )
+
+        filename = cls.get_filename(
+            event=event,
+            prefix=prefix,
+            date_format=date_format,
+            dt=dt,
+            part=part,
+            extension=extension)
+
+        os.makedirs(folder_path, exist_ok=True)
+        full_filename = os.path.join(folder_path, filename)
+
+        if not is_update and os.path.exists(full_filename):
+            logger.info(f"File already exists and will not be overwritten: {full_filename}")
+            return full_filename
+
+        with open(full_filename, mode="w", newline="", encoding="utf-8") as f:
+            writer = csv.writer(f, quoting=csv.QUOTE_ALL)
+            writer.writerows(records)
+
+        return full_filename
+    
+    @classmethod
+    def write_with_filename(
+        cls,
+        records:List,
+        filename: str,
+        is_update: bool=False,
+        ) -> str:
+        """CSVデータを指定されたファイルパスに書き込む"""
+        if not records:
+            logger.warning("No records to write.")
+            return ""
+
+        os.makedirs(os.path.dirname(filename), exist_ok=True)
+
+        if not is_update and os.path.exists(filename):
+            logger.info(f"File already exists and will not be overwritten: {filename}")
+            return filename
+
+        with open(filename, mode="w", newline="", encoding="utf-8") as f:
+            writer = csv.writer(f, quoting=csv.QUOTE_ALL)
+            writer.writerows(records)
+
+        return filename
--- a/src/lib/rss_reader_client.py
+++ b/src/lib/rss_reader_client.py
@ -0,0 +1,69 @@
+
+from datetime import datetime
+import feedparser
+from feedparser import FeedParserDict
+from models.csv_rss_item import RSSItem
+from typing import Union
+from dataclasses import dataclass
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+@dataclass
+class Feed:
+    """RSSフィード情報"""
+    url: str 
+    title: str = ""
+    company: str = ""
+
+
+class RSSReaderClient:
+    """RSSリーダークライアント"""    
+    @classmethod
+    def fetch(
+        cls, 
+        url: Union[str,Feed],
+        from_at: Union[str,datetime] = None,
+        to_at: Union[str,datetime]  = None
+    ) -> list[RSSItem]:
+        """指定されたフィードから記事を取得する"""
+        items = []
+        url = url.url if isinstance(url, Feed) else url 
+        d: FeedParserDict = feedparser.parse(url)
+        logger.info(f"Fetched {len(d.entries)} entries from {url}")
+        logger.debug(f"item {d.entries[0]}")
+
+        from_dt = cls._to_datetime(from_at)
+        to_dt   = cls._to_datetime(to_at)
+
+        for e in d.entries:            
+            item = RSSItem(
+                uid=e.get("id") or e.get("guid") or e.get("link"),
+                title=e.get("title", "(no title)"),
+                link=e.get("link"),
+                author=e.get("author"),
+                summary=e.get("summary") or e.get("description"),
+                published=e.get("published") or e.get("updated"),
+                published_parsed=e.get("published_parsed") or e.get("updated_parsed"),
+            )
+            if from_dt and item.published_parsed  and item.published_parsed <= from_dt:
+                continue
+            if to_dt and item.published_parsed  and item.published_parsed >= to_dt:
+                continue
+
+            # logger.debug(f"Published at: {item.published_parsed}")
+            # logger.debug(f"> from dt: {from_dt}")
+            # logger.debug(f"< to dt: {to_dt}")
+
+            items.append(item)
+
+        return items
+
+    @staticmethod
+    def _to_datetime(v):
+        if v is None:
+            return None
+        if isinstance(v, datetime):
+            return v
+        # ISO8601や"YYYY-MM-DD"形式を想定
+        return datetime.fromisoformat(v)
--- a/src/models/csv_model_base.py
+++ b/src/models/csv_model_base.py
@ -0,0 +1,42 @@
+from datetime import datetime
+import json
+from typing import ClassVar, Optional, List
+from pydantic import BaseModel
+
+class CSVBaseModel(BaseModel):
+    """BaseModelにCSV用の共通機能を追加した基底クラス"""
+    # クラスごとに除外設定を持てるようにする
+    csv_excludes: ClassVar[List[str]] = []
+
+    @classmethod
+    def to_headers(cls, excepts: Optional[List[str]] = None) -> List[str]:
+        """CSVヘッダーを自動生成"""
+        fields = list(cls.model_fields.keys())  # 定義順を保持
+        if excepts:
+            fields = [f for f in fields if f not in excepts]
+        return fields
+
+    def to_row(self, excepts: Optional[List[str]] = None) -> List[str]:
+        """インスタンスをCSV行データに変換"""
+        header = self.to_headers(excepts=excepts)
+        row = []
+        for f in header:
+            val = getattr(self, f)
+            if isinstance(val, (dict, list)):
+                row.append(json.dumps(val, ensure_ascii=False))  # dictやlistはJSON文字列に
+            elif isinstance(val, datetime):
+                row.append(val.isoformat())  # datetimeはISO8601文字列に
+            elif val is None:
+                row.append("")
+            else:
+                row.append(str(val))
+        return row
+
+    @staticmethod
+    def to_csv_from_items(items: List['CSVBaseModel']) -> List:
+        """CSV行データをまとめて取得"""
+        if not items:
+            return ""
+        headers = items[0].to_headers()
+        rows = [item.to_row() for item in items]
+        return [headers] + rows
--- a/src/models/csv_rss_item.py
+++ b/src/models/csv_rss_item.py
@ -0,0 +1,35 @@
+
+from .csv_model_base import CSVBaseModel
+from pydantic import field_validator
+import time
+from typing import Optional
+from datetime import datetime , timezone
+from email.utils import parsedate_to_datetime  # RFC822系に強い
+import calendar
+
+class RSSItem(CSVBaseModel):
+    uid: str
+    title: str
+    link: str
+    author: Optional[str] = None
+    summary: Optional[str] = None
+    published: Optional[str] = None
+    published_parsed: Optional[datetime] = None
+
+    @field_validator("published_parsed", mode="before")
+    def parse_published(cls, v):
+        if v is None:
+            return None
+        if isinstance(v, datetime):
+            return v        
+        if isinstance(v, time.struct_time):
+            # struct_time は基本UTC想定で calendar.timegm を使うとズレない
+            return datetime.fromtimestamp(calendar.timegm(v), tz=timezone.utc)
+        if isinstance(v, str):
+            try:
+                dt = parsedate_to_datetime(v)
+                return dt if dt.tzinfo else dt.replace(tzinfo=timezone.utc)
+            except:
+                return None
+
+        return v
--- a/src/models/csv_scrape_item.py
+++ b/src/models/csv_scrape_item.py
@ -0,0 +1,20 @@
+
+from .csv_model_base import CSVBaseModel
+from pydantic import field_validator
+import time
+from typing import Optional
+from datetime import datetime , timezone
+from email.utils import parsedate_to_datetime  # RFC822系に強い
+import calendar
+
+class ScrapeItem(CSVBaseModel):
+    uid: str
+    title: str
+    link: str
+    catgory: Optional[str] = None
+    summary: Optional[str] = None
+    published: Optional[str] = None
+    published_parsed: Optional[datetime] = None
+    detail_error: Optional[str] = None
+    item_info: Optional[dict] = None
+
--- a/src/pipe_context.py
+++ b/src/pipe_context.py
@ -0,0 +1,10 @@
+class PipeContext:
+    """パイプラインのコンテキスト情報を管理するクラス"""
+    def __init__(self):
+        self.context = {}
+
+    def set(self, key: str, value: any):
+        self.context[key] = value
+
+    def get(self, key: str, default: any = None) -> any:
+        return self.context.get(key, default)
--- a/src/pipeline/pipeline_base.py
+++ b/src/pipeline/pipeline_base.py
@ -0,0 +1,19 @@
+from typing import List
+from jobs.job_base import JobBase
+from pipe_context import PipeContext
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+class PipelineBase:
+    """Pipelineの基本クラス"""
+    def __init__(self):
+        self.jobs:List[JobBase] = []
+        self.logger = get_logger()
+        self.context = PipeContext()
+
+    def add_job(self, job: JobBase):
+        self.jobs.append(job)
+
+    def run(self):
+        for job in self.jobs:
+            job.execute()
--- a/src/providers/duck_db_provider.py
+++ b/src/providers/duck_db_provider.py
@ -0,0 +1,35 @@
+import duckdb
+
+class DuckDBProvider:
+    def __init__(self, db_path: str = ":memory:", read_only: bool = False):
+        self.con = self.connect(db_path, read_only)
+
+    def connect(self, db_path: str = ":memory:", read_only: bool = False):
+        return duckdb.connect(database=db_path, read_only=read_only)
+
+    def close(self):
+        """接続を閉じる"""
+        if self.con:
+            self.con.close()
+
+    def query_df(self, sql: str):
+        """SQLクエリを実行してDataFrameで返す"""
+        return self.con.execute(sql).df()            
+
+    def max_value(
+        self,
+        file_path: str,
+        column: str,
+        hive_partitioning: bool = True,
+        union_by_name: bool = True,
+    ) -> any:
+        """CSVファイルの指定列の最大値を取得する"""
+        query = f"""
+            SELECT MAX({column}) AS max_{column}
+            FROM read_csv_auto('{file_path}', 
+            hive_partitioning={1 if hive_partitioning else 0},
+            union_by_name={1 if union_by_name else 0}
+        )
+        """
+        result = self.con.execute(query).fetchone()[0]
+        return result
--- a/src/providers/rss/rss_openai_provider.py
+++ b/src/providers/rss/rss_openai_provider.py
@ -0,0 +1,33 @@
+from lib.rss_reader_client import RSSReaderClient,RSSItem,Feed
+from lib.custom_logger import get_logger
+
+class RSSOpenAIProvider:
+    """RSS OpenAI プロバイダー"""
+    def __init__(self):
+        self.logger = get_logger()
+        self.feeds = [
+            Feed(                
+                url="https://openai.com/news/rss.xml",
+                title="Open AI News",
+                company="OpenAI",
+                language="en",
+                tags=["ai","openai", "news","llm"]
+            ),  
+            Feed(
+                url="https://openai.com/blog/rss.xml",
+                title="Open AI Blog",
+                company="OpenAI",
+                language="en",
+                tags=["ai","openai", "blog"]
+            ),
+        ]
+
+    def fetch(self) -> list[Feed]:
+        """フィードから記事を取得する"""
+        result = []
+        for feed in self.feeds:
+            feed_items = RSSReaderClient.fetch(feed)
+            feed.feed_items = feed_items
+
+        return self.feeds
+        
--- a/src/providers/scraper/anthropic_scraper_provider.py
+++ b/src/providers/scraper/anthropic_scraper_provider.py
@ -0,0 +1,105 @@
+from .http_scraper_base import HttpScraperBase,ScrapeItem,_try_parse_date, urljoin
+from selectolax.parser import HTMLParser
+
+class AnthropicScraperProvider(HttpScraperBase):
+
+    def __init__(self):
+        base_url="https://www.anthropic.com"
+        start_url="https://www.anthropic.com/news"
+        super().__init__(
+            base_url=base_url, 
+            start_url=start_url,
+            cb_parse_list=self.parse_list,       
+            # cb_parse_detail=self.parse_detail     
+            )
+
+
+    async def parse_list(self, tree: HTMLParser) -> list[ScrapeItem]:
+        """リストのパース処理"""
+        self.logger.info("Parsing list")
+        items = []
+        for node in tree.css('[class^="CardSpotlight_spotlightCard"]'):
+            href = node.attrs.get("href")
+            if not href:
+                continue
+            url = urljoin(self.base_url, href)
+            # タイトル
+            title_node = node.css_first("h2, h3, .title, span")
+            title = title_node.text(strip=True) if title_node else node.text(strip=True)
+            # category_node = node.css_first("p.detail-m:nth-of-type(1)")
+            # category = category_node.text(strip=True) if category_node else ""
+            # published_node = node.css_first(".detail-m.agate")
+            # published = published_node.text(strip=True) if published_node else ""
+            detail_nodes = node.css("p.detail-m")
+            if len(detail_nodes) >= 2:
+                category = detail_nodes[0].text(strip=True)
+                published = detail_nodes[1].text(strip=True)
+            published_parsed = _try_parse_date(published)
+            self.logger.debug(f"Found URL: {url} Title: {title[:10]}")
+            item = ScrapeItem(
+                uid=url,
+                link=url,
+                title=title,
+                category=category,
+                published=published,
+                published_parsed=published_parsed,
+            )
+            items.append(item)
+
+
+
+        for node in tree.css('[class^="Card_linkRoot"]'):
+            href = node.attrs.get("href")
+            if not href:
+                continue
+            url = urljoin(self.base_url, href)
+            # タイトル
+            title_node = node.css_first("h2, h3, .title, span")
+            title = title_node.text(strip=True) if title_node else node.text(strip=True)
+            category_node = node.css_first(".detail-m")
+            category = category_node.text(strip=True) if category_node else ""
+            published_node = node.css_first(".detail-m.agate")
+            published = published_node.text(strip=True) if published_node else ""
+            published_parsed = _try_parse_date(published)
+            self.logger.debug(f"Found URL: {url} Title: {title[:10]}")
+            item = ScrapeItem(
+                uid=url,
+                link=url,
+                title=title,
+                category=category,
+                published=published,
+                published_parsed=published_parsed,
+            )
+            items.append(item)
+
+        for node in tree.css('[class*="PostList_post-card"]'):
+            href = node.attrs.get("href")
+            if not href:
+                continue
+            url = urljoin(self.base_url, href)
+            # タイトル
+            title_node = node.css_first("h2, h3, .title, span")
+            title = title_node.text(strip=True) if title_node else node.text(strip=True)
+            category_node = node.css_first('[class*="category_node"]')
+            category = category_node.text(strip=True) if category_node else ""
+            published_node = node.css_first('[class*="PostList_post-date"]')
+            published = published_node.text(strip=True) if published_node else ""
+            published_parsed = _try_parse_date(published)
+            self.logger.debug(f"Found URL: {url} Title: {title[:10]}")
+            item = ScrapeItem(
+                uid=url,
+                link=url,
+                title=title,
+                category=category,
+                published=published,
+                published_parsed=published_parsed,
+            )
+            items.append(item)        
+        return items
+
+    async def parse_detail(self, tree: HTMLParser,item:ScrapeItem):
+        """詳細ページのパース処理"""
+        self.logger.info("Parsing detail")
+        # content_node = tree.css_first('article')
+        # if content_node:
+        #     item.summary = content_node.text(strip=True)
--- a/src/providers/scraper/http_scraper_base.py
+++ b/src/providers/scraper/http_scraper_base.py
@ -0,0 +1,142 @@
+from datetime import datetime
+from typing import Union,Callable
+import random
+import asyncio
+import httpx 
+from selectolax.parser import HTMLParser
+from models.csv_scrape_item import ScrapeItem
+from urllib.parse import urljoin
+
+from lib.custom_logger import get_logger
+
+# ---- 日付パース補助
+@staticmethod
+def _try_parse_date(s: str | None):
+    if not s:
+        return None
+    s = s.strip()
+    # よくある英語表記の例: "Mar 30, 2023"
+    for fmt in ("%b %d, %Y", "%B %d, %Y", "%Y-%m-%d"):
+        try:
+            return datetime.strptime(s, fmt).isoformat()
+        except Exception:
+            pass
+    # どうしても無理ならそのまま返す or None
+    return None
+
+
+class HttpScraperBase():
+
+    def __init__(self,
+                base_url:str,
+                start_url:str,
+                concurrency: int = 8,
+                min_delay=0.5, 
+                max_delay=1.5,
+                cb_parse_list:Callable=None,
+                cb_purse_next_url:Callable=None,
+                cb_parse_detail:Callable=None,
+                ):
+        self.logger = get_logger()
+        self.base_url = base_url
+        self.start_url = start_url
+        self.headers = {"user-agent": "NewsScraper/1.0"}
+        self.cb_parse_list = cb_parse_list
+        self.cb_purse_next_url = cb_purse_next_url
+        self.cb_parse_detail =  cb_parse_detail
+        self.min_delay = min_delay
+        self.max_delay = max_delay
+        self.concurrency = concurrency
+
+    async def polite_wait(self):
+        await asyncio.sleep(random.uniform(self.min_delay, self.max_delay))
+
+    async def fetch_text(self,client: httpx.AsyncClient, url: str,max_retries:int=3) -> str:
+        """指定したURLのHTMLを取得する"""
+        attempt = 0
+        while True:
+            try:
+                await self.polite_wait()
+                r = await client.get(url,headers = self.headers, timeout=30,follow_redirects=True)
+                if r.status_code == 429:
+                    retry_after = r.headers.get("Retry-After")
+                    if retry_after:
+                        try:
+                            wait = int(retry_after)
+                        except ValueError:
+                            wait = 5
+                    else:
+                        wait = min(60, (2 ** attempt) + random.uniform(0, 1))
+                    attempt += 1
+                    if attempt > max_retries:
+                        r.raise_for_status()
+                    await asyncio.sleep(wait)
+                    continue
+                r.raise_for_status()
+                return r.text
+            except httpx.HTTPError as e:
+                self.logger.warning(f"HTTP error fetching {url}: {e}")
+                attempt += 1
+                if attempt > max_retries:
+                    raise
+                await asyncio.sleep(min(60, (2 ** attempt) + random.uniform(0, 1)))
+
+    async def _parse(self, html: str)-> tuple[list[ScrapeItem], str|None]:
+        """HTMLをパースして、記事のリストと次のページのURLを取得する"""
+        self.logger.info("Parsing HTML")
+        tree = HTMLParser(html)
+        items = await self.cb_parse_list(tree)
+        next_url = self.purse_next_url(tree)
+        return items, next_url
+
+
+    def purse_next_url(self,tree: HTMLParser) -> Union[str,None]:
+        """Nextページのリンクを取得する(上書きして使う)"""
+        if self.cb_purse_next_url:
+            return self.cb_purse_next_url(tree)
+        return None
+
+    async def enrich_with_details(self, items: list[ScrapeItem]):
+        self.logger.info("Enriching items with details")
+        # 同時に動かすタスク数を制御する()
+        # Semaphore（セマフォ）**は「同時に処理していい数」のカウンターを持っていて、その数を超えると待機させる仕組み
+        sem = asyncio.Semaphore(self.concurrency)
+        async def fetch_and_parse(client: httpx.AsyncClient, it:ScrapeItem ):
+            async with sem:
+                try:
+                    self.logger.info(f"Fetching detail for {it.link}")
+                    html = await self.fetch_text(client, it.link)
+                    tree = HTMLParser(html)
+                    self.cb_parse_detail(tree,it)
+                except Exception as e:
+                    self.logger.exception(f"Error fetching detail for {it.link}: {e}")
+                    it.detail_error = str(e)
+
+        async with httpx.AsyncClient(http2=True, headers=self.headers) as client:
+            await asyncio.gather(*(fetch_and_parse(client, it) for it in items))
+
+        return items
+
+
+    async def crawl(self):
+        # ページを取得する
+        results = []
+        self.logger.info("async crawl started")
+        async with httpx.AsyncClient(http2=True, headers=self.headers) as client:
+            url = self.start_url
+            while url:
+                html = await self.fetch_text(client, url)
+                self.logger.info(f"Fetched {url} (length: {len(html)})")
+                # HTMLをパースする
+                items, next_url = await self._parse(html)
+                if items and self.cb_parse_detail:
+                    await self.enrich_with_details(items)
+                results.extend(items)
+                url = next_url
+        return results
+        
+ 
+
+    def crawl_sync(self):
+        """同期的にクロールを実行するメソッド"""
+        return asyncio.run(self.crawl())
--- a/src/providers/sns/api_sns_x.py
+++ b/src/providers/sns/api_sns_x.py
@ -0,0 +1,190 @@
+import os
+from requests_oauthlib import OAuth1
+import requests
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+
+class APISNSX:
+
+    """X (formerly Twitter) API interaction class.
+    
+    """
+    X_API_KEY = os.getenv("X_API_KEY")
+    X_API_KEY_SECRET = os.getenv("X_API_KEY_SECRET")
+    X_ACCESS_TOKEN = os.getenv("X_ACCESS_TOKEN")
+    X_ACCESS_TOKEN_SECRET = os.getenv("X_ACCESS_TOKEN_SECRET")
+    # Bearer Tokenは読み取り専用
+    X_BEARER_TOKEN = os.getenv("X_BEARER_TOKEN")
+
+    @classmethod
+    def post(
+            cls,
+            content: str,
+            reply:object=None,
+            quote_tweet_id: str=None,
+            poll:object=None,
+            media:object=None
+        ):
+        """Xに投稿する
+        
+        Args:
+            content (str): メッセージ内容
+            reply (object): 返信先のツイートオブジェクト
+                - 例) "replay" :{"in_reply_to_tweet_id": "1234567890123456789"}
+            quote_tweet_id (str): 引用リツイートするツイートID            
+            poll (object): 投票オプション
+                - 例) "poll": {"options": ["Python", "JavaScript"], "duration_minutes": 60}
+            media (object): メディアオブジェクト
+                - 例) "media": {"media_ids": ["123456789012345678"]}
+        
+        Notes:
+            - 権限が不足していると、403エラーが発生します。
+                - Read and Writeの権限が必要です。
+            - contentは280文字以内にしてください。
+        """
+        logger.info(f"post to X: {content[:15]}...")
+ 
+        if len(content) > 280:
+            raise ValueError("Content exceeds 280 characters.")
+ 
+        if not all([cls.X_API_KEY, cls.X_API_KEY_SECRET, cls.X_ACCESS_TOKEN, cls.X_ACCESS_TOKEN_SECRET]):
+            raise ValueError("API keys and tokens must be set in environment variables.")
+
+
+        url = "https://api.twitter.com/2/tweets"
+        auth = OAuth1(
+            cls.X_API_KEY,
+            cls.X_API_KEY_SECRET,
+            cls.X_ACCESS_TOKEN,
+            cls.X_ACCESS_TOKEN_SECRET,
+        )
+        payload = {"text": content}
+        if reply:
+            payload["reply"] = reply
+        if quote_tweet_id:
+            payload["quote_tweet_id"] = quote_tweet_id
+        if poll:
+            payload["poll"] = poll
+        if media:
+            payload["media"] = media
+        response = requests.post(url, auth=auth, json=payload)
+        response.raise_for_status()
+        logger.info("Successfully posted to X.")
+        json_data = response.json()
+        logger.debug(f"Response: {json_data}")
+        return json_data
+
+
+    @classmethod
+    def _headers(cls):
+        return {    
+            "Authorization": f"Bearer {cls.X_BEARER_TOKEN}",
+            "Content-Type": "application/json",
+        }
+
+
+    @classmethod
+    def get_tweet(cls, tweet_id: str):
+        """ツイートIDで取得
+        Args:
+            tweet_id (str): ツイートID
+        """
+        logger.info(f"Get tweet by ID: {tweet_id}")
+        if not cls.X_BEARER_TOKEN:
+            raise ValueError("Bearer token must be set in environment variables.")
+        
+        # ツイートに関して返して欲しい追加フィールドをカンマ区切りで列挙します
+        params = {
+            "tweet.fields": "created_at,author_id,public_metrics,conversation_id,referenced_tweets", 
+            "expansions": "author_id", # author_id を展開して、ユーザー情報を includes.usersniに含める
+            "user.fields": "username,name,verified",
+        }
+        url = f"https://api.twitter.com/2/tweets/{tweet_id}"
+        headers = cls._headers()
+        response = requests.get(url, headers=headers, params=params)
+        response.raise_for_status()
+        logger.debug(f"Get tweet response: {response.json()}")
+        return response.json()
+
+    @classmethod
+    def get_user_by_username(cls,username: str):
+        """Get user information by username."""
+        logger.info(f"Get user by username: {username}")
+        if not cls.X_BEARER_TOKEN:
+            raise ValueError("Bearer token must be set in environment variables.")
+        params = {"user.fields": "name,username,verified,created_at"}       
+        url = f"https://api.twitter.com/2/users/by/username/{username}"
+        headers = cls._headers()
+        response = requests.get(url, headers=headers , params=params)
+        response.raise_for_status()
+        logger.debug(f"Get user response: {response.json()}")
+        return response.json()
+
+    @classmethod
+    def get_user_tweets(cls,user_id: str, max_results=10, pagination_token=None):
+        """任意ユーザ(自分、任意ユーザ)のタイムライン取得(直近投稿)
+
+        Args:
+            user_id (str): ユーザーID
+            max_results (int): 取得するツイートの最大数 (5〜100)
+            pagination_token (str): 続きを取得するためのトークン        
+        """
+        logger.info(f"Get tweets for user ID: {user_id}")
+        if not APISNSX.X_BEARER_TOKEN:
+            raise ValueError("Bearer token must be set in environment variables.")
+    
+        url = f"https://api.twitter.com/2/users/{user_id}/tweets"
+        params = {
+            "max_results": max_results,               # 5〜100
+            "pagination_token": pagination_token,     # 続きを取る時に指定
+            "tweet.fields": "created_at,public_metrics,conversation_id,referenced_tweets",
+            "expansions": "referenced_tweets.id",
+        }
+        # None値は送らない
+        params = {k: v for k, v in params.items() if v is not None}
+        headers = cls._headers()
+        response = requests.get(url, headers=headers, params=params)
+        response.raise_for_status()
+        return response.json()
+
+    @classmethod
+    def search_recent_tweets(cls, query: str, max_results=10, next_token=None):
+        """最近のツイートを検索する
+
+        Args:
+            query (str): 検索クエリ
+            max_results (int): 取得するツイートの最大数 (10〜100)
+            next_token (str): 続きを取得するためのトークン        
+
+        Notes:
+            - 検索クエリ
+                - 特定ユーザーの投稿のみ: from:elonmusk
+                - 特定ユーザーへの返信のみ: to:elonmusk
+                - あるユーザーが含まれる会話: @OpenAI
+                - lang:ja  日本語と判定されたツイートだけ取得
+                - 除外: -is:retweet (リツイートを除外), -is:reply (返信を除外)
+                - ユーザー＋キーワード: from:OpenAI langchain
+            - 無料やBasicプランでは、/2/tweets/search/recent の呼び出しに制限があります。
+
+        """
+        logger.info(f"Search recent tweets with query: {query}")
+        if not cls.X_BEARER_TOKEN:
+            raise ValueError("Bearer token must be set in environment variables.")
+    
+        url = "https://api.twitter.com/2/tweets/search/recent"
+        params = {
+            "query": query,                           # 例: "AI langchain -is:retweet"
+            "max_results": max_results,               # 10〜100
+            "next_token": next_token,                 # 続きを取る時に指定
+            "tweet.fields": "created_at,author_id,public_metrics,conversation_id,referenced_tweets",
+            "expansions": "author_id",
+            "user.fields": "username,name,verified",
+        }
+        # None値は送らない
+        params = {k: v for k, v in params.items() if v is not None}
+        headers = cls._headers()
+        response = requests.get(url, headers=headers, params=params)
+        response.raise_for_status()
+        return response.json()
--- a/src/providers/sns/x_sns_scraper.py
+++ b/src/providers/sns/x_sns_scraper.py
@ -0,0 +1,249 @@
+import re
+import asyncio
+import json
+from pathlib import Path
+from typing import Optional, List, Dict, Any
+from playwright.async_api import async_playwright, Browser, BrowserContext, Page, TimeoutError
+from urllib.parse import quote
+
+# TWEET_RX = re.compile(r"/i/api/graphql/.+/(TweetDetail|TweetResultByRestId|ConversationTimeline)")
+TWEET_RX = re.compile(r"/i/api/graphql/.+/(TweetDetail|TweetResultByRestId|ConversationTimeline|SearchTimeline)")
+
+def _sg(d, path, default=None):
+    cur = d
+    for p in path:
+        if isinstance(cur, dict) and p in cur:
+            cur = cur[p]
+        else:
+            return default
+    return cur
+
+def _emit_from_node(node):
+    # デバッグ用に中身を全部出す
+
+    if not isinstance(node, dict):
+        return None
+    
+    legacy = _sg(node, ["legacy"], {})
+    user_result = _sg(node, ["core", "user_results", "result"]) or {}
+    # ★ ここを修正：legacy だけでなく core も見る
+    username = (
+        _sg(user_result, ["legacy", "screen_name"])
+        or _sg(user_result, ["core", "screen_name"])          # ← 追加
+    )
+    name = (
+        _sg(user_result, ["legacy", "name"])
+        or _sg(user_result, ["core", "name"])                 # ← 追加
+    )
+
+    # さらに保険：author_results 側にも同様の分岐
+    if not username or not name:
+        author = _sg(node, ["author_results", "result"]) or {}
+        username = username or _sg(author, ["legacy", "screen_name"]) or _sg(author, ["core", "screen_name"])
+        name     = name     or _sg(author, ["legacy", "name"])        or _sg(author, ["core", "name"])
+
+    tid = node.get("rest_id") or legacy.get("id_str")
+    if not tid:
+        return None
+
+    public_metrics = {
+        "retweet_count": legacy.get("retweet_count", 0),
+        "reply_count": legacy.get("reply_count", 0),
+        "like_count": legacy.get("favorite_count", 0),
+        "quote_count": legacy.get("quote_count", 0),
+    }
+
+    return {
+        "id": tid,
+        "text": legacy.get("full_text") or legacy.get("text"),
+        "created_at": legacy.get("created_at"),
+        "username": username,
+        "name": name,
+        "permalink": f"https://x.com/{username}/status/{tid}" if username else None,
+        "public_metrics": public_metrics,
+    }
+
+async def _collect_graphql(page, sec=2.0):
+    buf = []
+
+    async def on_response(res):
+        try:
+            # Content-Type 判定は .get(...) で安全に
+            if TWEET_RX.search(res.url) and "application/json" in (res.headers.get("content-type") or ""):
+                buf.append(await res.json())
+        except Exception:
+            pass
+
+    page.on("response", on_response)
+    try:
+        # 一定時間だけリッスン
+        await asyncio.sleep(sec)
+    finally:
+        # ★ Python Playwright は off が無いので remove_listener を使う
+        page.remove_listener("response", on_response)
+
+    return buf
+
+def _extract(payload):
+    out = []
+
+    # 1) timeline 形式（Search/Conversation 等）
+    tl:dict = _sg(payload, ["data","search_by_raw_query","search_timeline","timeline"]) \
+         or _sg(payload, ["data","conversation_timeline","timeline"])
+    if tl:
+        for ins in tl.get("instructions", []):
+            entries = ins.get("entries") or _sg(ins, ["entry","content","items"]) or []
+            for ent in entries:
+                content = ent.get("content") or _sg(ent, ["item","itemContent"]) or {}
+                # 直下
+                r = _sg(content, ["itemContent","tweet_results","result"]) or _sg(content, ["tweet_results","result"])
+                if r:
+                    t = _emit_from_node(r);  t and out.append(t)
+                # 配列下
+                for it in content.get("items", []):
+                    r2 = _sg(it, ["item","itemContent","tweet_results","result"])
+                    if r2:
+                        t = _emit_from_node(r2); t and out.append(t)
+
+    # 2) 単体 TweetDetail
+    r = _sg(payload, ["data","tweetResult","result"]) \
+        or _sg(payload, ["data","tweetResultByRestId","result"]) \
+        or _sg(payload, ["data","tweetresultbyrestid","result"])
+    if r:
+        t = _emit_from_node(r); t and out.append(t)
+
+    # dedup by id
+    m = {}
+    for t in out:
+        m[t["id"]] = t
+    return list(m.values())
+
+
+async def _goto_and_scrape(page:Page, url, warm=1.5, shot=2.0):
+    await page.goto(url, wait_until="domcontentloaded")
+    await asyncio.sleep(warm)
+    payloads = await _collect_graphql(page, sec=shot)
+    items = []
+    for p in payloads:
+        items.extend(_extract(p))
+    return items
+
+async def _scroll_more(page, times=2, wait=1.0):
+    got = []
+    for _ in range(times):
+        fut = asyncio.create_task(_collect_graphql(page, sec=wait))
+        await page.evaluate("window.scrollBy(0, document.body.scrollHeight);")
+        payloads = await fut
+        for p in payloads:
+            got.extend(_extract(p))
+    # dedup
+    m = {t["id"]: t for t in got}
+    return list(m.values())
+
+async def _fill_with_scroll(page, base_list, limit, tries=5):
+    items = {t["id"]: t for t in base_list}
+    k = lambda t: t.get("created_at") or ""
+    i = 0
+    while len(items) < limit and i < tries:
+        more = await _scroll_more(page, times=2, wait=1.0)
+        for t in more:
+            items[t["id"]] = t
+        i += 1
+    out = list(items.values()); out.sort(key=k, reverse=True)
+    return out[:limit]
+
+
+class XScraper:
+    """
+    - 初回: login_manual() でログイン → save_state()
+    - 2回目以降: storage_state を読み込んで start() するだけ
+    """
+
+    def __init__(
+        self,
+        storage_state: str = "x_cookies.json",
+        headless: bool = True,
+        slow_mo: int = 0,
+        user_agent: Optional[str] = None,
+        locale: str = "ja-JP",
+        timezone_id: str = "Asia/Tokyo",
+        viewport: Optional[dict] = None,
+    ):
+        self.storage_state = storage_state
+        self.headless = headless
+        self.slow_mo = slow_mo
+        self.user_agent = user_agent
+        self.locale = locale
+        self.timezone_id = timezone_id
+        self.viewport = viewport or {"width": 1280, "height": 900}
+
+        self._p = None
+        self._browser: Optional[Browser] = None
+        self._ctx: Optional[BrowserContext] = None
+        self._page: Optional[Page] = None
+
+    # ---- lifecycle ----
+    async def start(self):
+        """storage_state があれば読み込んで起動、なければ空の状態で起動"""
+        self._p = await async_playwright().start()
+        self._browser = await self._p.chromium.launch(headless=self.headless, slow_mo=self.slow_mo)
+
+        context_kwargs = dict(
+            locale=self.locale,
+            timezone_id=self.timezone_id,
+            viewport=self.viewport,
+        )
+        if self.user_agent:
+            context_kwargs["user_agent"] = self.user_agent
+
+        if Path(self.storage_state).exists():
+            context_kwargs["storage_state"] = self.storage_state
+
+        self._ctx = await self._browser.new_context(**context_kwargs)
+        self._page = await self._ctx.new_page()
+
+    async def stop(self, save_state: bool = False):
+        """必要なら state を保存してから終了"""
+        if save_state and self._ctx:
+            await self._ctx.storage_state(path=self.storage_state)
+        if self._ctx:
+            await self._ctx.close()
+        if self._browser:
+            await self._browser.close()
+        if self._p:
+            await self._p.stop()
+
+    # ---- helpers ----
+    @property
+    def page(self) -> Page:
+        assert self._page is not None, "Call start() first"
+        return self._page
+
+    async def is_logged_in(self, timeout_ms: int = 6000) -> bool:
+        """ホームでアカウントメニューが見えるかで判定"""
+        await self.page.goto("https://x.com/home", wait_until="domcontentloaded")
+        try:
+            await self.page.wait_for_selector(
+                '[aria-label="Account menu"], [data-testid="SideNav_AccountSwitcher_Button"]',
+                timeout=timeout_ms,
+            )
+            return True
+        except TimeoutError:
+            return False
+
+    async def login_manual(self):
+        """手動ログイン用。呼び出し側で input()/sleep などで待機してね。"""
+        await self.page.goto("https://x.com/login", wait_until="domcontentloaded")
+
+    async def save_state(self):
+        """現在のコンテキスト状態を保存"""
+        assert self._ctx is not None
+        await self._ctx.storage_state(path=self.storage_state)
+
+# ---- example usage ----
+
+    async def search_tweets(self, query: str, limit: int = 50) -> List[Dict[str, Any]]:
+        q = quote(query, safe="")
+        url = f"https://x.com/search?q={q}&src=typed_query&f=live"
+        first = await _goto_and_scrape(self.page, url)
+        return await _fill_with_scroll(self.page, first, limit)
--- a/src/utils/translate_argos.py
+++ b/src/utils/translate_argos.py
@ -0,0 +1,66 @@
+# argos-translate --from-lang ja --to-lang en install
+# argos-translate --from-lang en --to-lang ja install
+import re
+import argostranslate.package
+import argostranslate.translate
+
+from lib.custom_logger import get_logger
+
+class ArgosTranslateClient():
+    SUPPORT_LANG = [
+        ("ja","en"),
+        ("en","ja"),
+    ]
+
+    @staticmethod
+    def _normalize_text(s: str) -> str:
+        # 句読点前後の余分な空白を整理（誤訳を減らすため軽く前処理）
+        s = " ".join(s.split())
+        s = re.sub(r"\s+([,.:;!?])", r"\1", s)
+        s = re.sub(r"([(\[“‘'\"）\])])\s+", r"\1 ", s)
+        return s
+
+
+
+    """Argos Translate クライアント"""
+    def __init__(self,init_install=False):
+        self.logger = get_logger()
+        if init_install:
+            self.install_models()
+
+
+    def install_models(self):
+        """サポートされている言語ペアの翻訳モデルをインストールする"""
+        self.logger.info("Installing translation models...")
+        installed_languages = argostranslate.translate.get_installed_languages()
+        installed_codes = {lang.code for lang in installed_languages}
+
+        for from_lang, to_lang in self.SUPPORT_LANG:
+            if from_lang in installed_codes and to_lang in installed_codes:
+                self.logger.info(f"Translation model for {from_lang} to {to_lang} is already installed.")
+                continue
+            else:
+                available_packages = argostranslate.package.get_available_packages()
+                package_to_install = next(
+                    (pkg for pkg in available_packages if pkg.from_code == from_lang and pkg.to_code == to_lang),
+                    None
+                )
+                if package_to_install:
+                    self.logger.info(f"Installing package: {package_to_install}")
+                    argostranslate.package.install_from_path(package_to_install.download())
+                else:
+                    self.logger.warning(f"No available package found for {from_lang} to {to_lang}")
+
+    def translate(self, text, from_lang, to_lang):
+        """テキストを翻訳する"""
+        text = self._normalize_text(text)
+        return argostranslate.translate.translate(text, from_lang, to_lang)
+
+    def list_installed_languages(self):
+        """インストールされている翻訳モデルをリストする"""
+        plgs = argostranslate.package.get_installed_packages()
+        ret = []
+        for p in plgs:
+            self.logger.debug(f"{p.from_code} -> {p.to_code} | {getattr(p, 'version', '?')}")
+            ret.append((p.from_code, p.to_code,getattr(p, 'version', 'None')))
+        return ret
--- a/src/utils/translate_deepl.py
+++ b/src/utils/translate_deepl.py
@ -0,0 +1,35 @@
+import os
+import deepl
+
+from lib.custom_logger import get_logger
+
+class DeepLTranslateClient():
+    """DeepL翻訳クライアント"""
+    DEEPL_API_KEY =  os.getenv("DEEPL_API_KEY", "")
+
+    def __init__(self, api_key: str = None):
+        self.logger = get_logger()
+        self.api_key = api_key or os.getenv("DEEPL_API_KEY", "")
+        if not self.api_key:
+            raise ValueError("DeepL API key が設定されていません。環境変数 DEEPL_API_KEY をセットしてください。")
+
+        # Translator インスタンス生成
+        self.translator = deepl.Translator(self.api_key)
+
+
+    def translate(self, text: str, from_lang: str, to_lang: str) -> str:
+        """
+        テキストを翻訳する
+        :param text: 翻訳対象文字列
+        :param from_lang: 入力言語 (例: 'EN', 'JA')
+        :param to_lang: 出力言語 (例: 'JA', 'EN')
+        :return: 翻訳後テキスト
+        """
+        if not text:
+            return ""
+        result = self.translator.translate_text(
+            text,
+            source_lang=from_lang.upper(),
+            target_lang=to_lang.upper(),
+        )
+        return result.text
--- a/src/utils/translate_marian_mt.py
+++ b/src/utils/translate_marian_mt.py
@ -0,0 +1,90 @@
+from __future__ import annotations
+from typing import Iterable, List, Tuple, Dict
+import re
+import torch
+from transformers import MarianMTModel, MarianTokenizer
+
+def _norm_lang(code: str) -> str:
+    aliases = {"jp": "ja", "ja-jp": "ja", "en-us": "en", "en-gb": "en"}
+    c = code.lower().strip()
+    return aliases.get(c, c.split("-")[0])
+
+
+class MarianMTClient():
+    
+    # 言語ペア→モデル名（必要に応じて追加可）
+    MODEL_MAP: Dict[Tuple[str, str], str] = {
+        ("en", "ja"): "staka/fugumt-en-ja",
+        ("ja", "en"): "staka/fugumt-ja-en",
+        # ("en", "ja"): "Helsinki-NLP/opus-mt-en-jap",
+        # ("ja", "en"): "Helsinki-NLP/opus-mt-ja-en",
+    }
+    # https://huggingface.co/Helsinki-NLP/opus-mt-ja-en
+    # https://huggingface.co/Helsinki-NLP/opus-mt-en-ja
+
+    @staticmethod
+    def _normalize_text(s: str) -> str:
+        # 句読点前後の余分な空白を整理（誤訳を減らすため軽く前処理）
+        s = " ".join(s.split())
+        s = re.sub(r"\s+([,.:;!?])", r"\1", s)
+        s = re.sub(r"([(\[“‘'\"）\])])\s+", r"\1 ", s)
+        return s
+
+    def __init__(
+        self,
+        pairs: Iterable[Tuple[str, str]] = (("en", "ja"), ("ja", "en")),
+        device: str | None = None,   # "cpu" / "cuda" / None(自動)
+        num_beams: int = 4,          # 品質重視（速度を上げたいときは 1〜2）
+        max_new_tokens: int = 256,
+        no_repeat_ngram_size: int = 3,
+    ):
+        self.device = device or ("cuda" if torch.cuda.is_available() else "cpu")
+        self.gen_kwargs = dict(
+            num_beams=num_beams,
+            max_new_tokens=max_new_tokens,
+            no_repeat_ngram_size=no_repeat_ngram_size,
+        )
+        self._tok: Dict[str, MarianTokenizer] = {}
+        self._mdl: Dict[str, MarianMTModel] = {}
+
+        # 事前に必要ペアをロード
+        for f, t in pairs:
+            self._ensure_loaded(_norm_lang(f), _norm_lang(t))
+
+        # CPU最適化（任意）
+        if self.device == "cpu":
+            torch.set_num_threads(max(1, torch.get_num_threads()))
+
+
+    # 内部：モデル読み込み（キャッシュ）
+    def _ensure_loaded(self, f: str, t: str) -> str:
+        key = (f, t)
+        model_id = self.MODEL_MAP.get(key)
+        if not model_id:
+            raise ValueError(f"No Marian model mapping for {f}->{t}. Add it to MODEL_MAP.")
+
+        if model_id in self._mdl:
+            return model_id
+
+        tok = MarianTokenizer.from_pretrained(model_id)
+        mdl = MarianMTModel.from_pretrained(model_id)
+        mdl.to(self.device).eval()
+
+        self._tok[model_id] = tok
+        self._mdl[model_id] = mdl
+        return model_id
+
+    def translate(self, text: str, from_lang: str, to_lang: str) -> str:
+        if not text:
+            return ""
+        f, t = _norm_lang(from_lang), _norm_lang(to_lang)
+        model_id = self._ensure_loaded(f, t)
+        tok, mdl = self._tok[model_id], self._mdl[model_id]
+
+        s = self._normalize_text(text)
+        with torch.no_grad():
+            batch = tok([s], return_tensors="pt")
+            batch = {k: v.to(self.device) for k, v in batch.items()}
+            out = mdl.generate(**batch, **self.gen_kwargs)
+        return tok.decode(out[0], skip_special_tokens=True)
+
--- a/src/utils/types.py
+++ b/src/utils/types.py
@ -0,0 +1,6 @@
+from enum import Enum
+
+class DataLayer(str, Enum):
+    BRONZE = "bronze"
+    SILVER = "silver"
+    GOLD = "gold"