ニュースを取得するAPIを整備

2025-11-13 19:47:22 +09:00 · 2025-11-13 19:47:22 +09:00 · a390658907
commit a390658907
parent 5aa426f8f6
19 changed files with 1072 additions and 39 deletions
--- a/.gitignore
+++ b/.gitignore
@ -1,3 +1,7 @@
+data
+*service_accout.json
+*sa.json
+
 # ---> Python
 # Byte-compiled / optimized / DLL files
 __pycache__/
@ -15,8 +19,6 @@ dist/
 downloads/
 eggs/
 .eggs/
-lib/
-lib64/
 parts/
 sdist/
 var/
--- a/docker-compose.yaml
+++ b/docker-compose.yaml
@ -1,36 +0,0 @@
-# prefect-template/docker-compose.yml
-services:
-  server:
-    image: prefecthq/prefect:2-latest
-    container_name: prefect-server
-    command: ["prefect","server","start","--host","0.0.0.0"]
-    ports: ["4200:4200"]       # UI: http://localhost:4200
-    environment:
-      PREFECT_UI_URL: "http://localhost:4200"
-      PREFECT_API_URL: "http://server:4200/api"
-      TZ: "Asia/Tokyo"
-      # Slack通知を使う場合、.env で SLACK_WEBHOOK_URL を設定
-      SLACK_WEBHOOK_URL: ${SLACK_WEBHOOK_URL:-}
-    volumes:
-      - ./src/flows:/opt/flows
-      - prefect-data:/root/.prefect
-
-  worker:
-    image: prefecthq/prefect:2-latest
-    container_name: prefect-worker
-    depends_on: [server]
-    environment:
-      PREFECT_API_URL: "http://server:4200/api"
-      TZ: "Asia/Tokyo"
-      SLACK_WEBHOOK_URL: ${SLACK_WEBHOOK_URL:-}
-    volumes:
-      - ./src/flows:/opt/flows
-    command: >
-      bash -lc "
-      pip install -r /opt/flows/requirements.txt >/dev/null 2>&1 || true &&
-      prefect work-pool create process-pool -t process || true &&
-      prefect worker start -p process-pool
-      "
-
-volumes:
-  prefect-data:
--- a/docs/how_to_use.md
+++ b/docs/how_to_use.md
@ -0,0 +1,49 @@
+# prefectの使い方
+
+Flow関数の中で、Prefectの @task が付いた関数を呼び出すことで、処理単位(タスク)を組み合わせて実行します。
+
+
+## コンポ―ネート
+
+### @flow
+
+Prefectにおける「ワークフロー(全体の処理のまとまり)」
+を定義するデコレータです。
+
+Pythonの関数を「フロー関数(Flow Function)」に変えます。
+
+```py
+@flow
+def etl_flow(d: str | None = None):
+    d = d or date.today().isoformat()
+    load(transform(extract(d)))
+```
+
+タスクの呼び出しががわかりにくいので分解すると以下になる
+
+```py
+@flow
+def etl_flow(d=None):
+    d = d or date.today().isoformat()
+    # load(transform(extract(d)))
+    raw = extract(d)
+    clean = transform(raw)
+    load(clean)
+```
+
+### @task
+
+Prefectが管理する個々の処理単位（タスク）を定義します。
+通常のPython関数にリトライやログ管理、
+依存関係管理などを付けられる。
+
+```py
+@task(retries=3, retry_delay_seconds=10)
+def extract(d):
+    return f"raw({d})"
+```
+
+* retries: 
+  * 最大3回リトライ
+* retry_delay_seconds: 
+  * 失敗したら10秒待って再試行という「実行単位」
--- a/examples/example_csv.py
+++ b/examples/example_csv.py
@ -0,0 +1,14 @@
+import sys, os
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..", "src")))
+
+from dotenv import load_dotenv
+load_dotenv("../.env")
+
+from lib.csv_collector import CSVWriter
+
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+logger.info("Starting CSV example script")
+
--- a/examples/sample01/etl_flow.py
+++ b/examples/sample01/etl_flow.py
--- a/requirements.txt
+++ b/requirements.txt
@ -1,2 +1,8 @@
 requests
-prefect
+python-dotenv
+prefect
+
+pandas==2.3.2
+
+duckdb==1.3.2
+google-cloud-storage
--- a/src/flows/api_etl_flow.py
+++ b/src/flows/api_etl_flow.py
@ -0,0 +1,96 @@
+import sys, os
+sys.path.append(os.path.abspath(os.path.join(os.path.dirname(__file__), "..")))
+
+from dotenv import load_dotenv
+load_dotenv("../.env")
+
+from prefect import flow, task,get_run_logger
+from typing import Optional
+from datetime import datetime
+
+from models.csv_model_base import CSVBaseModel
+from providers.api_g_news import ApiGNews
+from providers.google_cloud_storage_provider import GoogleCloudStorageProvider
+from lib.csv_collector import CSVWriter
+
+
+class NewsData(CSVBaseModel):
+    title:str
+    url:str=""
+    description: Optional[str] = None
+    content: Optional[str] = None
+    image_url: Optional[str] = None
+    description: Optional[str] = None
+    content: Optional[str] = None    
+    category:str="politics"
+    source_name:str=""
+    language: Optional[str] = "ja"  # "ja", "en" など
+    country: Optional[str] = "jp"   # "jp" など
+    pub_date: Optional[str] = None   # "2023-10-01 12:00:00" など
+
+
+@task(retries=2, retry_delay_seconds=10)
+def call_api() -> list[dict]:
+    logger = get_run_logger()
+    logger.info("Starting API ETL Flow")
+    rets = ApiGNews.get_top_headlines(
+        category="nation",
+        lang="ja",
+        country="jp",
+        query="政治",
+    )
+    logger.info(f"Fetched {len(rets)} articles from GNews API")
+    return rets
+
+@task()
+def format_to_model(ret:list[dict]) -> list[NewsData]:
+    """APIレスポンスをモデルに変換"""
+    logger = get_run_logger()
+    logger.info("Formatting API response to NewsData models")
+    models = []
+    for item in ret:
+        model = NewsData(
+            title=item['title'],
+            url=item['url'],
+            description=item.get('description',None),
+            content=item.get('content',None),
+            image_url=item.get('image',None),
+            pub_date=item.get('publishedAt',None),
+            category="politics",
+            source_name=item.get('source',{}).get('name',""),
+            language="ja",
+            country="jp",
+        )
+        models.append(model)
+    logger.info(f"Formatted {len(models)} NewsData models")
+    return models
+
+@task()
+def write_csv(models:list[NewsData]):
+    logger = get_run_logger()
+    logger.info("write_csv API response to NewsData models")
+    csv_data = NewsData.to_csv_from_items(models)    
+    dt = datetime.now()
+    dt_str =  dt.strftime("%Y-%m-%d")
+    file_name = f"news_{dt_str}_part-001.csv"
+    prefix = f"data_science/data/y={dt.strftime('%Y')}/news"
+    provider = GoogleCloudStorageProvider()
+    bucket_name = os.getenv("GCS_BUCKET_NAME")
+    provider.write_csv_item(
+        bucket=bucket_name,
+        object_name=f"{prefix}/{file_name}",
+        records=csv_data,
+    )
+
+
+@flow
+def api_etl_flow():
+    # E: API呼び出し及びモデルに変換
+    ret = call_api()
+    models = format_to_model(ret)
+    # Load: CSV書き出し
+    write_csv(models)
+
+
+if __name__ == "__main__":
+    api_etl_flow()
--- a/src/lib/csv_collector/init.py
+++ b/src/lib/csv_collector/init.py
@ -0,0 +1,12 @@
+from .csv_writer import CSVWriter
+from .csv_reader import CSVReader
+from .csv_editor import CSVEditColumn,CSVEditMapper
+from .csv_analyzer import CSVAnalyzer
+
+__all__ = [
+    "CSVWriter",
+    "CSVReader",
+    "CSVEditColumn",
+    "CSVEditMapper",
+    "CSVAnalyzer",
+]
--- a/src/lib/csv_collector/csv_analyzer.py
+++ b/src/lib/csv_collector/csv_analyzer.py
@ -0,0 +1,118 @@
+import os   
+import pandas as pd
+from zoneinfo import ZoneInfo
+from typing import Union
+from utils.types import DataLayer
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+from .csv_writer import CSVWriter
+from .csv_reader import CSVReader
+
+class CSVAnalyzer:
+
+    @classmethod
+    def _separate_month_to_df(
+        cls,        
+        header: list,
+        data_rows: list,
+        date_key: str = "published_at",
+        tz: str | None = None) -> pd.DataFrame | None:
+
+        if not data_rows:
+            return None
+
+        df = pd.DataFrame(data_rows, columns=header)
+        # 日付のデータ列を加工する(datetime型に変換,タイムゾーン変換)
+        df[date_key] = pd.to_datetime(df[date_key], errors="coerce", utc=True)
+        if tz:
+            df[date_key] = df[date_key].dt.tz_convert(ZoneInfo(tz))
+        # 年月列を追加
+        df["year_month"] = df[date_key].dt.to_period("M")
+        # 7) グループごとにdictリストへ
+        return df
+
+    @classmethod
+    def separate_month_to_dict(
+        cls,
+        header: list,
+        data_rows: list,
+        date_key: str = "published_at",
+        tz: str | None = None) -> dict[str, list[dict]] | None:
+        """
+        年月ごとにデータを分割する(list of list形式-> dict of list of dict形式)
+        """
+        df = cls._separate_month_to_df(header, data_rows, date_key, tz)
+        if df is None:
+            return None
+        
+        return {
+            str(ym): g.drop(columns=["year_month"]).to_dict(orient="records")
+            for ym, g in df.groupby("year_month", sort=True)
+        }
+
+    
+    @classmethod
+    def write_separated_month(
+        cls,
+        records,
+        domain: str,
+        event: str,
+        layer:Union[str, DataLayer],
+        prefix: str = None,
+        data_format: str = "%Y-%m",
+        is_year: bool=True,
+        is_month: bool=True,
+        data_key: str = "published_at",
+        tz: str | None = None,
+    ):
+        """年月ごとにデータを分割してCSVファイルに保存する"""
+        if not records or len(records) < 2:
+            logger.warning("No records to process.")
+            return
+        header = records[0]
+        data_rows = records[1:]
+
+        df = cls._separate_month_to_df(header, data_rows, data_key, tz)
+        if df is None:
+            return
+        
+        for ym, g in df.groupby("year_month", sort=True):
+            logger.info(f"Processing year-month: {ym}")
+            y, m = str(ym).split("-")
+            folder_path = CSVWriter.get_filepath(
+                domain=domain,
+                layer=layer)
+            if is_year:
+                folder_path = f"{folder_path}/y={y}"    
+            if is_month:
+                folder_path = f"{folder_path}/m={m}"
+
+            filename = CSVWriter.get_filename(
+                event=event,
+                prefix=prefix,
+                date_format=data_format,
+                dt=str(ym) + "-01",
+                extension=".csv"
+            )
+            fpath = os.path.join(folder_path, filename)
+            os.makedirs(folder_path, exist_ok=True)
+            logger.info(f"Writing to file: {fpath}")
+            g.drop(columns=["year_month"]).to_csv(fpath, index=False, encoding="utf-8")
+
+            
+
+
+
+
+
+
+        # result = {}
+        # for year_month, group in df.groupby('year_month'):
+        #     year = year_month.year
+        #     month = year_month.month
+        #     logger.info(f"y={year}/m={month:02d}")
+            
+
+
--- a/src/lib/csv_collector/csv_editor.py
+++ b/src/lib/csv_collector/csv_editor.py
@ -0,0 +1,110 @@
+
+# import os
+# import csv
+from typing import Optional, TypeVar,Callable
+from dataclasses import dataclass
+from .csv_reader import CSVReader
+
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+T = TypeVar("T")
+ColCallback = Callable[[int, list, dict], T]
+
+
+
+@dataclass
+class CSVEditColumn():
+    """CSV編集用の列情報"""
+    name: str
+    value: any = None
+    key_name: str = None
+    cb: Optional[ColCallback] = None
+
+    def execute(self, row_index: int, row: list, header_map: dict) -> any:
+        """値を取得する"""
+        try:
+            if self.cb:
+                return self.cb(row_index, row, header_map)
+            elif self.key_name and self.key_name in header_map:
+                index = header_map[self.key_name]
+                return row[index]
+            else:
+                return self.value
+        except Exception as e:
+            logger.error(f"Error in CSVEditColumn.execute: {e}")
+            logger.error(f"row_index: {row_index}, row: {row}, header_map: {header_map}")
+            logger.error(f"Column info - name: {self.name}, value: {self.value}, key_name: {self.key_name}, cb: {self.cb}")
+            raise e
+
+class CSVEditMapper:
+    """CSV編集用のマッパー"""
+    def __init__(self, header_map: dict = None):
+        self.columns: list[CSVEditColumn] = []
+        self.header_map: dict = header_map if header_map else {}
+
+    def add(self, column: CSVEditColumn):
+        self.columns.append(column)
+
+    def add_column(self, name: str, key_name: str = None):
+        if not key_name:
+            key_name = name
+        self.columns.append(CSVEditColumn(name, None, key_name))
+
+    def add_value(self, name: str, value: any):
+        self.columns.append(CSVEditColumn(name, value))
+
+    def add_callback(self, name: str, cb: callable):
+        self.columns.append(CSVEditColumn(name, cb=cb))
+
+    def auto_columns(self):
+        """既存のヘッダー情報から自動的に列を追加する"""
+        if not self.header_map or len(self.header_map) == 0:
+            return
+
+        # 自動的に追加するが順番はインデックス順
+        sorted_items = sorted(self.header_map.items(), key=lambda item: item[1])
+        for key, idx in sorted_items:
+            self.add_column(name=key, key_name=key)
+
+    def get_column_values(self,key_name:str,row,null_value:any=None) -> any:
+        idx = self.header_map[key_name]
+        if idx is None or idx < 0:
+            return null_value
+        
+        return row[idx]
+    
+
+
+
+    def edit(self, records: list[list]) -> list[list]:
+        """CSVデータを編集する"""
+        new_records = []
+        # ヘッダー行を追加する
+        header = []
+        for col in self.columns:
+            header.append(col.name)
+        new_records.append(header)
+        if not records or len(records) < 2:
+            return new_records
+
+        if self.header_map is None or len(self.header_map) == 0:
+            self.header_map = CSVReader.header_map(records[0])
+
+        # データ加工を実行する
+        for i,rows in enumerate(records[1:]):
+            new_row = []
+            for col in self.columns:
+                _value = col.execute(i, rows, self.header_map)
+                new_row.append(_value)
+            new_records.append(new_row)
+
+        return new_records
+
+
+        
+    
+
+
+    
--- a/src/lib/csv_collector/csv_reader.py
+++ b/src/lib/csv_collector/csv_reader.py
@ -0,0 +1,39 @@
+import os
+import csv
+from typing import List,Union
+from datetime import datetime
+from utils.types import DataLayer
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+class CSVReader:
+    """CSVファイル書き込みユーティリティ"""
+    BASE_DIR = "data"
+
+    @classmethod
+    def read(cls, file_path: str) -> List[any]:
+        """CSVファイルを配列として読み込む"""
+        if not os.path.exists(file_path):
+            logger.warning(f"File not found: {file_path}")
+            return []
+
+        with open(file_path, mode="r", newline="", encoding="utf-8") as f:
+            reader = csv.reader(f)
+            return list(reader)
+
+
+    def read_dict(cls, file_path: str) -> List[dict]:
+        """CSVファイルを読み込む(辞書型)"""
+        if not os.path.exists(file_path):
+            logger.warning(f"File not found: {file_path}")
+            return []
+
+        with open(file_path, mode="r", newline="", encoding="utf-8") as f:
+            reader = csv.DictReader(f)
+            return list(reader)
+
+    @classmethod
+    def header_map(cls, headers: list) -> dict[str,int]:
+        """CSV配列のヘッダー情報よりマッピング辞書を生成"""
+        return {h: i for i, h in enumerate(headers)}
--- a/src/lib/csv_collector/csv_writer.py
+++ b/src/lib/csv_collector/csv_writer.py
@ -0,0 +1,178 @@
+import os
+import csv
+from typing import List,Union
+from datetime import datetime
+from io import StringIO
+
+
+from utils.types import DataLayer
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+
+
+class CSVWriter:
+    """CSVファイル書き込みユーティリティ"""
+    BASE_DIR = "data"
+
+    @classmethod
+    def get_filepath(cls,
+                        domain: str,
+                        layer:Union[str, DataLayer,None],
+                        is_year: bool=False,
+                        is_month: bool=False,
+                        is_day: bool=False,
+                        is_hour: bool=False,
+                        dt: Union[str,datetime]=None
+                    ) -> str:
+        """フォルダパスを生成する"""
+        parts = [cls.BASE_DIR]
+        parts.append(domain)
+        if layer:
+            parts.append(layer)
+        if dt is None:
+            dt = datetime.now()
+        elif isinstance(dt, str):
+            dt = datetime.fromisoformat(dt)
+        if is_year:
+            parts.append(f"y={dt.strftime('%Y')}")
+        if is_month:
+            parts.append(f"m={dt.strftime('%m')}")  
+        if is_day:
+            parts.append(f"d={dt.strftime('%d')}")
+        if is_hour:
+            parts.append(f"h={dt.strftime('%H')}")
+        folder_path = os.path.join(*parts)
+        logger.debug(f"Generated CSV folder path: {folder_path}")
+        return os.path.join(*parts)
+
+
+    @classmethod    
+    def get_filename(
+            cls,
+            event: str,
+            prefix: str = None,
+            date_format: str = "%Y-%m-%d",
+            dt: Union[str,datetime] = None,
+            part: int = None,
+            extension: str = ".csv") -> str:
+        """
+        CSVファイルのパスを生成
+
+        Args:
+            prefix (str, optional): ファイル名の接頭辞. Defaults to None.
+            date_format (str, optional): 日付フォーマット. Defaults to None. 例: "%Y-%m-%d"
+            dt (datetime, optional): 日付情報. Defaults to None.
+            part (int, optional): パーティション番号. Defaults to None.
+            extension (str, optional): ファイル拡張子. Defaults to ".csv".        
+        """
+        file_names_part = []
+        if prefix:
+            file_names_part.append(prefix)
+        file_names_part.append(event)
+
+        if date_format:
+            # 日時データに変換
+            if dt is None:
+                dt = datetime.now()
+            elif isinstance(dt, str):
+                dt = datetime.fromisoformat(dt)
+            date_str = dt.strftime(date_format)
+            file_names_part.append(date_str)
+
+        if part is not None:
+            file_names_part.append(f"part-{part:03d}")
+        file_name = "_".join(file_names_part) + extension
+        logger.debug(f"Generated CSV file name: {file_name}")
+        return file_name
+
+
+    @classmethod
+    def write(
+        cls,
+        records:List,
+        domain:str,
+        layer:Union[str, DataLayer],
+        event: str,
+        prefix: str = None,
+        date_format: str = "%Y-%m-%d",
+        dt: Union[str,datetime] = None,
+        part: int = None,
+        extension: str = ".csv",
+        is_year: bool=False,
+        is_month: bool=False,   
+        is_day: bool=False,
+        is_hour: bool=False,
+        is_update: bool=False,
+        ) -> str:
+        """CSVデータを文字列として生成"""
+        if not records:
+            logger.warning("No records to write.")
+            return ""
+        folder_path = cls.get_filepath(
+            domain=domain,
+            layer=layer,
+            is_year=is_year,
+            is_month=is_month,
+            is_day=is_day,
+            is_hour=is_hour,
+            dt=dt
+        )
+
+        filename = cls.get_filename(
+            event=event,
+            prefix=prefix,
+            date_format=date_format,
+            dt=dt,
+            part=part,
+            extension=extension)
+
+        os.makedirs(folder_path, exist_ok=True)
+        full_filename = os.path.join(folder_path, filename)
+
+        if not is_update and os.path.exists(full_filename):
+            logger.info(f"File already exists and will not be overwritten: {full_filename}")
+            return full_filename
+
+        with open(full_filename, mode="w", newline="", encoding="utf-8") as f:
+            writer = csv.writer(f, quoting=csv.QUOTE_ALL)
+            writer.writerows(records)
+
+        return full_filename
+    
+    @classmethod
+    def write_with_filename(
+        cls,
+        records:List,
+        filename: str,
+        is_update: bool=False,
+        ) -> str:
+        """CSVデータを指定されたファイルパスに書き込む"""
+        if not records:
+            logger.warning("No records to write.")
+            return ""
+
+        os.makedirs(os.path.dirname(filename), exist_ok=True)
+
+        if not is_update and os.path.exists(filename):
+            logger.info(f"File already exists and will not be overwritten: {filename}")
+            return filename
+
+        with open(filename, mode="w", newline="", encoding="utf-8") as f:
+            writer = csv.writer(f, quoting=csv.QUOTE_ALL)
+            writer.writerows(records)
+
+        return filename
+
+    @classmethod
+    def csv_bytes(
+        cls,
+        records:List,
+    ) -> bytes:
+        """CSVデータをバイト列として生成"""
+        buf = StringIO(newline="")
+        writer = csv.writer(buf, quoting=csv.QUOTE_ALL)
+        writer.writerows(records)
+        return buf.getvalue().encode('utf-8')
+
--- a/src/lib/custom_logger.py
+++ b/src/lib/custom_logger.py
@ -0,0 +1,56 @@
+import logging
+import functools
+from .singleton import Singleton
+
+class CustomLogger(Singleton):
+    """
+    Singleton logger class that initializes a logger with a specified name and log file.
+    It provides a method to log entry and exit of functions.
+    """
+
+    def __init__(self, name='main', log_file=None, level=logging.INFO):
+        if hasattr(self, '_initialized') and self._initialized:
+            return  # すでに初期化済みなら何もしない
+            # self.logger.setLevel(level)
+
+        self.logger = logging.getLogger(name)
+        self.logger.setLevel(level)
+        self.logger.propagate = False
+
+        formatter = logging.Formatter(
+            '%(asctime)s %(levelname)s [%(filename)s:%(lineno)3d]: %(message)s'
+        )
+
+        # Console handler
+        ch = logging.StreamHandler()
+        ch.setFormatter(formatter)
+        self.logger.addHandler(ch)
+
+        # File handler
+        if log_file:
+            fh = logging.FileHandler(log_file, encoding='utf-8')
+            fh.setFormatter(formatter)
+            self.logger.addHandler(fh)
+
+        self._initialized = True
+
+
+    def get_logger(self):
+        return self.logger
+
+    def log_entry_exit(self, func):
+        @functools.wraps(func)
+        def wrapper(*args, **kwargs):
+            self.logger.info(f"Enter: {func.__qualname__}")
+            result = func(*args, **kwargs)
+            self.logger.info(f"Exit: {func.__qualname__}")
+            return result
+        return wrapper
+
+
+
+
+
+def get_logger(name='main', log_file=None, level=logging.INFO):
+    custom_logger = CustomLogger(name, log_file, level)
+    return custom_logger.get_logger()
--- a/src/lib/singleton.py
+++ b/src/lib/singleton.py
@ -0,0 +1,20 @@
+"""Singleton pattern implementation in Python.
+This implementation is thread-safe and ensures that only one instance of the class is created.
+
+Singleton が提供するのは「同じインスタンスを返す仕組み」
+* __init__() は毎回呼ばれる(多くの人が意図しない動作)
+* __init__の2回目は_initialized というフラグは 使う側で管理する必要がある。
+"""
+
+import threading
+
+class Singleton(object):
+    _instances = {}
+    _lock = threading.Lock()
+
+    def __new__(cls, *args, **kwargs):
+        if cls not in cls._instances:
+            with cls._lock:
+                if cls not in cls._instances:  # ダブルチェック
+                    cls._instances[cls] = super(Singleton, cls).__new__(cls)
+        return cls._instances[cls]
--- a/src/models/csv_model_base.py
+++ b/src/models/csv_model_base.py
@ -0,0 +1,42 @@
+from datetime import datetime
+import json
+from typing import ClassVar, Optional, List
+from pydantic import BaseModel
+
+class CSVBaseModel(BaseModel):
+    """BaseModelにCSV用の共通機能を追加した基底クラス"""
+    # クラスごとに除外設定を持てるようにする
+    csv_excludes: ClassVar[List[str]] = []
+
+    @classmethod
+    def to_headers(cls, excepts: Optional[List[str]] = None) -> List[str]:
+        """CSVヘッダーを自動生成"""
+        fields = list(cls.model_fields.keys())  # 定義順を保持
+        if excepts:
+            fields = [f for f in fields if f not in excepts]
+        return fields
+
+    def to_row(self, excepts: Optional[List[str]] = None) -> List[str]:
+        """インスタンスをCSV行データに変換"""
+        header = self.to_headers(excepts=excepts)
+        row = []
+        for f in header:
+            val = getattr(self, f)
+            if isinstance(val, (dict, list)):
+                row.append(json.dumps(val, ensure_ascii=False))  # dictやlistはJSON文字列に
+            elif isinstance(val, datetime):
+                row.append(val.isoformat())  # datetimeはISO8601文字列に
+            elif val is None:
+                row.append("")
+            else:
+                row.append(str(val))
+        return row
+
+    @staticmethod
+    def to_csv_from_items(items: List['CSVBaseModel']) -> List:
+        """CSV行データをまとめて取得"""
+        if not items:
+            return ""
+        headers = items[0].to_headers()
+        rows = [item.to_row() for item in items]
+        return [headers] + rows
--- a/src/providers/api_g_news.py
+++ b/src/providers/api_g_news.py
@ -0,0 +1,95 @@
+import requests
+import os
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+class ApiGNews:
+    """
+    GNewsを操作するクラス
+
+        Notes:
+        - GNews APIを使用してニュース記事を取得するためのクラス
+        - APIキーは環境変数 `GNEWS_API_KEY` から取得されます
+        - 詳細なAPIドキュメントは https://gnews.io/docs/ を参照してください
+    """
+    
+    GNEWS_API_KEY = os.getenv("GNEWS_API_KEY") 
+
+    @classmethod
+    def get_news(
+        cls,
+        query: str = None,
+        lang: str = "jp", # en,
+        country: str = "jp", # us,
+        max: int = 10,
+        from_at: str = None, # ISO 8601形式の日時文字列 (例: "2023-10-01T00:00:00Z")
+        to_at: str = None, 
+    ):
+        """
+        GNewsからニュース記事を取得する
+        Args:
+            query (str): 検索クエリ
+            lang (str): 記事の言語コード (例: "jp" = 日本語)
+            country (str): 国コード (例: "jp" = 日本)
+            max (int): 取得件数の上限 (最大100)
+            from_at (str): 取得開始日時 (ISO 8601形式)
+            to_at (str): 取得終了日時 (ISO 8601形式)
+        """
+        url = "https://gnews.io/api/v4/search"
+        params = {
+            "apikey": cls.GNEWS_API_KEY,
+            "q": query,
+            "lang": lang,
+            "country": country,
+            "max": max,
+            "from": from_at,
+            "to": to_at,
+        }
+        # None値は送らない
+        params = {k: v for k, v in params.items() if v is not None}
+        response = requests.get(url,params=params)
+        response.raise_for_status()
+        json_data:dict = response.json()
+        logger.debug(f"GNews API Response: {json_data}")
+        return json_data.get("articles", [])            
+        
+    @classmethod
+    def get_top_headlines(
+        cls,
+        category: str = None, # business, entertainment, general, health, science, sports, technology
+        lang: str = "jp", # en,
+        country: str = "jp", # us,
+        max: int = 10,
+        from_at: str = None, # ISO 8601形式の日時文字列 (例: "2023-10-01T00:00:00Z")
+        to_at: str = None, 
+        query: str = None,
+    ):
+        """ GNewsからトップニュース記事を取得する
+        Args:
+            category (str): カテゴリ (business, entertainment, general, health, science, sports, technology)
+            lang (str): 記事の言語コード (例: "jp" = 日本語)
+            country (str): 国コード (例: "jp" = 日本)
+            max (int): 取得件数の上限 (最大100)
+            from_at (str): 取得開始日時 (ISO 8601形式)
+            to_at (str): 取得終了日時 (ISO 8601形式)
+            query (str): 検索クエリ
+        """
+        url = "https://gnews.io/api/v4/top-headlines"
+        params = {
+            "apikey": cls.GNEWS_API_KEY,
+            "category": category,
+            "lang": lang,
+            "country": country,
+            "max": max,
+            "from": from_at,
+            "to": to_at,
+            "q": query,
+        }
+        # None値は送らない
+        params = {k: v for k, v in params.items() if v is not None}
+        response = requests.get(url,params=params)
+        response.raise_for_status()
+        json_data:dict = response.json()
+        logger.debug(f"GNews API Response: {json_data}")
+        return json_data.get("articles", [])
--- a/src/providers/duck_db_provider.py
+++ b/src/providers/duck_db_provider.py
@ -0,0 +1,35 @@
+import duckdb
+
+class DuckDBProvider:
+    def __init__(self, db_path: str = ":memory:", read_only: bool = False):
+        self.con = self.connect(db_path, read_only)
+
+    def connect(self, db_path: str = ":memory:", read_only: bool = False):
+        return duckdb.connect(database=db_path, read_only=read_only)
+
+    def close(self):
+        """接続を閉じる"""
+        if self.con:
+            self.con.close()
+
+    def query_df(self, sql: str):
+        """SQLクエリを実行してDataFrameで返す"""
+        return self.con.execute(sql).df()            
+
+    def max_value(
+        self,
+        file_path: str,
+        column: str,
+        hive_partitioning: bool = True,
+        union_by_name: bool = True,
+    ) -> any:
+        """CSVファイルの指定列の最大値を取得する"""
+        query = f"""
+            SELECT MAX({column}) AS max_{column}
+            FROM read_csv_auto('{file_path}', 
+            hive_partitioning={1 if hive_partitioning else 0},
+            union_by_name={1 if union_by_name else 0}
+        )
+        """
+        result = self.con.execute(query).fetchone()[0]
+        return result
--- a/src/providers/google_cloud_storage_provider.py
+++ b/src/providers/google_cloud_storage_provider.py
@ -0,0 +1,191 @@
+import os
+import io
+from typing import Optional, List, Dict, Any, Union, BinaryIO
+from datetime import timedelta
+import mimetypes
+import csv
+
+from google.cloud import storage
+from google.oauth2 import service_account
+
+from lib.custom_logger import get_logger
+logger = get_logger()
+
+import zipfile
+from pathlib import Path
+
+class GoogleCloudStorageProvider:
+
+    def __init__(self, cred_path: Optional[str] = None, project: Optional[str] = None):
+        try:
+            if cred_path:
+                creds = service_account.Credentials.from_service_account_file(cred_path)
+                # プロジェクト未指定なら credentials から取得
+                effective_project = project or creds.project_id
+                self._client = storage.Client(
+                    project=effective_project, credentials=creds
+                )
+                logger.info(f"GCS client initialized with service account file. project={effective_project}")
+            elif os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON"):
+                cred_json = os.getenv("GOOGLE_APPLICATION_CREDENTIALS_JSON")
+                creds = service_account.Credentials.from_service_account_info(cred_json)
+                effective_project = project or creds.project_id
+                self._client = storage.Client(
+                    project=effective_project, credentials=creds
+                )
+                logger.info("GCS client initialized with credentials from environment variable.")
+            else:
+                self._client = storage.Client(project=project)
+                logger.info("GCS client initialized with default credentials (ADC).")
+        except Exception as e:
+            logger.error(f"GCS initialization failed: {e}")
+            raise
+
+    # Private methods to get bucket and blob references
+    def _bucket(self, bucket: str) -> storage.Bucket:
+        return self._client.bucket(bucket)
+
+    def _blob(self, bucket: str, object_name: str) -> storage.Blob:
+        return self._bucket(bucket).blob(object_name)
+
+
+    # バケット操作
+    def get_buckets(self) -> List[str]:
+        buckets: List[storage.Bucket]  = self._client.list_buckets()
+        return [b.name for b in buckets]
+
+    def create_bucket(self, bucket_name: str, location: str = "ASIA-NORTHEAST1", storage_class: str = "STANDARD"):
+        b = storage.Bucket(self._client, name=bucket_name)
+        b.storage_class = storage_class
+        return self._client.create_bucket(b, location=location)
+
+    def is_exists_bucket(self, bucket_name: str) -> bool:
+        try:
+            self._client.get_bucket(bucket_name)
+            return True
+        except Exception:
+            return False
+        
+    # オブジェクト操作
+    def get_items(self, bucket: str, prefix: str | None = None, match_glob:str | None=None) -> List[Dict[str, Any]]:
+        items: List[storage.Blob] = self._client.list_blobs(bucket, prefix=prefix,match_glob=match_glob)
+        return [{"name": bl.name, "size": bl.size, "updated": bl.updated, "content_type": bl.content_type}
+                for bl in items]
+
+    def is_exists_item(self, bucket: str, object_name: str) -> bool:
+        return self._blob(bucket, object_name).exists()
+
+
+    def write_item(self, bucket: str, object_name: str, data: Union[bytes, BinaryIO, str],
+                content_type: str | None = None) -> Dict[str, Any]:
+        """
+        オブジェクトを書き込む
+        
+        Args:
+            bucket (str): バケット名
+            object_name (str): オブジェクト名
+            data (Union[bytes, BinaryIO, str]): 書き込むデータ
+            content_type (Optional[str]): コンテンツタイプ(MIMEタイプ）
+        Returns:
+            Dict[str, Any]: 書き込んだオブジェクトの情報
+        """
+        blob = self._blob(bucket, object_name)
+        if content_type is None:
+            content_type = mimetypes.guess_type(object_name)[0] or "application/octet-stream"
+        blob.content_type = content_type
+
+        if isinstance(data, (bytes, bytearray)):
+            blob.upload_from_file(io.BytesIO(data), content_type=content_type, rewind=True)
+        elif hasattr(data, "read"):
+            blob.upload_from_file(data, content_type=content_type, rewind=True)
+        elif isinstance(data, str) and os.path.exists(data):
+            blob.upload_from_filename(data, content_type=content_type)
+        else:
+            raise ValueError("data must be bytes, file-like, or existing filepath")
+        return {"name": blob.name, "size": blob.size, "content_type": blob.content_type}
+
+    def read_item(self, bucket: str, object_name: str, as_text: bool = False, encoding: str = "utf-8"):
+        data = self._blob(bucket, object_name).download_as_bytes()
+        return data.decode(encoding) if as_text else data
+
+    def delete_item(self, bucket: str, object_name: str):
+        """オブジェクトを削除する"""
+        self._blob(bucket, object_name).delete()
+
+    def generate_signed_url(self, bucket: str, object_name: str, method: str = "GET",
+                            expires: timedelta = timedelta(hours=1)) -> str:
+        return self._blob(bucket, object_name).generate_signed_url(expiration=expires, method=method)
+
+    def zip_items(
+            self,
+            bucket: str,
+            object_names: List[str],
+        ) -> bytes:
+        """
+        複数のGCSオブジェクトを1つのZIPにまとめ、ZIPバイナリ(bytes)を返す
+
+        Args:
+            bucket (str): バケット名
+            object_names (List[str]): 対象オブジェクトのリスト
+        Returns:
+            bytes: ZIPファイルのバイナリ
+        """
+        out = io.BytesIO()
+        with zipfile.ZipFile(out, mode="w", compression=zipfile.ZIP_DEFLATED) as zf:
+            for obj in object_names:
+                blob = self._blob(bucket, obj)
+                if not blob.exists():
+                    raise FileNotFoundError(f"Object not found: gs://{bucket}/{obj}")
+
+                buf = io.BytesIO()
+                blob.download_to_file(buf)
+                buf.seek(0)
+                arcname = Path(obj).name
+                zf.writestr(arcname, buf.read())
+
+            zf.comment = f"bucket={bucket}, files={len(object_names)}".encode()
+
+        return out.getvalue()
+
+    def upload_folder(self, bucket: str, folder_path: str, gcs_prefix: str = ""):
+        """
+        ローカルフォルダをGCSに再帰的にアップロードする
+
+        Args:
+            bucket (str): バケット名
+            folder_path (str): ローカルフォルダのパス
+            gcs_prefix (str): GCS上のプレフィックス(フォルダパス)
+        """
+        _bucket = self._bucket(bucket)
+    
+        for root, _, files in os.walk(folder_path):
+            for file in files:
+                local_file_path = os.path.join(root, file)
+                # フォルダ構造を保つように相対パスを生成
+                relative_path = os.path.relpath(local_file_path, folder_path)
+                gcs_object_name = os.path.join(gcs_prefix, relative_path).replace("\\", "/")
+                
+                blob = _bucket.blob(gcs_object_name)
+                blob.upload_from_filename(local_file_path)
+                logger.info(f"Uploaded {local_file_path} to gs://{bucket}/{gcs_object_name}")
+
+    def write_csv_item(
+            self, 
+            bucket: str,
+            object_name: str,
+            records: List):
+
+        """CSVデータをGCSにアップロードする
+        
+        Args:
+            bucket (str): バケット名
+            object_name (str): オブジェクト名
+            records (List): CSVデータのリスト
+        
+        """
+        blob = self._blob(bucket, object_name)
+        with blob.open("w", content_type="text/csv", newline="", encoding="utf-8") as f:
+            writer = csv.writer(f)
+            writer.writerows(records)
+        logger.info(f"Uploaded CSV to gs://{bucket}/{object_name}")
+        return {"name": blob.name, "size": blob.size, "content_type": blob.content_type}
--- a/src/utils/types.py
+++ b/src/utils/types.py
@ -0,0 +1,6 @@
+from enum import Enum
+
+class DataLayer(str, Enum):
+    BRONZE = "bronze"
+    SILVER = "silver"
+    GOLD = "gold"