jpskill.com
🛠️ 開発・MCP コミュニティ

duckdb

DuckDBは、外部依存なしでアプリケーションに組み込める分析用データベースで、CSV、Parquet、JSONファイルを直接クエリできるため、手軽なデータ分析やETL処理を効率的に行うSkill。

📜 元の英語説明(参考)

DuckDB is an in-process analytical database that runs embedded inside your application with zero external dependencies. It can query CSV, Parquet, and JSON files directly without loading them into tables first, making it ideal for local data exploration, ETL pipelines, and analytical workloads where spinning up a server is overkill.

🇯🇵 日本人クリエイター向け解説

一言でいうと

DuckDBは、外部依存なしでアプリケーションに組み込める分析用データベースで、CSV、Parquet、JSONファイルを直接クエリできるため、手軽なデータ分析やETL処理を効率的に行うSkill。

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o duckdb.zip https://jpskill.com/download/14853.zip && unzip -o duckdb.zip && rm duckdb.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/14853.zip -OutFile "$d\duckdb.zip"; Expand-Archive "$d\duckdb.zip" -DestinationPath $d -Force; ri "$d\duckdb.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して duckdb.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → duckdb フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-18
取得日時
2026-05-18
同梱ファイル
1

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

DuckDB

DuckDBは、埋め込み可能なSQL OLAPデータベースです。解析用のSQLiteと考えてください。プロセス内で実行され、サーバーを必要とせず、大規模なデータセットのスキャンと集計に最適化されています。Parquet、CSV、およびJSONファイルをネイティブに読み取るため、インポート手順なしでSQLを使用してデータレイクファイルをクエリできます。

このスキルでは、アドホックな探索のためのCLI、データサイエンスワークフローのためのPython API、アプリケーション統合のためのNode.js API、および推奨されるストレージ形式としてのParquetについて説明します。

CLI

DuckDBをスタンドアロンのバイナリとしてインストールします。macOSおよびLinuxでは、1回のダウンロードでフル機能のSQLシェルが利用できます。

# install — Homebrew経由でのDuckDB CLIのインストール (macOS/Linux)
brew install duckdb
# install — 直接ダウンロードによるDuckDB CLIのインストール (Linux x64)
wget https://github.com/duckdb/duckdb/releases/latest/download/duckdb_cli-linux-amd64.zip
unzip duckdb_cli-linux-amd64.zip
chmod +x duckdb
sudo mv duckdb /usr/local/bin/

シェルを起動し、ファイルを直接クエリします。

# CLI — テーブルを作成せずにCSVファイルをクエリする
duckdb -c "SELECT country, count(*) AS orders
            FROM 'orders.csv'
            GROUP BY country
            ORDER BY orders DESC
            LIMIT 10"

CLIは、ファイルベースのデータベースにデータを永続化することもできます。

# CLI — 永続データベースを作成し、データをインポートする
duckdb analytics.db <<'SQL'
CREATE TABLE events AS SELECT * FROM 'raw_events.parquet';
SELECT event_name, count(*) FROM events GROUP BY event_name;
SQL

ファイルを直接クエリする

DuckDBの最も強力な機能は、ファイルをその場でクエリできることです。CREATE TABLEも、COPYも、ETLも必要ありません。SQLでファイルパスまたはglobパターンを指定するだけです。

-- query — ディレクトリ内のすべてのParquetファイルをスキャンする
SELECT
    date_trunc('month', created_at) AS month,
    count(*) AS events
FROM 'data/events/*.parquet'
GROUP BY month
ORDER BY month;
-- query — CSVとParquetファイルを結合する
SELECT
    u.email,
    count(e.event_id) AS event_count
FROM 'users.csv' u
JOIN 'events.parquet' e ON u.id = e.user_id
GROUP BY u.email
ORDER BY event_count DESC
LIMIT 20;
-- query — JSON lines (改行区切りのJSON) を読み取る
SELECT * FROM read_json_auto('logs.jsonl') LIMIT 5;

Python API

DuckDBのPythonパッケージは、pandasおよびより広範なPyDataエコシステムと緊密に統合されています。pipでインストールし、SQLでDataFrameのクエリを開始します。

# duckdb_analysis.py — 分析クエリ用のPython API
# pip install duckdb pandas

import duckdb
import pandas as pd

# DuckDBはpandas DataFrameを直接クエリできる
df = pd.DataFrame({
    'user_id': [1, 2, 3, 1, 2, 1],
    'event': ['view', 'view', 'signup', 'click', 'click', 'view'],
    'ts': pd.date_range('2025-01-01', periods=6, freq='h')
})

# SQLでDataFrameをクエリする — インポートは不要
result = duckdb.sql("""
    SELECT event, count(*) AS total, count(DISTINCT user_id) AS users
    FROM df
    GROUP BY event
    ORDER BY total DESC
""").fetchdf()

print(result)

Python APIを使用した永続データベースの場合:

# duckdb_persistent.py — Pythonを使用した永続データベース
# pip install duckdb

import duckdb

# データベースファイルを開くか、作成する
con = duckdb.connect('analytics.db')

# Parquetファイルからテーブルを作成する
con.execute("""
    CREATE TABLE IF NOT EXISTS events AS
    SELECT * FROM 'raw_events.parquet'
""")

# 集計を実行する
daily_stats = con.execute("""
    SELECT
        date_trunc('day', created_at) AS day,
        count(DISTINCT user_id) AS dau,
        count(*) AS total_events
    FROM events
    WHERE created_at >= current_date - INTERVAL '30 days'
    GROUP BY day
    ORDER BY day
""").fetchdf()

print(daily_stats)
con.close()

Node.js API

duckdb npmパッケージは、DuckDBをNode.jsアプリケーションに埋め込むための非同期バインディングを提供します。

// duckdb-query.js — 分析クエリ用のNode.js DuckDBクライアント
// npm install duckdb

import duckdb from 'duckdb';

const db = new duckdb.Database(':memory:');
const conn = db.connect();

// Parquetファイルをテーブルにロードする
conn.run(`CREATE TABLE events AS SELECT * FROM 'events.parquet'`);

// 集計でクエリする
conn.all(`
  SELECT
    event_name,
    count(*) AS total,
    count(DISTINCT user_id) AS unique_users
  FROM events
  GROUP BY event_name
  ORDER BY total DESC
`, (err, rows) => {
  if (err) throw err;
  console.table(rows);
  db.close();
});

より新しいduckdb-asyncラッパーを使用したPromiseベースのワークフローの場合:

// duckdb-async-example.js — Node.jsでのPromiseベースのDuckDBクエリ
// npm install duckdb-async

import { Database } from 'duckdb-async';

async function analyze() {
  const db = await Database.create(':memory:');

  // CSVを直接クエリする
  const topPages = await db.all(`
    SELECT page, count(*) AS views
    FROM 'pageviews.csv'
    GROUP BY page
    ORDER BY views DESC
    LIMIT 10
  `);

  console.table(topPages);
  await db.close();
}

analyze();

Parquetの統合

Parquetは、DuckDBと自然に組み合わせられるカラム型ファイル形式です。圧縮率が高く、型を保持し、述語プッシュダウンを有効にするため、DuckDBはファイル全体を読み取らずに関連性のない行グループをスキップできます。

Parquetの書き込み

-- export — クエリ結果をParquetファイルに書き込む
COPY (
    SELECT user_id, event_name, created_at
    FROM 'raw_events.csv'
    WHERE created_at >= '2025-01-01'
) TO 'filtered_events.parquet' (FORMAT PARQUET, COMPRESSION ZSTD);

パーティション化されたParquet

大規模なデータセットの場合は、パーティションプルーニングを有効にするために、キーカラムでParquet出力をパーティション化します。

-- export — 月ごとにパーティション化されたParquetファイルを書き込む
COPY (
    SELECT *, date_trunc('month', created_at) AS month
    FROM events
) TO 'data/events' (FORMAT PARQUET, PARTITION_BY (month), COMPRESSION ZSTD);

これにより、data/events/month=2025-01/data_0.parquetのようなディレクトリ構造が作成され、DuckDBは自動パーティションフィルタリングでスキャンできます。

Parquetメタデータの検査

-- metadata — Parquetファイルのスキーマと行数を検査する

(原文がここで切り詰められています)
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

DuckDB

DuckDB is an embeddable SQL OLAP database. Think of it as SQLite for analytics — it runs in your process, needs no server, and is optimized for scanning and aggregating large datasets. It reads Parquet, CSV, and JSON files natively, which means you can query your data lake files with SQL without any import step.

This skill covers the CLI for ad-hoc exploration, the Python API for data science workflows, the Node.js API for application integration, and Parquet as the preferred storage format.

CLI

Install DuckDB as a standalone binary. On macOS and Linux, a single download gives you a full-featured SQL shell.

# install — DuckDB CLI via Homebrew (macOS/Linux)
brew install duckdb
# install — DuckDB CLI via direct download (Linux x64)
wget https://github.com/duckdb/duckdb/releases/latest/download/duckdb_cli-linux-amd64.zip
unzip duckdb_cli-linux-amd64.zip
chmod +x duckdb
sudo mv duckdb /usr/local/bin/

Launch the shell and start querying files directly:

# CLI — query a CSV file without creating a table
duckdb -c "SELECT country, count(*) AS orders
            FROM 'orders.csv'
            GROUP BY country
            ORDER BY orders DESC
            LIMIT 10"

The CLI can also persist data to a file-based database:

# CLI — create a persistent database and import data
duckdb analytics.db <<'SQL'
CREATE TABLE events AS SELECT * FROM 'raw_events.parquet';
SELECT event_name, count(*) FROM events GROUP BY event_name;
SQL

Querying Files Directly

DuckDB's most powerful feature is its ability to query files in place. No CREATE TABLE, no COPY, no ETL — just point SQL at a file path or glob pattern.

-- query — scan all Parquet files in a directory
SELECT
    date_trunc('month', created_at) AS month,
    count(*) AS events
FROM 'data/events/*.parquet'
GROUP BY month
ORDER BY month;
-- query — join a CSV with a Parquet file
SELECT
    u.email,
    count(e.event_id) AS event_count
FROM 'users.csv' u
JOIN 'events.parquet' e ON u.id = e.user_id
GROUP BY u.email
ORDER BY event_count DESC
LIMIT 20;
-- query — read JSON lines (newline-delimited JSON)
SELECT * FROM read_json_auto('logs.jsonl') LIMIT 5;

Python API

DuckDB's Python package integrates tightly with pandas and the broader PyData ecosystem. Install it with pip and start querying DataFrames with SQL.

# duckdb_analysis.py — Python API for analytical queries
# pip install duckdb pandas

import duckdb
import pandas as pd

# DuckDB can query pandas DataFrames directly
df = pd.DataFrame({
    'user_id': [1, 2, 3, 1, 2, 1],
    'event': ['view', 'view', 'signup', 'click', 'click', 'view'],
    'ts': pd.date_range('2025-01-01', periods=6, freq='h')
})

# Query the DataFrame with SQL — no import needed
result = duckdb.sql("""
    SELECT event, count(*) AS total, count(DISTINCT user_id) AS users
    FROM df
    GROUP BY event
    ORDER BY total DESC
""").fetchdf()

print(result)

For persistent databases with the Python API:

# duckdb_persistent.py — persistent database with Python
# pip install duckdb

import duckdb

# Open or create a database file
con = duckdb.connect('analytics.db')

# Create a table from a Parquet file
con.execute("""
    CREATE TABLE IF NOT EXISTS events AS
    SELECT * FROM 'raw_events.parquet'
""")

# Run aggregation
daily_stats = con.execute("""
    SELECT
        date_trunc('day', created_at) AS day,
        count(DISTINCT user_id) AS dau,
        count(*) AS total_events
    FROM events
    WHERE created_at >= current_date - INTERVAL '30 days'
    GROUP BY day
    ORDER BY day
""").fetchdf()

print(daily_stats)
con.close()

Node.js API

The duckdb npm package provides async bindings for embedding DuckDB in Node.js applications.

// duckdb-query.js — Node.js DuckDB client for analytical queries
// npm install duckdb

import duckdb from 'duckdb';

const db = new duckdb.Database(':memory:');
const conn = db.connect();

// Load a Parquet file into a table
conn.run(`CREATE TABLE events AS SELECT * FROM 'events.parquet'`);

// Query with aggregation
conn.all(`
  SELECT
    event_name,
    count(*) AS total,
    count(DISTINCT user_id) AS unique_users
  FROM events
  GROUP BY event_name
  ORDER BY total DESC
`, (err, rows) => {
  if (err) throw err;
  console.table(rows);
  db.close();
});

For a promise-based workflow with the newer duckdb-async wrapper:

// duckdb-async-example.js — promise-based DuckDB queries in Node.js
// npm install duckdb-async

import { Database } from 'duckdb-async';

async function analyze() {
  const db = await Database.create(':memory:');

  // Query CSV directly
  const topPages = await db.all(`
    SELECT page, count(*) AS views
    FROM 'pageviews.csv'
    GROUP BY page
    ORDER BY views DESC
    LIMIT 10
  `);

  console.table(topPages);
  await db.close();
}

analyze();

Parquet Integration

Parquet is a columnar file format that pairs naturally with DuckDB. It compresses well, preserves types, and enables predicate pushdown so DuckDB can skip irrelevant row groups without reading entire files.

Writing Parquet

-- export — write query results to a Parquet file
COPY (
    SELECT user_id, event_name, created_at
    FROM 'raw_events.csv'
    WHERE created_at >= '2025-01-01'
) TO 'filtered_events.parquet' (FORMAT PARQUET, COMPRESSION ZSTD);

Partitioned Parquet

For large datasets, partition your Parquet output by a key column to enable partition pruning:

-- export — write partitioned Parquet files by month
COPY (
    SELECT *, date_trunc('month', created_at) AS month
    FROM events
) TO 'data/events' (FORMAT PARQUET, PARTITION_BY (month), COMPRESSION ZSTD);

This creates a directory structure like data/events/month=2025-01/data_0.parquet that DuckDB can scan with automatic partition filtering.

Inspecting Parquet Metadata

-- metadata — inspect Parquet file schema and row counts
SELECT * FROM parquet_metadata('events.parquet');
SELECT * FROM parquet_schema('events.parquet');

DuckDB's Parquet support makes it an excellent tool for building lightweight data pipelines: ingest raw data from any format, transform it with SQL, and write optimized Parquet files for downstream consumers.