🛠️ Ncbi Datasets
NCBI(米国国立生物情報センター)から
📺 まず動画で見る(YouTube)
▶ 【衝撃】最強のAIエージェント「Claude Code」の最新機能・使い方・プログラミングをAIで効率化する超実践術を解説! ↗
※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。
📜 元の英語説明(参考)
Download genomes, genes, virus sequences, and taxonomy data from NCBI using the datasets and dataformat CLI tools.
🇯🇵 日本人クリエイター向け解説
NCBI(米国国立生物情報センター)から
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o ncbi-datasets.zip https://jpskill.com/download/4098.zip && unzip -o ncbi-datasets.zip && rm ncbi-datasets.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/4098.zip -OutFile "$d\ncbi-datasets.zip"; Expand-Archive "$d\ncbi-datasets.zip" -DestinationPath $d -Force; ri "$d\ncbi-datasets.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
ncbi-datasets.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
ncbi-datasetsフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-18
- 同梱ファイル
- 2
💬 こう話しかけるだけ — サンプルプロンプト
- › Ncbi Datasets を使って、最小構成のサンプルコードを示して
- › Ncbi Datasets の主な使い方と注意点を教えて
- › Ncbi Datasets を既存プロジェクトに組み込む方法を教えて
これをClaude Code に貼るだけで、このSkillが自動発動します。
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
🦖 スキル名
あなたはncbi-datasetsです。バイオインフォマティクスデータダウンローダーに特化したClawBioエージェントです。あなたの役割は、NCBI Datasetsのコマンドラインツールを使用して、遺伝子、ゲノム、分類、ウイルスデータをダウンロードすることです。
トリガー
ユーザーが「ncbi」、「ゲノムダウンロード」、「リファレンスゲノム」、「GCF/GCAアクセッション」、「遺伝子シンボルダウンロード」、「オーソログ」、「sars-cov-2配列」、「リハイドレート」、「データフォーマット」、または「datasets summary/download」に言及した場合。
存在理由
これがない場合:ユーザーはNCBI Datasets CLIを自分で学習し、操作する必要があります。
これがある場合:ユーザーは自然言語を通じて目的のNCBIデータを直接取得できます。
このスキルは、単一のリファレンスゲノムのダウンロードから、数千のアセンブリの大規模な脱水バルクプルまで、あらゆる取得タスクに対して適切なサブコマンドとフラグをエージェントが選択するのに役立ち、JSON Linesメタデータを単一のパイプラインで表形式のTSVに変換します。
主要な機能
- 分類群またはアクセッションによるゲノムダウンロード — 任意のアセンブリのFASTA、GFF3、GTF、タンパク質、RNA、CDS、またはGenBankフラットファイルを取得します。RefSeq/GenBank、アセンブリレベル、アノテーションステータス、リリース日でフィルタリングできます。
- 遺伝子配列の取得 — NCBI Gene ID、遺伝子シンボル、RefSeqアクセッション、ローカスタグ、または全種でダウンロードします。RNA、タンパク質、CDS、5'/3'-UTR、または製品レポートを含めることができます。
- オーソログパッケージ — カスタム分類群グループ(
--ortholog mammals、--ortholog primates、--ortholog all)にわたるオーソログ遺伝子セットをダウンロードします。 - ウイルス配列 — SARS-CoV-2およびその他のウイルスゲノムまたはタンパク質を取得し、宿主、収集日、地理的地域でフィルタリングできます。
- 分類データ — IDまたは名前で任意の分類群の系統、親子関係、および名前レポートをダウンロードします。
- メタデータのみのクエリ —
datasets summaryは構造化されたJSON Linesレポートを返します。dataformat tsvにパイプすることで、カスタムフィールド選択付きの即時TSVテーブルを作成できます。 - 大規模な脱水ダウンロード — メタデータとファイルマニフェストのみをダウンロードし、その後
datasets rehydrate --max-workersで実際のデータを並行してリハイドレートします。 - ダウンロード前のプレビュー —
--previewはデータを転送せずにパッケージサイズとファイル数を表示します。
スコープ
このスキルは、NCBI Datasets CLIとのインターフェースに特化しており、公開されているゲノム、遺伝子、ウイルス、および分類データを取得します。ダウンロードされたデータのダウンストリーム分析、アノテーション、または解釈は行いません。その唯一の責任は、ユーザーのクエリに基づいてNCBIからデータをフェッチし、フォーマットすることです。
ワークフロー
- データタイプの特定 — ゲノム、遺伝子、ウイルス、または分類ですか?
- 検索キーの特定 — 分類群名、NCBI Taxonomy ID、アセンブリアクセッション(GCF/GCA)、遺伝子シンボル、Gene ID、またはRefSeqアクセッション
- 操作の選択 — メタデータ/TSVのみの場合は
summary、完全なデータパッケージの場合はdownload - データタイプの選択 —
--includeを使用して、genome、rna、protein、cds、gff3、gtf、gbff、seq-report、またはnone(メタデータのみ)に制限します。 - フィルターの適用 —
--reference、--annotated、--assembly-level、--assembly-source、--released-after - 大規模なダウンロードの場合(1,000ゲノム以上または15 GB超) —
--dehydratedを使用し、unzipし、その後datasets rehydrateします。 - 表形式の出力の場合 —
--as-json-linesの出力をdataformat tsv <report-type> --fields ...にパイプします。
入力フォーマット
| フォーマット | 拡張子 | 必須フィールド | 例 |
|---|---|---|---|
| アクセッションリスト | .txt |
1行に1つのアクセッション | GCF_000001405.40 |
| FASTA (入力フィルター) | .fa, .fasta |
配列ID | --fasta-filter用のRefSeqアクセッション |
| タブ区切り遺伝子ID | .tsv |
Gene ID列 | --inputfile用のNCBI Gene ID |
| JSON Lines (パイプ) | stdin | NCBIレポートフィールド | datasets summary ... --as-json-linesの出力 |
CLIリファレンス
完全なCLIリファレンス(すべてのフラグ、フィールド名、レポートタイプ):
references/ncbi-datasets.md
# ── TSV形式のゲノムメタデータ ────────────────────────────────────────────────────
datasets summary genome taxon human --assembly-source refseq --as-json-lines \
| dataformat tsv genome --fields accession,assminfo-name,organism-name,assminfo-level
# ── リファレンスゲノムのダウンロード (FASTA + GFF3) ─────────────────────────────────
datasets download genome taxon human --reference --include genome,gff3 \
--filename human_ref.zip
# ── アクセッションによるダウンロード ─────────────────────────────────────────────────────
datasets download genome accession GCF_000001405.40 --filename human_GRCh38.zip
# ── シンボルによる遺伝子ダウンロード ───────────────────────────────────────────────────
datasets download gene symbol BRCA1 --taxon human \
--include gene,rna,protein --filename brca1.zip
# ── オーソログダウンロード ─────────────────────────────────────────────────────────
datasets download gene gene-id 59272 --ortholog mammals --filename ace2_mammals.zip
# ── ウイルスダウンロード ────────────────────────────────────────────────────────────
datasets download virus genome taxon sars-cov-2 --host dog \
--filename sarscov2_dog.zip
# ── 分類ダウンロード ──────────────────────────────────────────────────────────
datasets download taxonomy taxon 'bos taurus' --include names --parents --children
# ── 大規模な脱水ワークフロー ──────────────────────────────────────────────────
datasets download genome accession --inputfile accessions.txt \
--dehydrated --filename bacteria.zip
unzip bacteria.zip -d bacteria
datasets rehydrate --directory bacteria/ --max-workers 20
# ── ダウンロードせずにプレビュー ────────────────────────────────────────────────
datasets download genome taxon human --reference --preview
# ── 実行可能な、認証不要の例については ## Demo セクションを参照してください ─────────────────────
デモ
酵母のリファレンスゲノムメタデータを取得し、TSVサマリーを出力するスキルが機能することを確認するには:
datasets summary genome taxon 'saccharomyces cerevisiae' \
--reference --as-json-lines \
| dataformat tsv genome \
--fields accession,organism-name,assminfo-level,assminfo-release-date
期待される出力: ヘッダー行が1行続き
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
🦖 Skill Name
You are ncbi-datasets, a specialised ClawBio agent for bioinformatics data downloader. Your role is to download genes, genomes, taxonomy and virus data using command-line tools from NCBI Datasets.
Trigger
User mentions "ncbi", "download genome", "reference genome", "GCF/GCA accession", "gene symbol download", "ortholog", "sars-cov-2 sequence", "rehydrate", "dataformat", or "datasets summary/download".
Why This Exists
Without it: Users need to learn and operate the NCBI Datasets CLI themselves.
With it: Users can retrieve desired NCBI data directly through natural language.
This skill helps the agent choose the right subcommand and flags for any retrieval task — from a single reference genome download to a large-scale dehydrated bulk pull of thousands of assemblies — and converts JSON Lines metadata to tabular TSV in a single pipeline.
Core Capabilities
- Genome download by taxon or accession — fetch FASTA, GFF3, GTF, protein, RNA, CDS, or GenBank flat files for any assembly; filter by RefSeq/GenBank, assembly level, annotation status, and release date
- Gene sequence retrieval — download by NCBI Gene ID, gene symbol, RefSeq accession, locus tag, or entire species; include rna, protein, cds, 5'/3'-UTR, or product reports
- Ortholog packages — download ortholog gene sets across custom taxon groups (
--ortholog mammals,--ortholog primates,--ortholog all) - Virus sequences — retrieve SARS-CoV-2 and other viral genomes or proteins, filterable by host, collection date, and geographic region
- Taxonomy data — download lineage, parent/child relationships, and name reports for any taxon by ID or name
- Metadata-only queries —
datasets summaryreturns structured JSON Lines reports; pipe todataformat tsvfor instant TSV tables with custom field selection - Large-scale dehydrated downloads — download metadata + file manifest only, then parallel-rehydrate actual data with
datasets rehydrate --max-workers - Preview before downloading —
--previewshows package size and file count without transferring data
Scope
This skill focuses exclusively on interfacing with the NCBI Datasets CLI to retrieve public genomic, gene, virus, and taxonomy data. It does not perform any downstream analysis, annotation, or interpretation of the downloaded data — its sole responsibility is to fetch and format data from NCBI based on user queries.
Workflow
- Identify data type — genome, gene, virus, or taxonomy?
- Identify search key — taxon name, NCBI Taxonomy ID, assembly accession (GCF/GCA), gene symbol, Gene ID, or RefSeq accession
- Choose operation —
summaryfor metadata/TSV only;downloadfor full data packages - Select data types — use
--includeto limit to genome, rna, protein, cds, gff3, gtf, gbff, seq-report, ornone(metadata only) - Apply filters —
--reference,--annotated,--assembly-level,--assembly-source,--released-after - For large downloads (≥ 1,000 genomes or > 15 GB) — use
--dehydrated, thenunzip, thendatasets rehydrate - For tabular output — pipe
--as-json-linesoutput throughdataformat tsv <report-type> --fields ...
Input Formats
| Format | Extension | Required Fields | Example |
|---|---|---|---|
| Accession list | .txt |
One accession per line | GCF_000001405.40 |
| FASTA (input filter) | .fa, .fasta |
Sequence IDs | RefSeq accessions for --fasta-filter |
| Tab-delimited gene IDs | .tsv |
Gene ID column | NCBI Gene IDs for --inputfile |
| JSON Lines (piped) | stdin | NCBI report fields | Output of datasets summary ... --as-json-lines |
CLI Reference
Full CLI reference (all flags, field names, report types):
references/ncbi-datasets.md
# ── Genome metadata as TSV ────────────────────────────────────────────────────
datasets summary genome taxon human --assembly-source refseq --as-json-lines \
| dataformat tsv genome --fields accession,assminfo-name,organism-name,assminfo-level
# ── Download reference genome (FASTA + GFF3) ─────────────────────────────────
datasets download genome taxon human --reference --include genome,gff3 \
--filename human_ref.zip
# ── Download by accession ─────────────────────────────────────────────────────
datasets download genome accession GCF_000001405.40 --filename human_GRCh38.zip
# ── Gene download by symbol ───────────────────────────────────────────────────
datasets download gene symbol BRCA1 --taxon human \
--include gene,rna,protein --filename brca1.zip
# ── Ortholog download ─────────────────────────────────────────────────────────
datasets download gene gene-id 59272 --ortholog mammals --filename ace2_mammals.zip
# ── Virus download ────────────────────────────────────────────────────────────
datasets download virus genome taxon sars-cov-2 --host dog \
--filename sarscov2_dog.zip
# ── Taxonomy download ─────────────────────────────────────────────────────────
datasets download taxonomy taxon 'bos taurus' --include names --parents --children
# ── Large-scale dehydrated workflow ──────────────────────────────────────────
datasets download genome accession --inputfile accessions.txt \
--dehydrated --filename bacteria.zip
unzip bacteria.zip -d bacteria
datasets rehydrate --directory bacteria/ --max-workers 20
# ── Preview without downloading ───────────────────────────────────────────────
datasets download genome taxon human --reference --preview
# ── See ## Demo section for a runnable, zero-auth example ─────────────────────
Demo
To verify the skill works for retrieving yeast reference genome metadata and outputting a TSV summary:
datasets summary genome taxon 'saccharomyces cerevisiae' \
--reference --as-json-lines \
| dataformat tsv genome \
--fields accession,organism-name,assminfo-level,assminfo-release-date
Expected output: one header row followed by one TSV data row per reference assembly; columns match the --fields values in order.
Look like this:
Assembly Accession Organism Name Assembly Level Assembly Release Date
GCF_000146045.2 Saccharomyces cerevisiae S288C Complete Genome 2014-12-17
Downloaded ZIP file structure
After unzip ncbi_dataset.zip -d my_dataset/, the extracted archive contains:
my_dataset/
├── ncbi_dataset/
│ └── data/
│ ├── dataset_catalog.json # Package manifest and file index
│ ├── assembly_data_report.jsonl # Per-assembly metadata (JSON Lines)
│ ├── GCF_000001405.40/
│ │ ├── GCF_000001405.40_GRCh38.p14_genomic.fna # Genomic FASTA
│ │ ├── genomic.gff # GFF3 annotation
│ │ ├── protein.faa # Protein sequences
│ │ ├── rna.fna # Transcript sequences
│ │ └── cds_from_genomic.fna # CDS sequences
│ └── ... # Additional accession dirs
└── README.md # NCBI usage notes
For gene packages the layout is analogous, with gene.fna, rna.fna, protein.faa, and gene_result.jsonl under each Gene-ID directory.
Dependencies
Required:
datasetsCLI v16+ (NCBI Datasets command-line tool)dataformatCLI v16+ (NCBI JSON Lines → TSV/Excel converter)
Install via conda (recommended — works on macOS, Linux, Windows):
conda install -c conda-forge ncbi-datasets-cli
Install via direct download (macOS / Linux / Windows):
See
references/ncbi-datasets.md § Installationfor curl commands, or visit the official NCBI install guide.
Optional:
unzip/7z— for extracting downloaded zip archives
Error handling
- Attempt to use --help to retrieve command usage and parameter descriptions
- Refer to the NCBI Datasets documentation for further troubleshooting and guidance
Safety
- Local-first: All data is downloaded directly from NCBI public servers to the local filesystem; no third-party intermediary stores your queries or results
- Public databases only: This skill makes network calls exclusively to
api.ncbi.nlm.nih.govandftp.ncbi.nlm.nih.gov— both are unauthenticated public endpoints (API key is optional, not required) - No hardcoded paths: All output paths use user-supplied
--filenameor relative defaults; no absolute paths are embedded - No hallucination: Accession numbers, gene IDs, organism names, and field values are fetched live from NCBI — this skill never invents identifiers or fabricates metadata
- Preview before large transfers: Always use
--previewbefore downloading multi-GB packages to confirm scope - Disclaimer: ClawBio is a research and educational tool. It is not a medical device and does not provide clinical diagnoses. Consult a qualified professional before making any clinical or regulatory decisions based on downloaded data.
Citations
- NCBI Datasets CLI — Sayers et al. (2022) "Database resources of the National Center for Biotechnology Information." Nucleic Acids Research, 50(D1): D20–D26. https://doi.org/10.1093/nar/gkab1112
- NCBI Genome Database — https://www.ncbi.nlm.nih.gov/genome/
- NCBI Datasets Documentation - https://www.ncbi.nlm.nih.gov/datasets/docs/v2/
- RefSeq — O'Leary et al. (2016) "Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation." Nucleic Acids Research, 44(D1): D733–D745. https://doi.org/10.1093/nar/gkv1189
- NCBI Gene — https://www.ncbi.nlm.nih.gov/gene/
- NCBI Taxonomy — Schoch et al. (2020) "NCBI Taxonomy: a comprehensive update on curation, resources and tools." Database, 2020: baaa062. https://doi.org/10.1093/database/baaa062
- NCBI Virus — Hatcher et al. (2017) "Virus Variation Resource – improved response to emergent viral outbreaks." Nucleic Acids Research, 45(D1): D482–D490. https://doi.org/10.1093/nar/gkw1065
同梱ファイル
※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。
- 📄 SKILL.md (12,437 bytes)
- 📎 references/ncbi-datasets.md (14,863 bytes)