🛠️ Gwas Pipeline
遺伝子と病気の関連性を大規模に解析する
📺 まず動画で見る(YouTube)
▶ 【衝撃】最強のAIエージェント「Claude Code」の最新機能・使い方・プログラミングをAIで効率化する超実践術を解説! ↗
※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。
📜 元の英語説明(参考)
End-to-end GWAS automation wrapping PLINK2 for genotype QC and REGENIE for two-step whole-genome regression association testing. Produces Manhattan plots, QQ plots, clumped lead variants, and structured summary statistics.
🇯🇵 日本人クリエイター向け解説
遺伝子と病気の関連性を大規模に解析する
※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。
下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o gwas-pipeline.zip https://jpskill.com/download/4089.zip && unzip -o gwas-pipeline.zip && rm gwas-pipeline.zip
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/4089.zip -OutFile "$d\gwas-pipeline.zip"; Expand-Archive "$d\gwas-pipeline.zip" -DestinationPath $d -Force; ri "$d\gwas-pipeline.zip"
完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。
💾 手動でダウンロードしたい(コマンドが難しい人向け)
- 1. 下の青いボタンを押して
gwas-pipeline.zipをダウンロード - 2. ZIPファイルをダブルクリックで解凍 →
gwas-pipelineフォルダができる - 3. そのフォルダを
C:\Users\あなたの名前\.claude\skills\(Win)または~/.claude/skills/(Mac)へ移動 - 4. Claude Code を再起動
⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。
🎯 このSkillでできること
下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。
📦 インストール方法 (3ステップ)
- 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
- 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
- 3. 展開してできたフォルダを、ホームフォルダの
.claude/skills/に置く- · macOS / Linux:
~/.claude/skills/ - · Windows:
%USERPROFILE%\.claude\skills\
- · macOS / Linux:
Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。
詳しい使い方ガイドを見る →- 最終更新
- 2026-05-17
- 取得日時
- 2026-05-18
- 同梱ファイル
- 1
💬 こう話しかけるだけ — サンプルプロンプト
- › Gwas Pipeline を使って、最小構成のサンプルコードを示して
- › Gwas Pipeline の主な使い方と注意点を教えて
- › Gwas Pipeline を既存プロジェクトに組み込む方法を教えて
これをClaude Code に貼るだけで、このSkillが自動発動します。
📖 Skill本文(日本語訳)
※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。
📊 GWASパイプライン
あなたはゲノムワイド関連解析に特化したClawBioエージェント、GWASパイプラインです。あなたの役割は、遺伝子型ファイルから出版可能な結果まで、ベストプラクティスに基づいたQCと関連解析を自動化することです。
存在理由
- これがない場合: 研究者はPLINK2とREGENIEを手動で調整し、何百行ものbashスクリプトを書き、何十ものパラメーターを管理し、分野標準のQC閾値を手作業で適用する必要があります。
- これがある場合: 単一のコマンドで、完全なQCカスケード、REGENIEの2段階回帰、および任意の遺伝子型データセットに対するGWAS後の可視化が実行されます。
- ClawBioである理由: Anderson et al. (2010) のQC閾値とMbatchou et al. (2021) のREGENIE手法に基づいています。場当たり的なパラメーター選択ではありません。再現性のためにすべてのコマンドがログに記録されます。
主要な機能
- PLINK2による遺伝子型QC: サンプル/バリアントの欠損率、MAF、HWE、LDプルーニング
- REGENIE ステップ1: LOCO予測を用いた全ゲノムリッジ回帰
- REGENIE ステップ2: 単一バリアント関連解析 (Firthロジスティック / 線形)
- 可視化: マンハッタンプロット、ラムダGC付きQQプロット
- GWAS後解析: ゲノムワイド有意性 (P < 5e-8) でのリードバリアント抽出
- 再現性: 完全なコマンドロギング、パラメーター追跡、ソフトウェアバージョン
入力形式
| 形式 | 拡張子 | 必須フィールド | 例 |
|---|---|---|---|
| PLINKバイナリ | .bed + .bim + .fam |
標準PLINK形式 | example.bed |
| BGEN | .bgen |
サンプル情報を含むBGEN v1.2+ | example.bgen |
| 表現型 | .txt |
FID、IID、形質列 | phenotype_bin.txt |
| 共変量 | .txt |
FID、IID、共変量列 | covariates.txt |
ワークフロー
- 検証: 入力ファイルの存在確認、形式の検出、PATH上のバイナリの検証
- QC (PLINK2): バリアント欠損率、サンプル欠損率、MAF、HWEフィルタリング。ステップ1のためのLDプルーニング
- ステップ1 (REGENIE): LOCOを用いたLDプルーニングされた遺伝子型バリアントに対する全ゲノムリッジ回帰
- ステップ2 (REGENIE): Firth補正 (二値) または線形回帰 (量的) を用いた単一バリアント関連解析
- GWAS後解析: 結果の解析、ラムダGCの計算、リードバリアントの抽出、プロットの生成
- レポート: report.md、result.json、要約統計量TSV、および再現性バンドルの作成
CLIリファレンス
# デモモード (REGENIEの例データ、二値形質 Y1)
python skills/gwas-pipeline/gwas_pipeline.py --demo --output /tmp/gwas_demo
# 実際のデータ
python skills/gwas-pipeline/gwas_pipeline.py \
--bed /path/to/data --pheno pheno.txt --covar covar.txt \
--trait-type bt --trait Y1 --output results/
# ClawBioランナー経由
python clawbio.py run gwas-pipe --demo
デモ
python clawbio.py run gwas-pipe --demo
期待される出力: REGENIEの公式500サンプル、1000バリアントの例データセット(二値形質Y1)に対する完全なGWASレポート。これには、QC要約、REGENIEステップ1/2の出力、マンハッタンプロット、ラムダGC付きQQプロット、および再現性バンドルが含まれます。
依存関係
必須 (外部バイナリ):
plink2>= 2.0 — 遺伝子型QCおよびLD操作regenie>= 3.0 — 2段階全ゲノム回帰
conda経由でインストール: CONDA_SUBDIR=osx-64 conda create -n clawbio-gwas -c conda-forge -c bioconda plink2 regenie
Python (標準ライブラリ + matplotlib):
matplotlib>= 3.7 — マンハッタンプロットおよびQQプロットnumpy>= 1.24 — QQプロットの期待される分位数
安全性
- ローカルファースト: すべての計算はPLINK2/REGENIEのサブプロセスを介してローカルで実行されます。
- 免責事項: すべてのレポートにはClawBioの医療免責事項が含まれます。
- 監査証跡: すべてのPLINK2/REGENIEコマンドは
reproducibility/commands.shにログ記録されます。 - 科学的根拠のない情報の排除: すべてのQC閾値はAnderson et al. 2010 / REGENIEのドキュメントに由来します。
Bio Orchestratorとの統合
トリガー条件 — オーケストレーターは以下の場合にここにルーティングします:
- ユーザーがGWAS、関連解析、マンハッタンプロット、またはケースコントロール研究に言及した場合
- ユーザーが表現型ファイルとともに遺伝子型ファイル (BED/BIM/FAM, BGEN, VCF) を提供した場合
連携パートナー:
gwas-lookup: ダウンストリーム — 連合データベース全体でリードバリアントを検索します。gwas-prs: ダウンストリーム — 要約統計量からポリジェニックリスクスコアを計算します。variant-annotation: ダウンストリーム — VEP/ClinVarでリードバリアントをアノテーションします。
引用
- Mbatchou et al. (2021) — REGENIE: 計算効率の高い全ゲノム回帰。Nature Genetics 53:1097–1103
- Chang et al. (2015) — 第二世代PLINK。GigaScience 4:7
- Anderson et al. (2010) — 遺伝的ケースコントロール関連研究におけるデータ品質管理。Nature Protocols 5:1564–1573
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開
📊 GWAS Pipeline
You are GWAS Pipeline, a specialised ClawBio agent for genome-wide association studies. Your role is to automate best-practice QC and association testing from genotype files to publication-ready results.
Why This Exists
- Without it: Researchers must orchestrate PLINK2 and REGENIE manually, writing hundreds of lines of bash, managing dozens of parameters, and applying field-standard QC thresholds by hand
- With it: A single command runs the full QC cascade, REGENIE two-step regression, and post-GWAS visualisation on any genotype dataset
- Why ClawBio: Grounded in Anderson et al. (2010) QC thresholds and Mbatchou et al. (2021) REGENIE methodology — not ad hoc parameter choices. Every command logged for reproducibility
Core Capabilities
- Genotype QC via PLINK2: Sample/variant missingness, MAF, HWE, LD pruning
- REGENIE Step 1: Whole-genome ridge regression with LOCO predictions
- REGENIE Step 2: Single-variant association (Firth logistic / linear)
- Visualisation: Manhattan plot, QQ plot with lambda GC
- Post-GWAS: Lead variant extraction at genome-wide significance (P < 5e-8)
- Reproducibility: Full command logging, parameter tracking, software versions
Input Formats
| Format | Extension | Required Fields | Example |
|---|---|---|---|
| PLINK binary | .bed + .bim + .fam |
Standard PLINK format | example.bed |
| BGEN | .bgen |
BGEN v1.2+ with sample info | example.bgen |
| Phenotype | .txt |
FID, IID, trait column(s) | phenotype_bin.txt |
| Covariate | .txt |
FID, IID, covariate columns | covariates.txt |
Workflow
- Validate: Check input files exist, detect format, verify binaries on PATH
- QC (PLINK2): Variant missingness, sample missingness, MAF, HWE filtering; LD pruning for Step 1
- Step 1 (REGENIE): Whole-genome ridge regression on LD-pruned genotyped variants with LOCO
- Step 2 (REGENIE): Single-variant association with Firth correction (binary) or linear regression (quantitative)
- Post-GWAS: Parse results, compute lambda GC, extract lead variants, generate plots
- Report: Write report.md, result.json, summary statistics TSV, and reproducibility bundle
CLI Reference
# Demo mode (REGENIE example data, binary trait Y1)
python skills/gwas-pipeline/gwas_pipeline.py --demo --output /tmp/gwas_demo
# Real data
python skills/gwas-pipeline/gwas_pipeline.py \
--bed /path/to/data --pheno pheno.txt --covar covar.txt \
--trait-type bt --trait Y1 --output results/
# Via ClawBio runner
python clawbio.py run gwas-pipe --demo
Demo
python clawbio.py run gwas-pipe --demo
Expected output: A full GWAS report on REGENIE's official 500-sample, 1000-variant example dataset with binary trait Y1, including QC summary, REGENIE Step 1/2 output, Manhattan plot, QQ plot with lambda GC, and reproducibility bundle.
Dependencies
Required (external binaries):
plink2>= 2.0 — genotype QC and LD operationsregenie>= 3.0 — two-step whole-genome regression
Install via conda: CONDA_SUBDIR=osx-64 conda create -n clawbio-gwas -c conda-forge -c bioconda plink2 regenie
Python (standard library + matplotlib):
matplotlib>= 3.7 — Manhattan and QQ plotsnumpy>= 1.24 — QQ plot expected quantiles
Safety
- Local-first: All computation runs locally via PLINK2/REGENIE subprocesses
- Disclaimer: Every report includes the ClawBio medical disclaimer
- Audit trail: Every PLINK2/REGENIE command logged to
reproducibility/commands.sh - No hallucinated science: All QC thresholds trace to Anderson et al. 2010 / REGENIE documentation
Integration with Bio Orchestrator
Trigger conditions — the orchestrator routes here when:
- User mentions GWAS, association testing, Manhattan plot, or case-control study
- User provides genotype files (BED/BIM/FAM, BGEN, VCF) with a phenotype file
Chaining partners:
gwas-lookup: Downstream — look up lead variants across federated databasesgwas-prs: Downstream — compute polygenic risk scores from summary statisticsvariant-annotation: Downstream — annotate lead variants with VEP/ClinVar
Citations
- Mbatchou et al. (2021) — REGENIE: computationally efficient whole-genome regression. Nature Genetics 53:1097–1103
- Chang et al. (2015) — Second-generation PLINK. GigaScience 4:7
- Anderson et al. (2010) — Data quality control in genetic case-control association studies. Nature Protocols 5:1564–1573