jpskill.com
🛠️ 開発・MCP コミュニティ 🔴 エンジニア向け 👤 エンジニア・AI開発者

🛠️ Geniml

geniml

遺伝子の特定の領域を示すデータ(BEDファイル)を

⏱ テスト計画作成 2時間 → 20分

📺 まず動画で見る(YouTube)

▶ 【衝撃】最強のAIエージェント「Claude Code」の最新機能・使い方・プログラミングをAIで効率化する超実践術を解説! ↗

※ jpskill.com 編集部が参考用に選んだ動画です。動画の内容と Skill の挙動は厳密には一致しないことがあります。

📜 元の英語説明(参考)

This skill should be used when working with genomic interval data (BED files) for machine learning tasks. Use for training region embeddings (Region2Vec, BEDspace), single-cell ATAC-seq analysis (scEmbed), building consensus peaks (universes), or any ML-based analysis of genomic regions. Applies to BED file collections, scATAC-seq data, chromatin accessibility datasets, and region-based genomic feature learning.

🇯🇵 日本人クリエイター向け解説

一言でいうと

遺伝子の特定の領域を示すデータ(BEDファイル)を

※ jpskill.com 編集部が日本のビジネス現場向けに補足した解説です。Skill本体の挙動とは独立した参考情報です。

⚡ おすすめ: コマンド1行でインストール(60秒)

下記のコマンドをコピーしてターミナル(Mac/Linux)または PowerShell(Windows)に貼り付けてください。 ダウンロード → 解凍 → 配置まで全自動。

🍎 Mac / 🐧 Linux
mkdir -p ~/.claude/skills && cd ~/.claude/skills && curl -L -o geniml.zip https://jpskill.com/download/4160.zip && unzip -o geniml.zip && rm geniml.zip
🪟 Windows (PowerShell)
$d = "$env:USERPROFILE\.claude\skills"; ni -Force -ItemType Directory $d | Out-Null; iwr https://jpskill.com/download/4160.zip -OutFile "$d\geniml.zip"; Expand-Archive "$d\geniml.zip" -DestinationPath $d -Force; ri "$d\geniml.zip"

完了後、Claude Code を再起動 → 普通に「動画プロンプト作って」のように話しかけるだけで自動発動します。

💾 手動でダウンロードしたい(コマンドが難しい人向け)
  1. 1. 下の青いボタンを押して geniml.zip をダウンロード
  2. 2. ZIPファイルをダブルクリックで解凍 → geniml フォルダができる
  3. 3. そのフォルダを C:\Users\あなたの名前\.claude\skills\(Win)または ~/.claude/skills/(Mac)へ移動
  4. 4. Claude Code を再起動

⚠️ ダウンロード・利用は自己責任でお願いします。当サイトは内容・動作・安全性について責任を負いません。

🎯 このSkillでできること

下記の説明文を読むと、このSkillがあなたに何をしてくれるかが分かります。Claudeにこの分野の依頼をすると、自動で発動します。

📦 インストール方法 (3ステップ)

  1. 1. 上の「ダウンロード」ボタンを押して .skill ファイルを取得
  2. 2. ファイル名の拡張子を .skill から .zip に変えて展開(macは自動展開可)
  3. 3. 展開してできたフォルダを、ホームフォルダの .claude/skills/ に置く
    • · macOS / Linux: ~/.claude/skills/
    • · Windows: %USERPROFILE%\.claude\skills\

Claude Code を再起動すれば完了。「このSkillを使って…」と話しかけなくても、関連する依頼で自動的に呼び出されます。

詳しい使い方ガイドを見る →
最終更新
2026-05-17
取得日時
2026-05-18
同梱ファイル
6

💬 こう話しかけるだけ — サンプルプロンプト

  • Geniml を使って、最小構成のサンプルコードを示して
  • Geniml の主な使い方と注意点を教えて
  • Geniml を既存プロジェクトに組み込む方法を教えて

これをClaude Code に貼るだけで、このSkillが自動発動します。

📖 Skill本文(日本語訳)

※ 原文(英語/中国語)を Gemini で日本語化したものです。Claude 自身は原文を読みます。誤訳がある場合は原文をご確認ください。

Geniml: ゲノムインターバル機械学習

概要

Genimlは、BEDファイルからのゲノムインターバルデータに対して機械学習モデルを構築するためのPythonパッケージです。ゲノム領域、単一細胞、およびメタデータラベルの埋め込みを学習するための教師なしメソッドを提供し、類似性検索、クラスタリング、および下流のMLタスクを可能にします。

インストール

uvを使用してgenimlをインストールします。

uv pip install geniml

ML依存関係(PyTorchなど)の場合:

uv pip install 'geniml[ml]'

GitHubからの開発バージョン:

uv pip install git+https://github.com/databio/geniml.git

主要な機能

Genimlは5つの主要な機能を提供しており、それぞれ専用のリファレンスファイルで詳しく説明されています。

1. Region2Vec: ゲノム領域の埋め込み

word2vecスタイルの学習を使用して、ゲノム領域の教師なし埋め込みを訓練します。

用途: BEDファイルの次元削減、領域類似性分析、下流のMLのための特徴ベクトル。

ワークフロー:

  1. ユニバースリファレンスを使用してBEDファイルをトークン化します。
  2. トークンに対してRegion2Vecモデルを訓練します。
  3. 領域の埋め込みを生成します。

リファレンス: 詳細なワークフロー、パラメータ、および例については、references/region2vec.mdを参照してください。

2. BEDspace: 領域とメタデータの共同埋め込み

StarSpaceを使用して、領域セットとメタデータラベルの共有埋め込みを訓練します。

用途: メタデータ認識検索、クロスモーダルクエリ(領域→ラベルまたはラベル→領域)、ゲノムコンテンツと実験条件の共同分析。

ワークフロー:

  1. 領域とメタデータを前処理します。
  2. BEDspaceモデルを訓練します。
  3. 距離を計算します。
  4. 領域とラベルを横断してクエリを実行します。

リファレンス: 詳細なワークフロー、検索タイプ、および例については、references/bedspace.mdを参照してください。

3. scEmbed: 単一細胞クロマチンアクセシビリティの埋め込み

単一細胞ATAC-seqデータに対してRegion2Vecモデルを訓練し、細胞レベルの埋め込みを作成します。

用途: scATAC-seqクラスタリング、細胞タイプアノテーション、単一細胞の次元削減、scanpyワークフローとの統合。

ワークフロー:

  1. ピーク座標を含むAnnDataを準備します。
  2. 細胞を事前トークン化します。
  3. scEmbedモデルを訓練します。
  4. 細胞の埋め込みを生成します。
  5. scanpyでクラスタリングと可視化を行います。

リファレンス: 詳細なワークフロー、パラメータ、および例については、references/scembed.mdを参照してください。

4. Consensus Peaks: ユニバース構築

複数の統計的手法を使用して、BEDファイルコレクションから参照ピークセット(ユニバース)を構築します。

用途: トークン化リファレンスの作成、データセット間の領域の標準化、統計的厳密さを持つコンセンサス特徴の定義。

ワークフロー:

  1. BEDファイルを結合します。
  2. カバートラックを生成します。
  3. CC、CCF、ML、またはHMMメソッドを使用してユニバースを構築します。

メソッド:

  • CC (Coverage Cutoff): 単純な閾値ベース
  • CCF (Coverage Cutoff Flexible): 境界の信頼区間
  • ML (Maximum Likelihood): 位置の確率的モデリング
  • HMM (Hidden Markov Model): 複雑な状態モデリング

リファレンス: メソッドの比較、パラメータ、および例については、references/consensus_peaks.mdを参照してください。

5. Utilities: サポートツール

キャッシング、ランダム化、評価、および検索のための追加ツール。

利用可能なユーティリティ:

  • BBClient: 繰り返しアクセスするためのBEDファイルキャッシング
  • BEDshift: ゲノムコンテキストを保持するランダム化
  • Evaluation: 埋め込み品質のメトリクス(シルエット、Davies-Bouldinなど)
  • Tokenization: 領域トークン化ユーティリティ(ハード、ソフト、ユニバースベース)
  • Text2BedNN: ゲノムクエリのためのニューラル検索バックエンド

リファレンス: 各ユーティリティの詳細な使用法については、references/utilities.mdを参照してください。

一般的なワークフロー

基本的な領域埋め込みパイプライン

from geniml.tokenization import hard_tokenization
from geniml.region2vec import region2vec
from geniml.evaluation import evaluate_embeddings

# Step 1: BEDファイルをトークン化
hard_tokenization(
    src_folder='bed_files/',
    dst_folder='tokens/',
    universe_file='universe.bed',
    p_value_threshold=1e-9
)

# Step 2: Region2Vecを訓練
region2vec(
    token_folder='tokens/',
    save_dir='model/',
    num_shufflings=1000,
    embedding_dim=100
)

# Step 3: 評価
metrics = evaluate_embeddings(
    embeddings_file='model/embeddings.npy',
    labels_file='metadata.csv'
)

scATAC-seq解析パイプライン

import scanpy as sc
from geniml.scembed import ScEmbed
from geniml.io import tokenize_cells

# Step 1: データをロード
adata = sc.read_h5ad('scatac_data.h5ad')

# Step 2: 細胞をトークン化
tokenize_cells(
    adata='scatac_data.h5ad',
    universe_file='universe.bed',
    output='tokens.parquet'
)

# Step 3: scEmbedを訓練
model = ScEmbed(embedding_dim=100)
model.train(dataset='tokens.parquet', epochs=100)

# Step 4: 埋め込みを生成
embeddings = model.encode(adata)
adata.obsm['scembed_X'] = embeddings

# Step 5: scanpyでクラスタリング
sc.pp.neighbors(adata, use_rep='scembed_X')
sc.tl.leiden(adata)
sc.tl.umap(adata)

ユニバース構築と評価

# カバレッジを生成
cat bed_files/*.bed > combined.bed
uniwig -m 25 combined.bed chrom.sizes coverage/

# カバレッジカットオフでユニバースを構築
geniml universe build cc \
  --coverage-folder coverage/ \
  --output-file universe.bed \
  --cutoff 5 \
  --merge 100 \
  --filter-size 50

# ユニバースの品質を評価
geniml universe evaluate \
  --universe universe.bed \
  --coverage-folder coverage/ \
  --bed-folder bed_files/

CLIリファレンス

Genimlは主要な操作のためのコマンドラインインターフェースを提供します。

# Region2Vecの訓練
geniml region2vec --token-folder tokens/ --save-dir model/ --num-shuffle 1000

# BEDspaceの前処理
geniml bedspace preprocess --input regions/ --metadata labels.csv --universe universe.bed

# BEDspaceの訓練
geniml bedspace train --input preprocessed.txt --output model/ --dim 100

# BEDspaceの検索
geniml bedspace search -t r2l -d distances.pkl -q query.bed -n 10

# ユニバースの構築
geniml universe build cc --coverage-folder coverage/ --output universe.bed --cutoff 5

# BEDshiftによるランダム化
geniml bedshift --input peaks.bed --genome hg38
📜 原文 SKILL.md(Claudeが読む英語/中国語)を展開

Geniml: Genomic Interval Machine Learning

Overview

Geniml is a Python package for building machine learning models on genomic interval data from BED files. It provides unsupervised methods for learning embeddings of genomic regions, single cells, and metadata labels, enabling similarity searches, clustering, and downstream ML tasks.

Installation

Install geniml using uv:

uv pip install geniml

For ML dependencies (PyTorch, etc.):

uv pip install 'geniml[ml]'

Development version from GitHub:

uv pip install git+https://github.com/databio/geniml.git

Core Capabilities

Geniml provides five primary capabilities, each detailed in dedicated reference files:

1. Region2Vec: Genomic Region Embeddings

Train unsupervised embeddings of genomic regions using word2vec-style learning.

Use for: Dimensionality reduction of BED files, region similarity analysis, feature vectors for downstream ML.

Workflow:

  1. Tokenize BED files using a universe reference
  2. Train Region2Vec model on tokens
  3. Generate embeddings for regions

Reference: See references/region2vec.md for detailed workflow, parameters, and examples.

2. BEDspace: Joint Region and Metadata Embeddings

Train shared embeddings for region sets and metadata labels using StarSpace.

Use for: Metadata-aware searches, cross-modal queries (region→label or label→region), joint analysis of genomic content and experimental conditions.

Workflow:

  1. Preprocess regions and metadata
  2. Train BEDspace model
  3. Compute distances
  4. Query across regions and labels

Reference: See references/bedspace.md for detailed workflow, search types, and examples.

3. scEmbed: Single-Cell Chromatin Accessibility Embeddings

Train Region2Vec models on single-cell ATAC-seq data for cell-level embeddings.

Use for: scATAC-seq clustering, cell-type annotation, dimensionality reduction of single cells, integration with scanpy workflows.

Workflow:

  1. Prepare AnnData with peak coordinates
  2. Pre-tokenize cells
  3. Train scEmbed model
  4. Generate cell embeddings
  5. Cluster and visualize with scanpy

Reference: See references/scembed.md for detailed workflow, parameters, and examples.

4. Consensus Peaks: Universe Building

Build reference peak sets (universes) from BED file collections using multiple statistical methods.

Use for: Creating tokenization references, standardizing regions across datasets, defining consensus features with statistical rigor.

Workflow:

  1. Combine BED files
  2. Generate coverage tracks
  3. Build universe using CC, CCF, ML, or HMM method

Methods:

  • CC (Coverage Cutoff): Simple threshold-based
  • CCF (Coverage Cutoff Flexible): Confidence intervals for boundaries
  • ML (Maximum Likelihood): Probabilistic modeling of positions
  • HMM (Hidden Markov Model): Complex state modeling

Reference: See references/consensus_peaks.md for method comparison, parameters, and examples.

5. Utilities: Supporting Tools

Additional tools for caching, randomization, evaluation, and search.

Available utilities:

  • BBClient: BED file caching for repeated access
  • BEDshift: Randomization preserving genomic context
  • Evaluation: Metrics for embedding quality (silhouette, Davies-Bouldin, etc.)
  • Tokenization: Region tokenization utilities (hard, soft, universe-based)
  • Text2BedNN: Neural search backends for genomic queries

Reference: See references/utilities.md for detailed usage of each utility.

Common Workflows

Basic Region Embedding Pipeline

from geniml.tokenization import hard_tokenization
from geniml.region2vec import region2vec
from geniml.evaluation import evaluate_embeddings

# Step 1: Tokenize BED files
hard_tokenization(
    src_folder='bed_files/',
    dst_folder='tokens/',
    universe_file='universe.bed',
    p_value_threshold=1e-9
)

# Step 2: Train Region2Vec
region2vec(
    token_folder='tokens/',
    save_dir='model/',
    num_shufflings=1000,
    embedding_dim=100
)

# Step 3: Evaluate
metrics = evaluate_embeddings(
    embeddings_file='model/embeddings.npy',
    labels_file='metadata.csv'
)

scATAC-seq Analysis Pipeline

import scanpy as sc
from geniml.scembed import ScEmbed
from geniml.io import tokenize_cells

# Step 1: Load data
adata = sc.read_h5ad('scatac_data.h5ad')

# Step 2: Tokenize cells
tokenize_cells(
    adata='scatac_data.h5ad',
    universe_file='universe.bed',
    output='tokens.parquet'
)

# Step 3: Train scEmbed
model = ScEmbed(embedding_dim=100)
model.train(dataset='tokens.parquet', epochs=100)

# Step 4: Generate embeddings
embeddings = model.encode(adata)
adata.obsm['scembed_X'] = embeddings

# Step 5: Cluster with scanpy
sc.pp.neighbors(adata, use_rep='scembed_X')
sc.tl.leiden(adata)
sc.tl.umap(adata)

Universe Building and Evaluation

# Generate coverage
cat bed_files/*.bed > combined.bed
uniwig -m 25 combined.bed chrom.sizes coverage/

# Build universe with coverage cutoff
geniml universe build cc \
  --coverage-folder coverage/ \
  --output-file universe.bed \
  --cutoff 5 \
  --merge 100 \
  --filter-size 50

# Evaluate universe quality
geniml universe evaluate \
  --universe universe.bed \
  --coverage-folder coverage/ \
  --bed-folder bed_files/

CLI Reference

Geniml provides command-line interfaces for major operations:

# Region2Vec training
geniml region2vec --token-folder tokens/ --save-dir model/ --num-shuffle 1000

# BEDspace preprocessing
geniml bedspace preprocess --input regions/ --metadata labels.csv --universe universe.bed

# BEDspace training
geniml bedspace train --input preprocessed.txt --output model/ --dim 100

# BEDspace search
geniml bedspace search -t r2l -d distances.pkl -q query.bed -n 10

# Universe building
geniml universe build cc --coverage-folder coverage/ --output universe.bed --cutoff 5

# BEDshift randomization
geniml bedshift --input peaks.bed --genome hg38 --preserve-chrom --iterations 100

When to Use Which Tool

Use Region2Vec when:

  • Working with bulk genomic data (ChIP-seq, ATAC-seq, etc.)
  • Need unsupervised embeddings without metadata
  • Comparing region sets across experiments
  • Building features for downstream supervised learning

Use BEDspace when:

  • Metadata labels available (cell types, tissues, conditions)
  • Need to query regions by metadata or vice versa
  • Want joint embedding space for regions and labels
  • Building searchable genomic databases

Use scEmbed when:

  • Analyzing single-cell ATAC-seq data
  • Clustering cells by chromatin accessibility
  • Annotating cell types from scATAC-seq
  • Integration with scanpy is desired

Use Universe Building when:

  • Need reference peak sets for tokenization
  • Combining multiple experiments into consensus
  • Want statistically rigorous region definitions
  • Building standard references for a project

Use Utilities when:

  • Need to cache remote BED files (BBClient)
  • Generating null models for statistics (BEDshift)
  • Evaluating embedding quality (Evaluation)
  • Building search interfaces (Text2BedNN)

Best Practices

General Guidelines

  • Universe quality is critical: Invest time in building comprehensive, well-constructed universes
  • Tokenization validation: Check coverage (>80% ideal) before training
  • Parameter tuning: Experiment with embedding dimensions, learning rates, and training epochs
  • Evaluation: Always validate embeddings with multiple metrics and visualizations
  • Documentation: Record parameters and random seeds for reproducibility

Performance Considerations

  • Pre-tokenization: For scEmbed, always pre-tokenize cells for faster training
  • Memory management: Large datasets may require batch processing or downsampling
  • Computational resources: ML/HMM universe methods are computationally intensive
  • Model caching: Use BBClient to avoid repeated downloads

Integration Patterns

  • With scanpy: scEmbed embeddings integrate seamlessly as adata.obsm entries
  • With BEDbase: Use BBClient for accessing remote BED repositories
  • With Hugging Face: Export trained models for sharing and reproducibility
  • With R: Use reticulate for R integration (see utilities reference)

Related Projects

Geniml is part of the BEDbase ecosystem:

  • BEDbase: Unified platform for genomic regions
  • BEDboss: Processing pipeline for BED files
  • Gtars: Genomic tools and utilities
  • BBClient: Client for BEDbase repositories

Additional Resources

Troubleshooting

"Tokenization coverage too low":

  • Check universe quality and completeness
  • Adjust p-value threshold (try 1e-6 instead of 1e-9)
  • Ensure universe matches genome assembly

"Training not converging":

  • Adjust learning rate (try 0.01-0.05 range)
  • Increase training epochs
  • Check data quality and preprocessing

"Out of memory errors":

  • Reduce batch size for scEmbed
  • Process data in chunks
  • Use pre-tokenization for single-cell data

"StarSpace not found" (BEDspace):

For detailed troubleshooting and method-specific issues, consult the appropriate reference file.

同梱ファイル

※ ZIPに含まれるファイル一覧。`SKILL.md` 本体に加え、参考資料・サンプル・スクリプトが入っている場合があります。