Phân tích ATAC-seq: Giới thiệu hướng dẫn (Phần 1)

Giới thiệu

Tài liệu này cung cấp cái nhìn tổng quan về phân tích dữ liệu ATAC-seq sử dụng các gói công cụ trong môi trường Bioconductor. Nội dung được chia thành nhiều phần, bao gồm toàn bộ quy trình xử lý từ đầu đến cuối như căn chỉnh reads, kiểm soát chất lượng (QC), gọi đỉnh (peak calling), phân tích giàu gen, tìm kiếm motif và phát hiện vùng tiếp cận khác biệt giữa các mẫu.

Thiết lập môi trường làm việc

Cài đặt IGV

Integrative Genomics Viewer (IGV) có thể được tải miễn phí từ trang web của Broad Institute tại địa chỉ: https://www.broadinstitute.org/igv/. Đây là công cụ trực quan hóa dữ liệu genomics mạnh mẽ, hỗ trợ xem kết quả align và biểu đồ tín hiệu genome-wide.

Cài đặt MACS2 thông qua R

MACS2 – công cụ phổ biến để thực hiện peak calling – không phải là một gói R, nhưng có thể được tích hợp vào luồng làm việc R thông qua hệ sinh thái Anaconda. Gói Herper cho phép người dùng quản lý các công cụ dòng lệnh như MACS2 ngay bên trong R.

BiocManager::install("Herper")
library(Herper)

Sau khi cài đặt thành công, bạn có thể cài đặt MACS2 bằng lệnh sau:

install_CondaTools(tools = "macs2", 
                   env = "atac_peak_calling", 
                   pathToMiniConda = "/usr/local/miniconda")

Lệnh này sẽ tự động thiết lập Miniconda (nếu chưa có), tạo môi trường conda riêng biệt tên là atac_peak_calling, và cài đặt MACS2 bên trong môi trường đó nhằm tránh xung đột phiên bản phần mềm.

Cài đặt R và RStudio

Bạn cần đảm bảo đã cài đặt phiên bản R mới nhất phù hợp với hệ điều hành. RStudio được khuyến nghị sử dụng để tăng hiệu quả tương tác với mã nguồn và báo cáo phân tích.

Các gói R cần thiết

Dưới đây là danh sách các gói R từ CRAN và Bioconductor cần cài đặt để thực hiện toàn bộ phân tích:

# Cài đặt trình quản lý gói
install.packages("BiocManager")

# Gói khóa học chuyên biệt
BiocManager::install("RockefellerUniversity/RU_ATACseq", subdir = "atacseq")

# Các gói phụ trợ từ Bioconductor và CRAN
packages <- c(
  "methods", "ggplot2", "rmarkdown", "ShortRead", "ashr", "ChIPQC",
  "DiffBind", "BSgenome.Hsapiens.UCSC.hg19", "Rsubread", "Rbowtie2",
  "R.utils", "Rsamtools", "BSgenome.Hsapiens.UCSC.hg38", "rtracklayer",
  "ChIPseeker", "soGGi", "GenomicAlignments", "TxDb.Hsapiens.UCSC.hg19.knownGene",
  "DESeq2", "BSgenome.Mmusculus.UCSC.mm10", "TxDb.Hsapiens.UCSC.hg38.knownGene",
  "tracktables", "clusterProfiler", "TxDb.Mmusculus.UCSC.mm10.knownGene",
  "devtools", "tidyr", "DT", "dplyr", "rGREAT", "MotifDb", "Biostrings",
  "GenomicRanges", "pheatmap", "universalmotif", "seqLogo", "org.Mm.eg.db",
  "ATACseqQC", "JASPAR2020", "motifmatchr", "chromVAR", "ggseqlogo",
  "TFBSTools", "motifStack", "knitr", "testthat", "yaml"
)

BiocManager::install(packages)

Nội dung khóa học

Phần 1: Tiền xử lý và căn chỉnh dữ liệu

  • Nhập và tiền xử lý dữ liệu ATAC-seq trong R
  • Căn chỉnh reads lên tham chiếu genome (hg38/mm10) bằng Rbowtie2 hoặc Subread
  • Chuyển đổi định dạng BAM sang bigWig để trực quan hóa trên IGV hoặc UCSC Genome Browser

Phần 2: Phân tích chức năng và mô hình tín hiệu

  • Gán chú thích vùng đỉnh theo gen gần nhất hoặc vùng chức năng (promoter, enhancer,...)
  • Trích xuất và vẽ biểu đồ tín hiệu nucleosome-free và mononucleosome
  • Phân tích vị trí cắt của enzyme Tn5 xung quanh vị trí gắn protein DNA

Phần 3: Phát hiện và phân tích motif

  • Khai thác cơ sở dữ liệu motif như JASPAR hoặc MotifDb
  • Trực quan hóa cấu trúc motif bằng biểu đồ logo
  • Xác định sự phong phú của các motif đã biết trong các vùng tiếp cận mở

Thẻ: ATAC-seq Bioconductor R MACS2 ChIPseeker

Đăng vào ngày 29 tháng 5 lúc 02:31