Trí tuệ nhân tạo (AI) và điện toán tăng tốc đang mở ra những khả năng mới trong quy trình giải trình tự gen.
Những tiến bộ trong giải trình tự toàn bộ gen (whole genome sequencing) đã châm ngòi cho một cuộc cách mạng trong Sinh học kỹ thuật số.
Các chương trình hệ gen học trên khắp thế giới đang trên đà phát triển khi chi phí dành cho giải trình tự thế hệ tiếp theo, thông lượng cao đã giảm xuống.
Cho dù được sử dụng để giải trình tự đối với các bệnh nhân được chăm sóc đặc biệt mắc các bệnh hiếm gặp hay trong nghiên cứu di truyền quy mô dân số, giải trình tự toàn bộ gen đang trở thành một bước nền tảng trong quy trình làm việc lâm sàng và phát triển thuốc.
Nhưng giải trình tự gen chỉ là bước đầu tiên. Phân tích dữ liệu giải trình tự gen yêu cầu điện toán tăng tốc, khoa học dữ liệu và AI để đọc và hiểu bộ gen. Với sự kết thúc của định luật Moore, theo quan sát cho thấy rằng số lượng bóng bán dẫn trong một IC sẽ tăng gấp đôi cứ sau hai năm, các phương pháp điện toán mới là cần thiết để giảm chi phí phân tích dữ liệu, tăng thông lượng và độ chính xác của các lần đọc và cuối cùng là mở khóa toàn bộ tiềm năng của bộ gen người.
Bùng nổ dữ liệu Tin sinh học
Giải trình tự toàn bộ gen của một cá nhân tạo ra khoảng 100GB dữ liệu thô. Con số đó tăng hơn gấp đôi sau khi bộ gen được giải trình tự bằng việc sử dụng các thuật toán và ứng dụng phức tạp như Học sâu và xử lý ngôn ngữ tự nhiên.
Bởi vì chi phí giải trình tự bộ gen người tiếp tục giảm nên dẫn đến khối lượng dữ liệu giải trình tự đang tăng theo cấp số nhân.
Ước tính sẽ cần khoảng 40 exabyte để lưu trữ tất cả dữ liệu bộ gen của con người vào năm 2025. Dung lượng đó gấp 8 lần so với dung lượng cần thiết để lưu trữ mọi từ được nói trong lịch sử loài người.
Nhiều quy trình phân tích bộ gen đang phải vật lộn để theo kịp mức độ mở rộng của dữ liệu thô được tạo ra.
Các quy trình phân tích giải trình tự gen được tăng tốc
Phân tích giải trình tự là rất phức tạp và chuyên sâu về tính toán, với nhiều bước cần thiết để xác định các biến thể di truyền trong bộ gen của con người.
Học sâu đang trở nên quan trọng đối với base calling ngay trong công cụ bộ gen bằng cách sử dụng các mô hình dựa trên mạng nơ-ron tích chập (CNN) và dựa trên RNN. Mạng nơ-ron nhân tạo (neural network) diễn giải dữ liệu hình ảnh và tín hiệu do các công cụ tạo ra và suy luận ra 3 tỷ cặp nucleotide của bộ gen người. Điều này đang cải thiện độ chính xác của các lần đọc và đảm bảo rằng base calling diễn ra gần với thời gian thực hơn, đẩy nhanh hơn nữa toàn bộ quy trình nghiên cứu hệ gen học, từ mẫu đến variant call format (VCF) cho đến báo cáo cuối cùng.
Đối với phân tích bộ gen thứ cấp, các công nghệ căn chỉnh sử dụng một bộ gen tham chiếu để hỗ trợ ghép bộ gen lại với nhau sau khi giải trình tự các đoạn DNA.
BWA-MEM, một thuật toán hàng đầu để căn chỉnh, đang giúp các nhà nghiên cứu lập bản đồ nhanh chóng các lần đọc trình tự DNA cho một bộ gen tham chiếu. STAR là một thuật toán căn chỉnh tiêu chuẩn vàng khác được sử dụng cho dữ liệu giải trình tự RNA mang lại khả năng căn chỉnh chính xác, cực nhanh để hiểu rõ hơn về các biểu hiện gen.
Thuật toán lập trình động Smith-Waterman cũng được sử dụng rộng rãi để căn chỉnh, một bước được tăng tốc gấp 35 lần trên GPU NVIDIA H100 Tensor Core, bao gồm một bộ tăng tốc lập trình động.
Khám phá các biến thể di truyền
Một trong những giai đoạn quan trọng nhất của các dự án giải trình tự là variant calling, trong đó các nhà nghiên cứu xác định sự khác biệt giữa mẫu của bệnh nhân và bộ gen tham chiếu. Điều này giúp các bác sĩ lâm sàng xác định bệnh di truyền mà một bệnh nhân bệnh nặng có thể mắc phải hoặc giúp các nhà nghiên cứu xem xét toàn bộ dân số để phát triển các loại thuốc mới. Những biến thể này có thể là các thay đổi nucleotide đơn, các chỉnh sửa nhỏ hoặc các sự sắp xếp phức tạp.
Các trình gọi được tăng tốc và tối ưu hóa bởi GPU, chẳng hạn như Broad Institute’s GATK – bộ công cụ phân tích bộ gen dành cho germline variant calling – tăng tốc độ phân tích. Để giúp các nhà nghiên cứu loại bỏ dương tính giả trong các kết quả GATK, NVIDIA đã hợp tác với Broad Institute để giới thiệu NVScoreVariants, một công cụ Học sâu để lọc các biến thể bằng cách sử dụng các CNN.
Các trình gọi biến thể dựa trên Học sâu như DeepVariant của Google tăng độ chính xác của các lần gọi mà không cần bước lọc riêng. DeepVariant sử dụng kiến trúc CNN để gọi các biến thể. Nó có thể được đào tạo lại để tinh chỉnh nhằm tăng độ chính xác với các output của từng nền tảng bộ gen.
Phần mềm phân tích thứ cấp trong bộ công cụ NVIDIA Clara Parabricks đã tăng tốc các trình gọi biến thể này lên tới 80 lần. Ví dụ: thời gian chạy của phần mềm germline HaplotypeCaller giảm từ 16 giờ trong môi trường dựa trên CPU xuống còn chưa đến 5 phút với Clara Parabricks được tăng tốc bởi GPU.
Tăng tốc làn sóng tiếp theo của Hệ gen học
NVIDIA đang giúp kích hoạt làn sóng Hệ gen học tiếp theo bằng cách hỗ trợ cho cả hai nền tảng giải trình tự đọc ngắn và dài với base calling và variant calling được tăng tốc AI. Các công ty khởi nghiệp và hàng đầu ngành đang hợp tác với NVIDIA để mở rộng ranh giới của hoạt động giải trình tự toàn bộ gen.
Công ty công nghệ sinh học PacBio gần đây đã công bố hệ thống Revio, một hệ thống giải trình tự đọc dài mới với các GPU NVIDIA Tensor Core. Được hỗ trợ bởi sức mạnh tính toán tăng gấp 20 lần so với các hệ thống trước đó, Revio được thiết kế để giải trình tự bộ gen người với các lần đọc dài có độ chính xác cao ở quy mô lớn với chi phí dưới 1.000 USD.
Oxford Nanopore Technologies cung cấp công nghệ đơn lẻ duy nhất có thể giải trình tự các đoạn DNA hoặc RNA có độ dài bất kỳ theo thời gian thực. Những tính năng này cho phép phát hiện nhanh chóng nhiều biến thể di truyền hơn. Bệnh viện Nhi đồng Seattle gần đây đã sử dụng công cụ giải trình tự lỗ nano thông lượng cao PromethION để tìm hiểu về rối loạn di truyền trong vài giờ đầu của trẻ sơ sinh.
Ultima Genomics đang cung cấp dịch vụ giải trình tự toàn bộ gen thông lượng cao chỉ với 100 đô la cho mỗi mẫu và G4 của Singular Genomics là hệ thống máy tính để bàn mạnh mẽ nhất.
Tìm hiểu thêm
Tại NVIDIA GTC, một hội nghị AI miễn phí diễn ra trực tuyến từ ngày 20 đến ngày 23 tháng 3, các diễn giả từ PacBio, Oxford Nanopore, Genomic England, KAUST, Stanford, Argonne National Labs và các tổ chức hàng đầu khác sẽ chia sẻ những tiến bộ mới nhất của AI trong giải trình tự, phân tích hệ gen học và các mô hình ngôn ngữ lớn để hiểu về biểu hiện gen.
Hội nghị có bài phát biểu quan trọng của người sáng lập kiêm Giám đốc điều hành của NVIDIA – Jensen Huang vào thứ Ba, ngày 21 tháng 3, lúc 8 giờ sáng theo giờ Thái Bình Dương.
NVIDIA Clara Parabricks miễn phí để tải xuống. Tìm hiểu hoặc dùng thử hands-on lab miễn phí để trải nghiệm hoạt động của bộ công cụ này.
Bài viết liên quan
- NVIDIA CEO: ‘Năm nay, mọi ngành công nghiệp sẽ trở thành ngành công nghệ’
- 11 cách mà AI giúp thế giới tốt đẹp hơn trong năm 2023
- NVIDIA cung cấp MONAI dưới dạng dịch vụ đám mây: Hỗ trợ mạnh mẽ cho Medical Imaging
- AI được sử dụng như thế nào trong ngành y tế và nghiên cứu Gen
- NVIDIA Clara: Tăng tốc nghiên cứu và ứng dụng AI trong lĩnh vực y tế