Giới thiệu ngành công nghệ Sinh - Tin học (kỳ 1)

Hoàng Kiếm , Đỗ Phúc

1. Giới thiệu

Dữ liệu sinh học đang được thu nhận với tốc độ vũ bão. Đến tháng 8 năm 2000, ngân hàng dữ liệu GENEBANK đã có 8,214,000 mục liên quan đến các trình tự sinh học DNA [2] và cơ sở dữ liệu (CSDL) SWISS-PROT có 88,166 mục liên quan đến các trình tự protein[3]. Trung bình những CSDL đang tăng gấp đôi kích thước sau mỗi chu kỳ 15 tháng [2]. Thêm vào đó, việc công bố bộ gen của hơn 40 bộ phận cơ thể đã cung cấp thêm từ 450 gen đến trên 100,000 gen. Ngoài ra sự ra đời của vô số dự án nghiên cứu gen, xác định cấu trúc protein được mã hóa trong bộ gen... đã sản sinh một lượng lớn thông tin sinh học và thông tin này ngày càng đa dạng và phong phú.

2. Định nghĩa Sinh Tin học

Do dữ liệu sinh học tăng trưởng mạnh mẽ nên công cụ tin học đã trở thành một phương tiện không thể thiếu trong phân tích xử lý dữ liệu sinh học. Công nghệ Thông tin có thể quản lý nguồn dữ liệu khổng lồ, phân tích các dữ liệu đa dạng và luôn biến đổi trong thế giới tự nhiên. Ngành Sinh Tin học được xem là lĩnh vực nghiên cứu liên ngành nhằm kết hợp các kỹ thuật xử lý, tính toán và tổ chức thông tin bằng thiết bị Tin học với các kỹ thuật, công cụ phổ biến trong ngành Sinh học phân tử.

Sự hợp nhất ngoài mong đợi giữa hai ngành khoa học thúc đẩy các nghiên cứu mạnh mẽ về công nghệ Sinh học đặc biệt là các nghiên cứu sinh lý học của một cơ phận ở mức độ gen.

Các tiến bộ nhanh chóng của kỹ thuật máy tính trong thu nhận dữ liệu cho phép dẽ dàng thu nhận dữ liệu trình tự sinh học. Anthony Kerlavage của Công ty Celeron (Mỹ) cho biết có thể dễ dàng tạo ra trên 100 GB dữ liệu trong một ngày [5].

3. Mục tiêu của Ngành Sinh Tin học

Mục tiêu đầu tiên của ngành Sinh tin học là tổ chức dữ liệu để quản lý và truy cập thông tin. Mục tiêu thứ hai là phát triển các công cụ và tài nguyên hỗ trợ phân tích dữ liệu sinh học, chẳng hạn so sánh trình tự protein đặc thù với các trình tự đã biết rõ chức năng. Mục tiêu thứ ba là dùng những công cụ này để phân tích dữ liệu và diễn giải kết quả theo ý nghĩa trong sinh học.

Những nghiên cứu sinh học truyền thống thường kiểm tra hệ thống cá thể bằng cách so sánh chúng với các cá thể liên quan. Trong Ngành Sinh tin học, có thể quản lý những dữ liệu sinh học đã phân tích trên phạm vi toàn cầu thông qua mạng Internet và hỗ trợ tích cực các quá trình so sánh.

Phần tổng quan này tập trung vào mục tiêu thứ nhất và thứ ba. Đặc biệt, phần này sẽ bàn đến các nguồn dữ liệu hiện có, cách thức truy cập, phân tích, xử lý dữ liệu một số những ứng dụng thực tiễn của ngành Sinh tin học.

4. Thông tin kết hợp với sinh học phân tử

Hãy bắt đầu bằng một cái nhìn khái quát về các nguồn tài nguyên thông tin. Chúng được chia thành các trình tự sinh học DNA, các trình tự sinh học protein, cấu trúc của các đại phân tử, trình tự gen và bộ gen khác.

Trình tự sinh học DNA thô là chuỗi được cấu tạo từ 4 ký tự cơ bản(nucleotide) là A, C, G, T. Trung bình mỗi gen có chiều dài khoảng 1,000 ký tự cơ sở ( base). Ngân hàng dữ liệu GENBANK hiện lưu trữ hơn 9.5 tỉ nucleotide của các gen. Kế đến là các trình tự protein được cấu tạo từ 20 ký tự acid amino. Hiện có khoảng 300,000 trình tự protein đã biết, một protein của vi khuẩn có chiều dài 300 codon.

Dữ liệu cấu trúc đại phân tử là một dạng phức tạp của thông tin. Hiện có trong ngân hàng dữ liệu protein (PDB) có hơn 13,000 mục trình bày các cấu trúc protein.

Củng như những trình tự DNA thô, bộ gen bao gồm những ký tự cơ bản, có phạm vi từ 1.6 triệu đến 3 tỉ ký tự cơ sở. Điều quan trọng nhất của bộ gen hoàn chỉnh là khả năng phân biệt giữa vùng mã hóa và vùng không mã hóa. Giờ đây, có thể đo mức độ biểu hiện của hầu hết các gen trong từng tế bào trên toàn bộ gen. Những đo đạc mức độ biểu hiện được thực hiện trong những điều kiện môi trường, phạm vi hoạt động của chu kỳ tế bào, kiểu tế bào khác nhau trong hệ thống đa bào. Tập dữ liệu lớn nhất hiện có tương đương với số liệu 20 lần đo đạc cho 6,000 gen [10]. Dữ liệu thu được bao gồm các thông tin hoá sinh trong quá trình trao đổi chất, điều tiết, tương tác giữa protein-protein. . . .

Tính đa dạng và sự phức tạp của các tập dữ liệu khác nhau là vấn đề luôn tồn tại. Vẫn luôn luôn có nhiều dữ liệu trình tự thô hơn là dữ liệu có cấu trúc. Do đó đòi hỏi các khả năng phân tích số lượng khoẩng lồ các dữ liệu thô để thu nhận các thông tin có tính khái quát cao.

5. Tổ chức thông tin trên một diện rộng

Khái niệm cơ sở cho hầu hết các phương pháp nghiên cứu trong sinh tin học là có thể gom nhóm dữ liệu theo mức độ tương đồng và có ý nghĩa trong sinh học. Ví dụ, các đoạn trình tự sinh học thường được lặp lại tại những vị trí khác nhau của hệ gen DNA[11]. Gen có thể được gom thành các cụm có chức năng riêng biệt (ví dụ hoạt đông enzym) hay theo cách trao đổi chất của chúng[13]. Ngoài ra có thể so sánh các protein chưa biết chức năng với các protein đã biết rõ chức năng để suy diễn chức năng và tiến hóa. Ở mức độ cấu trúc, hiện nay có một số hữu hạn các cấu trúc cấp ba khác nhau ( khoảng từ 1,000 đến 10,000 ) [14,15] và các protein có thể có cấu trúc tương đương nhưng khác nhau về trình tự .

Thuật ngữ chung để mô tả mối liên hệ giữa cặp protein hay gen với protein hay gen dùng để suy dẫn ra chúng: Các protein tương tự (analogous) có các nếp gấp có liên liên quan với nhau nhưng các trình tự thì không liên quan nhau. Trong khi các protein tương đồng (homology) giống nhau về trình tự và cấu trúc. Đôi khi rất khó phân biệt hai loại này đặc biệt nếu mối liên hệ giữa hai protein là xa nhau [17,18]. Trong quan hệ tương đồng cần phân biệt giữa orthologues - protein trong những loài được tiến hoá từ một gen tổ tiên chung, và paralogues - protein liên quan đến việc nhân đôi gen bên trong bộ gen [19] . Orthologue thường giữ lại chức năng giống nhau trong khi paralogue tiến hoá khác nhau nhưng có các chức năng có liên quan với nhau [20].

Khái niệm quan trọng nảy sinh từ quan sát này là ở chỗ các sinh vật khác nhau có “danh sách thành phần” hữu hạn [21,21]. Các protein trong một sinh vật được sắp xếp theo những thuộc tính khác nhau như trình tự gen, các nếp gấp protein hay chức năng của chúng. Ví dụ cấu trúc cấp ba của protein chỉ thích ứng với một số giới hạn các nếp gấp trong kho lưu trữ. Vì số các họ nếp gấp khác nhau là khá nhỏ so với họ gen, việc phân loại protein theo các nếp gấp làm đơn giản hóa trọng thông tin ẩn chứa trong bộ gen. Có thể cung cấp sự đơn giản hoá tương tự dựa trên các thuộc tính khác nhau như chức năng của protein.Do vậy, chúng ta rất mong danh sách các phần hữu hạn sẽ ngày càng phổ biến trong phân tích hệ gen.

Rõ ràng, vấn đề then chốt của việc quản lý lượng lớn dữ liệu này nằm ở nhu cầu phát triển các phương pháp truy vấn tương tự giữa các phân tử sinh học khác nhau và nhận diện những thứ có liên quan nhau. Phần sau bàn đến các CSDL chính cho phép truy cập tài nguyên thông tin và giới thiệu vài CSDL thứ cấp có gom nhóm dữ liệu. Các so sánh dễ dàng giữa bộ gen và sản phẩm của nó, cho phép nhận diện mối liên hệ và rút ra các đặc trưng nổi bật và duy nhất.

5.1. CSDL trình tự protein

CSDL trình tự protein được phân loại như sơ cấp, hỗn hợp, thứ cấp. CSDL sơ cấp chứa trên 300,000 trình tự protein và chức năng của nó, đây là một kho lưu trữ dữ liệu thô. Một số kho lưu trữ dữ liệu phổ biến chung như SWISS-PROT, và PIR chứa các trình tự, chức năng protein, cấu trúc và những thay đổi sau khi dịch mã. CSDL hổn hợp như OWL [24] và NRDB [25] biên soạn và lọc dữ liệu trình tự các CSDL sơ cấp để tạo tập dữ liệu tổng hợp và hoàn chỉnh hơn dữ liệu thô của các CSDL riêng lẻû. CSDL này cũng bao gồm dữ liệu trình tự protein từ việc dịch mã các vùng mã hoá trong trình tự DNA.. CSDL thứ cấp gồm thông tin được suy dẫn từ các trình tự protein và giúp người dùng xác định trình tự mới có thuộc họ protein đã biết hay không. Một trong những CSDL phổ biến là PROSITE [26], đây là một CSDL chứa các mẫu trình tự ngắn và hồ sơ tổng lược (profile) nhằm biểu thị các vị trí (site) có ý nghĩa sinh học trong protein. CSDL PRINTS [27] mở rộng khái niệm này và cung cấp bản tóm tắt dấu vân protein – nhóm của đoạn lặp được bảo tồn để đặc trưng cho họ protein. Đoạn lặp thường cách nhau trong trình tự protein, nhưng vẫn liên tục trong không gian 3D khi protein bị gấp nếp. Bằng việc sử dụng nhiều đoạn lặp, có thể mã hoá các nếp gấp protein, các chức năng trong PROSITE . Cuối cùng, CSDL Pfam [28] chứa các phương án chỉnh thẳng cột nhiều trình tự (multiple alignment) và hồ sờ tổng lược Markov ẩn của nhiều protein phổ biến. CSDL Pfam-A chứa các phương án chính thẳng cột trong khi Pfam-B là kết quả gom cụm tự động của toàn bộ dữ liệu CSDL SWISS-POT. Những CSDL thứ cấp khác biệt này được kết hợp lại với nhau thành tài nguyên duy nhất có tên là InterPro [29].

5.2. CSDL có cấu trúc

Kế đến hãy xem CSDL của cấu trúc đại phân tử. Ngân hàng dữ liệu protein, PDB [6,7], cung cấp tất cả cấu trúc 3D của các đại phân tử như protein, RNA, DNA và những phức hợp khác, hiên CSDL có chừng 13,000 cấu trúc (tháng 8 năm 2000) được phân giải bằng tia x và NMRb, ngoài ra còn có vài mô hình lý thuyết. PDBsum[30] cung cấp một trang Web riêng cho từng cấu trúc trong PDB chứa các chi tiết các phân tích cấu trúc, các biểu đồ và dữ liệu tương tác giữa các phân tử khác nhau.. Ba CSDL chính phân loại proteins theo cấu trúc để nhận diện các quan hệ về cấu trúc và tiến hóa là CSDL CATH[3], SCOP[32], và FSSP [33]. Các CSDL trên đều có kiến trúc phân cấp phục vụ việc gom nhóm protein dựa trên mức độ tương tự. CSDL khổng lồ này bao gồm những đại phân tử đặc biệt. Các CSDL này bao gồm CSDL Nucelic Acids, NDB[34] với các cấu trúc liên quan đến nucleic acids, CSDL HIV protease [35] chứa các cấu trúc protease HIV-1, HIV-2 và SIV và những phức hợp của chúng, và ReLIBase [36] chứa các phức hợp receptor-ligand.

5.3. Trình tự nucleotide và gen

Như đã mô tả ở trên, vấn đề nổi trội nhất hiện nay nằm trong khả năng sẵn có các trình tự trong bộ gen cho các bộ phận cơ thể khác nhau. CSDL GenBank [2], EMBL [37] và DDBJ [38] chứa các trình tự DNA cho từng gen mã hóa protein và sản phẩm RNA. Như nhiều CSDL trình tự protein hỗn hợp, CSDL Entrez nuleotide [39] tổng hợp các trình tự từ những CSDL thứ cấp.

Khi hoàn tất giải trình tự toán bộ bộ gen, sẽ đưa đến việc công bố những bộ gen riêng biệt tại các Site khác nhau. CSDL gen Entrez [40] gom tất cả bộ gen hoàn chỉnh của những Site vị trí riêng lẻvà hiện biểu diễn trên 1,000 bộ phận cơ thể khác nhau (Tháng 8 2000). Thêm vào đó, việc cung cấp các trình tự nucleic thô, thông tin được thể hiện ở nhiều mức độ chi tiết khác nhau bao gồm: một danh sách bộ gen hoàn chỉnh, các nhiễm sắc thể trong một bộ phận cơ thể, các quan sát chi tiết trong từng nhiễm sắc thể riêng lẻ có đánh dấu các vùng mã hóa và không mã hóa, và các gen đơn lẻ. Tại mỗi mức độ, có những thể hiện đồ họa, những phân tích tính toán, những liên kết với những phần khác nhau của Entrez. Ví dụ, những giải thích cho một gen bao gồm trình tự protein được dịch mã, phương án chỉnh thẳng cột trình tự với các gen tương tự trong các bộ gen khác và những tóm lược các đặc trưng thực nghiệm hay chức năng dự đoán. GenreCensus [41] cũng cung cấp các đề mục phân tích bệ gen trong tiến trình phát triển. CSDL này cho phép xây dựng cây phát sinh loài dựa trên điều kiện khác nhau như ribosomal RNA hay sự xuất hiện các nếp gấp trong protein. Các Site này còn cung cấp các phương án so sánh nhiều bộ gen, phân tích một bộ gen đơn lẻ và phục hồi thông tin cho từng gen riêng biệt. CSDL COG [20] phân loại protein đã mã hóa trong 21 bộ gen hoàn chỉnh trên cơ sở các trình tự tương đương. Thành viên của cùng cụm của Nhóm Orthologous, COG được mong đợi có kiến trúc 3D giống nhau và những chức năng tương đương. Khuynh hướng ứng dụng của hầu hết CSDL là dự đoán chức năng của protein không đặc trưng dựa trên tính tương đồng của chúng đối với protein đặc trưng, và cũng để nhận diện mẩu phát sinh loài của sự xuất hiện protein – ví dụ, COG được cho được thể hiện qua hầu hết hay tất cả các bộ phận cơ thể hay chỉ trong vài loài liên quan gần.

5.4. Dữ liệu biểu hiện gen

Hầu hết nguồn dữ liệu mới đây đều xuất phát từ những thực nghiệm biểu hiện nhằm định lượng mức độ biểu hiện của các gen riêng lẻ.. Những thực nghiệm này đo lường số lượng mRNA hay sản phẩm protein được sản sinh bởi tế bào. Đối với vấn đề trước, có ba công nghệ chính là cDNA microarray[42-44], Affymatric GenreChip [45] và những phương pháp SAGE [46]. Phương pháp đầu tiên đo mức đô tương đối của nhiều mRNA giữa những mẩu khác nhau, trong khi hai kỹ thuật sau đó đo những mức độ tuyệt đối. Hầu hết những nỗ lực trong phân tích biểu hiện gen đều tập trung vào yeast và bộ gen người và ø cho đến nay, chưa có kho lưu trữ tập trung cho dữ liệu này.

5.5. Tích hợp dữ liệu

Những nghiên cứu có ích nhất trong ngành sinh tin học là việc tích hợp kết quả từ nhiều nguồn dữ liệu [58]. Thí dụ, tọa độ 3D của protein thì càng hữu dụng nếu kết hợp dữ liệu về chức năng protein, sự xuất hiện trong các bộ gen khác, và sự tương tác với những phân tử khác. Theo cách này, những mẩu cá biệt của thông tin được đặt trong ngữ cảnh có đối chiếu với các dữ liệu khác. Thật không may, nó không luôn luôn dễ dàng truy cập qua những tham khảo chéo những nguồn thông tin này do sự khác biệt trong cách đặt tên và khuôn mẩu tập tin.Về cơ bản, vấn đề này thường được giải quyết bằng cách cung cấp các liên kết ngoài đến các CSDL khác, ví dụ trong PDBSUm, trang web cho cấu trúc riêng biệt trực tiếp giúp người dùng đi đến phần thích hợp trong CSDL PDB, NDB, CATH, SCOP và SWISS-PROT. Ở mức cao hơn, có những nổ lực nhằm tích hợp truy cập chéo các nguồn dữ liệu. Một số hệ thống tiêu biểu như hệ thống truy cập trình tự SRS (Sequence Retrieval System) [59] với CSDL có cấu trúc phẳng và hỗ trợ người dùng tìm, liên kết và truy cập đến từng nucleic acid, chuỗi protein, protein motif, cấu trúc protein. Kế đến là tiện ích của CSDL Entrez [39], cho phé[ truy cập các trình tự DNA và protein, bộ gen , cấu trúc đại phân tử 3D . Khả năng tìm kiếm một gen đặc biệt trong CSDL sẽ cho phép các chuyển dịch êm ả từ bộ gen mà xuất phát, trình tự protein được mã hoá, cấu trúc của nó, thư mục tham khảo và bộ phận tương đương chcho tất cả các gen liên quan.

5.6. Hiểu và tổ chức thông tin

Xem xét dữ liệu, chúng ta có thể thảo luận các loại phân tích cần hướng đến. Có thể phân chia các nguồn thông tin được dùng trong những nghiên cứu theo các lĩnh vực nghiên cứu của Sinh tin học . Đối với trình tự sinh học DNA thô, các nghiên cứu tập trung vào việc phân biệt những vùng được mã hóa hoặc không mã hóa, nhận diện introns, exons và những vùng promoter cần cho việc nghiên cứu bộ gen ở dạng DNA [61,62]. Đối với trỉnh tự protein, các nỗ lực phát triển thuật giải phục vụ chỉnh thẳng cột [63], tìm các vùng chức năng được bảo tồn, các đoạn lặp trong các phương án chỉnh thẳng cột, các phương pháp nghiên cứu chỉng thẳng cột trong không gian 3 chiều dùng các độ đo khoảng cách và góc, các tính toán bề mặt, hình dạng và những phân tích tương tác các protein với các đơn vị nhỏ hơn, DNA, RNA và những phân tử nhỏ hơn.

Việc tăng khả năng giải trình tự gen dẫn đến các phương pháp tính toán trên bộ gen hay bộ protein – những phân tích trên bình diện rộng của những bộ ä gen hoàn chỉnh và protein mà chúng mã hóa. Các nghiên cứu bao gồm đặc trưng nội dung protein và cách thức trao đổi chất giữa bộ gen khác, quá trình nhận diện các tương tác protein, gán và dự đoán các sản phẩm gen, và những phân tích bình diện rộng của mức độ biểu hiện gen. Một vài chủ đề nghiên cứu theo hướng này sẽ được trình bày trong những phân tích ví dụ phân tích các hệ thống điều hoà phiên mã.

Những lãnh vực nghiên cứu khác cũng được đầu tư phát triển như xây dựng thư viện số chứa các tài liệu nghiên cứu về sinh tin học từ tài liệu, những phương pháp phân tích DNA trong lĩnh vực hình sự, những dự đoán cấu trúc nucleic acid, mô phòng cách thức chuyển hóa, liên kết gen cụ với những nét đặc điểm của các bệnh khác nhau.

Thêm vào đó để tìm quan hệ giữa những protein khác nhau, nhiều nhà sinh tin học đã tiến hành phân tích một loại dữ liệu để suy ra và hiểu được những quan sát cho những loại dữ liệu khác. Dùng dữ liệu trình tự hay có dữ liệu cấu trúc để dự đoán cấu trúc bậc hai hay bậc ba dựa trên các phương pháp thống kê suy diễn. Dùng dữ liệu có cấu trúc để hiểu chức năng protein. Những nghiên cứu các mối liên hệ giữa các protein tương đồng về chức năng [68,69] và những phân tích tương đương giữa những vị trí liên kết khác nhau [70]. Kết hợp với việc đo lường tính tương đương, những nghiên cứu này cho phép hiểu biết chính xác các thông tin được chuyển dịch giữa các protein tương đương.

5.7. Phát triển nghiên cứu ngành sinh tin học theo bề rộng và sâu

Hai nhiệm vụ chính của ngành Sinh Tin học là tổ chức và hiểu biết dữ liệu sinh học – sự phát triển của công nghệ sinh tin học cho phép mở rộng những phân tích sinh học theo 2 chiều, sâu và rộng.

Theo bề sâu sẽ bao gồm các nghiên cứu nhằm hiểu biết ngày càng nhiều các protein. Bắt đầu với một gen, xác định chuỗi protein, từ đó dự đoán cấu trúc của protein. Dựa vào các tính toán hình học có thể dự đoán hình dạng và bề mặt protein, mô phòng phân tử phân tử. Nhận diện liên kết, và suy đoán chức năng protein. Thực tế, những bước trung gian vẫn khó thực hiện chính xác, và cần kết hợp với những phương pháp khác để đạt kết quả mong muốn.

Theo chiều rộng sẽ bao gồm các phương pháp so sánh gen này với gen khác, protein này với peotein khác. Ban đầu là những thuật giải đơn giản được dùng để so sánh chuỗi và cấu trúc của cặp protein liên quan. Khi dữ liệu sinh học gia tăng mạnh mẽ sẽ phát sinh nhu cầu cải tiến các thuật giải có hiệu suấtr cáo để chỉng thẳng cột nhiều trình tự , trích rút mẩu chuỗi hay mẩu cấu trúc xác định họ protein, tạo cây phát sinh loài để khảo sát quá trình tiến hoá của protein. Cuối cùng, do thông tin được lưu trong CSDL lớn, công việc so sánh trở nên phức tạp hơn, đòi hỏi nhiều cải tiến trong cơ chế tổ chức và quản lý CSDL.

5.8. Ứng dụng kỹ thuật tin học

Nhiều lĩnh vực Sinh Tin học đòi hỏi các kỹ thuật tin học khác nhau: đối với tổ chức dữ liệu, CSDL sinh học sử dụng các tập tin phẳng đơn giản. Tuy nhiên khi số lượng thông tin gia tăng, các CSDL quan hệ với giao diện Web sẽ ngày càng phổ biến, những kỹ thuật mới cần phát triển bao gồm phương pháp so sánh chuỗi, thuật giải chỉnh thẳng cột, nhận diện đoạn lặp (motif) và các phương pháp máy học, phân cụm và kỹ thuật khai thác dữ liệu. Việc phân tích có cấu trúc 3D bao gồm tính toán hình học Euclid kết hợp với ứng dụng cơ bản của hóa lý, thể hiện đồ họa của bề mặt và hình khối, và sự so sánh cấu trúc và phương pháp hợp 3D. Trong mô phòng phân tử, cơ chế Newton, cơ chế định lượng, cơ chế phân tử, những tính toán tĩnh điện đã được áp dụng. Trong những lĩnh vực này, phương pháp tính toán phải được kết hợp với những phân tích thống kê tốt để cung cấp các số liệu và kết quả có ý nghĩa tốt.

Kỳ sau: Điều hòa phiên mã - Một ứng dụng trong sinh học

No comments: