Chia sẻ dữ liệu mở giúp tăng tốc nghiên cứu COVID-19
Quản lý tài chính là một trong những kỹ năng quan trọng của những người thành đạt. Trong bối cảnh hầu hết người Việt Nam không được giáo dục về kỹ năng này trước khi đi làm là một thiệt thòi lớn trong khi trên thế giới, trẻ em đã được giáo dục về ý thức & kỹ năng tài chính từ rất sớm.
Nội dung
- Mở quyền truy cập tại EMBL
- Tăng tốc nghiên cứu thông qua truy cập mở
- Mở dữ liệu SARS-CoV-2 truy cập
- Khám phá các protein của virus
- Nền tảng dữ liệu COVID-19 của Châu Âu
- Cổng dữ liệu COVID-19
- Một phản ứng tốt hơn đối với các đại dịch trong tương lai
- Sử dụng Nền tảng dữ liệu COVID-19 trong nghiên cứu
Thông tin khoa học được mô tả là quyền truy cập mở (OA) khi nó có sẵn trực tuyến và miễn phí cho người dùng cuối. Điều này có thể ở dạng các bài báo hoặc dữ liệu nghiên cứu khoa học như trình tự bộ gen, thông tin cấu trúc protein hoặc hình ảnh khoa học. KTMT đối với dữ liệu và ấn phẩm nghiên cứu là rất quan trọng để làm cho nghiên cứu có thể tái sử dụng, cho phép dữ liệu được khám phá và phân tích lại và dẫn đến những khám phá mới trong nhiều bối cảnh khác nhau.
OA bây giờ quan trọng hơn bao giờ hết. Chúng ta đã chuyển từ thời điểm mà một bộ gen người sẽ mất 10 năm để phân tích, tiêu tốn khoảng 100 triệu đô la, sang thời điểm mà hàng nghìn trình tự gen được tạo ra mỗi ngày và một chuỗi gen người chỉ chiếm khoảng 1 GB không gian lưu trữ. Dữ liệu trình tự phong phú này có thể được truy cập và chia sẻ trên toàn cầu, tất cả đều nhờ vào cơ sở dữ liệu OA.
Khả năng của các nhà khoa học trong việc sản xuất, lưu trữ và truy cập dễ dàng dữ liệu bộ gen đã dẫn đến việc khởi động các dự án giải trình tự quy mô lớn mà chỉ 10 năm trước đây là hoàn toàn không khả thi. Các sáng kiến như dự án Darwin Tree of Life , nhằm giải trình tự bộ gen của 60 000 loài trên khắp Vương quốc Anh và Ireland, và Dự án 100 000 bộ gen , trong đó giải mã bộ gen của bệnh nhân NHS bị ảnh hưởng bởi một căn bệnh hiếm gặp hoặc ung thư, chứng minh điều này tăng đáng kể về quy mô.
Chia sẻ dữ liệu OA đã thúc đẩy nghiên cứu khoa học đời sống theo cấp số nhân và nâng cao hiểu biết của chúng ta về sức khỏe và bệnh tật. Với việc khởi động các dự án mới để cải thiện báo cáo lâm sàng từ thông tin trình tự bộ gen , việc truy cập dữ liệu liên quan đến lâm sàng ngày càng dễ dàng. Dự án trình tự quy mô lớn như các phân tích Pan-Ung thư của Tổng Genome (PCAWG) đã thực hiện những khám phá lớn như các niên đại của những thay đổi gen để phát hiện nhiều loại ung thư khác nhau . Quyền truy cập mở vào dữ liệu bộ gen đang thay đổi cách chúng tôi quản lý chẩn đoán lâm sàng và các phương pháp điều trị được cá nhân hóa.
Mở quyền truy cập tại EMBL
Viện Tin học Sinh học Châu Âu của EMBL (EMBL-EBI) duy trì một loạt các nguồn dữ liệu truy cập mở , miễn phí . Những điều này cho phép các nhà khoa học tải lên, truy cập và phân tích nhiều loại tập dữ liệu sinh học. Các nhà nghiên cứu có thể truy cập chú thích bộ gen tham chiếu thông qua Ensembl , dữ liệu cấu trúc protein 3D thông qua Ngân hàng dữ liệu protein ở Châu Âu (PDBe) hoặc truy cập các ấn phẩm và bản in trước về khoa học sự sống thông qua PMC Châu Âu , để chỉ tên một số dịch vụ có sẵn.
EMBL được tài trợ bởi cộng đồng, và chính sách OA của EMBL yêu cầu tất cả các ấn phẩm khoa học từ EMBL phải được cung cấp miễn phí ở Châu Âu PMC. Bất kỳ bài báo nào được gửi ở Châu Âu PMC đều có thể được tìm kiếm đầy đủ và bất kỳ ai trên thế giới có kết nối internet đều có thể truy cập được.
Jo McEntyre , Phó Giám đốc Dịch vụ EMBL-EBI cho biết: “Truy cập mở và các chính sách khoa học mở là vô cùng quan trọng . “Họ khuyến khích mọi người làm cho nghiên cứu của họ mở và có thể tái sử dụng, vì vậy nó có thể được khám phá và phân tích lại khi các phương pháp và công nghệ mới xuất hiện trực tuyến.”
Tăng tốc nghiên cứu thông qua truy cập mở
Có rất nhiều lợi ích khi làm cho dữ liệu nghiên cứu và các ấn phẩm có thể truy cập miễn phí cho cả nhà khoa học và công chúng. Phần lớn các nghiên cứu ngày nay được tài trợ bởi công chúng đóng thuế và vì vậy có vẻ công bằng rằng bất kỳ nghiên cứu nào được tài trợ theo cách này đều có thể truy cập được cho tất cả những ai muốn đọc nó. OA cũng giúp các nhà nghiên cứu và tổ chức đang gặp khó khăn với việc tăng phí đăng ký tạp chí để truy cập các bài báo nghiên cứu hiện tại.
OA làm tăng khả năng hiển thị của dữ liệu và thông tin nghiên cứu. Điều này có nhiều tác động tích cực đến khoa học trên toàn cầu, bao gồm khả năng nhanh chóng xây dựng và phản ứng với các nghiên cứu hiện có. Các nhà khoa học có thể thực hiện các dự án hợp tác khổng lồ trên phạm vi toàn cầu. Một ví dụ nổi tiếng về điều này là Dự án Bộ gen người , với sự tham gia của hàng nghìn nhà khoa học trên khắp thế giới, những người đã phát triển một nguồn tài nguyên có giá trị sâu sắc và công khai cho các nghiên cứu trong tương lai.
Mở dữ liệu SARS-CoV-2 truy cập
Bây giờ chúng ta thấy mình đang ở giữa một đại dịch toàn cầu, thế giới đang tìm kiếm các nhà khoa học để tìm ra phương pháp điều trị mới và vắc xin cho vi rút SARS-CoV-2. Với hàng nghìn trường hợp mới được ghi nhận trên khắp thế giới mỗi ngày, không có thời gian để mất. Các nhà nghiên cứu đang bận rộn thu thập một lượng lớn dữ liệu liên quan đến đại dịch. Chia sẻ dữ liệu của OA là điều cần thiết để tăng cường hiểu biết của chúng ta về sinh học và sự lây lan của COVID-19.
Việc gửi dữ liệu SARS-CoV-2 tới cơ sở dữ liệu OA, chẳng hạn như UniProt hoặc của Cơ sở dữ liệu trình tự Nucleotide Quốc tế ( INSDC ), làm cho dữ liệu có sẵn nhanh chóng và miễn phí cho mọi người. Dữ liệu SARS-CoV-2 đã gửi sẽ được tự động kết hợp vào một loạt các cơ sở dữ liệu OA COVID-19 khác, từ cơ sở dữ liệu chuyên biệt đến Nền tảng dữ liệu COVID-19 của Châu Âu, để hỗ trợ nghiên cứu SARS-CoV-2.
Khám phá các protein của virus
Hiểu được cách thức hoạt động của các protein của vi rút và các gốc hoặc trình tự axit amin cụ thể liên quan đến liên kết thụ thể vật chủ, tính dinh dưỡng của tế bào và cơ chế bệnh sinh là chìa khóa để hiểu đặc điểm sinh học của vi rút để phát triển các xét nghiệm chẩn đoán và phương pháp điều trị mới. Để giúp các nhà nghiên cứu trả lời những câu hỏi này, UniProt đã ra mắt Cổng thông tin COVID-19 chuyên dụng bao gồm các protein SARS-CoV-2 mới nhất, các thụ thể và các mục nhập protein chủ.
Ví dụ, UniProt chứa chú thích mở rộng về các trang web glycosyl hóa. Protein tăng đột biến của coronavirus, cho phép vi rút xâm nhập vào tế bào chủ, bị glycosyl hóa nặng. Điều này đóng một vai trò quan trọng trong việc gấp protein và né tránh miễn dịch bằng cách che chắn các biểu mô cụ thể được tìm thấy trên vi rút khỏi sự trung hòa kháng thể của hệ thống miễn dịch của con người.
UniProt cũng cung cấp các chú thích sâu rộng về chức năng protein và trình tự protein với bằng chứng từ các tài liệu hiện có. Các nhà nghiên cứu cũng có thể gửi bài báo COVID-19 của họ tham chiếu đến dữ liệu UniProt để được thu thập vào danh mục cộng đồng .
Trong tương lai, COVID-19 UniProt Portal cũng sẽ tích hợp các biến thể mã hóa của các protein UniProt và sử dụng các phương pháp khai thác văn bản để xác định các giấy tờ liên quan đến các biến thể này. Điều này sẽ tạo ra một bản đồ của các biến thể quan trọng tiềm ẩn liên quan đến việc nhiễm vi-rút. Ngoài ra còn có kế hoạch tích hợp một biểu đồ kiến thức về protein COVID-19 để thể hiện mối quan hệ trực tiếp và gián tiếp giữa vi rút và protein vật chủ, cơ chế con đường vật chủ và tương tác mục tiêu của thuốc để khám phá các phương pháp điều trị mới và đã biết.
Để đảm bảo luôn có sẵn dữ liệu SARS-CoV-2 cập nhật nhất, UniProt COVID-19 Portal được cập nhật độc lập với chu kỳ phát hành UniProt chung.
Cổng thông tin UniProt COVID-19
Nền tảng dữ liệu COVID-19 của Châu Âu
EMBL-EBI đã ra mắt Nền tảng dữ liệu COVID-19 của Châu Âu cùng với Ủy ban Châu Âu, Đám mây Khoa học Mở Châu Âu, ELIXIR và một số tổ chức đối tác . Nền tảng cho phép truy cập nhanh vào các bộ dữ liệu và kết quả liên quan đến đại dịch SARS-CoV-2, điều này sẽ thúc đẩy nghiên cứu và hỗ trợ phát triển các phương pháp chẩn đoán, điều trị và vắc xin hiệu quả.
Ví dụ, Nền tảng tổ chức việc thu thập và phân tích dữ liệu chuỗi virus để cung cấp chia sẻ dữ liệu mở toàn cầu thông qua Trung tâm dữ liệu SARS-CoV-2 . Sáu tháng sau, Nền tảng có hơn 60 000 trình tự SARS-CoV-2, cùng với dữ liệu phân tử bổ sung bao gồm protein, hợp chất và mục tiêu thuốc. Nó cũng chứa Kho lưu trữ hiện tượng gen của Liên bang Châu Âu (EGA ), được thiết kế để hỗ trợ các yêu cầu quản lý dữ liệu quốc gia đối với dữ liệu di truyền và dữ liệu lâm sàng như một phần của các dự án nghiên cứu y sinh hoặc chăm sóc sức khỏe. Nó bao gồm một cơ chế truy cập được ủy quyền an toàn để hỗ trợ nghiên cứu sử dụng dữ liệu con người trên khắp Châu Âu. Tất cả những dữ liệu này sau đó được kết nối với Cổng dữ liệu COVID-19, giúp các nhà nghiên cứu luôn sẵn sàng cung cấp chúng.
Cổng dữ liệu COVID-19
Một trong những thách thức lớn nhất trong đại dịch đang di chuyển nhanh là chia sẻ dữ liệu và phát hiện một cách phối hợp. Để giải quyết thách thức này, EMBL-EBI và các đối tác vận hành Cổng dữ liệu COVID-19. Cổng dữ liệu COVID-19 có dữ liệu SARS-CoV-2 từ các tài nguyên dữ liệu EMBL-EBI bao gồm Kho lưu trữ Nucleotide Châu Âu (ENA) , UniProt , PDBe , Ngân hàng Dữ liệu Kính hiển vi Điện tử (EMDB) , Bản đồ Biểu hiện và Châu Âu PMC . Cổng thông tin được cập nhật liên tục với các bộ dữ liệu và công cụ mới.
Guy Cochrane , Trưởng nhóm Điều phối và Lưu trữ Dữ liệu tại EMBL-EBI cho biết: “Người dùng có thể tải lên dữ liệu SARS-CoV-2 của mình và truy cập vào dữ liệu từ các nguồn khác trên thế giới . “Chúng tôi đang làm việc chăm chỉ để làm cho Cổng thông tin trực quan và dễ sử dụng.”
Trong sáu tháng đầu tiên, Cổng dữ liệu COVID-19 đã nhận được gần 3 triệu yêu cầu web và hàng nghìn lượt gửi dữ liệu. Hơn 300 tổ chức từ 30 quốc gia đã lưu trữ dữ liệu và Cổng thông tin hiện cung cấp quyền truy cập mở vào hơn 180 000 hồ sơ công bố khoa học liên quan đến đợt bùng phát COVID-19.
Một phản ứng tốt hơn đối với các đại dịch trong tương lai
“Nếu năm 2020 đã dạy chúng ta bất cứ điều gì, thì không một quốc gia nào có thể ngăn chặn đại dịch một mình. Hợp tác là chìa khóa, ”Guy giải thích. “Một trong những điều khiến tôi hy vọng là giờ đây chúng tôi đang ở một vị trí mạnh mẽ hơn nhiều. Chúng tôi đã tăng cường quan hệ đối tác quốc tế và chúng tôi đã xây dựng cơ sở hạ tầng chia sẻ dữ liệu mạnh mẽ. Nền tảng dữ liệu COVID-19 của Châu Âu rất hữu ích trong ngắn hạn và quan trọng hơn, nó là mô hình cho cách chia sẻ dữ liệu bệnh truyền nhiễm trong tương lai, cho phép hợp tác giữa các quốc gia và các ngành. Nó có nghĩa là chúng ta có thể tái sử dụng và điều chỉnh cơ sở hạ tầng dữ liệu để giúp hiểu, giám sát và ngăn chặn các bệnh truyền nhiễm khác - và đây là một suy nghĩ rất đáng khích lệ. ”
Sử dụng Nền tảng dữ liệu COVID-19 trong nghiên cứu
Để hiểu rõ hơn về tầm quan trọng của truy cập mở (OA) trong đại dịch và cách các nhà nghiên cứu đang sử dụng Nền tảng dữ liệu COVID-19, Guy Cochrane, một trong những nhà khoa học đằng sau sự phát triển của Cổng thông tin và Andrea Zaliani, một nhà khoa học sử dụng Cổng thông tin cho nghiên cứu COVID-19, chia sẻ những hiểu biết của họ về sáng kiến này.
Guy Cochrane là Trưởng nhóm Điều phối và Lưu trữ Dữ liệu tại EMBL-EBI.
Guy là người đứng đầu Cơ quan lưu trữ Nucleotide Châu Âu (ENA), một kho lưu trữ toàn diện cho dữ liệu trình tự nucleotide công khai. Ông cũng chịu trách nhiệm chung về việc khởi động, duy trì và phát triển Nền tảng dữ liệu COVID-19.
Andrea Zaliani là Nhà khoa học Tin học Sinh học cấp cao tại Viện Fraunhofer về Y học Dịch thuật và Dược học (TMP) .
Andrea có nhiều kinh nghiệm trong việc nghiên cứu và phát triển dược phẩm, bao gồm cả việc ứng dụng hóa trị của các công cụ tin sinh học. Ông hiện đang tiến hành nghiên cứu tin sinh học về COVID-19 tại Fraunhofer TMP.
Hỏi: Bạn nghĩ dữ liệu truy cập mở đóng vai trò như thế nào trong đại dịch COVID-19?
Zaliani: Tôi đều ủng hộ việc chia sẻ dữ liệu truy cập mở: nó giúp cắt giảm thời gian, chi phí và sự căng thẳng tương đối của nghiên cứu y sinh. Chia sẻ dữ liệu truy cập mở đã là một mô hình cho các câu trả lời nhanh chóng trong đại dịch này. Việc chuyển đổi trọng tâm cho khá nhiều phòng xét nghiệm an toàn sinh học cấp độ 4 làm việc trên vi rút là chưa từng có. Một điều chắc chắn là điều này không thể xảy ra nhanh như vậy nếu không chia sẻ dữ liệu truy cập mở.
Cochrane: Một trong những tính năng chính của Nền tảng Dữ liệu COVID-19 là khối lượng dữ liệu chuỗi thô SARS-CoV-2 truy cập mở khả dụng. Truy cập mở vào những dữ liệu này thực sự quan trọng để tăng tốc sự hiểu biết chính xác về biến thể di truyền của vi rút. Lý do chúng ta quan tâm đến sự biến đổi này là vì nó thông báo cho chúng ta về đặc tính sinh học, sự lây truyền và sự lây lan của vi rút, từ đó dẫn chúng ta đến việc khám phá, can thiệp và phát triển vắc xin.
H: Bạn hoặc các nhà khoa học khác đã sử dụng Nền tảng dữ liệu COVID-19 cho nghiên cứu COVID-19 như thế nào?
Zaliani: Chúng tôi đã sản xuất dữ liệu sàng lọc COVID-19 và Cổng dữ liệu COVID-19 đã rất hiệu quả đối với chúng tôi. Với sự thay đổi trọng tâm đột ngột trong đại dịch, chúng tôi cần có một điểm tham chiếu để chúng tôi có thể tìm kiếm dữ liệu và chia sẻ dữ liệu của chúng tôi với công chúng. Bề mặt không hào nhoáng của Cổng thông tin cung cấp cho người dùng tất cả các chức năng họ cần. Tôi hy vọng chúng ta sẽ sớm có thể khai thác dữ liệu mô hình in vivo .
Tôi chắc chắn sẽ giới thiệu bất kỳ ai tham gia vào nghiên cứu COVID-19 để xem Cổng thông tin và đánh giá cao việc quản lý dữ liệu đã được dành cho nó.
Cochrane: Nền tảng Dữ liệu COVID-19 của Châu Âu cho phép các nhà khoa học trên khắp thế giới truy cập các loại dữ liệu khác nhau liên quan đến COVID-19, từ chính virus hoặc từ các bệnh nhân bị ảnh hưởng bởi virus. Có ba thành phần kỹ thuật đằng sau Nền tảng. Trung tâm dữ liệu SARS-CoV-2 cho phép các nhà khoa học thao tác, xác thực, diễn giải và cuối cùng là chia sẻ dữ liệu virus. Cơ quan lưu trữ hiện tượng gen châu Âu (EGA) được liên kết cho phép các nhà khoa học chia sẻ dữ liệu di truyền liên quan đến con người một cách an toàn. Cuối cùng, chúng ta có Cổng dữ liệu COVID-19, đây là một trang web cho phép các nhà nghiên cứu truy cập dữ liệu và gửi dữ liệu của chính họ vào hệ thống.
H: Bạn thấy Nền tảng dữ liệu COVID-19 phát triển như thế nào theo thời gian?
Cochrane: Trong sáu tháng đầu tiên kể từ khi Nền tảng dữ liệu ra mắt, chúng tôi đã đạt được rất nhiều thành tựu, bao gồm hơn 60 000 chuỗi virus từ hơn 300 tổ chức trên khắp thế giới. Những con số này đang ngày càng phát triển và chúng tôi thường xuyên cập nhật Cổng dữ liệu COVID-19 để đảm bảo mọi người đều có quyền truy cập nhanh vào những dữ liệu này. Dự án cũng sẽ phát triển để bao gồm các đối tác khác trên khắp Châu Âu. Các COVID-19 Dữ liệu Portal Thụy Điển gần đây đã được phát hành, và chúng tôi dự tính các nước khác sẽ có Portals của mình như trưởng thành dự án.
Chúng tôi đã nhận thấy rất nhiều sự hợp tác từ các nhà nghiên cứu làm việc thông qua Nền tảng. Các nhà nghiên cứu chưa bao giờ gặp nhau trước đây đã bắt đầu những cuộc hợp tác tuyệt vời được cung cấp bởi các hội nghị truyền hình. Ý thức thống nhất này đã giúp chúng tôi xây dựng cơ sở hạ tầng chia sẻ dữ liệu mạnh mẽ, chẳng hạn như Nền tảng dữ liệu COVID-19, có thể được sử dụng lại trong tương lai cho các bệnh truyền nhiễm khác. Bây giờ chúng ta có một mô hình không chỉ cho thời kỳ khủng hoảng mà còn cho cách chúng ta làm khoa học trong tương lai.