K
Khách

Hãy nhập câu hỏi của bạn vào đây, nếu là tài khoản VIP, bạn sẽ được ưu tiên trả lời.

19 tháng 5

Ví dụ 1: Vào năm 2020, GPT-3 của OpenAI đã thu thập khoảng 45 TB dữ liệu thô từ sách, tạp chí, trang web,... với nhiều chủ đề khác nhau. Sau đó, dữ liệu thô được xử lí để tạo ra 570 GB dữ liệu vào cho mô hình học máy. Lượng dữ liệu thô thu thập dùng cho GPT-3 tương đương khoảng 200 000 giờ video Full HD hoặc 15 triệu giờ âm thanh định dạng MP3. Các phiên bản khác nhau của GPT-3 sử dụng từ 125 triệu đến 175 tỉ tham số (phụ thuộc vào số tầng trong mạng học sâu của mô hình). Theo ước tính, việc đào tạo mô hình GPT-3 với 175 tỉ tham số cần hàng trăm năm với 1 GPU V100. Để giảm thời huấn luyện mô hình học máy, OpenAI đã sử dụng 1024 GPU NVIDIA A100 để huấn luyện mô hình GPT-3 trong 34 ngày.

Ví dụ 2: Protein là nhân tố thiết yếu cho sự sống được hình thành từ các amino axit, sau đó trải qua quá trình gấp xoắn để hình thành cấu trúc 3D phức tạp. Chức năng của protein phụ thuộc chủ yếu vào cấu trúc 3D của nó. Trong nhiều thập kỉ, các nhà nghiên cứu đã giải mã cấu trúc 3D của protein bằng cách sử dụng các kĩ thuật như tinh thể học tia X (X-ray crystallography) hoặc kính hiển vi điện tử lạnh (Cryogenic electron microscopy viết tắt là Cryo-EM) và đã giải được cấu trúc của 170 000 protein trong số khoảng 200 triệu protein. Theo ước tính, để dự đoán cấu trúc một protein dựa trên phương pháp tinh thể học tia X cần từ vài tháng đến hàng năm.

19 tháng 5

Các yếu tố chính của dữ liệu lớn: Dữ liệu lớn bao gồm năm yếu tố chính, thường được gọi là 5V, bao gồm: Khối lượng (Volume) đề cập tới khối lượng dữ liệu rất lớn; Tốc độ (Velocity) đề cập tới dữ liệu được tạo ra rất nhanh; Đa dạng (Variety) đề cập tới các loại dữ liệu khác nhau, bao gồm dữ liệu có cấu trúc (cơ sở dữ liệu quan hệ), bán cấu trúc (XML, JSON) và phi cấu trúc (email, bài đăng trên mạng xã hội, âm thanh, hình ảnh, video); Độ tin cậy hay độ xác thực (Veracity) đề cập đến độ tin cậy và chất lượng của dữ liệu; Giá trị (Value) đề cập tới giá trị mà dữ liệu mang lại.

19 tháng 5

Sử dụng máy tính và thuật toán trong xử lí dữ liệu lớn có nhiều ưu điểm như tăng tốc độ xử lý, khả năng tự động hoá, tính đa dạng, tính chính xác, khả năng mở rộng, khả năng lưu trữ, tiết kiệm thời gian,..

19 tháng 5

Khoa học dữ liệu sử dụng internet, điện toán đám mây để lưu trữ và quản lí khối lượng lớn dữ liệu, cho phép sử dụng nguồn lực tính toán mạnh mẽ để xử lí dữ liệu lớn.

19 tháng 5

Những khả năng đã làm cho máy tính trở thành một công cụ xử lí thông tin hiệu quả:
- Khả năng tính toán nhanh.
- Tính toán với độ chính xác nhanh.
- Khả năng lưu trữ lớn.
- Khả năng "làm việc" không mệt mỏi.

19 tháng 5

- Khám phá tri thức trong Khoa học dữ liệu gồm những hoạt động: Khoa học dữ liệu đã giúp tạo ra các phát hiện mới và tri thức từ dữ liệu, từ việc tìm ra các mẫu dữ liệu (data patterns) và mối liên hệ giữa chúng đến khám phá tri thức mới.

- Khám phá tri thức thành tựu quan trọng của Khoa học dữ liệu vì: khoa học dữ liệu đã giúp tạo ra các mô hình mở ra khả năng khám phá tri thức từ nhiều nguồn dữ liệu, từ đó tăng hiệu quả quyết định dựa trên dữ liệu.

19 tháng 5

Khoa học dữ liệu góp phần vào sự phát triển của các lĩnh vực như y tế, giáo dục, giao thông:

Khoa học dữ liệu đóng vai trò quan trọng trong phát triển các mô hình học máy có dùng trong phân loại và dự đoán. Các mô hình học máy sử dụng dữ liệu y tế, hình ảnh y khoa để hỏ trợ chẩn đoán, phân tích xu hướng bệnh, dự đoán tình trạng sức khoẻ cá nhân. Một số thành lựu có thể kể đến như phần mềm IBV Watson for Oncology giúp góp phần nâng cao hiệu quả điều trị ung thư và đã được ứng dụng ở Việt Nam.

19 tháng 5

Khoa học dữ liệu giúp nâng cao năng lực ra quyết định của máy tính vì:

Khoa học dữ liệu đã giúp tạo ra các phát hiện mới và tri thức từ dữ liệu, từ việc tìm ra các mẫu dữ liệu (data patterns) và mối liên hệ giữa chúng đến khám phá tri thức mới. Cùng với Học máy, Khoa học dữ liệu đã giúp tạo ra các mô hình mở ra khả năng khám phá tri thức từ nhiều nguồn dữ liệu, từ đó tăng hiệu quả quyết định dựa trên dữ liệu. Hơn nữa, khả năng dự đoán, dự báo xu hướng và sự kiện trong tương lai từ dữ liệu hiện tại đã nâng cao hiệu quả của quá trình ra quyết định. Ví dụ, các ứng dụng như SAS của SAS Institute, SPSS Modeler của IBM thường được các tổ chức tài chính và ngân hàng sử dụng để phân tích, khai phá dữ liệu về các giao dịch để xác định được xu hướng hay các bất thường nhằm đưa ra quyết định liên quan lãi suất hay phát hiện kịp thời các rủi ro,...

19 tháng 5

Tự động hoá là thành tựu quan trọng của Khoa học dữ liệu vì:

Khoa học dữ liệu cùng với các mô hình học máy đã giúp tự động hoá các tác vụ lặp đi lặp lại. Ví dụ, robot thông minh như Amazon Robotic Drive Units (RDU) được tích hợp các mô hình

học máy để phân tích dữ liệu camera, vận tốc, hướng di chuyển, cảm biến,... nhầm tự động hoà việc vận chuyển hàng hoá và sắp xếp các sản phẩm trong kho, giảm thời gian cần thiết để vận chuyển từ các khu vực lưu trữ đến khu vực đóng gói dùng trong các kho hàng của Amazon. Vi dụ khác vẽ tự động hoá dựa trên Khoa học dữ liệu là hệ thống kiểm soát môi trưởng sử dụng trong nông nghiệp nhằm phân tích dữ liệu về độ ẩm, nhiệt độ, ánh sáng, cảm biến.... để tối ưu hoá diễu kiện cho sự phát triển của cây trắng hay vật nuôi.

19 tháng 5

Một vài thành tựu chính của Khoa học dữ liệu:

a) Khám phá tri thức và nâng cao năng lực ra quyết định

Khoa học dữ liệu đã giúp tạo ra các phát hiện mới và tri thức từ dữ liệu, từ việc tìm ra các mẫu dữ liệu (data patterns) và mối liên hệ giữa chúng đến khám phá tri thức mới. Cùng với Học máy, Khoa học dữ liệu đã giúp tạo ra các mô hình mở ra khả năng khám phá tri thức từ nhiều nguồn dữ liệu, từ đó tăng hiệu quả quyết định dựa trên dữ liệu. Hơn nữa, khả năng dự đoán, dự báo xu hướng và sự kiện trong tương lai từ dữ liệu hiện tại đã nâng cao hiệu quả của quá trình ra quyết định. Ví dụ, các ứng dụng như SAS của SAS Institute, SPSS Modeler của IBM thường được các tổ chức tài chính và ngân hàng sử dụng để phân tích, khai phá dữ liệu về các giao dịch để xác định được xu hướng hay các bất thường nhằm đưa ra quyết định liên quan lãi suất hay phát hiện kịp thời các rủi ro,...

b) Tự động hoá

Khoa học dữ liệu cùng với các mô hình học máy đã giúp tự động hoá các tác vụ lặp đi lặp lại. Ví dụ, robot thông minh như Amazon Robotic Drive Units (RDU) được tích hợp các mô hình

học máy để phân tích dữ liệu camera, vận tốc, hướng di chuyển, cảm biến,... nhầm tự động hoà việc vận chuyển hàng hoá và sắp xếp các sản phẩm trong kho, giảm thời gian cần thiết để vận chuyển từ các khu vực lưu trữ đến khu vực đóng gói dùng trong các kho hàng của Amazon. Vi dụ khác vẽ tự động hoá dựa trên Khoa học dữ liệu là hệ thống kiểm soát môi trưởng sử dụng trong nông nghiệp nhằm phân tích dữ liệu về độ ẩm, nhiệt độ, ánh sáng, cảm biến.... để tối ưu hoá diễu kiện cho sự phát triển của cây trắng hay vật nuôi.

c) Cá nhân hoá dịch vụ

Khoa học dữ liệu đã đóng góp đáng kể vào việc phát triển và triển khai các phương pháp cá nhân hoá, từ việc hiểu biết rõ người dùng đến việc tạo ra trải nghiệm cá nhân hoá trong nhiều lĩnh vực khác nhau. Ví dụ, các ứng dụng truyền thông như Netflix, YouTube có thể để xuất nội dung phù hợp với sở thích và lịch sử xem của người dùng. Ví dụ khác là các trang thương mại điện tử như Amazon, Ebay,... sử dụng dữ liệu lịch sử mua sắm và đánh giá của người dùng để để xuất sản phẩm hay chương trình giảm giá phù hợp với từng khách hàng hay nhóm khách hàng. d) Dự đoán

Khoa học dữ liệu đóng vai trò quan trọng trong phát triển các mô hình học máy có dùng trong phân loại và dự đoán. Các mô hình học máy sử dụng dữ liệu y tế, hình ảnh y khoa để hỏ trợ chẩn đoán, phân tích xu hướng bệnh, dự đoán tình trạng sức khoẻ cá nhân. Một số thành lựu có thể kể đến như phần mềm IBV Watson for Oncology giúp góp phần nâng cao hiệu quả điều trị ung thư và đã được ứng dụng ở Việt Nam.