Bài học cùng chủ đề
Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Làm quen với học máy SVIP
1. Tìm hiểu sơ lược về học máy
a. Khái niệm Học máy
Điểm mấu chốt của Học máy:
- Không cần lập trình rõ ràng: Hướng dẫn máy tính học các đặc điểm của các đối tượng theo quy tắc chung.
- Máy tính tự học từ dữ liệu: Cung cấp lượng dữ liệu học lớn để máy "tự học" các đặc điểm thay vì mô tả chi tiết từng trường hợp.
❓ Ví dụ:
Cung cấp trăm nghìn bức ảnh chứa hình ảnh con ngựa và các loài vật khác để máy tính tự xác định các đặc điểm về loài ngựa thay vì viết chương trình mô tả chi tiết.
b. Quy trình Học máy
Xây dựng ứng dụng Học máy được mô tả cụ thể như sau:
- Bước 1: Thu thập các dữ liệu từ nhiều nguồn khác nhau, dưới nhiều dạng khác nhau. Tập dữ liệu thu được là dạng thô, chưa thể sử dụng được ngay.
- Bước 2: Thực hiện "làm sạch" dữ liệu, hiểu là loại bỏ dữ liệu nhiễu, bổ sung các giá trị thiếu, định dạng dữ liệu phù hợp,...
- Bước 3: Lặp lại hai bước trên đến khi kiểm tra chất lượng của dữ liệu sau xử lí đã phù hợp với kết quả mong muốn. Thực hiện chia dữ liệu thành: dữ liệu huấn luyện và dữ liệu kiểm thử.
- Bước 4: Lựa chọn mô hình học máy phù hợp với loại bài toán và dữ liệu thu thập. Về bản chất, các thuật toán Học máy sử dụng các mô hình tính toán.
- Bước 5: Thực hiện huấn luyện cho mô hình giúp máy tính phân biệt được giữa các mẫu thuộc các lớp dữ liệu khác nhau.
- Bước 6: Áp dụng mô hình sau training đối với các mẫu dữ liệu kiểm thử để đánh giá hiệu suất của mô hình.
- Bước 7: Thực hiện lặp hai bước 5 và bước 6 nhằm điều chỉnh mô hình hoặc bổ sung thêm dữ liệu huấn luyện mới cho đến khi thu được mô hình như mong muốn.
2. Phân loại và vai trò của học máy trong thực tế
a. Phân loại học máy
Phân loại theo dữ liệu học
Học dữ liệu không gán nhãn và học dữ liệu có gán nhãn.
Đặc trung của dữ liệu gán nhãn:
- Dữ liệu được gắn với một nhãn (hoặc giá trị đích) chứa thông tin quan trọng mà mẫu đó đại diện.
- Dữ liệu được gán nhãn có vai trò quan trọng đối với tính đúng của mô hình học máy.
- Gán nhãn cho dữ liệu được thực hiện thủ công.
Phân loại theo phương pháp học
Học có giám sát (phân loại dữ liệu)
Là phương pháp học phổ biến nhất, mô hình học từ tập dữ liệu được gán nhãn. Mục tiêu là dự đoán một dữ liệu mới không nhãn thuộc vào nhóm dữ liệu nào (nhãn dữ liệu) của mô hình.
➤ Pha 1: Huấn luyện dữ liệu
➤ Pha 2: Sử dụng mô hình
Học không giám sát (phân cụm dữ liệu)
Phương pháp học máy sử dụng dữ liệu không có nhãn. Sử dụng thông tin về mối quan hệ tương tự hay khác biệt, cũng như dựa trên xác suất đồng xuất hiện của các đối tượng hoặc các biến có trong dữ liệu, các thuật toán và mô hình học sẽ thực hiện việc mô hình hoá cấu trúc hoặc mô tả các thông tin ẩn chứa trong dữ liệu.
Học không giám sát thường được ứng dụng để phân chia dữ liệu thành các nhóm dựa trên sự tương đồng của các mẫu dữ liệu.
b. Vai trò của học máy
Vai trò quan trọng của Học máy được thể hiện ở nhiều góc độ khác nhau: giúp xử lí một lượng lớn dữ liệu trong thời gian thực một cách nhanh chóng và hiệu quả để xác định các mẫu và xu hướng quan trọng có trong dữ liệu, tự động hoá các nhiệm vụ phức tạp mà trước đây cần sự can thiệp của con người,...
Giúp các chuyên gia và các nhà nghiên cứu từng bước xây dựng và bổ sung tri thức.
Không thể thiếu trong các ứng dụng mà dữ liệu có quy mô và chủng loại đa dạng, không ngừng thay đổi theo thời gian nhờ khả năng không ngừng bổ sung dữ liệu và cập nhật mô hình.
Ví dụ tiêu biểu: nhận diện chữ viết tay, dịch tự động, phân tích thị trường,...
Bạn có thể đăng câu hỏi về bài học này ở đây