Bài học cùng chủ đề
Báo cáo học liệu
Mua học liệu
Mua học liệu:
-
Số dư ví của bạn: 0 coin - 0 Xu
-
Nếu mua học liệu này bạn sẽ bị trừ: 2 coin\Xu
Để nhận Coin\Xu, bạn có thể:
Bài 1. Giới thiệu về Học máy SVIP
1. Khái niệm Học máy
a) Mô hình học máy
Thuật toán học máy: Từ tập dữ liệu đầu vào, thuật toán học máy rút ra các thông tin liên quan tới dữ liệu, các đặc điểm chung quan trọng,... → máy tính học cách phân biệt giữa các mẫu dữ liệu khác nhau hoặc nhóm các mẫu dữ liệu thành các cụm nhiều mẫu tương tự nhau.
Mô hình học máy: Các mô hình học máy được tạo ra từ các thuật toán học máy và trải qua quá trình huấn luyện bằng cách sử dụng dữ liệu huấn luyện. Thực hiện thuật toán học máy trên tập dữ liệu huấn luyện tức là huấn luyện mô hình học máy.
Áp dụng mô hình: Đưa vào một phần dữ liệu chưa được dùng để huấn luyện để đánh giá kết quả có phù hợp với thực tế.
b) Quy trình học máy
Quy trình học máy có thể mô tả như sau:
1️⃣Thu thập dữ liệu: Chọn dữ liệu phù hợp với bài toán cụ thể. Dữ liệu có thể được chọn từ nhiều nguồn, có khuôn dạng khác nhau. Tập dữ liệu thu thập được là dữ liệu thô.
2️⃣Chuẩn bị dữ liệu: Làm sạch, loại bỏ nhiễu, bổ sung các giá trị thiếu và chuyển đổi dữ liệu sang một khuôn dạng phù hợp. Chia dữ liệu thành hai phần: dữ liệu làm dữ liệu huấn luyện và dữ liệu để đánh giá mô hình.
3️⃣Xây dựng mô hình: Chọn thuật toán học máy phù hợp với bài toán và dữ liệu đã chuẩn bị. Huấn luyện mô hình để mô hình học từ dữ liệu và trở nên thích ứng với bài toán cụ thể đó.
4️⃣Đánh giá mô hình: Áp dụng mô hình sau huấn luyện cho phần dữ liệu dành để đánh giá mô hình. Việc huấn luyện và đánh giá thường được thực hiện nhiều lần cho tới khi mô hình đạt yêu cầu mong muốn. Nếu kết quả đánh giá chưa đạt, cần tiếp tục cải thiện mô hình.
5️⃣Triển khai ứng dụng mô hình: Sử dụng mô hình đã được huấn luyện thành công vào ứng dụng Học máy trong bài toán thực tế.
2. Học có giám sát
a) Bài toán phân loại
Việc gán cho mỗi đối tượng một nhãn phân loại tuỳ theo các thuộc tính đặc trưng của nó là bài toán phân loại. Bài toán phân loại thư gồm hai nhãn phân loại là “spam” và “no spam”; bài toán khách hàng vay tín dụng có ba nhãn phân loại là “tốt”, “bình thường” và “xấu”.
b) Dữ liệu huấn luyện
Dữ liệu huấn luyện là các mẫu dữ liệu (đối tượng) cần phân loại được mô tả bởi một số thông tin là các thuộc tính đặc trưng của nó và đã biết trước nhãn. Ví dụ, việc phân loại email là “spam” hay “no spam” dựa vào một số thông tin như: địa chỉ người gửi, địa chỉ người nhận, dòng tiêu đề, sự có mặt của những từ đặc trưng cho thư rác,...
c) Huấn luyện và đánh giá mô hình
Áp dụng mô hình cho phần dữ liệu dùng để đánh giá sẽ nhận được dữ liệu kiểm tra. Mục tiêu huấn luyện nhằm giảm thiểu nhãn bị gán sai đến mức ngưỡng chấp nhận được.
3. Học không giám sát
a) Bài toán phân cụm
Phân cụm là chia tập đối tượng (có các đặc điểm tương tự nhau) thành các cụm dựa trên sự tương tự và khác biệt của các đối tượng.
Dưới đây là mô hình phân cụm các quả đã được huấn luyện quả thành ba cụm dựa vào đặc điểm của các loại quả.
b) Dữ liệu huấn luyện
Tập dữ liệu huấn luyện gồm các mẫu dữ liệu (không có tên các loại quả, tức là không có nhãn) mô tả các thuộc tính đặc trưng của đối tượng. Ví dụ, trường hợp phân cụm các quả, các thuộc tính đặc trưng của mỗi quả là hình dạng, kích thước, màu sắc,...
c) Huấn luyện và đánh giá mô hình
Máy tính được huấn luyện để sử dụng dữ liệu huấn luyện và tự dự đoán nhãn phân loại theo thuật toán học máy. So sánh nhãn đã biết với nhãn do mô hình dự đoán để đánh giá mô hình. Mục tiêu huấn luyện nhằm giảm thiểu nhãn bị gán sai đến mức ngưỡng chấp nhận được.
4. Một số ứng dụng của Học máy
Học máy có nhiều ứng dụng, một trong số đó tiêu biểu như:
- Nhận dạng tiếng nói: Đầu vào là tiếng nói và nhờ các thuật toán xây dựng nên mô hình nhận dạng. Ứng dụng trong tìm kiếm qua giọng nói, điều khiển thiết bị thông minh.
- Nhận dạng chữ viết: Dữ liệu đầu vào là các kí tự hoặc các câu được số hóa. Một người dùng viết lên một ứng dụng ghi chú, ứng dùng này sẽ tự chuyển các kí tự vừa vẽ thành các kí tự văn bản.
- Dịch máy: Phân tích văn bản và dự đoán khả năng một từ hoặc cụm từ cụ thể trong ngôn ngữ nguồn sẽ là từ hoặc cụm từ tương ứng nào trong ngôn ngữ đích.
- Chẩn đoán bệnh: Phân tích ảnh X-quang để tìm ra các điểm dị thường, từ đó đưa ra dự đoán về bệnh có thể xuất hiện.
- Phân tích thị trường: Thu thập dữ liệu của khách hàng để đề xuất các thông tin hoặc sản phẩm.
Bạn có thể đăng câu hỏi về bài học này ở đây