Trí tuệ nhân tạo và một đại diện tiêu biểu nhất của nó là Machine learning (học máy) đang là lĩnh vực công nghệ được quan tâm nhiều nhất hiện nay. Machine learning ngày càng được ứng dụng vào thực tế cuộc sống, từ các hệ thống quản lý nội dung như báo chí cho đến các ứng dụng mạng xã hội, thương mại điện tử, marketing lẫn các dịch vụ công của chính phủ… và tạo ra sự nhảy vọt về giá trị của các dịch vụ này. Và điều đó dẫn đến việc học Machine learning trở thành một trong những nhu cầu thiết yếu nhất hiện nay. Việc hiểu ứng dụng của machine learning và biết những người khác làm gì với machine learning, học qua các ví dụ và project thực tế cụ thể luôn là cách hiệu quả nhất để bắt đầu.
Trong series bài viết này tek4.vn sẽ giới thiệu một số project ứng dụng machine learning cụ thể trong đó bao quát hầu hết các khía cạnh quan trọng của machine learning như các bài toán học có giám sát (supervised learning), học không giám sát (unsupervised learning), học sâu (deep learning) hay mạng nơ ron (neural network), cũng như các vấn đề về dự đoán, xử lý ngôn ngữ tự nhiên, nhận dạng, phân lớp, giảm chiều, xử lý dữ liệu…
Trong một bài toán machine learning hai vấn đề quan trọng nhất là dữ liệu (dataset) và mô hình học máy (model). Việc xây dựng mô hình học máy cần dựa trên đặc tính của dữ liệu. Đối với người mới bắt đầu học machine learning, điều cần thiết nhất là nên bắt đầu với những bộ dữ liệu có kích thước vừa phải và không có nhiều nhiễu, đã được nghiên cứu và chuẩn hoá trước đó.
Điều này giúp cho việc hiểu thuật toán và mô hình tốt hơn. Có nhiều thư viện cung cấp các nguồn dữ liệu chất lượng cao mà bạn có thể tham khảo như – Kho lưu trữ UCI ML và Kaggle. Tất cả các project trong series “Học machine learning qua ví dụ” này đều bắt nguồn từ các dữ liệu thực tế phổ biến nhất được công khai trên mạng, đã được phân tích và chuẩn hoá và phù hợp nhất cho những người mới học. Link tải về của các bộ dữ liệu sẽ nằm trong các bài viết tương ứng.
Trước khi bắt đầu bất cứ một dự án Machine learning nào, điều đầu tiên bạn cần làm là hiểu sâu về dữ liệu, cấu trúc của tập dữ liệu và tất cả các thuật toán học máy phù hợp nhất để giải quyết vấn đề trong tay. Để hiểu sâu về dữ liệu cần luôn sử dụng các phân tích thống kê nhằm tập trung vào các câu hỏi bạn đang tìm cách trả lời về tập dữ liệu thay vì phân tâm vào một kỹ thuật nhất định và cố gắng cài đặt triển khai nó. Thuật toán và mô hình có thể sử dụng các thư viện mã nguồn mở như Tensorflow, Keras, Sklearn,… Tuy nhiên điều đó không quan trọng bằng việc phân tích và xử lý dữ liệu phù hợp.
Tư tưởng này cũng sẽ được trình bày rõ ràng qua các ví dụ cụ thể trong series bài viết này. Thay vì hướng dẫn cách sử dụng các thư viện ra sao, lập trình tải dữ liệu như thế nào, tek4.vn còn đưa ra các phân tích cụ thể để giúp người đọc có thể hiểu hơn về việc tại sao lại làm như vậy từ bước xử lý dữ liệu. Trước khi đi vào nội dung từng bài, chúng ta lưu ý một số “khẩu quyết – tâm pháp” dưới đây. Nó sẽ giúp ích rất nhiều khi nghiên cứu và làm việc với bộ dữ liệu học máy:
- Cần có sự hiểu biết rõ ràng và sâu sắc về vấn đề mà bộ dữ liệu đại diện. Chẳng hạn bộ dữ liệu đó là gì, các thuộc tính, cần phải xác định điều gì từ bộ dữ liệu: dự đoán hay phân lớp dữ liệu?…Chúng ta không thể phân tích một bộ dữ liệu khi chưa biết mục đích cần có của bài toán là gì?
- Luôn tóm tắt bộ dữ liệu bằng cách sử dụng các số liệu thống kê. Bạn chẳng thể nào “nhìn” dữ liệu và thấy mọi thứ về bộ dữ liệu đó cả. Các công cụ thống kê là cần thiết để cho thấy các phân bố của bộ dữ liệu và cấu trúc của dữ liệu.
- Ghi lại các cấu trúc quan sát được và đưa ra tất cả các mối quan hệ trong dữ liệu. Chẳng hạn như dữ liệu có thiên lệch cao, dữ liệu bất thường, thiếu…
- Nhanh chóng kiểm tra một vài thuật toán học máy phổ biến nhất trên tập dữ liệu và tìm ra loại thuật toán chung nào cho hiệu quả tốt hơn.
- Điều chỉnh các thuật toán để xác định thuật toán hoạt động tốt cho một vấn đề dữ liệu nhất định và điều chỉnh các tham số của nó cho phù hợp.
XEM THÊM: Machine learning cho mọi người – Bài 1. Machine learning là gì?
Yêu cầu:
Để đạt hiệu quả tốt nhất khi theo dõi series bài viết này, bạn đọc nên có đôi chút kiến thức nền tảng về:
- Toán học (đặc biệt là xác suất thống kê) – để hiểu được các vấn đề về mô hình hoá dữ liệu. Nếu chưa tự tin bạn có thể tham khảo thêm tại đây.
- Lập trình Python cơ bản – để có thể sử dụng và làm theo các bước cài đặt trong bài viết. Nếu chưa làm quen với Python, bạn có thể tham khảo thêm tại series Python cơ bản này.
- Đôi chút hiểu biết về các mô hình machine learning cơ bản như: SVM, Cây quyết định, mạng nơ ron,…cũng như nhiều khái niệm về machine learning cơ bản khác. Điều này sẽ giúp bạn sẽ hiểu rõ hơn về cách thức thực hiện trong các bài viết. Bạn có thể tham khảo series bài viết: Machine learning cơ bản đến nâng cao tại đây.
Hãy bấm vào các link bên dưới để đi đến bài tương ứng…
Học Machine learning qua ví dụ – Bài 1. Giới thiệu về series học machine learning qua ví dụ
Học Machine learning qua ví dụ – Bài 2. Cài đặt môi trường Python cho Machine Learning và Deep Learning với Anaconda
Học Machine learning qua ví dụ – Bài 3. Làm quen với học có giám sát (Supervised Machine Learning) với bài toán phân loại hoa Diên vĩ (Iris)
Học Machine learning qua ví dụ – Bài 4. Làm quen với học không giám sát (Unsupervised Machine Learning) với bài toán dự báo thị trường của BigMart
Học Machine learning qua ví dụ – Bài 5. Phân tích cảm xúc mạng xã hội với Twitter Dataset
Học Machine learning qua ví dụ – Bài 6. Dự báo bán hàng với Walmart Dataset
Học Machine learning qua ví dụ – Bài 7. Xây dựng hệ đề xuất (Recommender Systems) với Movielens Dataset
Học Machine learning qua ví dụ – Bài 8. Bài toán dự đoán thị trường chứng khoán với machine learning
Học Machine learning qua ví dụ – Bài 9. Dự đoán chất lượng sản phẩm với machine learning
Học Machine learning qua ví dụ – Bài 10. Dự đoán giá nhà đất với machine learning
Học Machine learning qua ví dụ – Bài 11. Phân loại thư rác với machine learning
Học Machine learning qua ví dụ – Bài 12. Nhận dạng chữ viết tay với MNIST dataset
Học Machine learning qua ví dụ – Bài 13. Làm thế nào để nhận dạng hành vi của con người dựa trên dữ liệu Smartphone
Học Machine learning qua ví dụ – Bài 14. Phân lớp tấn công mạng bằng KDD99 dataset
Học Machine learning qua ví dụ – Bài 15. Nhận dạng khuôn mặt và điểm danh với Machine Learning
Học Machine learning qua ví dụ – Bài 16. Dự đoán bệnh trên cây trồng với Deep Learning
Học Machine learning qua ví dụ – Bài 17. Deep Learning trong chuẩn đoán bệnh võng mạc
Học Machine learning qua ví dụ – Bài 18. Làm game engine với Machine learning
Hi vọng chuỗi bài viết Học Machine learning qua ví dụ này sẽ giúp bạn cảm thấy hữu ích và hứng thú hơn cũng như tạo một nền tảng giúp bạn tiếp tục tiến lên trên con đường ứng dụng machine learning trong công việc, trong cuộc sống, hoặc startup. Sự ủng hộ của các bạn là nguồn động viên để tek4.vn tiếp tục xây dựng những series bài viết chi tiết hơn cho nhiều khía cạnh cụ thể khác trong machine learning.