1. Giới thiệu chung chương trình
Bối cảnh và xu hướng
Phân tích dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ trợ ra quyết định. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trong thế giới kinh doanh ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra quyết định khoa học hơn và giúp doanh nghiệp hoạt động hiệu quả hơn.Bên cạnh đó, dữ liệu là một trong những yếu tố quan trọng trong kinh doanh vì dữ liệu giúp chúng ta hiểu các vấn đề mà tổ chức đang gặp phải và việc sử dụng dữ liệu hiệu quả sẽ giúp doanh nghiệp cải thiện kết quả kinh doanh, đưa ra chiến lược thị trường tốt hơn, giảm chi phí, giúp doanh nghiệp ra quyết định nhanh và chính xác hơn,..
Chuyên viên phân tích dữ liệu (Data Analyst) là người thực hiện các phân tích sâu dữ liệu (deep dive analytics) ở dạng đồ thị, biểu đồ, sơ đồ, bảng biểu và báo cáo; sau đó sử dụng các dữ liệu đó để xác định xu hướng và tạo mô hình dự đoán những gì có thể xảy ra trong tương lai.
Data Analyst là một trong những công việc có nhu cầu tuyển dụng cao nhất ở thời điểm hiện tại. Không khó để nhận thấy vai trò của họ trong hầu hết các ngành nghề, các tổ chức doanh nghiệp, từ sản xuất, kinh doanh, marketing cho tới các lĩnh vực về y tế, chăm sóc sức khỏe. Theo diễn đàn kinh tế thế giới, nhu cầu tuyển dụng nhân sự ngành phân tích dữ liệu tăng mạnh vào năm 2020, gấp 6 lần so với 5 năm trước. Trong 5 năm tới, tỉ lệ này sẽ tiếp tục tăng cao hơn nữa do lượng dữ liệu con người tạo ra ngày càng nhiều. Nhờ đó mà cơ hội việc làm và phát triển sự nghiệp của những người theo đuổi ngành phân tích dữ liệu cũng vô cùng rộng mở.
Mô tả ngắn về chương trình
Chương trình này có tên gọi “Chuyên viên phân tích dữ liệu” (Data Analysis). Chương trình bắt đầu bằng việc cung cấp các nguyên tắc cốt lõi nhất của phân tích dữ liệu (hệ sinh thái dữ liệu, phương pháp luận và vòng đời của một dự án phân tích dữ liệu, các công việc cụ thể và các hướng công việc chuyên sâu cho một chuyên viên phân tích dữ liệu) , sau đó sẽ giúp bạn thành thục các kỹ năng thiết yếu nhất mà một Data Analyst cần nắm được như các ngôn ngữ lập trình (Python với Pandas, Matplotlib, seaborn, plotly, SQL với MySQL, ERD, advance querries), BI tool (Excel, Power BI) hay các thuật toán học máy (hồi quy, phân loại và phân cụm)..
Bên cạnh đó, một trong những kỹ năng đặc trưng cho các chuyên viên phân tích dữ liệu là khả năng truyền đạt ý nghĩa thực tế của các phân tích định lượng cho stakeholder (các bên liên quan). Trong chương trình này, bạn sẽ học cách trở thành bậc thầy trong việc truyền đạt các hàm ý liên quan đến kinh doanh của các phân tích dữ liệu cho các bên liên quan, đảm bảo thành quả làm việc và phân tích dữ liệu của bạn có hiệu quả cao nhất bằng những câu chuyện được kể bằng dữ liệu thông qua các data dashboard.
Vào cuối chương trình, các bạn có thể chọn một trong 2 lựa chọn sau: Kết hợp các kỹ năng của mình để hoàn thành một dự án capstone hoặc đi thực tập tại danh nghiệp.
2. Học viên học xong có thể làm gì?
Sau khi học xong, người học có cơ hội:
Công việc
Vị trí tuyển dụng: Data Analyst, Business Inteligent Analyst.
Một số đơn vị tuyển dụng: Viettel, FPT Software, MB Bank, Momo.
Học chuyển tiếp
Học tiếp các Chứng chỉ tiếp theo về dữ liệu của Funix để nắm vững hơn về hệ sinh thái dữ liệu trong doanh nghiệp như: Kỹ thuật dữ liệu, khoa học dữ liệu, học máy.
Học viên có thể tiếp tục theo học để có thể lấy bằng Kỹ sư phần mềm của FPT University và các trường đại học quốc tế khác (Deakin, City University of Seatle).
3. Học viên học xong có năng lực gì?
O1: Hiểu rõ về hệ sinh thái dữ liệu của doanh nghiệp.
O2: Có góc nhìn toàn diện về tính chất công việc, nghiệp vụ của một DA/BI, từ đó định hướng được career path phù hợp nhất cho bản thân.
O3: Nắm được một quy trình hoàn chỉnh và chi tiết khi làm việc với dữ liệu, từ phân tích/đưa ra bài toán nghiệp vụ, trao đổi với stake holders (khách hàng và các bên liên quan) đến mô hình hóa dữ liệu thông qua các mô hình học máy.
O4: Sử dụng thành thạo các ứng dụng sau cho các bài toán thu thập, xử lý và phân tích dữ liệu: Excel, Power BI, Python và một số framework đặc thù khác (scikit-learn, pandas, …).
O5: Làm việc tốt với các hệ cơ sở dữ liệu quan hệ: Từ thiết kế và xây dựng hệ CSDL, viết truy vấn SQL, đến thiết kế và tối ưu Data Warehouse và các tiến trình ETL.
O6: Có thể thực hiện được 1 dự án thực tế về DA/BI hoàn chỉnh.
4. Yêu cầu đầu vào đối với học viên
Điều kiện tiên quyết
- Có kiến thức về cơ sở dữ liệu
- Có kiến thức nền tảng về xác suất thống kê.
- Có kinh nghiệm làm việc với Excel.
Trong trường hợp chưa có đầy đủ các kiến thức điều kiện, các bạn cần học thêm các môn học sau trong chứng chỉ điều kiện của chương trình Data Analysis:
- Excel cơ bản
- Xác suất thống kê
- Các hệ cơ sở dữ liệu
5. Chương trình học
-
Introduction to Data Analysis
Môn học này giới thiệu các khái niệm phân tích dữ liệu, vai trò của Nhà phân tích dữ liệu và các công cụ được sử dụng để thực hiện các chức năng hàng ngày. Bạn sẽ hiểu được hệ sinh thái dữ liệu và các nguyên tắc cơ bản của phân tích dữ liệu, chẳng hạn như thu thập dữ liệu hoặc khai thác dữ liệu. Sau đó, bạn sẽ học các kỹ năng mềm cần thiết để truyền đạt hiệu quả dữ liệu của bạn cho các bên liên quan và cách thành thạo các kỹ năng này có thể cung cấp cho bạn lựa chọn để trở thành người ra quyết định theo hướng dữ liệu.
Sau đó, học viên sẽ bắt đầu tìm hiểu nhẹ nhàng các quy trình về phân tích dữ liệu thông qua Excel - một trong những công cụ cơ bản và thông dụng nhất để làm việc với dữ liệu - cho dù là kinh doanh, tiếp thị, phân tích dữ liệu hay nghiên cứu. Bạn sẽ có được kinh nghiệm quý báu trong việc phân tích dữ liệu của mình bằng các kỹ thuật trong Excel như tạo bảng tổng hợp, trực quan hóa và mô hình hóa dữ liệu.
1. Nắm được các khái niệm cơ bản về công việc Phân tích dữ liệu và hệ sinh thái khoa học dữ liệu.
2. Hiểu rõ vai trò của Phân tích dữ liệu trong các bài toán kinh doanh.
3. Nắm được cách thức kết nối và giao tiếp với các bên liên quan trong một dự án liên quan đến Phân tích dữ liệu.
4. Sử dụng được excel để xử lý bài toán phân tích dữ liệu cơ bản từ đầu đến cuối.
-
Phân tích dữ liệu với Power BI
Power BI đang nhanh chóng trở thành nền tảng BI (kinh doanh thông minh) mạnh mẽ nhất trên thế giới và là một trong những công cụ rất hữu ích cho cả các chuyên gia dữ liệu cũng như những người mới bắt đầu tìm hiểu về phân tích dữ liệu. Với Power BI, bạn có thể kết nối với hàng trăm nguồn dữ liệu, xây dựng các mô hình phức tạp bằng các công cụ đơn giản và trực quan, đồng thời thiết kế các bảng báo cáo và điều khiển tương tác tuyệt đẹp.
Trong khóa học này, bạn sẽ đóng vai trò là Nhà phân tích kinh doanh của Adventure Work Cycles, một công ty sản xuất toàn cầu. Nhiệm vụ của bạn sẽ là thiết kế và cung cấp một giải pháp kinh doanh thông minh đầu cuối, chất lượng và chuyên nghiệp thông qua Power BI với đầu vào là các tệp dữ liệu thô.
Chúng ta sẽ được hướng dẫn chi tiết cách sử dụng Power BI Desktop để thực thi nhiệm vụ trên. Bên cạnh đó, môn học sẽ cung cấp cho bạn các giải thích rõ ràng cũng như các kỹ thuật chuyên nghiệp hữu ích trong từng quá trình thực hiện. Chúng ta sẽ đi theo một tiến trình ổn định, có hệ thống để hoàn thành được một dự án hoàn chỉnh về Power BI.
1. Cài đặt và làm quen với giao diện của Power BI Desktop.
2. Xử lý, chuyển đổi và tích hợp được dữ liệu thô vào Power BI.
3. Xây dựng mô hình dữ liệu quan hệ với các bảng dữ liệu và quan hệ dữ liệu.
4. Sử dụng DAX để tính toán, trích xuất và phân tích dữ liệu.
5. Xây dựng được các báo cáo Power BI đẹp mắt, có thể tương tác với người dùng.
6. Thiết kế, xây dựng và triển khai được một quy trình BI hoàn chỉnh trên Power BI từ dữ liệu thô với các báo cáo và dashboard chất lượng.
- Truy vấn nâng cao và xây dựng kho dữ liệu
Phần đầu của môn học giúp học viên được tiếp cận với việc sử dụng SQL để giải quyết một số vấn đề phân tích trong thương mại điện tử như phân tích lưu lượng website, phân tích hiệu suất website, phân tích sản phẩm.
Tiếp đó, trong phần hai học viên sẽ được học các nhóm hàm thuộc về Window Function trong SQL Server, các loại subquery và hơn nữa trong bài cuối cùng của phần 2 học viên sẽ được học cách tối ưu một câu truy vấn.
Phần cuối cùng, học viên sẽ được tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu và mô hình hóa chiều dữ liệu (dimensional modelling), thiết kế một ETL. Một data warehouse (kho dữ liệu - DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo cáo còn ETL (Extract - Transform - Load) là một quá trình trích xuất - chuyển đổi và tải dữ liệu vào hệ thống Data warehouse.
#
Mục tiêu
1
- Biết cách viết truy vấn phân tích một số bài toán về lưu lượng, hiệu suất, sản phẩm của website trong MySQL.
2
- Biết sử dụng một số hàm truy vấn nâng cao trong SQL Server.
3
- Biết cách viết và tối ưu được các truy vấn từ đơn giản đến phức tạp trên SQL.
4
- Thiết kế và xây dựng được một Data warehouse hoàn chỉnh.
-
Ứng dụng học máy trong phân tích dữ liệu
-
Trong môn học này, học viên sẽ được làm quen với ngôn ngữ Python và cách sử dụng thư viện Pandas để xử lý dữ liệu dạng bảng. Với Pandas, các bạn có thể dễ dàng thực hiện các công việc như làm sạch dữ liệu, chuẩn hoá và biến đổi dữ liệu. Ngoài ra, Pandas cũng hỗ trợ rất nhiều định dạng file dữ liệu khác nhau như json, xlsx, csv, … Việc này sẽ giúp các bạn có nhiều lựa chọn hơn khi làm việc với dữ liệu.
Trong ở phần 3 của môn học này, các bạn sẽ được thực hành trực quan hoá dữ liệu với Python bằng cách sử dụng các thư viện của Python như Matplotlib, Seaborn, Folium, Plotly.
Trong phần cuối cùng của môn học, các bạn sẽ được làm quen với học máy, đây là một lĩnh vực rất rộng lớn và được sử dụng rộng rãi trong phân tích dữ liệu nâng cao. Nếu trước đây các bạn đã được làm quen với mô hình Linear Regression cơ bản (trong môn Giới thiệu về phân tích dữ liệu) thì ở phần này, các bạn sẽ được giới thiệu các mô hình khác như Regression nâng cao, hồi quy logistic, cây quyết định, k-Mean. Mỗi mô hình đều được sử dụng khi phân tích dữ liệu nâng cao: hồi quy logistic có thể giúp các bạn phân loại đâu là khách hàng tiềm năng, k-Means sẽ giúp các bạn phân nhóm được các nhóm khách hàng có đặc điểm chung, …
#
Mục tiêu
1
Sử dụng Python để làm việc với các dữ liệu dạng text file, dữ liệu web
2
Sử dụng numpy khi thao tác với mảng 1 chiều và 2 chiều
3
Sử dụng thành thạo Pandas cho các tác vụ làm sạch, biến đổi, xử lý và phân tích dữ liệu
4
Biết viết regular expression để làm các query từ đơn giản đến phức tạp với dữ liệu text
5
Sử dụng được Python để trực quan hóa dữ liệu thông qua các thư viện từ cơ bản đến nâng cao
Final Project
Hoàn thành môn học, học viên sẽ biết cách kết hợp các kiến thức về dữ liệu để tạo ra một sản phẩm/hệ thống về lưu trữ, xử lý và phân tích dữ liệu. Từ đó học viên sẽ tiếp tục hoàn thiện được các kỹ năng của mình liên quan đến phân tích dữ liệu.
Học viên có thể chọn 1 trong 2 option sau:
Option 1: Làm đồ án tốt nghiệp.
Đối với các học viên theo học chương trình biên soạn, học viên sẽ được hướng dẫn chọn làm đề tài/khóa luận với các mentor hướng dẫn trực tiếp.
Option 2: Đi thực tập tại doanh nghiệp.
Đối với các bạn học viên có nguyện vọng thực tập tại các doanh nghiệp, FUNiX sẽ hỗ trợ kết nối các bạn với các doanh nghiệp để chuẩn bị CV và phỏng vấn vào thực tập. Nếu được doanh nghiệp nhận, học viên cần chủ động tìm hiểu và vận dụng các kiến thức đã học hoàn thành mục tiêu thực tập.
-
Phương án thực hành
Chương trình có đề bài thực hành giúp học viên rèn luyện khả năng lập trình bám theo các bài lý thuyết đã được dạy.
#
Môn học
Định hướng Course Project
11
Giới thiệu về Phân tích dữ liệu
Assignment 1: Ứng dụng tư duy phân tích dữ liệu trong bài toán bán hàng Online
Chủ đề: Một công ty làm sản phẩm thực hiện phân phối các loại sản phẩm của mình qua kênh Online. Công ty này nhận thấy số lượng đơn hàng giảm đột biến trong tháng 12. Với tư cách là nhà phân tích dữ liệu bạn có nhiệm vụ thực hiện tìm hiểu nguyên nhân của sự giảm đột biến này.
Yêu cầu:
- Học viên cần sử dụng bộ dữ liệu thực tế để phân tích
- Học viên cần đưa ra các câu hỏi để có thể xác định bài toán
- Tạo được các bước từ hiểu vấn đề kinh doanh (understanding business) đến thu thập dữ liệu trong quy trình phân tích dữ liệu.
Assignment 2: Xây dựng Dashboard báo cáo kinh doanh với excel
Chủ đề: Một công ty A muốn xem lại tổng thể tình hình kinh doanh của công ty để có thể đưa ra những điều chỉnh phù hợp. Công việc của bạn trong bài ASM này là sẽ thực hiện tạo một Dashboard tổng thể với Pivot Table.
- Mục tiêu:
- Học viên sẽ thực hành với Pivot Table để tạo các biểu đồ báo cáo Doanh Thu.
- Học viên sẽ thực hiện tạo một Dashboard hoàn chỉnh, mục đích chính của Dashboard là giúp trình bày/trực quan hoá thông tin của dữ liệu một cách nhanh chóng và tổng quát nhất.
- Yêu cầu:
-
- Học viên đọc kĩ phần yêu cầu tổng quan sau đó có thể thực hiện các yêu cầu lần lượt theo hướng dẫn trong phần 2
- Học viên sẽ thực hiện xây dựng các mẫu Pivot Table và Biểu đồ theo mẫu
- Học viên có thể kiểm tra kết quả qua hình ảnh dữ liệu mẫu.
Assignment 3: Phân tích chương trình khen thưởng khách hàng sử dụng Linear Regression
Chủ đề: Các chương trình khen thưởng ngày càng phổ biến trong ngành bán lẻ. Với vai trò là một nhà phân tích dữ liệu, bạn được được một công ty bán lẻ lớn tiếp cận với yêu cầu xem xét các yếu tố ảnh hưởng như thế nào đến hạn của phần thưởng trao cho khách hàng và thực hiện dự đoán hạn của các phần thưởng này.
Mục tiêu: học viên sẽ sử dụng Excel để xây dựng mô hình Hồi quy tuyến tính (Linear Regression), sau đó từ mô hình tìm được học viên sẽ thực hiện dự đoán giá trị của biến mục tiêu
Yêu cầu:
- Thực hiện làm sạch dữ liệu trước khi thực hiện xây dựng mô hình
- Xây dựng mô hình Linear regression
22
Phân tích dữ liệu với Power BI
Assignment 1: Xây dựng báo cáo về tình hình Covid tại Việt Nam
Chủ đề: Trong ASM này học viên sẽ sử dụng Power BI để xây dựng báo cáo về tình hình COVID19 tại Việt Nam. Trong quá trình làm bài học viên sẽ được thực hành đầy đủ về các giai đoạn trong Workflow khi làm việc với Power BI.
Yêu cầu:
- Học viên đọc kĩ phần yêu cầu tổng quan sau đó có thể thực hiện các yêu cầu lần lượt theo hướng dẫn trong phần 2.
- Học viên xem kỹ các phần tài liệu tham khảo.
Assignment 2: Xây dựng báo cáo tự động cập nhật về tình hình Covid trên thế giới
Chủ đề: Trong ASM này học viên sẽ sử dụng Power BI để xây dựng báo cáo về tình hình COVID19 trên thế giới. Trong quá trình làm bài học viên sẽ được thực hành đầy đủ về các giai đoạn trong Workflow khi làm việc với Power BI.
Yêu cầu:
- Học viên đọc kĩ phần yêu cầu tổng quan sau đó có thể thực hiện các yêu cầu lần lượt theo hướng dẫn trong phần 2
- Học viên xem kỹ các phần tài liệu tham khảo.
33
Truy vấn nâng cao và xây dựng kho dữ liệu
Assignment 1: Phân tích kinh doanh sử dụng SQL
Chủ đề: Công ty A đã thành lập được một thời gian và giờ công ty muốn thực hiện một vòng gọi vốn từ quỹ đầu tư mạo hiểm. Bạn hãy dùng khả năng phân tích của mình để vẽ ra được một bức tranh về sự tăng trưởng vượt bậc của công ty. Trong ASM này, bạn sẽ đóng vai trò là một nhà phân tích dữ liệu để giúp Giám đốc điều hành của một công ty A kể câu chuyện về dữ liệu. Bạn sẽ sử dụng các kỹ năng về phân tích dữ liệu truy cập và phân tích hiệu suất website để tạo được câu chuyện về dữ liệu.
Yêu cầu:
- Viết các truy vấn theo yêu cầu
- Đưa ra các nhận xét đối với từng câu truy vấn
Assignment 2: Thiết kế data warehouse cho ứng dụng nhận nuôi thú cưng
Chủ đề: Tập dữ liệu PetFinder chứa các thông tin của các vật nuôi, gồm các thông tin như sau: Tên, tuổi, giống, màu lông, … Bạn được giao nhiệm vụ thiết kế Data Warehouse để lưu trữ các dữ liệu đó.
Yêu cầu:
- Thiết kế được ERD cho Data Warehouse dựa trên bộ dữ liệu cho trước.
- Xác định được tối thiểu 3 business queries (truy vấn nghiệp vụ) để thực hiện phân tích dữ liệu.
- Xây dựng được quy trình ETL trong SSIS.
- Mô tả được quy trình ETL để đưa dữ liệu vào Data Warehouse.
- Đưa được dữ liệu vào Database.
- Viết các câu lệnh SQL để xây dựng Database.
Viết các câu lệnh SQL để lấy dữ liệu cho các business queries đã xác định.
4
Ứng dụng học máy trong phân tích dữ liệu
Assignment 1: Tính toán và phân tích điểm thi (Test Grade Calculator)
Chủ đề: Trong bài assignment này, bạn cần viết một chương trình để tính toán điểm thi cho nhiều lớp với sĩ số hàng nghìn học sinh. Mục đích của chương trình giúp giảm thời gian chấm điểm.
Mục tiêu: Bạn sẽ học cách viết một chương trình Python tập trung vào lập trình cơ bản, sử dụng list, function và xử lý với chuỗi. Hơn nữa, bạn sẽ biết cách truy cập file để đọc dữ liệu và ghi kết quả thống kê được.
Yêu cầu: Bài tập này cung cấp cho học viên một nguồn dữ liệu thực tế. Các bạn sẽ thực hành sử dụng các hàm khác nhau trong Python để giải quyết một bài toán cụ thể.
Assignment 2: Phân tích dữ liệu Covid-19
Chủ đề: Coronavirus là một họ virus được đặt theo tên của chủng Virus coronavirus mới, còn được gọi là SARS-CoV-2, là một loại virus lây truyền qua đường hô hấp lần đầu tiên được phát hiện ở Vũ Hán, Trung Quốc. Vào ngày 2/11/2020, Tổ chức Y tế Thế giới đã chỉ định tên COVID-19 cho bệnh do coronavirus mới gây ra. Dự án này nhằm mục đích tìm hiểu COVID-19 thông qua phân tích dữ liệu và dự báo.
Mục tiêu: Bạn sẽ học cách viết chương trình Python để tải dữ liệu từ file bằng cách sử dụng gói DataFrame trong Pandas và sử dụng Thống kê mô tả để hiểu dữ liệu của bạn. Ngoài ra, bạn sẽ thực hành xử lý các giá trị bị thiếu và chuyển đổi lại một số trường trước khi phân tích đặc trưng riêng lẻ. Trong bước phân tích, bạn sẽ bắt đầu bằng cách nêu ra một số câu hỏi, sau đó khám phá dữ liệu và áp dụng các kỹ năng trực quan hóa dữ liệu bằng Matplotlib, Seaborn, Folium, Bokeh, v.v. để minh họa kết quả. Cuối cùng bạn sẽ chọn các đặc trưng phù hợp nhất giúp bạn dự đoán thời gian di chuyển.
Assignment 3: -Phân cụm các nhóm khách hàng tiềm năng trong lĩnh vực bán lẻ
Chủ đề: Công ty của bạn hiện nay đang muốn đẩy mạnh hoạt động kinh doanh bằng cách tập chung các chiến lược khác nhau cho các nhóm khách hàng khác nhau. Như vậy việc quan trọng là cần phân khách hàng thành các nhóm cụ thể dựa trên một số yếu tố nào đó. Nhiệm vụ của bạn là tìm các yếu tố đó và phân khách hàng vào các nhóm cụ thể.
Yêu cầu:
- Học viên đọc kỹ nội dung kiến thức và làm theo từng yêu cầu trong file jupyter-notebook
- Học viên xem kỹ lại nội dung liên quan đến thuật toán phân cụm trong giáo trình