Những Ghi Chú Về Phân Tích Dữ Liệu Căn Bản

Giới thiệu:

Cuốn sách này được xuất bản vào tháng 10 năm 2021

Trước tháng 2 năm 2010, cuốn sách này đã tồn tại

Cuốn sách này nói về cách trở thành nhà phân tích dữ liệu, mặc dù bạn sẽ học được khá nhiều công cụ phần mềm trong sách, nhưng chúng chỉ là phương tiện để học cách thực hiện phân tích dữ liệu xuất sắc.

Phương pháp học tập

Chuyển đổi kiến thức thành hình ảnh.

Hình ảnh dễ nhớ hơn văn bản đơn điệu, có thể nâng cao hiệu quả học tập (hiệu quả học tập có thể tăng lên đến 89%); hình ảnh còn giúp kiến thức dễ hiểu hơn, so với việc đặt văn bản ở chân trang và trang tiếp theo, việc đặt văn bản trong hoặc xung quanh hình ảnh liên quan sẽ làm tăng khả năng người học giải quyết vấn đề thành công.

Áp dụng phong cách đối thoại cá nhân hóa.

...

Não chú ý vào những điều bất thường, thú vị, kỳ lạ, thu hút và bất ngờ.

Trí nhớ của con người phụ thuộc rất nhiều vào mức độ ảnh hưởng cảm xúc của nội dung cần nhớ (các cảm xúc như ngạc nhiên, tò mò, thú vị, muốn điều tra tận gốc, và cảm giác "tôi là số một" khi đoán đúng câu đố chữ, học được điều mà người khác thấy khó học, hoặc nhận ra mình biết nhiều hơn kỹ sư Từ trong phòng kỹ thuật).

Chúng ta quan tâm đến điều gì thì sẽ nhớ điều đó; chúng ta có cảm xúc với điều gì thì sẽ nhớ điều đó.

Nếu thực sự muốn học và học nhanh hơn, sâu hơn, hãy chú ý đến cách mình tập trung. Hãy suy nghĩ về cách mình suy nghĩ; nghiên cứu về cách mình nghiên cứu.

Hầu hết mọi người trong quá trình trưởng thành đều không học về nhận thức luận (metacognition) và lý thuyết học tập. Người ta kỳ vọng chúng ta học kiến thức, nhưng rất ít người dạy chúng ta cách học.

Nhưng có thể thấy, bạn đang cầm cuốn sách này muốn học kiến thức phân tích dữ liệu, và có thể không muốn tốn quá nhiều thời gian. Để sử dụng được kiến thức đọc được trong sách, bạn phải nhớ những gì đã đọc, và để làm được điều đó, bạn phải hiểu những kiến thức đó. Để phát huy hết tác dụng của cuốn sách này hoặc bất kỳ cuốn sách hay trải nghiệm học tập nào, hãy quản lý não của bạn, quản lý thái độ của não đối với cuốn sách này.

Mẹo là khiến não coi dữ liệu mới đang học là "việc quan trọng" - việc quan trọng đối với hạnh phúc, quan trọng như hổ vậy.

Có hai cách: một cách chậm và nhàm chán, một cách nhanh và hiệu quả.

Cách chậm là ghi nhớ đơn thuần. Chỉ cần lặp lại đủ nhiều lần, não sẽ nghĩ: "Điều này không quan trọng với anh ấy, nhưng anh ấy cứ nhìn đi nhìn lại những thứ giống nhau, một lần, một lần nữa, và một lần nữa. Vậy thì chắc hẳn điều này quan trọng."

Cách nhanh là làm mọi thứ kích não hoạt động, đặc biệt là các loại hoạt động não khác nhau. Ví dụ, nghiên cứu cho thấy việc đặt văn bản trong hình ảnh mà văn bản đó mô tả sẽ khiến não cố gắng tìm hiểu mối quan hệ giữa văn bản và hình ảnh, từ đó kích hoạt nhiều neuron hơn. Kích hoạt nhiều neuron hơn = nhiều khả năng não hiểu rằng có điều gì đó đáng chú ý, có thể đáng nhớ hơn. Đối thoại...

Hướng dẫn người đọc suy nghĩ sâu hơn

Nói cách khác, trừ khi người đọc chủ động kích hoạt neuron của mình, nếu không não sẽ không thay đổi gì lớn.

Chỉ khi kích thích sự quan tâm của người đọc, gây tò mò, kích thích cảm hứng, người đọc mới có thể giải quyết vấn đề, đưa ra kết luận, có được kiến thức mới.

Để làm được điều đó, người hướng dẫn cần thiết kế các bài tập khó nhau, đặt câu hỏi khiến người đọc suy nghĩ, còn làm cho người đọc thực hiện các hoạt động khiến cả hai bán cầu não và nhiều giác quan đều hoạt động.

Những việc cần làm

Đọc chậm.

Hiểu càng nhiều, nhớ càng ít.

Tránh đọc máy móc. Dừng lại, suy nghĩ, khi gặp câu hỏi trong sách, đừng vội lật xem đáp án; hãy tưởng tượng có người thực sự hỏi bạn câu này. Càng ép não suy nghĩ sâu, khả năng học và nhớ càng lớn.

Tự làm bài tập, tự ghi chú.

Chúng tôi đã sắp xếp các bài tập và phần ghi chú, nhưng nếu chúng tôi làm thay cho bạn, giống như để người khác tập thể dục thay bạn vậy; chỉ nhìn mà không làm cũng không được, phải viết.

Nhiều bằng chứng cho thấy hoạt động cơ thể trong khi học có thể cải thiện hiệu quả học tập.

Đọc phần "Không có câu hỏi ngớ ngẩn".

Không có câu hỏi nào là ngớ ngẩn. Những câu hỏi này không phải là xem được hay không, chúng là một phần cốt lõi của nội dung! Xin đừng bỏ qua.

Hãy đoạn văn dưới đây là đoạn đọc cuối cùng trước khi ngủ, hoặc ít nhất là đoạn đọc phức tạp cuối cùng.

Một phần của quá trình học (đặc biệt là quá trình chuyển đổi từ trí nhớ ngắn hạn sang trí nhớ dài hạn) xảy ra sau khi đặt sách xuống, não cần thời gian riêng để xử lý thêm. Nếu học kiến thức mới trong khoảng thời gian xử lý này, sẽ mất một số kiến thức vừa học được.

Nói to ra.

Nói nói kích thích các phần khác của não.

Nếu bạn đang cố gắng hiểu một kiến thức nào đó, hoặc đang cố gắng tăng khả năng nhớ kiến thức đó sau này, hãy nói to kiến thức đó ra.

Còn một cách tốt hơn nữa, thử giải thích kiến thức đó cho người khác. Bạn sẽ học nhanh hơn, và có thể phát hiện ra một số điều mà khi đọc không nhận ra.

Uống nhiều nước.

Dịch cơ thể đầy đủ sẽ giúp não hoạt động tốt nhất, mất nước (có thể xảy ra trước khi bạn cảm thấy khát) sẽ làm giảm chức năng nhận thức.

Lắng nghe tiếng nói của não.

Chú ý xem não có đang quá tải không. Nếu bạn nhận thấy mình bắt đầu mất tập trung, hoặc vừa đọc xong đã quên ngay, hãy nghỉ ngơi. Sau một điểm học tập nhất định, dù cố gắng nhồi nhét thế nào cũng không thể cải thiện hiệu quả học tập, thậm chí có thể ảnh hưởng đến việc học.

Tìm cảm giác.

Não cần biết điều gì đó có quan trọng không. Hãy đặt mình vào các tình huống khác nhau, tưởng tượng chú thích cho ảnh, thậm chí than phiền một câu đùa không vui cũng còn hơn là không có cảm xúc gì.

Luyện tập thường xuyên!

Cách duy nhất để học phân tích dữ liệu là luyện tập thường xuyên, đó chính là yêu cầu của cuốn sách này. Phân tích dữ liệu là một kỹ năng, cách duy nhất để thành thạo là thực hành nhiều.

Cuốn sách này sẽ mang đến cho bạn nhiều cơ hội thực hành: mỗi chương đều có một vấn đề đang chờ bạn giải quyết, đừng bỏ qua những vấn đề này - phần lớn việc học xảy ra trong quá trình giải quyết vấn đề. Chúng tôi cung cấp đáp án cho mỗi vấn đề, nếu gặp khó khăn (có một số chi tiết nhỏ rất dễ gây rắc rối), đừng sợ xem đáp án!

Tuy nhiên, hãy cố gắng giải quyết vấn đề trước khi xem đáp án, hãy đảm bảo phương pháp của bạn hoạt động hiệu quả, rồi mới tiếp tục phần tiếp theo trong sách.

Mục tiêu:

Các bước cơ bản trong phân tích dữ liệu
Phương pháp thực nghiệm
Phương pháp tối ưu hóa
Phương pháp kiểm định giả thuyết
Phương pháp thống kê Bayes
Phương pháp xác suất chủ quan
Phương pháp heuristic
Phương pháp biểu đồ tần suất
Phương pháp hồi quy
Xử lý sai số
Cơ sở dữ liệu liên quan
Kỹ thuật làm sạch dữ liệu

Sử dụng phân tích dữ liệu để suy nghĩ và giải quyết vấn đề; tác dụng mạnh mẽ của phân tích dữ liệu có hệ thống trong việc đưa ra quyết định.

Cuốn sách này đầy kiến thức thống kê, với tư cách là nhà phân tích dữ liệu, bạn nên nắm vững càng nhiều kiến thức thống kê càng tốt, sau khi đọc xong cuốn sách này, tốt nhất nên đọc thêm cuốn Head First Statistics. Tuy nhiên, phân tích dữ liệu không chỉ bao gồm thống kê mà còn liên quan đến nhiều lĩnh vực khác, các chủ đề phi thống kê được chọn trong sách này chủ yếu để giải thích kinh nghiệm phân tích dữ liệu cụ thể và thực tế từ cuộc sống.

Chương 1: Giới thiệu Phân Tích Dữ Liệu - Phân Rã Dữ Liệu

Quy trình cơ bản cố định

Xác định: Hiểu vấn đề, xác định vấn đề

Phân rã: Phân rã vấn đề và dữ liệu thành các phần nhỏ hơn

Đánh giá: Đưa ra các kết luận dựa trên những gì đã tìm hiểu được từ hai bước trước

Quyết định: Kết hợp lại các kết luận này, đưa ra (đề xuất) một quyết định

Xác định vấn đề

Tiến hành phân tích dữ liệu mà không xác định rõ vấn đề hoặc mục tiêu của mình giống như lên đường mà không xác định điểm đến vậy.

Khách hàng sẽ giúp bạn xác định vấn đề, khách hàng là người hưởng lợi từ kết quả phân tích.

Khách hàng của bạn có thể là sếp của bạn, CEO của công ty, hoặc thậm chí là chính bạn.

Khách hàng sẽ dựa trên phân tích của bạn để đưa ra quyết định, bạn cần tìm hiểu càng nhiều thông tin từ họ để xác định vấn đề. Trong bài viết này, CEO muốn tăng doanh số, nhưng đây mới chỉ là câu trả lời ban đầu. Bạn cần tìm hiểu sâu hơn để nắm bắt suy nghĩ của họ, từ đó xây dựng phương án phân tích có thể giải quyết vấn đề.

Khách hàng của bạn có thể

Hiểu rõ hoặc không hiểu rõ dữ liệu của mình
Hiểu rõ hoặc không hiểu rõ vấn đề hoặc mục tiêu của mình
Hiểu rõ hoặc không hiểu rõ việc kinh doanh của mình
Mục tiêu rõ ràng hoặc do dự
Tỉnh táo hoặc mơ hồ
Trực giác tốt hoặc giỏi phân tích

Phân rã vấn đề và dữ liệu thành các khối nhỏ hơn

Nếu bạn nhận được dữ liệu tổng hợp, bạn sẽ muốn biết những yếu tố nào quan trọng với bạn.

Nếu bạn nhận được bảng dữ liệu thô, bạn sẽ muốn tổng hợp các yếu tố này để làm cho dữ liệu hữu ích hơn.

Đánh giá các khối - Phân tích

Việc tham gia vào phân tích có nghĩa là đưa ra các giả định rõ ràng của riêng bạn, và dùng uy tín của mình để đặt cược cho kết luận của bạn.

Đưa ra đề xuất (Quyết định)

Với tư cách nhà phân tích dữ liệu, công việc của bạn là để bạn và khách hàng nghiên cứu kỹ đánh giá dữ liệu của bạn, nắm bắt cơ hội trước, từ đó có khả năng đưa ra quyết định tốt hơn.

Để đạt được mục đích này, bạn phải tích hợp các giả định và phán đoán của mình vào định dạng phù hợp để khách hàng có thể tiếp nhận.

Nghĩa là, tác phẩm của bạn phải đơn giản khi có thể, nhưng không được đơn giản quá mức! Công việc của bạn là đảm bảo ý kiến của bạn được truyền tải đúng cách, để mọi người có thể đưa ra quyết định đúng dựa trên ý kiến của bạn.

Báo cáo bạn gửi cho khách hàng phải tập trung vào việc được khách hàng hiểu và khuyến khích khách hàng đưa ra quyết định sáng suốt dựa trên dữ liệu.

Báo cáo

Báo cáo của bạn phải ngắn gọn, chuyên nghiệp và trực tiếp

Báo cáo làm rõ nhu cầu của CEO, thậm chí còn rõ ràng hơn chính CEO nói.

Bạn xem xét dữ liệu, làm rõ hơn qua CEO, so sánh quan điểm mà CEO tin tưởng với sự hiểu biết của bạn về dữ liệu, rồi đưa ra đề xuất quyết định.

Nền tảng - Giải thích dữ liệu - Đề xuất

Mô hình tinh thần (Công cụ xử lý thông tin) & Xem xét phạm vi không chắc chắn

Mô hình tinh thần có thể là những năng khiếu bẩm sinh, hoặc những lý thuyết học được, dù là loại nào, chúng đều ảnh hưởng lớn đến cách bạn giải thích dữ liệu.

Mô hình thống kê phụ thuộc vào mô hình tinh thần; mô hình tinh thần quyết định kết quả quan sát của bạn, là lăng kính để bạn quan sát thực tại. (Bạn không thể nhìn thấy mọi thứ, vì vậy não bạn phải đưa ra lựa chọn để tập trung, đó là lý do tại sao mô hình tinh thần quyết định rất nhiều kết quả quan sát.)

Nếu bạn hiểu mô hình tinh thần của mình, bạn sẽ có nhiều khả năng tìm ra điểm quan trọng và phát triển mô hình thống kê phù hợp và hữu ích nhất.

Dữ liệu thô

Luôn lưu dữ liệu thô, tránh thực hiện bất kỳ xử lý dữ liệu nào. Ngay cả nhà phân tích dữ liệu giỏi nhất cũng có thể mắc sai lầm, phải có khả năng so sánh kết quả công việc của mình với dữ liệu thô.

Thư giãn, dữ liệu nhiều thường là điều tốt. Trong dữ liệu dày đặc很容易让人"迷路", nếu bạn lạc mục tiêu, quên giả định, chỉ cần tập trung hoàn thành xử lý dữ liệu cần thiết là có thể扭转局势, nền tảng của phân tích dữ liệu xuất sắc là chú ý quan sát dữ liệu cần tìm hiểu.

Tình huống - Báo cáo

Lúc đầu, tôi cố gắng tìm cách tăng doanh số trong thị trường nữ giới trẻ, vì chúng tôi tin những khách hàng này là nhóm khách hàng duy nhất của sản phẩm. Khi phát hiện thị trường nữ giới trẻ đã bão hòa, tôi đào sâu vào dữ liệu để tìm nguồn tăng doanh số. Trong quá trình này, tôi đã thay đổi mô hình tinh thần, kết quả cho thấy những người đam mê sử dụng sản phẩm nhiều hơn chúng tôi nhận ra - đặc biệt là nam giới lớn tuổi. Vì nhóm khách hàng này không công khai sự đam mê của mình, tôi đề xuất tăng mạnh quảng cáo cho nhóm này, bán cùng sản phẩm với các đặc điểm dễ được nam giới chấp nhận hơn, điều này sẽ tăng doanh số.

Hỏi: Nếu để giải quyết vấn đề mà cần thông tin chi tiết hơn, tôi nên làm đến mức nào? Có cần phỏng vấn trực tiếp khách hàng không?

Trả lời: Độ sâu khai thác dữ liệu mới cuối cùng phụ thuộc vào phán đoán tốt nhất của chính bạn, trong ví dụ này, bạn tiếp tục thử nghiệm, cuối cùng đã tìm ra lĩnh vực thị trường mới, phát hiện này đủ để bạn xây dựng chiến lược bán hàng thuyết phục. Chúng tôi sẽ thảo luận thêm về việc khi nào nên dừng thu thập dữ liệu trong các chương sau.

Hỏi: Có vẻ như mô hình tinh thần sai lầm ban đầu là nguyên nhân chính khiến phân tích lần đầu thất bại.

Trả lời: Vâng, giả định sai lầm ban đầu quyết định phân tích sẽ đưa ra kết quả sai, vì vậy từ đầu phải xây dựng mô hình dựa trên giả định đúng, và phải sẵn sàng ngay lập tức xem xét lại kỹ lưỡng nếu dữ liệu thu được trái với giả định của bạn.

Hỏi: Phân tích có kết thúc không? Điều tôi theo đuổi là kết luận chắc chắn.

Trả lời: Phân tích dữ liệu chắc chắn sẽ đưa ra câu trả lời cho các vấn đề lớn, nhưng không bao giờ có thể tiên đoán chính xác, dù bạn biết hôm nay, ngày mai lại có tình huống mới. Đề xuất bán hàng cho nam giới lớn tuổi có thể hiệu quả hôm nay, nhưng Công ty luôn cần nhà phân tích đưa ra ý tưởng tăng doanh số cho họ.

Hỏi: Nghe có vẻ không thú vị.

Trả lời: Ngược lại! Nhà phân tích giống như thám tử, luôn có những bí mật chờ họ khám phá, đây chính là niềm vui của phân tích dữ liệu! Xem lại vấn đề, tinh chỉnh mô hình, quan sát thế giới bên ngoài dựa trên mô hình mới, đây là những thành phần cơ bản trong công việc của nhà phân tích, không phải là ngoại lệ mà là quy luật.

Xem lại công việc của bạn

Chương 2: Thực Nghiệm - Kiểm Tra Lý Thuyết Của Bạn (Thực Nghiệm Kiểm Soát Ngẫu Nhiên)

Một thực nghiệm tốt có thể giải quyết vấn đề và tiết lộ quy luật hoạt động thực sự của sự vật.

Một thực nghiệm tốt thường có thể giúp bạn thoát khỏi sự phụ thuộc vào dữ liệu quan sát, giúp bạn làm rõ mối quan hệ nhân quả; dữ liệu thực nghiệm đáng tin cậy sẽ khiến phân tích và phán đoán của bạn thuyết phục hơn.

Để nghĩ ra cách tăng doanh số cà phê, bạn nghĩ cách nào là điểm khởi đầu tốt nhất?

Gặp CEO, tìm hiểu cách công ty đang vận hành kinh doanh.

Chắc chắn là một điểm khởi đầu tốt. Ông ấy thông minh trong kinh doanh.

Tiến hành khảo sát khách hàng để tìm hiểu suy nghĩ của họ.

Cũng tốt. Bạn cần nắm bắt tâm tư khách hàng, để họ mua nhiều cà phê hơn.

Tìm hiểu cách tính doanh số mục tiêu.

Có thể tìm hiểu điều này thú vị, nhưng e rằng đây không phải điều bạn nên xem xét đầu tiên.

(Hiểu rằng nhiệm vụ chính là xác định vấn đề, theo tôi nên gặp CEO trước để tìm hiểu tình hình gần đây của họ, rồi lấy dữ liệu để xem)

Gặp Chủ tịch. (Khách hàng là ai?)

Thật là không biết gì. Khách hàng thực sự của bạn là CEO, vượt lên trên ông ấy có rủi ro.

Về việc ngẫu nhiên

Bộ phận marketing mỗi tháng tiến hành một cuộc khảo sát khách hàng. Họ ngẫu nhiên chọn một số khách hàng tiêu biểu để hỏi họ một loạt câu hỏi liên quan, như họ nghĩ gì về cà phê, kinh nghiệm mua cà phê...

Những gì mọi người nói trong khảo sát không nhất thiết phản ánh hành vi thực tế của họ, nhưng hỏi về cảm nhận của người khác thì không có gì hại.

Phương pháp so sánh

Một trong những nguyên tắc cơ bản nhất của thống kê và phân tích là phương pháp so sánh, nó chỉ ra rằng dữ liệu chỉ có ý nghĩa khi so sánh với nhau.

Trong trường hợp này, bộ phận marketing tính toán câu trả lời trung bình cho mỗi câu hỏi, rồi so sánh các giá trị trung bình này hàng tháng, mỗi giá trị trung bình hàng tháng chỉ hữu ích khi so sánh với các giá trị trung bình của các tháng khác.

Thống kê chỉ khi liên quan đến các thống kê khác mới có thể mang lại sự minh họa.

Nếu một thống kê có vẻ thú vị hoặc hữu ích, bạn cần giải thích tại sao lại có tác dụng như vậy thông qua việc so sánh thống kê đó với các thống kê khác.

Nếu không tìm hiểu điều này, tức là đang giả định khách hàng sẽ tự so sánh, đây sẽ là một phân tích không đạt yêu cầu.

So sánh là bí quyết để giải mã dữ liệu quan sát, so sánh càng nhiều, kết quả phân tích càng chính xác.

Phương pháp nghiên cứu quan sát

Phương pháp nghiên cứu mà trong đó người được nghiên cứu tự quyết định mình thuộc nhóm nào.

Còn trong thực nghiệm, chính bạn quyết định ai thuộc nhóm nào.

Thu thập dữ liệu quan sát thường là bước đầu tiên để có được dữ liệu hữu ích hơn thông qua thực nghiệm.

Vấn đề về giá trị

Hỏi: Làm sao tôi biết giá trị giảm thực sự khiến doanh số cà phê giảm?

Trả lời: Bạn không thể biết được. Nhưng hiện tại chỉ có dữ liệu về giá trị cảm nhận phù hợp với việc doanh số giảm. Doanh số và giá trị cảm nhận dường như cùng nhau giảm, nhưng bạn không thể chắc chắn giá trị giảm khiến doanh số giảm, hiện tại đây chỉ là phán đoán lý thuyết.

Hỏi: Có thể có các yếu tố khác không? Có vẻ vấn đề giá trị không đơn giản như看起来.

Trả lời: Gần như chắc chắn có các yếu tố khác đang tác động, khi sử dụng phương pháp nghiên cứu quan sát, nên giả định các yếu tố khác sẽ làm nhiễu kết luận của bạn vì bạn không thể kiểm soát các yếu tố này như trong thực nghiệm. Vài trang tiếp theo sẽ thảo luận thêm về các thuật ngữ này.

Hỏi: Có thể ngược lại không? Có thể chính doanh số giảm khiến mọi người nghĩ cà phê không có giá trị.

Trả lời: Câu hỏi rất hay, rất có thể ngược lại. Một quy tắc hay của các nhà phân tích là khi bạn bắt đầu nghi ngờ hướng của quan hệ nhân quả (ví dụ: cảm giác giá trị giảm khiến doanh số giảm), hãy thử suy nghĩ theo hướng ngược lại (ví dụ: doanh số giảm khiến cảm giác giá trị giảm), xem kết quả như thế nào.

Hỏi: Vậy làm sao tôi biết ai gây ra ai?

Trả lời: Chúng tôi sẽ thảo luận nhiều trong sách về cách xác định nguyên nhân, nhưng giờ bạn nên biết rằng khi liên quan đến việc xác định quan hệ nhân quả, phương pháp nghiên cứu quan sát không mạnh bằng. Trong hầu hết các trường hợp, cần sử dụng các công cụ khác để xác định.

Hỏi: Nghe có vẻ phương pháp nghiên cứu quan sát không thú vị.

Trả lời: Hoàn toàn không phải! Dữ liệu quan sát ở khắp nơi, nếu bỏ qua phương pháp này vì những hạn chế của nó thì thật là điên. Điều quan trọng thực sự là bạn cần hiểu những hạn chế của phương pháp nghiên cứu quan sát, để không đưa ra kết luận sai.

Phương pháp phân tích quan sát chứa đầy các yếu tố gây nhiễu.

Yếu tố gây nhiễu là những khác biệt cá nhân của đối tượng nghiên cứu, chúng không phải là yếu tố bạn đang cố gắng so sánh, cuối cùng sẽ khiến độ nhạy của kết quả phân tích kém đi.

Nếu sự khác biệt của họ thể hiện ở một biến số nào đó mà bạn đang cố tìm hiểu, sự khác biệt đó chính là yếu tố gây nhiễu, trong ví dụ này, yếu tố gây nhiễu là địa điểm cửa hàng.

Cần xử lý dữ liệu như thế nào để xem liệu cảm giác giá trị của cửa hàng ở khu vực A có tốt không?

Nói chung, làm thế nào để xử lý dữ liệu nghiên cứu quan sát để kiểm soát các yếu tố gây nhiễu?

Hỏi: Trong trường hợp này, thực sự là sự giàu có của khách hàng chứ không phải địa điểm cửa hàng ảnh hưởng đến kết quả phân tích sao?

Trả lời: Tất nhiên, và hai yếu tố này có thể có liên quan. Nếu bạn có dữ liệu về mỗi khách hàng có bao nhiêu tiền, hoặc biết mỗi khách hàng cảm thấy thoải mái khi chi bao nhiêu, bạn có thể phân tích lại để xem kết quả khi phân nhóm dựa trên sự giàu có. Nhưng vì chúng tôi không có thông tin này, nên chỉ có thể sử dụng địa điểm. Ngoài ra, vì lý thuyết của chúng tôi là người càng giàu càng sẵn sàng chi tiêu ở khu vực A, vì vậy địa điểm có thể giải thích được vấn đề.

Hỏi: Ngoài địa điểm, có biến số nào khác có thể gây nhiễu dữ liệu không?

Trả lời: Chắc chắn có. Yếu tố gây nhiễu là vấn đề không thể tránh khỏi của phương pháp nghiên cứu quan sát. Với tư cách nhà phân tích, công việc của bạn là liên tục xem xét ảnh hưởng của các yếu tố gây nhiễu đến kết quả phân tích. Nếu bạn cho rằng ảnh hưởng của các yếu tố gây nhiễu không đáng kể, tốt; nhưng nếu có lý do tin rằng các yếu tố gây nhiễu đang gây ra vấn đề, thì bạn cần điều chỉnh kết luận của mình cho phù hợp.

Hỏi: Nếu các yếu tố gây nhiễu khó phát hiện thì sao?

Trả lời: Đó chính là vấn đề. Các yếu tố gây nhiễu thường không cố tình hiện ra trước mắt bạn. Để dữ liệu của mình thuyết phục nhất có thể, bạn cần tự mình khai thác các yếu tố gây nhiễu ẩn này. Trong ví dụ này, chúng tôi may mắn vì yếu tố gây nhiễu là địa chỉ thực sự nằm trong dữ liệu, vì vậy chúng tôi có thể xử lý và quản lý dữ liệu này. Thông thường chúng tôi không có thông tin về các yếu tố gây nhiễu, điều này có thể làm lung lay nền tảng của toàn bộ phân tích, khiến bạn không thể đưa ra kết luận đúng.

Dữ liệu hoàn toàn xác nhận suy nghĩ của quản lý khu vực về cảm nhận giá trị của khách hàng đối với sản phẩm. Lắng nghe phản hồi của cô ấy và quan sát dữ liệu theo cách khác vì cô ấy có phản hồi như vậy, quả là một ý hay.)

Hỏi: Tôi cần làm đến mức nào mới được coi là đã tìm hiểu hết các yếu tố gây nhiễu?

Trả lời: Đây là nghệ thuật hơn là khoa học. Bạn có thể tự hỏi mình一些 câu hỏi thông thường về vấn đề đang nghiên cứu, qua đó tưởng tượng các biến số nào có thể ảnh hưởng đến kết quả phân tích. Giống như các phương tiện trong phân tích dữ liệu và thống kê, dù kỹ thuật định lượng của bạn có tinh vi đến đâu, điểm thực sự luôn là: kết luận phân tích phải có ý nghĩa. Miễn là kết luận có ý nghĩa và bạn đã tìm kiếm toàn diện các yếu tố gây nhiễu, thì bạn đã làm mọi thứ mà phương pháp nghiên cứu quan sát yêu cầu. Các loại phân tích khác, như sẽ đề cập sau, có thể cho phép bạn đưa ra kết luận táo bạo hơn.

Hỏi: Nếu tôi nghiên cứu không phải cảm giác giá trị mà là đối tượng khác, với cùng dữ liệu này, liệu địa điểm có không trở thành yếu tố gây nhiễu?

Trả lời: Hoàn toàn đúng. Hãy nhớ, chỉ trong ví dụ này, địa điểm mới là yếu tố gây nhiễu, nhưng trong các ví dụ khác có thể không có tác dụng. Ví dụ, ở đây chúng tôi không có lý do tin rằng yếu tố "nhiệt độ cà phê vừa đủ" khác nhau ở mỗi nơi.

Hỏi: Tôi vẫn thấy phương pháp nghiên cứu quan sát có nhiều vấn đề nghiêm trọng.

Trả lời: Phương pháp phân tích quan sát có nhiều hạn chế. Phương pháp nghiên cứu đặc biệt này có tác dụng giúp bạn hiểu rõ hơn về khách hàng, miễn là bạn kiểm soát tốt vấn đề địa điểm trong dữ liệu, nghiên cứu sẽ thuyết phục hơn.

Nếu bạn muốn đưa ra kết luận về những điều phù hợp với dữ liệu nhưng không được phản ánh đầy đủ trong dữ liệu, bạn cần dùng lý thuyết để kết nối chúng.

Mặc dù cả hai đều nhiệt tình tin vào lý thuyết của mình và các chiến lược dựa trên những lý thuyết đó, bạn lại không có dữ liệu để ủng hộ bất kỳ lý thuyết nào. Để tìm hiểu thêm chiến lược nào tốt hơn, bạn sẽ cần làm một thực nghiệm. Bạn cần thực hiện thực nghiệm với các chiến lược này, nhằm tìm hiểu chiến lược nào sẽ tăng doanh số

Nhóm đối chứng

Một nhóm các đối tượng phản ánh tình trạng hiện tại, không trải qua bất kỳ xử lý mới nào (còn gọi là nhóm đối chứng).

Không có nhóm đối chứng có nghĩa là không có so sánh, không có so sánh có nghĩa là không thể đánh giá những gì đang xảy ra.

Hỏi: Chúng ta không thể so sánh dữ liệu tháng hai với dữ liệu tháng một sao?

Trả lời: Tất nhiên là có thể. Nếu bạn chỉ quan tâm liệu doanh số tháng hai có cao hơn tháng một hay không, sẽ có câu trả lời. Nhưng trong điều kiện không kiểm soát, dữ liệu này không thể phản ánh mối liên hệ nội tại với việc giảm giá.

Hỏi: So sánh dữ liệu tháng hai năm nay với tháng hai năm ngoái thì sao?

Trả lời: Bạn đề cập đến phương pháp kiểm soát lịch sử trong câu hỏi này và câu hỏi trước, phương pháp này lấy dữ liệu quá khứ và sử dụng dữ liệu đó làm dữ liệu kiểm soát; ngược lại với phương pháp kiểm soát đồng thời, trong phương pháp này, nhóm đối chứng và nhóm thực nghiệm trải qua cùng một thời gian. Phương pháp kiểm soát lịch sử thường thiên về thành công của đối tượng bạn đang cố kiểm tra, vì rất khó chọn nhóm đối chứng thực sự giống với nhóm bạn đang thử nghiệm. Nhìn chung, bạn nên hoài nghi về phương pháp kiểm soát lịch sử.

Hỏi: Nhất định phải có nhóm đối chứng sao? Có trường hợp nào không có nhóm đối chứng mà vẫn được không?

Trả lời: Có nhiều việc không thể kiểm soát được. Ví dụ như bầu cử, cử tri không thể bỏ phiếu cho cả hai ứng viên cùng lúc, bạn không thể xem ai tiến triển tốt hơn rồi quay lại chọn người thành công hơn. Mặc dù cách bầu cử không thay đổi được, nhưng điều đó không có nghĩa là không thể phân tích từng dấu hiệu một, tuy nhiên, nếu có thể làm một thực nghiệm tương tự, bạn sẽ tự tin hơn về lựa chọn của mình!

Hỏi: Vậy thí nghiệm y học thì sao? Giả sử bạn muốn thử một loại thuốc mới và tin thuốc này rất hiệu quả, chẳng lẽ bạn không điều trị cho bệnh nhân trong nhóm đối chứng, để họ bệnh hoặc chờ chết?

Trả lời: Đây là một câu hỏi tốt đã xem xét đạo đức và pháp lý. Các nghiên cứu y học thiếu dữ liệu kiểm soát (hoặc sử dụng dữ liệu kiểm soát lịch sử) thường có phương pháp điều trị được ưa chuộng sau đó lại được thực nghiệm kiểm soát đồng thời chứng minh là không có tác dụng hoặc thậm chí có hại. Dù bạn có cảm xúc như thế nào về một phương pháp điều trị, trừ khi làm thực nghiệm kiểm soát (thực nghiệm đối chứng), nếu không không thể xác định liệu việc điều trị có hiệu quả hơn việc không điều trị hay không. Tình huống tệ nhất là đối với phương pháp điều trị thực sự có hại cho người, cần ngừng quảng bá.

Hỏi: Giống như xu huyết cho bệnh nhân sao?

Trả lời: Đúng vậy. Một trong những thực nghiệm kiểm soát sớm nhất trong lịch sử so sánh phương pháp xu huyết với việc để bệnh nhân nghỉ ngơi. Thành thật mà nói, phương pháp xu huyết đã được sử dụng hàng trăm năm thật đáng ghét, bây giờ, vì làm thực nghiệm kiểm soát, chúng tôi biết đây là một phương pháp sai lầm.

Hỏi: Phương pháp nghiên cứu quan sát có dữ liệu kiểm soát không?

Trả lời: Tất nhiên là có. Hãy nhớ định nghĩa của phương pháp nghiên cứu quan sát: phương pháp này để đối tượng nghiên cứu tự quyết định họ thuộc nhóm nào, thay vì do nhà nghiên cứu quyết định. Ví dụ, nếu muốn làm một nghiên cứu về hút thuốc, bạn không thể bắt một số người trở thành người hút thuốc hay không, việc có hút thuốc hay không là do mọi người tự quyết định. Trong trường hợp này, những người chọn không hút thuốc chính là nhóm đối chứng trong phương pháp nghiên cứu quan sát của bạn.

Hỏi: Tôi đã trải qua nhiều trường hợp, doanh số đều tăng trong vòng một tháng, được cho là do một số công việc chúng tôi đã làm tháng trước, và vì người khác nói chúng tôi làm tốt, mọi người đều cảm thấy vui. Nhưng bây giờ bạn lại nói chúng tôi hoàn toàn không biết mình làm tốt hay không?

Trả lời: Có thể các bạn đã làm tốt. Trong cuộc sống kinh doanh không thể thiếu việc dựa vào trực giác, đôi khi bạn không thể kiểm soát thực nghiệm, phải dựa vào phán đoán dựa trên dữ liệu quan sát. Tuy nhiên, hãy làm thực nghiệm bất cứ khi nào có thể. Khi đưa ra quyết định, không có gì bổ sung cho phán đoán và trực giác của bạn hơn dữ liệu đáng tin cậy. Trong ví dụ này, bạn chưa có dữ liệu đáng tin cậy, nhưng có một CEO đang mong đợi câu trả lời.

Tránh báo cáo tin xấu

Không thể tránh việc báo cáo tin xấu là một phần công việc của nhà phân tích dữ liệu, tuy nhiên, cùng một thông báo có thể được truyền tải theo nhiều cách khác nhau.

Từ dữ liệu có thể thấy trực tiếp doanh số tăng, tuy nhiên có tin xấu, chúng tôi không biết đã kiếm được bao nhiêu tiền, tin tốt là tôi biết cách giải quyết vấn đề này, chỉ cần tháng sau, chúng tôi sẽ khôi phục giá bán cho một số cửa hàng.

Chương 3: Tối Ưu Hóa - Tìm Giá Trị Lớn Nhất

Chúng tôi muốn tối đa hóa lợi nhuận, vì vậy phải đảm bảo sản lượng vịt cao su và cá cao su đều phù hợp. Chúng tôi cần bạn giúp tìm ra sự kết hợp sản phẩm lý tưởng: nên sản xuất bao nhiêu vịt cao su và bao nhiêu cá cao su?

Bạn cần những dữ liệu nào để giải quyết vấn đề này?

Trước tiên, tốt nhất nên biết khả năng sinh lời của vịt cao su và cá cao su, liệu một sản phẩm có lợi nhuận cao hơn sản phẩm khác không? Ngoài ra, tốt nhất nên biết các yếu tố khác ràng buộc vấn đề này là gì. Sản xuất những sản phẩm này cần bao nhiêu cao su? Sản xuất những sản phẩm này cần bao nhiêu thời gian?

Có thể chia dữ liệu cần thiết thành hai loại: các yếu tố không thể kiểm soát, các yếu tố có thể kiểm soát.

Các biến số bạn có thể kiểm soát bị giới hạn bởi các điều kiện ràng buộc

Những cân nhắc này được gọi là điều kiện ràng buộc, vì chúng sẽ quyết định các tham số liên quan của vấn đề. Cuối cùng bạn theo đuổi không gì khác ngoài lợi nhuận, và tìm ra sự kết hợp sản phẩm đúng là cách xác định mức lợi nhuận của tháng tới. Nhưng việc chọn sự kết hợp sản phẩm nào sẽ bị giới hạn bởi các điều kiện ràng buộc.

Biến quyết định lại là các yếu tố bạn có thể kiểm soát

Các điều kiện ràng buộc sẽ không cho bạn biết cách đạt được lợi nhuận lớn nhất; chúng chỉ cho bạn biết những gì bạn không thể làm trong quá trình tối đa hóa lợi nhuận.

Ngược lại, biến quyết định lại là các yếu tố bạn có thể kiểm soát. Bạn có thể chọn sản xuất bao nhiêu vịt cao su, bao nhiêu cá cao su; trong phạm vi không vượt quá điều kiện ràng buộc, công việc của bạn là chọn một sự kết hợp để đạt được lợi nhuận lớn nhất.

Hàm mục tiêu

Mọi vấn đề tối ưu hóa đều có một số điều kiện ràng buộc và một hàm mục tiêu.

Vùng khả thi - Thêm các điều kiện ràng buộc

Các điều kiện ràng buộc:

Thời gian
Lượng cao su

Mọi mô hình đều sai, nhưng một số mô hình hữu ích.

Các công cụ phân tích của bạn sẽ không thể tránh khỏi việc đơn giản hóa tình huống thực tế, nhưng nếu giả định và dữ liệu của bạn đều đúng, thì các công cụ này khá đáng tin cậy.

Mục tiêu của bạn nên là tạo ra mô hình hữu ích nhất, để sự không hoàn hảo của mô hình trở nên không đáng kể so với mục tiêu phân tích.

Cẩn thận với các biến số tương quan âm

Chúng tôi không biết tại sao doanh số vịt cao su và cá cao su dường như đi ngược nhau, nhưng có thể chắc chắn chúng có quan hệ tương quan âm. Một sản phẩm càng nhiều, có nghĩa là sản phẩm kia càng ít.

Khi xây dựng mô hình, nhất định phải quy định mối quan hệ tương hỗ giữa các biến số trong giả định.

Giả định của bạn dựa trên tình huống thực tế đang thay đổi liên tục

Tất cả dữ liệu bạn sử dụng là dữ liệu quan sát, bạn không thể dự đoán tương lai.

Mô hình của bạn hiện đang hoạt động, nhưng có thể đột nhiên ngừng hoạt động. Bạn cần sẵn sàng để khi cần thiết, xây dựng lại phương pháp phân tích, việc xây dựng lại liên tục chính là công việc của nhà phân tích.

Chương 4: Trực Quan Hóa Dữ Liệu - Đồ Thị Giúp Bạn Thông Minh Hơn (Biểu đồ phân tán)

Quá nhiều dữ liệu không bao giờ là vấn đề của bạn

Nếu bạn có dữ liệu lớn và không chắc chắn cách xử lý, hãy nhớ mục tiêu phân tích của bạn: nhớ mục tiêu, tập trung vào dữ liệu liên quan đến mục tiêu, bỏ qua những thứ khác.

Làm cho dữ liệu trông đẹp cũng không phải vấn đề bạn cần giải quyết (thứ yếu)

Nền tảng của trực quan hóa dữ liệu là so sánh đúng

Sử dụng biểu đồ phân tán để khám phá nguyên nhân

Những đồ thị xuất sắc nhất là đồ thị đa biến

Nếu một đồ thị có thể so sánh ba biến số trở lên, đồ thị đó là đồ thị đa biến, cộng với việc so sánh hiệu quả là nền tảng của phân tích dữ liệu, vì vậy làm cho đồ thị đa dạng nhất có thể sẽ có khả năng tạo ra so sánh hiệu quả nhất.

Có một cách để đa dạng hóa đồ thị, đó là đặt nhiều biểu đồ phân tán tương tự cạnh nhau, dưới đây là một ví dụ.

Hỏi: Nghe có vẻ bạn không mấy nhiệt tình với việc vẽ đồ thị từ dữ liệu bảng tính?

Trả lời: Nhiều nhà phân tích dữ liệu nghiêm túc quen sử dụng chương trình bảng tính để tính toán cơ bản và lập danh sách, nhưng không mơ tưởng sử dụng chương trình bảng tính làm công cụ vẽ đồ thị, việc này sẽ khiến bạn đau đầu: sử dụng chương trình bảng tính chỉ có thể tạo một số loại biểu đồ nhất định, hơn nữa, chương trình thường ép bạn đặt định dạng quyết định, trong khi bạn không định như vậy. Không phải bạn không thể sử dụng chương trình bảng tính để vẽ đồ thị dữ liệu xuất sắc, mà là làm như vậy sẽ gặp rắc rối, nếu học sử dụng các chương trình như R, sẽ không có nhiều rắc rối như vậy.

Chỉ cần một đồ thị có ba biến số trở lên, ấn phẩm sẽ có khả năng cung cấp so sánh có chiều sâu hơn, hiệu quả hơn so với đồ thị chỉ có một biến số.

Hỏi: Tôi nên nhìn nhận những đồ thị dữ liệu bị phức tạp hóa, nghệ thuật hóa nhưng không hỗ trợ phân tích như thế nào?

Trả lời: Nói về việc sử dụng máy tính để vẽ đồ thị mới mẻ, thời đại này không thiếu đam mê và sự sáng tạo, một số đồ thị có thể trở thành động lực cho phân tích dữ liệu sâu, một số chỉ để ngắm cho vui. Nói về nghệ thuật dữ liệu thì bản thân nó không có gì sai, nhưng trừ khi giúp hiểu dữ liệu ẩn tốt hơn, xin đừng nhầm lẫn nghệ thuật dữ liệu với phân tích dữ liệu.

Hỏi: Vậy ngược lại, có những thứ có thể ngắm nhưng không khai sáng phân tích?

Trả lời: Điều đó tùy thuộc vào bạn. Tuy nhiên, nếu bạn gặp vấn đề do dự trong phân tích, mà đồ thị lại khai sáng vấn đề đó, thì thật khó tưởng tượng đồ thị đó lại khiến bạn nhìn không顺眼!

Thiết kế đồ thị xuất sắc giúp suy nghĩ vì lý do (sơ bộ - giả định khớp với dữ liệu)

Mô hình bạn và khách hàng ưa thích thường sẽ khớp với dữ liệu.

Nhưng không thể tránh khỏi có những khả năng khác, đặc biệt khi mọi người sẵn sàng gắn trí tưởng tượng để tìm lời giải thích. Các mô hình khác thì sao?

Khi mô tả đồ thị dữ liệu của bạn, cần trình bày hai mô hình nhân quả hoặc sơ đồ có thể thay thế nhau. Có thể hoàn thành nhiệm vụ này chứng tỏ bạn rất công bằng: để khách hàng biết bạn không chỉ trình bày phần mình ưa thích, mà còn xem xét toàn bộ các vấn đề có thể có trong nguyên tắc bạn đề xuất.

Bạn thấy giả định của quản lý web khớp với dữ liệu như thế nào?

Giả định 1: Trang web đẹp là lý do trang chủ 3 hoạt động tốt nhất.

Giả định này không thể đứng vững, theo thông tin từ các nhà thiết kế thực nghiệm, trang chủ 3 không phải là trang có tốc độ tải nhanh nhất. Theo quy luật chung, mọi người có thể ưa thích trang chủ tải nhanh hơn, nhưng tốc độ tải trang không thể giải thích sự thành công của trang chủ 3 trong thực nghiệm.

Giả định 2: Màu lạnh nhẹ nhàng là lý do trang chủ 3 hoạt động tốt nhất.

Giả định này khớp với dữ liệu. Trang chủ 3 là trang hoạt động tốt nhất, và màu của trang chủ 3 lạnh nhất. Dữ liệu không chứng minh màu sắc là lý do trang chủ 3 nổi bật, nhưng dữ liệu khớp với giả định.

Các nhà thiết kế thực nghiệm có giả định của riêng họ. Họ đã có cơ hội xem biểu đồ phân tán của bạn, gửi cho bạn quan điểm của họ về vấn đề. Những người này là tinh hoa dữ liệu, giả định của họ chắc chắn phù hợp.

Dựa trên thông tin đã tìm hiểu, bạn muốn đưa ra những khuyến nghị chiến lược web nào cho khách hàng?

Tiếp tục sử dụng trang chủ 3, tinh chỉnh kiểm tra trải nghiệm người dùng, nội dung tinh chỉnh bao gồm các phương thức điều hướng, phong cách, nội dung khác nhau. Có thể có nhiều giải thích khác nhau cho hiệu suất khác biệt của trang chủ 3, nên điều tra và tạo biểu đồ, nhưng rõ ràng, trang chủ 3 đã thắng.

Chương 5: Kiểm Định Giả Thuyết - Giả Thuyết Không Như Vậy (Phương pháp bác bỏ - Xử lý nguồn dữ liệu không đồng nhất)

Tuyến tính bằng trực giác, trong thực tế, các nguyên nhân có quan hệ mạng, không phải quan hệ tuyến tính. Với tư cách nhà phân tích, tầm nhìn của bạn phải rộng hơn mô hình đơn giản này, phải khao khát nhìn ra mạng lưới quan hệ nhân quả.

Giả định một số phương án thay thế, sử dụng tài liệu hiện có để kiểm định giả thuyết.

Cốt lõi của kiểm định giả thuyết là bác bỏ, đừng cố chọn giả thuyết hợp lý nhất, chỉ cần loại bỏ những giả thuyết không thể chứng minh - đây là nền tảng của kiểm định giả thuyết: bác bỏ.

Cách chọn giả thuyết đầu tiên có vẻ đáng tin cậy nhất gọi là phương pháp thỏa mãn. Phương pháp thỏa mãn thực ra rất đơn giản: chọn tùy chọn đầu tiên, không xử lý phần còn lại.

Vấn đề nghiêm trọng của phương pháp thỏa mãn là khi mọi người chọn một giả thuyết nào đó mà không phân tích kỹ các giả thuyết khác, họ thường bám vào giả thuyết đó, ngay cả khi bằng chứng ngược堆积如山, họ cũng thường làm ngơ. Phương pháp bác bỏ khiến mọi người nhạy cảm hơn với các giả thuyết, từ đó tránh bẫy nhận thức. Khi kiểm định giả thuyết, hãy sử dụng phương pháp bác bỏ, tránh phương pháp thỏa mãn.

Hỏi: Nghe có vẻ phương pháp bác bỏ là một phương pháp phân tích phức tạp, thực sự cần thiết phải sử dụng phương pháp này sao?

Trả lời: Đây là một phương pháp tuyệt vời để khắc phục xu hướng bẩm sinh của con người là tập trung vào câu trả lời sai mà phớt lờ các câu trả lời khác. Bằng cách ép buộc mình suy nghíchoãn toàn bộ vấn đề theo cách chính thức, sẽ giảm khả năng mắc sai lầm do bỏ qua các đặc điểm quan trọng.

Hỏi: Loại phương pháp bác bỏ này có liên quan gì đến kiểm định giả thuyết trong thống kê?

Trả lời: Trong khóa học thống kê (hoặc trong Head First Statistics) bạn có thể đã học một phương pháp so sánh giả thuyết ứng viên (giả thuyết thay thế) và giả thuyết cơ sở (giả thuyết gốc), mục đích là nhận diện một tình huống: nếu tình huống này là đúng, thì giả thuyết gần như không thể đứng vững. (Phương pháp kiểm định giả thuyết tần suất)

Hỏi: Vậy tại sao chúng ta không sử dụng phương pháp đó? (Giải thích ở đây không hiểu)

Trả lời: Phương pháp này có một ưu điểm, có thể tổng hợp dữ liệu không đồng nhất, đây là phương pháp bác bỏ phổ biến, rất hữu ích cho các vấn đề phức tạp. Tuy nhiên, bình tĩnh sử dụng phương pháp kiểm định giả thuyết tần suất chắc chắn không sai, vì đối với việc kiểm tra dữ liệu khớp với tham số, bạn không muốn sử dụng phương pháp khác.

Hỏi: Tôi nghĩ nếu đồng nghiệp nhìn thấy tôi sử dụng phương pháp suy luận này, họ chắc chắn sẽ nghĩ tôi bị điên.

Trả lời: Nếu bạn có thể khai thác một số thứ thực sự quan trọng, họ chắc chắn sẽ không cười bạn. Lý tưởng của nhà phân tích xuất sắc là tìm ra câu trả lời không trực giác cho các vấn đề phức tạp, bạn có muốn thuê một nhà phân tích dữ liệu bảo thủ không? Nếu khách hàng thực sự quan tâm đến việc khai thác một số thông tin mới từ dữ liệu, họ sẽ tìm kiếm những người có thể nghĩ điều mà người khác không thể nghĩ.

Hỏi: Nghe có vẻ không phải tất cả giả thuyết đều có thể bị bác bỏ, ví dụ, một số bằng chứng có thể bất lợi cho giả thuyết, nhưng không thể lật đổ giả thuyết.

Trả lời: Hoàn toàn đúng.

Hỏi: Dữ liệu ở đâu? Tôi muốn thấy dữ liệu lớn hơn.

Trả lời: Không chỉ có bảng số mới gọi là dữ liệu. Phương pháp bác bỏ trong kiểm định giả thuyết giúp bạn có cái nhìn rộng hơn về "dữ liệu", có thể tổng hợp một lượng lớn dữ liệu không đồng nhất, bạn gần như có thể đưa bất kỳ dữ liệu nào vào cấu trúc bác bỏ.

Hỏi: Sử dụng phương pháp bác bỏ để giải quyết vấn đề và sử dụng phương pháp tối ưu hóa để giải quyết vấn đề khác nhau như thế nào?

Trả lời: Hai phương pháp là công cụ khác nhau phù hợp với các tình huống khác nhau. Trong một số trường hợp, bạn muốn lao vào "Solver" điều chỉnh biến số cho đến khi có dữ liệu tối ưu; trong các trường hợp khác, bạn muốn sử dụng phương pháp bác bỏ để loại bỏ các giải thích khác có thể cho dữ liệu.

Hỏi: Được rồi. Nếu tôi không thể bác bỏ tất cả giả thuyết bằng phương pháp bác bỏ, thì sao?

Trả lời: Câu hỏi này có thể vào "vòng trí tuệ"! Hãy xem phải làm gì.

Tính chẩn đoán

Miễn là bằng chứng có thể giúp bạn sắp xếp các giả thuyết theo mức độ mạnh yếu, nó có tính chẩn đoán, vì vậy, cách làm của chúng tôi là: so sánh từng điểm giữa giả thuyết và bằng chứng, xem giả thuyết nào có bằng chứng mạnh nhất.

Sử dụng tính chẩn đoán để tìm giả thuyết có mức độ phủ nhận thấp nhất
Không thể loại bỏ từng giả thuyết một, nhưng có thể xác định giả thuyết nào mạnh nhất

Chương 6: Thống Kê Bayes - Vượt Qua Cửa Ưu Tiên

Xác suất có điều kiện là xác xảy ra của một sự kiện khác với điều kiện sự kiện này đã xảy ra.

Xác suất tiền nguyên (Xác suất cơ bản)

1% là xác suất cơ bản, trước khi phân tích riêng kết quả thử nghiệm cho mỗi người, bạn đã biết chỉ có 1% dân số mắc bệnh, vì vậy xác suất cơ bản còn gọi là xác suất tiền nguyên.

Cẩn thận với sai lầm xác suất cơ bản

Hãy cảnh giác với xác suất cơ bản, dữ liệu xác suất cơ bản không nhất thiết tồn tại trong mọi trường hợp, nhưng nếu thực sự có dữ liệu này mà bạn không sử dụng, bạn sẽ phá hủy vì sai lập xác suất cơ bản, tức là bỏ qua dữ liệu tiền nguyên và do đó đưa ra quyết định sai lầm.

Sử dụng số nguyên đơn giản để suy nghĩ về xác suất phức tạp

Khi bạn tưởng tượng đang quan sát 1000 người, bạn đã chuyển từ suy nghĩ về xác suất nhỏ sang suy nghĩ về số nguyên. Não của chúng ta sinh ra không giỏi xử lý số xác suất, vì vậy, chuyển xác suất thành số nguyên, rồi suy nghĩ, là một cách hiệu quả để tránh mắc sai lầm.

Cách duy nhất để tránh sai lầm xác suất cơ bản là cảnh giác với xác suất cơ bản, và nhất định phải tích hợp xác suất cơ bản vào phân tích.

(Xác suất cơ bản mới là kết quả của lần phân tích trước.)

Chương 7: Xác Suất Chủ Quan - Số Hóa Niềm Tin

Dữ liệu ảo cũng được. Tuy nhiên, những con số này phải mô tả trạng thái tinh thần của bạn, thể hiện niềm tin của bạn. Xác suất chủ quan là một cách khéo léo để đưa sự nghiêm cẩn vào trực giác, cụ thể sẽ được giới thiệu ngay. Trong quá trình giảng dạy, bạn sẽ học cách sử dụng độ lệch chuẩn để đánh giá phân phối dữ liệu, một công cụ phân tích mạnh mẽ học được trước đó sẽ xuất hiện trở lại.

Xác suất chủ quan

Nếu bạn sử dụng xác suất dưới dạng số để thể hiện mức độ chắc chắn của mình về điều gì đó, bạn đang sử dụng xác suất chủ quan.

Xác suất chủ quan là phương pháp phân tích dựa trên quy luận một cách khéo léo, đặc biệt khi dự đoán sự kiện cô lập nhưng thiếu dữ liệu đáng tin cậy về các sự kiện đã xảy ra trong điều kiện tương tự từ trước đến nay.

Bảng xác suất chủ quan của bạn... có giúp phân tích hơn những email giận dữ này không?

Những xác suất chủ quan này cho thấy một số khía cạnh tranh chấp không nghiêm trọng như ban đầu nghĩ. Xác suất chủ quan là một đặc tả chính xác về nội dung tranh chấp và mức độ tranh chấp, nhà phân tích sử dụng xác suất chủ quan để giúp mình tập trung vào vấn đề nhằm giải quyết vấn đề.

Độ lệch chuẩn đo lường độ lệch của điểm phân tích so với giá trị trung bình

Bạn muốn sử dụng độ lệch chuẩn; độ lệch chuẩn đo lường khoảng cách điển hình giữa các điểm phân tích và giá trị trung bình của tập dữ liệu.

Hầu hết các điểm trong tập dữ liệu sẽ nằm trong phạm vi một độ lệch chuẩn của giá trị trung bình.

Đơn vị của độ lệch chuẩn phụ thuộc vào đơn vị đo lường, trong ví dụ trên, lệch một độ lệch chuẩn so với giá trị trung bình bằng 10%, mặc dù nhiều điểm lệch hai hoặc ba độ lệch chuẩn, nhưng hầu hết các điểm đều cao hơn hoặc thấp hơn giá trị trung bình 10%.

Ở đây có thể sử dụng độ lệch chuẩn để đo lường sự tranh chấp. Độ lệch chuẩn của xác suất chủ quan so với giá trị trung bình càng lớn, các nhà phân tích càng tranh cãi nhiều hơn về khả năng giả thuyết đứng vững.

Trong Excel có thể dùng hàm =stdev(phạm vi dữ liệu) để tính độ lệch chuẩn

Hỏi: Xác suất chủ quan có tính lừa dối nào không?

Trả lời: Lừa dối? Tính lừa dối của nó thấp hơn nhiều so với những lời mơ hồ như "thực sự có thể". Người nghe có thể thêm nhiều ý nghĩa khác nhau vào những gì người khác nói, vì vậy, chỉ định một xác suất thực ra là một cách truyền tải niềm tin cá nhân có tính lừa dối thấp hơn nhiều.

Hỏi: Tôi muốn nói, khi ai đó nhìn thấy những xác suất này, không thể (xin lỗi, dùng từ này) có ấn tượng: người đưa ra xác suất trông rất chắc chắn về niềm tin của mình, thực ra họ không chắc chắn như vậy?

Trả lời: Bạn muốn nói vì số liệu được đen trắng rõ ràng, nên trông thuyết phục hơn thực tế?

Hỏi: Đúng vậy.

Trả lời: Lo lắng này có lý. Nhưng xác suất chủ quan giống như các công cụ phân tích dữ liệu khác: nếu với mục đích lừa dối, thì rất dễ lừa dối; nhưng miễn là đảm bảo khách hàng biết xác suất bạn đưa ra mang tính chủ quan, thì việc chỉ ra chính xác niềm tin của bạn thực sự là một ơn trời cho khách hàng.

Hỏi: Excel có thể vẽ những đồ thị kỳ lạ có những chấm nhỏ này không?

Trả lời: Có thể, nhưng hơi phiền. Những đồ thị này được vẽ bằng một chương trình gọi là R, bên trong có hàm dotchart. Bạn sẽ thấy sức mạnh của R trong các chương sau.

Quy tắc Bayes là cách tốt để điều chỉnh xác suất chủ quan

Quy tắc Bayes không chỉ dùng để phân tích bệnh! Nó cũng rất hữu ích cho xác suất chủ quan, thông qua nó có thể tích hợp bằng chứng mới vào niềm tin về điều kiện giả thuyết.

Cơ sở để sử dụng quy tắc Bayes tính xác suất chủ quan là tìm xác suất xuất hiện của bằng chứng trong điều kiện giả thuyết đứng vững.

Chương 8: Phương Pháp Heuristic - Phân Tích Theo Bản Năng Con Người

Hầu hết hoạt động tư duy thực tế trong cuộc sống không diễn ra theo cách hợp lý nhất, mà sử dụng thông tin không đầy đủ và không chắc chắn, xử lý theo kinh nghiệm, đưa ra quyết định nhanh chóng. Điều kỳ lạ là những kinh nghiệm này thực sự hiệu quả, vì vậy chúng cũng là công cụ quan trọng và cần thiết để phân tích dữ liệu.

Phương pháp heuristic

Nếu bạn định chọn một hoặc hai biến số, rồi đưa ra kết luận về toàn bộ hệ thống dựa trên các biến số này, theo đó đánh giá hiệu quả công việc, đây là đang sử dụng phương pháp heuristic...

Phương pháp heuristic là cây cầu từ trực giác đến tối ưu hóa

Bạn đưa ra quyết định theo bản năng, hay dựa trên một vài dữ liệu chính được chọn cẩn thận? Hay xây dựng một mô hình bao gồm tất cả các biến số, rồi đưa ra câu trả lời tối ưu?

Câu trả lời có thể là tất cả đều đúng, những câu trả lời này lại đại diện cho các cách suy nghĩ hoàn toàn khác nhau - nhận ra điều này rất quan trọng.

(Định nghĩa tâm lý học) Thay thế một thuộc tính khó hiểu, gây nhầm lẫn bằng một thuộc tính dễ hiểu hơn.
(Định nghĩa khoa học máy tính) Một phương pháp giải quyết vấn đề, có thể đưa ra câu trả lời đúng, nhưng không đảm bảo đưa ra câu trả lời tối ưu.

Một số nhà tâm lý học thậm chí còn tranh luận rằng tất cả suy luận của con người đều là heuristic; và tối ưu hóa là một trạng thái lý tưởng, chỉ có thể phát huy tác dụng khi vấn đề vượt quá quy tắc.

Hỏi: Gọi một quá trình ra quyết định không đảm bảo có câu trả lời đúng là phân tích dữ liệu, thật kỳ lạ. Chẳng lẽ không nên gọi việc này là phỏng đoán sao?

Trả lời: Không thể nói như vậy! Bạn xem, nền tảng của phân tích dữ liệu là phân rã vấn đề thành phần nhỏ, áp dụng mô hình tinh thần và mô hình thống kê phù hợp cho dữ liệu, đưa ra phán đoán đúng, nhưng không đảm bảo luôn nhận được câu trả lời đúng.

Hỏi: Nếu mục tiêu của tôi là tối ưu hóa, nhưng tôi thử một chút suy nghĩ heuristic, cảm thấy hay, chẳng lẽ tôi không thể nói mình đang tìm kiếm kết quả tối ưu hóa?

Trả lời: Nói như vậy công bằng. Nếu có công cụ tối ưu hóa tốt hơn, khả thi trong tay, tất nhiên không ai muốn sử dụng công cụ phân tích heuristic, nhưng điểm quan trọng là nhận ra rằng heuristic là thành phần cơ bản của quá trình tư duy và cũng là thành phần cơ bản của phương pháp phân tích dữ liệu.

Hỏi: Vậy định nghĩa heuristic của tâm lý học và định nghĩa heuristic của khoa học máy tính khác nhau như thế nào?

Trả lời: Thực ra hai cách nói này rất giống nhau. Trong khoa học máy tính, thuật toán heuristic có thể giải quyết một số vấn đề, nhưng người ta không thể chứng minh thuật toán này có thể nhận được câu trả lời đúng không ngoại lệ; thuật toán heuristic trong khoa học máy tính thường nhanh hơn, đơn giản hơn những thuật toán có thể đảm bảo nhận được câu trả lời đúng; hơn nữa, thường một vấn đề chỉ có thể giải quyết bằng thuật toán heuristic.

Hỏi: Điều này có mối quan hệ gì với tâm lý học?

Trả lời: Các nhà tâm lý học thông qua thực nghiệm phát hiện ra rằng mọi người luôn sử dụng heuristic nhận thức. Dữ liệu tranh nhau thu hút sự chú ý của mọi người thực sự quá nhiều, vì vậy mọi người phải đưa ra quyết định dựa trên kinh nghiệm. Rất nhiều kinh nghiệm điển hình được cấy sâu trong đầu mọi người, nhìn chung, những kinh nghiệm này thực sự rất hiệu quả.

Hỏi: Quá trình tư duy của con người không giống với quá trình tối ưu hóa, điều này khá rõ ràng?

Trả lời: Mỗi người có quan điểm riêng. Đối với những người kiên quyết tin rằng con người là sinh vật lý tính,"mọi người không suy nghĩ tất cả thông tin giác quan một cách toàn diện, mà sử dụng các quy tắc kinh nghiệm hiệu quả nhưng mơ hồ" có thể khiến họ không vui.

Hỏi: Như vậy,"phần lớn suy luận là heuristic" chứng tỏ "con người phi lý"?

Trả lời: Điều đó tùy thuộc vào cách bạn định nghĩa từ "lý tính". Nếu lý tính đại diện cho khả năng - xử lý mọi chữ số của một lượng lớn thông tin với tốc độ như chớp, xây dựng mô hình hoàn hảo sử dụng thông tin này, có thể thực hiện không tì vết các đề xuất mà mô hình đưa ra, thì đúng, bạn là phi lý.

Hỏi: Đây thực sự là một tiêu chuẩn cao về lý tính.

Trả lời: Nếu bạn là một máy tính, tiêu chuẩn này không cao.

Hỏi: Đây chính là lý do chúng ta để máy tính làm phân tích dữ liệu cho chúng ta!

Trả lời: Các chương trình máy tính như Solver tồn tại trong thế giới nhận thức, thế giới này dựa trên thông tin do bạn quyết định, và lựa chọn thông tin của bạn bị hạn chế bởi tư duy của bạn và dữ liệu trong tay. Tuy nhiên, một khi có thông tin đó, Solver có thể hoạt động hoàn toàn hợp lý.

Hỏi: Và vì mọi mô hình đều sai, nhưng một số mô hình hữu ích, tức là ngay cả khi sử dụng máy tính tính toán vấn đề tối ưu hóa, một khi phạm vi ứng dụng mở rộng, cũng sẽ khá giống với thuật toán heuristic. Dữ liệu được chọn làm cơ sở có lẽ không bao giờ có thể bao gồm tất cả các biến số liên quan đến mô hình; vì vậy phải chọn các biến số quan trọng nhất.

Trả lời: Hãy nghĩ theo cách này: Nền tảng của phân tích dữ liệu là công cụ.

Nhà phân tích dữ liệu giỏi biết cách sử dụng các công cụ khác nhau để điều chỉnh dữ liệu nhằm giải quyết vấn đề thực tế.

Đối với việc mình có đủ lý tính hay không, không cần听天由命. Học công cụ, sử dụng công cụ một cách linh hoạt, có thể hoàn thành nhiều công việc khó.

Hỏi: Tuy nhiên, phân tích dữ liệu không thể đảm bảo nhận được câu trả lời đúng cho mọi vấn đề.

Trả lời: Đúng vậy, không thể đảm bảo, nếu bạn vô tình quên điều này, sẽ mắc sai lầm. Phân tích tồn tại trong khoảng cách dự kiến giữa thực tế và mô hình là một nội dung quan trọng của phân tích dữ liệu, các chương sau sẽ thảo luận về các kỹ thuật tinh vi để kiểm soát sai số.

Hỏi: Như vậy, mặc dù heuristic đã ăn sâu trong não tôi, nhưng tôi cũng có thể hình thành suy nghĩ của riêng mình?

Trả lời: Hoàn toàn đúng. Điều thực sự quan trọng đối với nhà phân tích dữ liệu là: hiện tượng này sẽ xảy ra với chính mình.

Sử dụng cây nhanh và tiết kiệm

Nhanh là hoàn thành quá trình không tốn nhiều thời gian, tiết kiệm là không cần nhiều tài nguyên nhận thức.

Mô hình cố định chắc chắn có tính heuristic: xử lý mô hình cố định không cần nhiều công sức, và nhanh như chớp.

Khi sử dụng phương pháp heuristic, mô hình cố định hiệu quả; nhưng trong ví dụ này và hầu hết các trường hợp, mô hình cố định sẽ dẫn đến kết luận thiếu suy luận.

Phương pháp heuristic không phải lúc nào cũng hiệu quả. Kinh nghiệm nhanh và tiết kiệm có thể giúp tìm câu trả lời cho một số vấn đề, trong khi ở các trường hợp khác, lại khiến bạn đưa ra phán đoán không phù hợp. Phương pháp heuristic có thể nguy hiểm!

Chương 9: Biểu Đồ Tần Suất - Hình Dạng Của Các Con Số

Vấn đề của hàm Excel là tạo ra một số khoảng rỗng và giả tạo, rất dễ lừa dối, có thể giải quyết những vấn đề này bằng một kỹ thuật (đối với Excel, miễn là có thời gian viết mã bằng ngôn ngữ lập trình độc quyền của Microsoft, hầu như luôn có thể tìm ra cách giải quyết vấn đề).

Hướng dẫn cài đặt ngôn ngữ R và RStudio (Phiên bản chi tiết)

Mặc dù sử dụng dấu nhắc lệnh lúc đầu có thể hơi tốn công, nhưng nó có thể giúp bạn nắm bắt nhanh hơn. Bằng cách nhập lệnh "Edit(dữ liệu của bạn)", luôn có thể thành công chuyển đổi dữ liệu thành đồ thị kiểu bảng tính.

Biểu đồ tần suất thể hiện tốt giá trị trung bình, giá trị giữa và độ lệch chuẩn. Bằng cách quan sát biểu đồ tần suất, mặc dù không thể thấy giá trị cụ thể, nhưng có thể hình thành cảm giác về các con số.

Tất cả dữ liệu đều là dữ liệu quan sát, vì vậy không phải tất cả mối quan hệ quan sát được đều thuyết phục như dữ liệu thực nghiệm. Nên coi bước tạo biểu đồ tần suất là một loại giải thích, không phải bất kỳ bước nào trước khi giải thích.

Biểu đồ tần suất

install.packages("readxl")
library(readxl)

dulieu <-read.csv("C:/Users/aixia/Downloads/hfda_ch09_employees.csv")

nhanvien = read.csv("C:/Users/aixia/Downloads/hfda_ch09_employees.csv")

nhanvien

hist(nhanvien$received,breaks=50)

sd(nhanvien$received)

summary(nhanvien$received)

min	Giá trị nhỏ nhất
1st Qu.	Tứ phân vị thứ nhất
median	Giá trị giữa
mean	Giá trị trung bình
max	Giá trị lớn nhất
3rd Qu.	Tứ phân vị thứ ba

Không nhìn ra đỉnh đó, theo sách nói, có hai đỉnh.

Hỏi: Giá trị mặc định của R để tạo biểu đồ tần suất thường phù hợp không?

Trả lời: Thường là vậy. R cố gắng tìm số lượng phân đoạn và tọa độ có thể phản ánh tốt nhất đặc điểm dữ liệu, nhưng R không hiểu ý nghĩa của dữ liệu đang vẽ. Cũng như sử dụng hàm tổng hợp, việc vẽ nhanh và thuận tiện biểu đồ tần suất không có gì sai, nhưng trước khi đưa ra kết luận quan trọng dựa trên quan sát, cần sử dụng phương pháp phù hợp để sử dụng biểu đồ tần suất (và vẽ lại biểu đồ tần suất), để không quên mục tiêu quan sát và mục tiêu phân tích của mình.

Hỏi: Bất kỳ đỉnh nào đều là "đường cong hình chuông" sao?

Trả lời: Câu hỏi hay. Thông thường, khi nghĩ đến đường cong hình chuông, đề cập đến phân phối chuẩn hoặc phân phối Gauss, nhưng còn tồn tại một số loại phân phối hình chuông khác, và nhiều hình dạng phân phối không phải hình chuông.

Hỏi: Vậy phân phối chuẩn có ý nghĩa gì quan trọng?

Trả lời: Miễn là dữ liệu phân phối chuẩn, nhiều phương pháp thống kê hiệu quả và đơn giản có thể được sử dụng; nhiều dữ liệu tự nhiên và kinh doanh đều thể hiện hình dạng phân phối tự nhiên (hoặc có thể "chuyển đổi" theo cách nào đó thành hình dạng phân phối tự nhiên).

Hỏi: Dữ liệu của chúng ta có phân phối chuẩn không?

Trả lời: Biểu đồ tần suất bạn đánh giá chắc chắn không phân phối chuẩn. Miễn là số đỉnh vượt quá một, không thể gọi là hình chuông.

Hỏi: Nhưng dữ liệu chắc chắn có hai đỉnh trông giống hình chuông!

Trả lời: Hình dạng này chắc chắn có ý nghĩa. Vấn đề là, tại sao dữ liệu phân phối theo hình dạng này? Bạn phải làm rõ điều đó như thế nào?

Hỏi: Bạn có thể vẽ thêm một số biểu đồ tần suất mô tả các khối nhỏ của khối dữ liệu, rồi đánh giá riêng từng khối? Điều này có thể giúp tìm hiểu tại sao có hai đỉnh.

Trả lời: Trực giác đúng. Thử xem!

hist(nhanvien$received[nhanvien$year == 2007], breaks = 50)
hist(nhanvien$received[nhanvien$year == 2008], breaks = 50)
hist(nhanvien$received[nhanvien$gender == "F"], breaks = 50)
hist(nhanvien$received[nhanvien$gender == "M"], breaks = 50)
hist(nhanvien$received[nhanvien$negotiated == FALSE], breaks = 50)
hist(nhanvien$received[nhanvien$negotiated == TRUE], breaks = 50)

So sánh biểu đồ tần suất

Có yêu cầu tăng lương hay không

Điều thú vị xuất hiện: chỉ có một đỉnh. Trục hoành cho thấy những người này (tức những người chưa yêu cầu tăng lương) nằm ở mức thấp trong phạm vi tăng lương; trục tung cho thấy những người này rất đông.

Xem ra, sau khi tách những người đã yêu cầu tăng lương và những người chưa yêu cầu tăng lương, hai đỉnh sẽ tách biệt rõ ràng, chúng ta thấy: tăng lương của nhân viên tăng mạnh, đồng thời số người giảm. Có vẻ như những người yêu cầu tăng lương sẽ thể hiện hình dạng phân phối hoàn toàn khác trên biểu đồ phân phối kết quả.

Năm

Biểu đồ tần suất này chỉ chọn dữ liệu tăng lương năm 2007, hình dạng cơ bản giống biểu đồ tần suất ban đầu, nhưng tọa độ khác - ví dụ: khối lớn nhất chỉ có 8 người. Nhưng vì hình dạng giống nhau, nhóm năm 2007 có thể có đặc tính giống toàn bộ nhóm.

Tình huống hoàn toàn giống khi sử dụng dữ liệu năm 2007, R thậm chí chọn tọa độ hoàn toàn giống nhau để vẽ dữ liệu. Ít nhất từ nhóm dữ liệu này, tình hình năm 2007 và năm 2008 cơ bản giống nhau.

Giới tính

Mặc dù tọa độ của biểu đồ tần suất này khác nhau, chúng ta lại thấy một đỉnh lớn và một đỉnh nhỏ nằm bên phải đỉnh lớn, biểu đồ này thể hiện tình hình tăng lương của nữ giới trong những năm này, vì vậy số người đông.

Biểu đồ này trông rất giống biểu đồ tần suất tăng lương của nữ giới. Mặc dù tọa độ khác nhau, nhưng chỉ cần phân tích các cột, có thể thấy số nam và nữ trong các khoảng khác nhau gần như bằng nhau. Giống như trước, biểu đồ này có hai đỉnh.

Bổ sung:

Định nghĩa phân phối đa đỉnh

Phân phối đa đỉnh (Multimodal Distribution) là phân phối mà hàm mật độ xác suất hoặc biểu đồ tần suất có nhiều đỉnh rõ ràng (tức là các mode). Khác với phân phối đơn đỉnh (như phân phối chuẩn), phân phối đa đỉnh có thể được tạo bởi sự kết hợp của nhiều nhóm con, hoặc quá trình tạo dữ liệu có nhiều trạng thái khác nhau.

Định nghĩa phân phối chuẩn

Phân phối chuẩn (Normal Distribution), còn gọi là phân phối Gauss, là một phân phối xác suất liên tục, hàm mật độ xác suất có dạng đường cong hình chuông đối xứng. Nó được sử dụng rộng rãi trong thống kê và khoa học tự nhiên, mô tả quy luật phân phối của nhiều hiện tượng tự nhiên.

Công thức toán học: $$ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$ Trong đó, $\mu$ là giá trị trung bình, $\sigma$ là độ lệch chuẩn.

Chương 10: Hồi Quy - Dự Đoán

Phương pháp phân tích hồi quy vô cùng hữu hiệu, chỉ cần sử dụng đúng cách, có thể giúp bạn dự đoán một số giá trị kết quả. Nếu sử dụng cùng với thực nghiệm kiểm soát, phân tích hồi quy còn có thể dự đoán tương lai.

Thuật toán

Bất kỳ quy trình nào được thực hiện để hoàn thành một phép tính nào đó.

Dự đoán là phần quan trọng trong phân tích dữ liệu. Một số người có thể cho rằng, nhìn chung, cộng kiểm định giả thuyết và dự đoán lại bằng phân tích dữ liệu.

Có thể cần dự đoán các vấn đề:

■ Hành vi của mọi người

■ Động thái thị trường

■ Sự kiện lớn

■ Kết quả thực nghiệm

■ Dữ liệu không được phản ánh trong dữ liệu

Không thể không hỏi các câu hỏi:

■ Tôi có đủ dữ liệu để dự đoán không?

■ Độ chính xác dự đoán của tôi như thế nào?

■ Là dự định định tính hay định lượng?

■ Khách hàng của tôi có thể sử dụng dự đoán này thuận tiện không?

■ Hạn chế của dự đoán tôi là gì?

Biểu đồ phân tán

Biểu đồ phân tán là một cách nhanh chóng để thể hiện đặc điểm dữ liệu từ nhiều phương diện. Miễn là dữ liệu của bạn liên quan đến hai biến số, nên cân nhắc sử dụng biểu đồ phân tán.

Đối với nhà phân tích, nền tảng của biểu đồ phân tán là tìm mối quan hệ nhân quả giữa các biến số. Ví dụ, nếu yêu cầu cao dẫn đến tăng lương thấp, hai biến số này sẽ thể hiện mối quan hệ trong biểu đồ phân tán. Bản thân biểu đồ phân tán chỉ thể hiện mối quan hệ, để nói rõ nguyên nhân cần làm nhiều việc hơn (đối với người mới bắt đầu, còn cần giải thích tại sao một biến số sẽ quyết định biến số khác).

Giống như biểu đồ tần suất, biểu đồ phân tán là một cách nhanh chóng và kinh điển khác để thể hiện dữ liệu, nó thể hiện tình phân phối dữ liệu. Nhưng khác với biểu đồ tần suất, biểu đồ phân tán thể hiện hai biến số. Biểu đồ phân tán thể hiện mối quan hệ cặp đôi của kết quả quan sát, một biểu đồ phân tán tốt có thể là một phần của việc giải thích nguyên nhân.

Lệnh head là cách nhanh chóng để xem dữ liệu mới được tải.

Lệnh plot tạo biểu đồ phân tán.

nhanvien<-read.csv("C:/Users/aixia/Downloads/hfda_ch10_employees.csv")
head(nhanvien,n=30)
plot(nhanvien$requested[nhanvien$negotiated==TRUE],
nhanvien$received[nhanvien$negotiated==TRUE])

Sử dụng biểu đồ giá trị trung bình để dự đoán giá trị trong mỗi khoảng

Biểu đồ giá trị trung bình là một loại biểu đồ phân tán, biểu đồ phân tán này thể hiện giá trị trục Y tương ứng với mỗi khoảng trên trục X. Biểu đồ giá trị trung bình ở đây cho chúng ta biết giá trị tăng lương trung bình mà những người yêu cầu các mức tăng lương khác nhau nhận được.

Đường hồi quy dự đoán mức tăng lương thực tế của mọi người

Vẽ một đường nối các điểm trong biểu đồ giá trị trung bình - chính là đường bạn đang tìm kiếm, sử dụng nó có thể dự đoán tình hình tăng lương của mỗi người.

Hỏi: Tại sao gọi là đường hồi quy?

Trả lời: Người phát hiện ra phương pháp này là nhà khoa học người Anh Galton (1822-1911), khi ông đang nghiên cứu cách dự đoán chiều cao của con dựa trên chiều cao của cha. Dữ liệu của ông cho thấy, nhìn chung, những người cha thấp sẽ có con cao hơn mình, và những người cha cao sẽ có con thấp hơn mình. Ông gọi hiện tượng này là "hồi quy về giá trị trung bình".

Đường hồi quy có hai loại: biết Y tìm X, biết X tìm Y. Hãy suy nghĩ, biểu đồ giá trị trung bình có hai loại: mỗi biểu đồ đại diện cho giá trị trung bình của một trong hai biến số.

Hỏi: Đường hồi quy phải là đường thẳng không?

Trả lời: Không nhất thiết phải là đường thẳng, miễn là có ý nghĩa hồi quy. Hồi quy phi tuyến tính là một lĩnh vực phức tạp và thú vị hơn, không nằm trong phạm vi thảo luận của cuốn sách này.

Đường hồi quy hữu ích cho dữ liệu có đặc điểm tương quan tuyến tính

Tương quan có thể mạnh hoặc yếu, có thể đo lường bằng hệ số tương quan, hệ số tương quan còn gọi là r (đừng nhầm với chữ R hoa, đó là một chương trình phần mềm). Để đường hồi quy phát huy tác dụng, dữ liệu phải thể hiện tương quan tuyến tính mạnh. Phạm vi r từ -1 đến 1, 0 biểu thị không có tương quan, 1 và -1 biểu thị hai biến số hoàn toàn tương quan.

Hỏi: Nếu tôi thể hiện mối quan hệ tuyến tính giữa hai sự vật, có nghĩa là tôi đã chứng minh theo phương pháp khoa học không?

Trả lời: Chưa chắc. Bạn chỉ định một mối quan hệ thực sự hữu ích về mặt toán học, nhưng liệu mối quan hệ này có nội dung khác là một vấn đề khác. Chất lượng dữ liệu của bạn có tốt không? Người khác có lặp lại kết quả của bạn không? Bạn đã chuẩn bị giải thích hiện tượng chưa? Nếu mọi thứ đã sẵn sàng, có thể nói bạn đã chứng minh một điều gì đó thông qua phân tích nghiêm cẩn, nhưng nói là chứng minh thì quá lời.

Hỏi: Biểu đồ phân tán sẽ chứa bao nhiêu bản ghi?

Trả lời: Giống như biểu đồ tần suất, biểu đồ phân tán là một phương pháp hiển thị có độ phân giải cao, miễn là định dạng đúng, có thể vẽ hàng nghìn điểm trên biểu đồ. Thuộc tính độ phân giải cao của biểu đồ phân tán là một trong những ưu điểm của nó.

Hệ số tương quan của hai biến số

cor(nhanvien$requested[nhanvien$negotiated==TRUE],
nhanvien$received[nhanvien$negotiated==TRUE])

Bạn cần sử dụng một phương trình để dự đoán chính xác

Có thể biểu diễn toán học đường thẳng bằng phương trình tuyến tính.

y=a+bx

Đường hồi quy của bạn có thể được biểu diễn bằng phương trình tuyến tính này. Miễn là biết dữ liệu tăng lương trong quá khứ, có thể thay bất kỳ yêu cầu tăng lương nào vào biến x, từ đó nhận được giá trị dự đoán tăng lương tương ứng với yêu cầu đó.

Bạn chỉ cần tìm giá trị a và b, tức là các hệ số.

a biểu thị giao điểm với trục Y, biến đầu tiên bên phải phương trình tuyến tính biểu thị giao điểm với trục Y, tức là điểm giao của đường thẳng với trục Y.
b biểu thị độ dốc, độ dốc của một đường là số đo góc của đường đó.

Độ dốc của đường càng lớn, giá trị b càng lớn, trong khi độ dốc của đường tương đối phẳng sẽ gần 0. Để tính độ dốc, có thể đo tốc độ tăng của một đường ("chiều cao", hoặc gọi là thay đổi giá trị y) tương ứng với mỗi đơn vị trục X (cạnh). Độ dốc = cao/cạnh = b

Chỉ cần có thể nhận ra hai biến số có mối quan hệ mật thiết, chỉ cần đường hồi quy có ý nghĩa, bạn có thể tự tin để phần mềm tính các hệ số.

Hỏi: Làm sao tôi biết người ta có mục tiêu cho ngày mai sẽ tương tự với kết quả đã có hôm nay?

Trả lời: Đây là một vấn đề lớn của phân tích hồi quy. Không chỉ cần hỏi "ngày mai sẽ giống hôm nay bao nhiêu?", mà cần hỏi "nếu ngày mai thay đổi, hoạt động kinh doanh của tôi sẽ như thế nào?", câu trả lời là - bạn không thể biết ngày mai có giống hôm nay không. Thay đổi chắc chắn sẽ xảy ra, đôi khi còn khác biệt rất lớn. Khả năng xảy ra thay đổi và ý nghĩa của nó tùy thuộc vào loại vấn đề.

Hỏi: Tại sao lại như vậy?

Trả lời: Ồ, hãy so sánh dữ liệu y học và sở thích người tiêu dùng. Khả năng cơ thể người thay đổi hoàn toàn cách sống vào ngày mai là bao nhiêu? Khả năng không phải là không có, đặc biệt khi môi trường đột nhiên thay đổi, nhưng không lớn; khả năng sở thích người tiêu dùng thay đổi vào ngày mai là bao nhiêu? Bạn có thể đặt cược, sở thích người tiêu dùng sẽ thay đổi, thay đổi rất nhiều.

Hỏi: Vậy tại sao còn phải cố gắng dự đoán?

Trả lời: Ví dụ, trong thế giới mạng, phân tích hồi quy xuất sắc có thể tạo ra lợi nhuận lớn trong một khoảng thời gian, dù ngày mai mất khả năng dự đoán cũng không sao. Hãy nghĩ về hành vi của chính bạn, đối với một cửa hàng sách trực tuyến, bạn, chỉ là một tập dữ liệu.

Hỏi: Buồn.

Trả lời: Không phải - điều này chứng tỏ cửa hàng sách biết cách cung cấp những gì bạn cần. Bạn là một tập dữ liệu, cửa hàng sách phân tích hồi quy tập dữ liệu của bạn, dự đoán sách bạn sẽ mua. Trừ khi sở thích của bạn thay đổi, dự đoán này luôn hiệu quả. Nếu sở thích của bạn thay đổi, bắt đầu mua sách khác, cửa hàng sách sẽ phân tích hồi quy một lần nữa, từ đó có được thông tin mới.

Hỏi: Như vậy, nếu điều kiện bên ngoài thay đổi, phân tích hồi quy không còn hiệu quả, tôi phải cập nhật?

Trả lời: Nói lại, điều này tùy thuộc vào loại vấn đề của bạn. Nếu bạn có lý do đầy đủ và định tính để tin phân tích hồi quy của mình là đúng, thì có thể không cần thay đổi phân tích bao giờ. Nhưng nếu dữ liệu của bạn liên tục thay đổi, thì nên liên tục phân tích hồi quy và sử dụng tốt: nếu phân tích hồi quy đúng, bạn sẽ được lợi; nhưng nếu thực tế thay đổi, phân tích hồi quy thất bại, cũng không ảnh hưởng đến hoạt động kinh doanh của bạn.

Hỏi: Người ta không nên yêu cầu tăng lương bao nhiêu khi thấy người khác tăng bao nhiêu, phải không? Nên yêu cầu tăng bao nhiêu tùy thuộc vào mình xứng đáng bao nhiêu, phải không?

Trả lời: Câu hỏi hay. Vấn đề này thực ra là một phần trong mô hình tinh thần của bạn, phương pháp thống kê không thể phán đoán liệu những gì bạn định làm có hợp lý hay không. Đối với vấn đề định tính, với tư cách nhà phân tích, bạn cần cố gắng đánh giá hết sức. (Nhưng câu trả lời trực tiếp là bạn xứng đáng được tăng lương nhiều!)

Hệ số đường hồi quy

Chạy công thức sau, tạo mô hình tuyến tính mô tả dữ liệu bạn phân tích, chỉ ra các hệ số của đường hồi quy.

myLm <- lm(received[negotiated==TRUE]~requested[negotiated==TRUE], data=nhanvien)
myLm$coefficients

Chương 11: Sai Số - Sai Số Hợp Lý

Dự đoán không chính xác không phải là điều hiếm. Tuy nhiên, nếu khi dự đoán chỉ ra phạm vi sai số, bạn và khách hàng sẽ không chỉ biết giá trị dự đoán trung bình, mà còn biết độ lệch điển hình do sai số gây ra, việc chỉ ra sai số có thể làm cho dự đoán và niềm tin toàn diện hơn.

Biết cách kiểm soát sai số và cách giảm thiểu sai số, từ đó tăng độ tin cậy của dự đoán.

Ngoại suy

Ngoại suy khác với nội suy, nội suy dự đoán các điểm trong phạm vi dữ liệu, đây là mục đích ban đầu của phương pháp hồi quy. Nội suy chính xác, nhưng sử dụng ngoại suy phải cẩn thận.

Nếu định sử dụng ngoại suy, cần đưa ra giả định bổ sung, rõ ràng cho biết không xem xét những gì xảy ra bên ngoài tập dữ liệu.

Cách đối xử với khách hàng muốn dự đoán tình huống bên ngoài phạm vi dữ liệu

Một là không trả lời; hai là đưa ra một giả định, dựa vào đó dự đoán.

Dự đoán kém còn tệ hơn là không dự đoán.

Hỏi: Rốt cuộc tình huống nào bên ngoài phạm vi dữ liệu sẽ gây ra vấn đề như vậy?

Trả lời: Bên ngoài phạm vi dữ liệu bạn sử dụng, có thể hoàn toàn không có dữ liệu. Dù có dữ liệu, cũng rất khác biệt. Dữ liệu này thậm chí có thể phi tuyến tính.

Hỏi: Nhưng tôi không nhất thiết phải đặt tất cả các điểm dữ liệu trong phạm vi dữ liệu.

Trả lời: Đúng vậy, đây là vấn đề về chất lượng dữ liệu và lấy mẫu. Nếu bạn không sử dụng toàn bộ dữ liệu, mà là dữ liệu mẫu, thì phải đảm bảo dữ liệu mẫu này đại diện cho toàn bộ tập dữ liệu, từ đó có thể xây dựng mô hình dựa trên đó.

Hỏi: Xem xét tình huống xảy ra trong các điều kiện giả định thuần túy lý thuyết có phải là thừa sao?

Trả lời: Không phải, chắc chắn nên xem xét. Nhưng điều này cần đào tạo, đảm bảo suy nghĩ của bạn về tình huống giả định không ảnh hưởng đến suy nghĩ của bạn về tình huống thực tế (và hành động).

Hỏi: Dự đoán tương lai không phải là ngoại suy sao?

Trả lời: Là ngoại suy, nhưng có gây ra vấn đề hay không tùy thuộc vào đối tượng nghiên cứu của bạn. Đối tượng quan sát của bạn sẽ thay đổi hoàn toàn hay tương đối ổn định trong tương lai? Các quy luật vật lý của vũ trụ có thể không thay đổi lớn vào tuần tới, nhưng các mối quan hệ thị trường chứng khoán có thể có khả năng này. Xem xét những vấn đề này sẽ giúp bạn hiểu cách sử dụng mô hình của mình.

Hãy luôn cảnh giác với giả định mô hình.

Khi xem mô hình của người khác, hãy luôn nghĩ xem giả định của họ có lý hay không, và liệu họ có quên giả định nào không.

Giả định không phù hợp sẽ khiến mô hình hoàn toàn vô hiệu - đây còn là kết quả tốt nhất; kết quả tệ nhất là có tính lừa dối nguy hiểm.

Sai số cơ hội còn gọi là phần dư

Phân tích phần dư là cốt lõi của mô hình thống kê xuất sắc.

Các kết quan sát càng dày đặc quanh đường hồi quy, đường hồi quy càng đáng tin cậy.

Sai số cơ hội = độ lệch giữa kết quả thực tế và kết quả dự đoán của mô hình

Dù phân tích hồi quy của bạn có hoàn hảo đến đâu, cũng không thể tránh việc phải dự đoán theo cách này hay cách khác. Những dự đoán này hiếm khi chính xác, độ lệch giữa kết quả thực tế và kết quả dự đoán gọi là sai số cơ hội.

Trong thống kê, sai số cơ hội còn gọi là phần dư, phân tích phần dư là cốt lõi của mô hình thống kê xuất sắc.

Mặc dù bạn có thể không bao giờ giải thích đúng lý do mỗi phần dư lệch khỏi mô hình, nhưng phải cẩn thận quan sát các phần dư trên biểu đồ phân tán.

Nếu bạn có thể giải thích đúng phần dư, có thể hiểu dữ liệu trong tay và mục đích của mô hình tốt hơn.

Dự đoan luôn đi cùng với sai số cơ hội, bạn có thể không bao giờ hiểu tại sao sai số cơ hội xuất hiện trong dữ liệu của mình.

Sử dụng sai số bình phương trung bình định lượng phân phối phần dư

summary(myLm)
summary(myLm)$sigma

Giao điểm với trục Y của đường hồi quy là 2.3 và độ dốc là 0.7; sai số bình phương trung bình là 2.298.

Thuật toán	Mô tả
Độ lệch chuẩn (Biểu đồ tần suất)	Một biến số
Sai số bình phương trung bình (Biểu đồ phân tán)	Quan hệ giữa hai biến số

Điều quan trọng là bạn biết sai số có thể định lượng và sử dụng, còn có thể mô tả sai số trong kết quả dự đoán.

Hồi quy phi tuyến tính hoặc hồi quy đa biến sẽ sử dụng các công thức khác để xác định sai số. Thực ra, ngay cả hồi quy tuyến tính, cũng không chỉ có sai số bình phương trung bình để mô tả độ lệch. Có đủ các phương pháp đo lường sai số, tùy thuộc vào tình huống cụ thể.

Bản chất của phân chia là quản lý sai số

Chia dữ liệu thành các nhóm gọi là phân chia. Nếu tạo mô hình dự đoan cho từng nhóm riêng biệt có thể giảm sai số hơn so với sử dụng một mô hình duy nhất, nên tiến hành phân chia.

myLmLon <- lm(received[negotiated==TRUE & requested > 10]~requested[negotiated==TRUE & requested > 10], data=nhanvien)
myLmNho <- lm(received[negotiated==TRUE & requested <= 10]~requested[negotiated==TRUE & requested <= 10], data=nhanvien)
summary(myLmLon)$sigma
summary(myLmLon)$coefficients
summary(myLmNho)$sigma
summary(myLmNho)$coefficients

Lon sai số bình phương trung bình 4.544, giao điểm với trục Y của đường hồi quy là 7.8 và độ dốc là 0.3

Nho sai số bình phương trung bình 1.375, giao điểm với trục Y của đường hồi quy là 0.8 và độ dốc là 0.9

Chương 12: Cơ Sở Dữ Liệu Quan Hệ - Bạn Có Thể Liên Kết Không?

Chương 13: Làm Sạch Dữ Liệu - Ngăn Nắp

Nhiều người thu thập dữ liệu cần dành nhiều thời gian để làm sạch dữ liệu. Dữ liệu không ngăn nắp không thể phân chia, không thể áp dụng công thức, thậm chí không thể đọc được, bị người ta bỏ qua cũng là chuyện bình thường, đúng không? Thực ra, bạn có thể làm tốt hơn. Chỉ cần hình dung rõ hình dạng dữ liệu bạn muốn thấy, rồi sử dụng một số công cụ xử lý văn bản, có thể lọc từng chút một để làm sạch dữ liệu, biến từ vô giá trị thành có giá trị.

Có một bí mật không thể nói trong phân tích dữ liệu - với tư cách nhà phân tích dữ liệu, bạn dành nhiều thời gian để làm sạch dữ liệu hơn là phân tích dữ liệu.

Làm sao bắt đầu xử lý những dữ liệu hỗn loạn này?

Hỏi khách hàng mục đích làm sạch dữ liệu.
Viết một công thức để làm sạch dữ liệu.

Nền tảng của việc làm sạch dữ liệu hỗn loạn là chuẩn bị

Điều này là hiển nhiên, tuy nhiên, giống như làm các công việc dữ liệu khác, làm sạch dữ liệu phải bắt đầu từ việc sao chép dữ liệu thô, để tiện kiểm tra lại.

Sau khi xác định hình dạng dữ liệu mà bạn muốn có, có thể tiếp tục phân biệt mô hình dữ liệu từ sự hỗn loạn.

Cuối cùng cần làm là sửa từng dòng dữ liệu - điều này tốn công sức, vì vậy nếu có thể nhận biết các ký hiệu hỗn loạn lặp lại, có thể viết công thức và hàm, rồi sử dụng các mô hình để làm sạch dữ liệu.

Bạn sẽ phát hiện, quá trình sửa dữ liệu thường xảy ra lặp đi lặp lại, tức là phải xây dựng và làm sạch dữ liệu nhiều lần cho đến khi có được kết quả cần thiết.

Sắp xếp dữ liệu để các giá trị trùng lặp tập trung

Đăng vào ngày 29 tháng 6 lúc 06:51

Thành phố Cuồng loạn