1.1 Định nghĩa về Thống kê, Xác suất và Các thuật ngữ chính

Khoa học về thống kê liên quan đến việc thu thập, phân tích, diễn giải và trình bày dữ liệu. Chúng ta bắt gặp và sử dụng dữ liệu trong cuộc sống hàng ngày.

Bài tập Phối hợp

Trong lớp học của bạn, hãy thử bài tập này. Yêu cầu các thành viên trong lớp viết ra thời gian ngủ trung bình mỗi đêm—tính bằng giờ, làm tròn đến nửa giờ. Giảng viên của bạn sẽ ghi lại dữ liệu. Sau đó, tạo một biểu đồ đơn giản, gọi là biểu đồ chấm (dot plot), từ dữ liệu đó. Biểu đồ chấm bao gồm một trục số và các chấm, hoặc các điểm, được đặt phía trên trục số. Ví dụ, hãy xem xét dữ liệu sau:

5, 5.5, 6, 6, 6, 6.5, 6.5, 6.5, 6.5, 7, 7, 8, 8, 9.

Biểu đồ chấm cho dữ liệu này sẽ như sau:

Figure 1.2

Biểu đồ chấm của bạn trông giống hay khác so với ví dụ? Tại sao? Nếu bạn làm cùng một ví dụ trong một lớp học tiếng Anh với cùng số lượng sinh viên, bạn có nghĩ kết quả sẽ giống nhau không? Tại sao có hoặc tại sao không?

Dữ liệu của bạn dường như tập trung lại ở đâu? Bạn có thể diễn giải sự tập trung này như thế nào?

Các câu hỏi trên yêu cầu bạn phân tích và diễn giải dữ liệu của mình. Với ví dụ này, bạn đã bắt đầu việc nghiên cứu thống kê.

Trong khóa học này, bạn sẽ học cách tổ chức và tóm tắt dữ liệu. Việc tổ chức và tóm tắt dữ liệu được gọi là thống kê mô tả. Hai cách để tóm tắt dữ liệu là bằng cách vẽ biểu đồ và sử dụng các con số, ví dụ như tính trung bình. Sau khi bạn đã nghiên cứu xác suất và các phân phối xác suất, bạn sẽ sử dụng các phương pháp chính thức để rút ra kết luận từ dữ liệu tốt. Các phương pháp chính thức được gọi là thống kê suy luận. Suy luận thống kê sử dụng xác suất để xác định mức độ tự tin của chúng ta về độ chính xác của các kết luận.

Việc diễn giải dữ liệu hiệu quả, hay suy luận, dựa trên các quy trình tốt để tạo ra dữ liệu và sự kiểm tra dữ liệu cẩn thận. Bạn sẽ gặp phải những gì dường như là quá nhiều công thức toán học để diễn giải dữ liệu. Mục tiêu của thống kê không phải là thực hiện vô số phép tính bằng cách sử dụng các công thức, mà là để hiểu rõ về dữ liệu của bạn. Các phép tính có thể được thực hiện bằng máy tính cầm tay hoặc máy vi tính. Sự hiểu biết phải đến từ chính bạn. Nếu bạn có thể nắm vững nền tảng của thống kê, bạn có thể tự tin hơn trong những quyết định mình đưa ra trong cuộc sống.

Mô hình thống kê

Thống kê, giống như tất cả các nhánh khác của toán học, sử dụng các mô hình toán học để mô tả các hiện tượng xảy ra trong thế giới thực. Một số mô hình toán học là tất định. Các mô hình này có thể được sử dụng khi một giá trị được xác định một cách chính xác từ một giá trị khác. Các ví dụ về mô hình tất định là các phương trình bậc hai mô tả sự tăng tốc của một chiếc xe từ trạng thái nghỉ hoặc các phương trình vi phân mô tả sự truyền nhiệt từ một chiếc bếp sang một cái nồi. Các mô hình này khá chính xác và có thể được sử dụng để trả lời các câu hỏi và đưa ra các dự đoán với độ chính xác cao. Các cơ quan vũ trụ, ví dụ, sử dụng các mô hình tất định để dự đoán chính xác lực đẩy mà một tên lửa cần để thoát khỏi lực hấp dẫn của Trái đất và đi vào quỹ đạo.

Tuy nhiên, cuộc sống không phải lúc nào cũng chính xác. Trong khi các nhà khoa học có thể dự đoán đến từng phút thời điểm mặt trời sẽ mọc, họ không thể nói chính xác nơi một cơn bão sẽ đổ bộ. Các mô hình thống kê có thể được sử dụng để dự đoán những tình huống bất định hơn của cuộc sống. Những dạng đặc biệt của mô hình hay hàm toán học này dựa trên ý tưởng rằng một giá trị sẽ ảnh hưởng đến một giá trị khác. Một số mô hình thống kê là những hàm toán học có độ chính xác cao hơn—một tập hợp các giá trị có thể dự đoán hoặc quyết định một tập hợp các giá trị khác. Hoặc một số mô hình thống kê là những hàm toán học mà trong đó một tập hợp các giá trị không quyết định chính xác các giá trị khác. Các mô hình thống kê rất hữu ích vì chúng có thể mô tả xác suất hoặc khả năng xảy ra của một sự kiện và cung cấp các kết quả thay thế nếu sự kiện đó không xảy ra. Ví dụ, dự báo thời tiết là những ví dụ điển hình về các mô hình thống kê. Các nhà khí tượng học không thể dự đoán thời tiết ngày mai một cách chắc chắn. Tuy nhiên, họ thường sử dụng các mô hình thống kê để cho bạn biết khả năng trời mưa tại bất kỳ thời điểm nào là bao nhiêu, và bạn có thể chuẩn bị sẵn sàng dựa trên xác suất này.

Xác suất

Xác suất là một công cụ toán học được sử dụng để nghiên cứu tính ngẫu nhiên. Nó giải quyết cơ hội xảy ra của một sự kiện. Ví dụ, nếu bạn tung một đồng xu cân đối bốn lần, kết quả có thể không phải là hai mặt ngửa và hai mặt sấp. Tuy nhiên, nếu bạn tung cùng một đồng xu đó 4.000 lần, kết quả sẽ gần bằng một nửa ngửa và một nửa sấp. Xác suất lý thuyết dự kiến cho mặt ngửa trong bất kỳ lần tung nào là 1212 hoặc .5. Mặc dù kết quả của một vài lần lặp lại là không chắc chắn, nhưng luôn có một mô hình kết quả có tính quy luật khi có nhiều lần lặp lại. Sau khi đọc về nhà thống kê học người Anh Karl Pearson, người đã tung một đồng xu 24.000 lần với kết quả là 12.012 lần ngửa, một trong những tác giả đã tung một đồng xu 2.000 lần. Kết quả là 996 lần ngửa. Phân số 9962,0009962,000 bằng với .498, rất gần với mức .5, tức là xác suất dự kiến.

Lý thuyết xác suất bắt đầu từ việc nghiên cứu các trò chơi may rủi chẳng hạn như bài poker. Các dự đoán mang hình thức của các xác suất. Để dự đoán khả năng xảy ra động đất, trời mưa, hoặc việc bạn có đạt điểm A trong khóa học này hay không, chúng ta sử dụng xác suất. Các bác sĩ sử dụng xác suất để xác định cơ hội mà một loại vắc-xin có thể gây ra chính căn bệnh mà nó được cho là để ngăn ngừa. Một người môi giới chứng khoán sử dụng xác suất để xác định tỷ suất sinh lời trên các khoản đầu tư của một khách hàng.

Thuật ngữ chính

Trong thống kê, chúng ta thường muốn nghiên cứu một tổng thể. Bạn có thể coi một tổng thể là một tập hợp các cá nhân, sự vật hoặc đối tượng đang được nghiên cứu. Để nghiên cứu tổng thể, chúng ta chọn một mẫu. Ý tưởng của việc lấy mẫu là chọn một phần, hoặc một tập con, của tổng thể lớn hơn và nghiên cứu phần đó—tức là mẫu—để thu thập thông tin về tổng thể. Dữ liệu là kết quả của việc lấy mẫu từ một tổng thể.

Bởi vì việc kiểm tra toàn bộ tổng thể đòi hỏi rất nhiều thời gian và tiền bạc, lấy mẫu là một kỹ thuật rất thiết thực. Nếu bạn muốn tính điểm trung bình chung tại trường học của mình, sẽ rất hợp lý nếu chọn một mẫu gồm các học sinh đang theo học tại trường. Dữ liệu thu thập được từ mẫu sẽ là điểm trung bình của các học sinh đó. Trong các cuộc bầu cử tổng thống, các mẫu thăm dò ý kiến gồm 1.000–2.000 người được thực hiện. Cuộc thăm dò ý kiến được cho là đại diện cho quan điểm của người dân trên toàn quốc. Các nhà sản xuất đồ uống có ga đóng lon lấy mẫu để xác định xem một lon 16-ounce có thực sự chứa 16 ounce đồ uống có ga hay không.

Từ dữ liệu mẫu, chúng ta có thể tính toán một thống kê lượng. Một thống kê lượng là một con số đại diện cho một thuộc tính của mẫu. Ví dụ, nếu chúng ta coi một lớp toán là một mẫu của tổng thể gồm tất cả các lớp toán, thì số điểm trung bình mà các sinh viên đạt được trong lớp toán đó vào cuối kỳ là một ví dụ về một thống kê lượng. Vì chúng ta không có dữ liệu của tất cả các lớp toán, thống kê lượng đó là ước tính tốt nhất của chúng ta về giá trị trung bình cho toàn bộ tổng thể các lớp toán. Nếu chúng ta tình cờ có dữ liệu cho tất cả các lớp toán, chúng ta có thể tìm ra tham số của tổng thể. Một tham số là một đặc điểm bằng số của toàn bộ tổng thể có thể được ước tính bằng một thống kê lượng. Vì chúng ta đã coi tất cả các lớp toán là tổng thể, nên số điểm trung bình mà mỗi sinh viên đạt được trên tất cả các lớp toán là một ví dụ về một tham số.

Một trong những mối quan tâm chính trong lĩnh vực thống kê là độ chính xác của một thống kê lượng khi ước tính một tham số. Để có một mẫu chính xác, nó phải chứa các đặc điểm của tổng thể để trở thành một mẫu đại diện. Chúng ta quan tâm đến cả thống kê lượng của mẫu và tham số của tổng thể trong thống kê suy luận. Trong một chương sau, chúng ta sẽ sử dụng thống kê lượng của mẫu để kiểm tra tính hợp lệ của tham số tổng thể đã được thiết lập.

Một biến số, thường được ký hiệu bằng các chữ cái in hoa như XY, là một đặc điểm hoặc một phép đo lường có thể được xác định cho mỗi thành viên của một tổng thể. Các biến số có thể mô tả các giá trị như trọng lượng tính bằng pound hoặc môn học yêu thích ở trường. Biến định lượng nhận các giá trị với các đơn vị ngang nhau, chẳng hạn như trọng lượng tính bằng pound và thời gian tính bằng giờ. Biến phân loại sắp xếp một người hoặc một vật vào một nhóm/loại nhất định. Nếu chúng ta gọi X là số điểm mà một sinh viên toán đạt được vào cuối kỳ, thì X là một biến định lượng. Nếu chúng ta gọi Y là sự liên kết đảng phái của một người, thì một số ví dụ về Y bao gồm đảng Cộng hòa, đảng Dân chủ và Độc lập. Y là một biến phân loại. Chúng ta có thể thực hiện một số phép toán với các giá trị của X—ví dụ, tính điểm trung bình đạt được—nhưng sẽ không có ý nghĩa gì khi làm toán với các giá trị của Y—việc tính toán sự liên kết đảng phái trung bình là hoàn toàn vô nghĩa.

Dữ liệu là các giá trị thực tế của biến số. Chúng có thể là các con số hoặc có thể là các từ. Datum là một giá trị đơn lẻ.

Hai từ thường xuất hiện trong thống kê là trung bìnhtỷ lệ. Nếu bạn tham gia ba bài kiểm tra trong lớp toán của mình và đạt được các số điểm là 86, 75 và 92, bạn sẽ tính điểm trung bình của mình bằng cách cộng ba điểm kiểm tra lại và chia cho ba. Điểm trung bình của bạn sẽ là 84,3 với một chữ số thập phân. Nếu trong lớp toán của bạn có 40 sinh viên, trong đó có 22 nam và 18 nữ, thì tỷ lệ sinh viên nam là 22402240 và tỷ lệ sinh viên nữ là 18401840. Trung bình và tỷ lệ sẽ được thảo luận chi tiết hơn trong các chương sau.

GHI CHÚ

Các từ trung bình (mean)trung bình (average) trong tiếng Anh thường được sử dụng thay thế cho nhau. Trong cuốn sách này, chúng ta sử dụng thuật ngữ trung bình cộng (arithmetic mean) cho mean.

Ví dụ 1.1

Bài toán

Xác định tổng thể, mẫu, tham số, thống kê lượng, biến số và dữ liệu được đề cập đến trong nghiên cứu sau đây.

Chúng ta muốn biết số lượng hoạt động ngoại khóa trung bình mà học sinh trung học tham gia. Chúng ta khảo sát ngẫu nhiên 100 học sinh trung học. Ba trong số các học sinh đó đã tham gia lần lượt 2, 5 và 7 hoạt động ngoại khóa.

Thử sức 1.1

Tìm một bài báo trực tuyến, trên báo chí hoặc tạp chí có đề cập đến một nghiên cứu thống kê hoặc cuộc thăm dò ý kiến. Xác định từng thuật ngữ chính—tổng thể, mẫu, tham số, thống kê lượng, biến số và dữ liệu—đề cập đến điều gì trong nghiên cứu được nhắc tới trong bài báo. Bài báo có sử dụng đúng các thuật ngữ chính không?

Ví dụ 1.2

Bài toán

Xác định các thuật ngữ chính đề cập đến điều gì trong nghiên cứu sau đây.

Một nghiên cứu đã được thực hiện tại một trường trung học địa phương để phân tích điểm trung bình tích lũy (GPA) của các học sinh đã tốt nghiệp năm ngoái. Điền chữ cái của cụm từ mô tả đúng nhất cho từng mục dưới đây.

1. Tổng thể ____ 2. Thống kê lượng ____ 3. Tham số ____ 4. Mẫu ____ 5. Biến số ____ 6. Dữ liệu ____

  • a) tất cả học sinh đã theo học tại trường trung học vào năm ngoái
  • b) điểm trung bình tích lũy của một học sinh đã tốt nghiệp từ trường trung học đó vào năm ngoái
  • c) 3.65, 2.80, 1.50, 3.90
  • d) một nhóm học sinh đã tốt nghiệp từ trường trung học đó vào năm ngoái, được chọn ngẫu nhiên
  • e) điểm trung bình tích lũy của những học sinh đã tốt nghiệp từ trường trung học đó vào năm ngoái
  • f) tất cả học sinh đã tốt nghiệp từ trường trung học đó vào năm ngoái
  • g) điểm trung bình tích lũy của những học sinh trong nghiên cứu đã tốt nghiệp từ trường trung học đó vào năm ngoái

Ví dụ 1.3

Bài toán

Xác định tổng thể, mẫu, tham số, thống kê lượng, biến số và dữ liệu được đề cập trong nghiên cứu sau đây.

Là một phần của nghiên cứu được thiết kế để kiểm tra sự an toàn của ô tô, Ủy ban An toàn Giao thông Quốc gia đã thu thập và xem xét dữ liệu về tác động của một vụ tai nạn ô tô đối với các hình nhân thử nghiệm (The Data and Story Library, n.d.). Dưới đây là tiêu chí họ đã sử dụng.

Tốc độ ô tô đâm Vị trí của Người lái (tức là, hình nhân)
35 dặm/giờ Ghế trước
Table 1.1

Những chiếc ô tô có hình nhân ở hàng ghế trước đã đâm vào tường với tốc độ 35 dặm một giờ. Chúng ta muốn biết tỷ lệ hình nhân ở ghế lái có thể bị chấn thương ở đầu, nếu họ là những người lái xe thực sự. Chúng ta bắt đầu với một mẫu ngẫu nhiên đơn giản gồm 75 chiếc ô tô.

Ví dụ 1.4

Bài toán

Xác định tổng thể, mẫu, tham số, thống kê lượng, biến số và dữ liệu được đề cập trong nghiên cứu sau đây.

Một công ty bảo hiểm muốn xác định tỷ lệ tất cả các bác sĩ y khoa đã từng tham gia vào một hoặc nhiều vụ kiện về sơ suất chuyên môn. Công ty chọn ngẫu nhiên 500 bác sĩ từ một danh bạ nghề nghiệp và xác định số lượng bác sĩ trong mẫu đã từng liên quan đến một vụ kiện về sơ suất chuyên môn.

Bài tập Phối hợp

Thực hiện bài tập sau cùng với tối đa bốn người mỗi nhóm. Xác định tổng thể, mẫu, tham số, thống kê lượng, biến số và dữ liệu cho nghiên cứu sau: Bạn muốn xác định số ly sữa trung bình—mean—mà sinh viên đại học uống mỗi ngày. Giả sử hôm qua, trong lớp tiếng Anh của bạn, bạn đã hỏi năm sinh viên rằng họ đã uống bao nhiêu ly sữa vào ngày hôm trước. Các câu trả lời là 1, 0, 1, 3 và 4 ly sữa.