🏥 Lab 5: Naive Bayes Classifier

การวินิจฉัยโรคด้วย Probabilistic Classification

1. วัตถุประสงค์ (Objectives)

เข้าใจหลักการทำงานของ Naive Bayes Classifier และสมมติฐาน Conditional Independence
สามารถคำนวณ Prior Probability, Likelihood, และ Posterior Probability ด้วยมือ
ประยุกต์ใช้ Laplace Smoothing เพื่อแก้ปัญหา Zero Probability
สร้างและประเมิน Bernoulli Naive Bayes Classifier ด้วย scikit-learn
วิเคราะห์ผลลัพธ์ด้วย Classification Report และ Confusion Matrix

2. ทฤษฎีพื้นฐาน (Background)

2.1 หลักการ Naive Bayes

Naive Bayes Classifier ใช้ Bayes' Theorem ร่วมกับสมมติฐาน Conditional Independence ระหว่าง Features ทุกตัวเมื่อรู้คลาสแล้ว สูตรหลักคือ:

$$ P(C \mid x_1, x_2, \ldots, x_n) ;\propto; P(C) \times \prod_{i=1}^{n} P(x_i \mid C) $$

สัญลักษณ์	ความหมาย
`P(C)`	Prior — ความน่าจะเป็นของคลาส C ก่อนเห็นข้อมูล
`P(xᵢ \| C)`	Likelihood — ความน่าจะเป็นของ Feature xᵢ ในคลาส C
`P(C \| x)`	Posterior — ความน่าจะเป็นของคลาสหลังเห็นข้อมูล
`∝`	สัดส่วน (ไม่รวม Normalizing Constant)

2.2 Laplace Smoothing (Add-1 Smoothing)

เมื่อ Feature ใดไม่เคยปรากฏในคลาส → Likelihood = 0 → Posterior ทั้งหมดเป็น 0 แก้ด้วย:

$$ P(x_i \mid C) = \frac{\text{count}(x_i, C) + 1}{\text{count}(C) + |V|} $$

โดยที่ |V| = จำนวนค่าที่เป็นไปได้ของ Feature (Binary Feature → |V| = 2)

2.3 ประเภท Naive Bayes ที่ใช้ใน Lab นี้

ประเภท	เหมาะกับข้อมูล	ตัวอย่างการใช้งาน
Bernoulli NB	Binary (0/1)	มี/ไม่มีอาการ ✅ ใช้ใน Lab นี้
Multinomial NB	Count (จำนวนครั้ง)	Text Classification
Gaussian NB	ตัวเลขต่อเนื่อง	ข้อมูลวิทยาศาสตร์

3. ชุดข้อมูล (Dataset)

3.1 คำอธิบาย

จำนวนตัวอย่าง: 50 ราย
Features (อาการ) — 4 ตัวแปร: 1 = มีอาการ, 0 = ไม่มีอาการ
- ไข้ (Fever)
- ไอ (Cough)
- ปวดกล้ามเนื้อ (Muscle Pain)
- ผื่น (Rash)
Label (โรค) — 3 คลาส:
- ไข้หวัดใหญ่ (Influenza) — 18 ราย
- ไข้เลือดออก (Dengue Fever) — 16 ราย
- โควิด-19 (COVID-19) — 16 ราย

3.2 ตารางข้อมูลทั้งหมด 50 แถว

#	ไข้	ไอ	ปวดกล้ามเนื้อ	ผื่น	โรค
1	1	1	1	0	ไข้หวัดใหญ่
2	1	1	0	0	ไข้หวัดใหญ่
3	1	1	1	0	ไข้หวัดใหญ่
4	1	0	1	0	ไข้หวัดใหญ่
5	0	1	1	0	ไข้หวัดใหญ่
6	1	1	1	0	ไข้หวัดใหญ่
7	1	1	0	0	ไข้หวัดใหญ่
8	1	1	1	0	ไข้หวัดใหญ่
9	0	1	0	0	ไข้หวัดใหญ่
10	1	0	1	0	ไข้หวัดใหญ่
11	1	1	1	0	ไข้หวัดใหญ่
12	1	1	0	0	ไข้หวัดใหญ่
13	1	1	1	0	ไข้หวัดใหญ่
14	0	0	1	0	ไข้หวัดใหญ่
15	1	1	1	0	ไข้หวัดใหญ่
16	1	1	0	0	ไข้หวัดใหญ่
17	0	1	1	0	ไข้หวัดใหญ่
18	1	1	1	0	ไข้หวัดใหญ่
19	1	0	1	1	ไข้เลือดออก
20	1	0	1	1	ไข้เลือดออก
21	1	0	0	1	ไข้เลือดออก
22	1	0	1	1	ไข้เลือดออก
23	1	0	1	0	ไข้เลือดออก
24	0	0	1	1	ไข้เลือดออก
25	1	0	1	1	ไข้เลือดออก
26	1	0	0	1	ไข้เลือดออก
27	1	1	1	1	ไข้เลือดออก
28	1	0	1	1	ไข้เลือดออก
29	0	0	1	1	ไข้เลือดออก
30	1	0	1	1	ไข้เลือดออก
31	1	0	0	1	ไข้เลือดออก
32	1	0	1	1	ไข้เลือดออก
33	1	0	1	0	ไข้เลือดออก
34	1	0	1	1	ไข้เลือดออก
35	1	1	1	0	โควิด-19
36	0	1	0	0	โควิด-19
37	1	1	1	0	โควิด-19
38	0	1	1	0	โควิด-19
39	1	1	0	0	โควิด-19
40	0	1	1	0	โควิด-19
41	1	1	1	0	โควิด-19
42	0	1	0	0	โควิด-19
43	1	1	1	0	โควิด-19
44	1	0	1	0	โควิด-19
45	0	1	1	0	โควิด-19
46	1	1	0	0	โควิด-19
47	0	1	1	0	โควิด-19
48	1	1	1	0	โควิด-19
49	0	1	0	0	โควิด-19
50	1	1	1	0	โควิด-19

4. การคำนวณด้วยมือ (Manual Calculation)

4.1 Prior Probability

นับจากตารางด้านบน หารด้วยจำนวนทั้งหมด (50)

โรค	จำนวน	P(โรค)
ไข้หวัดใหญ่	18	18/50 = 0.36
ไข้เลือดออก	16	16/50 = 0.32
โควิด-19	16	16/50 = 0.32

4.2 Likelihood P(อาการ | โรค)

อาการ	ไข้หวัดใหญ่ (n=18)	ไข้เลือดออก (n=16)	โควิด-19 (n=16)
ไข้ = 1	15/18 = 0.833	14/16 = 0.875	10/16 = 0.625
ไอ = 1	16/18 = 0.889	1/16 = 0.063	13/16 = 0.813
ปวดกล้ามเนื้อ = 1	14/18 = 0.778	14/16 = 0.875	10/16 = 0.625
ผื่น = 1	0/18 = 0.000 ⚠️	13/16 = 0.813	0/16 = 0.000 ⚠️

⚠️ Zero Probability: ต้องใช้ Laplace Smoothing
P(ผื่น=1 | ไข้หวัดใหญ่) = (0+1)/(18+2) = 0.050
P(ผื่น=1 | โควิด-19) = (0+1)/(16+2) = 0.056

4.3 ตัวอย่างการคำนวณ Posterior

โจทย์: ผู้ป่วยมีอาการ → ไข้ = ✓, ไอ = ✗, ปวดกล้ามเนื้อ = ✓, ผื่น = ✓

Score(ไข้หวัดใหญ่) = 0.36 × 0.833 × 0.111 × 0.778 × 0.050  ≈  0.00130
Score(ไข้เลือดออก) = 0.32 × 0.875 × 0.063 × 0.875 × 0.813  ≈  0.01261
Score(โควิด-19)    = 0.32 × 0.625 × 0.813 × 0.625 × 0.056  ≈  0.00569

▶  วินิจฉัย: ไข้เลือดออก  (Score สูงสุด)

5. คำสั่งการทดลอง (Lab Instructions)

📌 ข้อกำหนด: เขียนโปรแกรม Python โดยใช้ข้อมูลจากตาราง 50 แถวในหัวข้อ 3 เท่านั้น
แต่ละคำสั่งให้เขียนเป็นไฟล์ .py แยกกัน หรือแบ่งเป็น Section ใน Jupyter Notebook