aggregate accuracy ที่ซ่อนจุดอ่อน กับ stratified sampling
แนวคิด
ตัวเลขความแม่นยำรวม เช่น "ระบบดึงข้อมูลแม่น 97%" ฟังดูดี แต่มันอันตรายเพราะซ่อนจุดอ่อนไว้ ค่าเฉลี่ยรวมกลบความจริงที่ว่าโมเดลอาจแม่น 99% กับเอกสารประเภทหนึ่ง แต่แม่นแค่ 70% กับเอกสารอีกประเภท หรือแม่นกับ field ทั่วไปแต่พลาดบ่อยกับ field เฉพาะ ตัวเลขรวมเดียวมองไม่เห็นความไม่เท่ากันนี้
ทางแก้แรกคือแยกวิเคราะห์ความแม่นตามประเภทเอกสารและตาม field แทนที่จะดูค่ารวม ให้ดูว่าแต่ละ segment แม่นแค่ไหน ก่อนจะลดการตรวจโดยคนหรือปล่อยให้ระบบทำงานอัตโนมัติ ถ้าพบว่า field วันที่หรือเอกสารรูปแบบแปลก ๆ แม่นต่ำ นั่นคือจุดที่ยังต้องให้คนดูแม้ค่ารวมจะสูง
ทางแก้ที่สองคือ stratified random sampling คือสุ่มตัวอย่างแบบแบ่งชั้นจากการดึงข้อมูลที่โมเดลมั่นใจสูง เอามาให้คนตรวจต่อเนื่อง เพื่อวัด error rate จริงและจับ error pattern แบบใหม่ที่โผล่ขึ้นมา การสุ่มแบบแบ่งชั้นทำให้แต่ละประเภทเอกสารมีตัวแทนในกลุ่มตัวอย่าง ไม่ใช่กระจุกอยู่แค่ประเภทที่พบบ่อย
ทำไมสำคัญ
เอกสาร reduce hallucinations ของ Anthropic ย้ำว่าเทคนิคลด hallucination ช่วยได้มากแต่ไม่กำจัดทั้งหมด จึงต้องตรวจสอบข้อมูลสำคัญเสมอ โดยเฉพาะกับการตัดสินใจที่มีความเสี่ยงสูง นี่คือรากฐานของ human review คือแม้ระบบจะแม่นโดยรวม เราก็ยังต้องมีกระบวนการที่คนคอยตรวจ ไม่ใช่ไว้ใจตัวเลขรวมแล้วปล่อยมือทั้งหมด
หลักสำคัญคือความมั่นใจสูงไม่เท่ากับถูกต้องเสมอ การดึงข้อมูลที่โมเดลมั่นใจสูงจึงยังต้องถูกสุ่มมาตรวจ เพราะถ้าโมเดลมั่นใจผิดกับเอกสารประเภทใดประเภทหนึ่ง error นั้นจะไหลเข้าสู่ downstream โดยไม่มีใครเห็น จนกว่าการสุ่มตรวจจะจับได้ stratified sampling จึงเป็นเหมือนตาข่ายที่คอยจับ error ที่ค่ารวมมองไม่เห็น
สิ่งที่ต้องเข้าใจให้ลึกคือการออกแบบ output ให้รองรับ review ตั้งแต่ต้น เอกสาร define tools แนะนำให้ออกแบบผลลัพธ์ tool ให้คืนเฉพาะข้อมูล high-signal พร้อม identifier ที่มั่นคง เราต่อยอดหลักนี้ได้ด้วยการให้ schema ของการดึงข้อมูลมี field บอกประเภทเอกสารและระดับความมั่นใจต่อ field เพื่อให้ทีมตรวจกรองและจัดลำดับได้ว่าจะสุ่มดูอะไร แทนที่จะสุ่มแบบมองไม่เห็นบริบท การมี field เหล่านี้ทำให้การแยกวิเคราะห์ตาม segment ทำได้จริง ไม่ใช่แค่ในทฤษฎี
ตัวอย่าง
ค่ารวม: accuracy 97% ← ดูดีแต่ซ่อนจุดอ่อน
แยกตาม segment:
invoice มาตรฐาน : 99.2%
ใบเสร็จเขียนมือ : 71.0% ← จุดอ่อนที่ค่ารวมกลบไว้
field: total : 98.5%
field: tax_id : 82.0% ← ยังต้องให้คนตรวจ
stratified sampling: สุ่มจากทุก segment ตามสัดส่วน
→ จับ error pattern ใหม่ในใบเสร็จเขียนมือได้ก่อนลาม
เช็คความเข้าใจ
ทำไม aggregate accuracy เช่น 97% จึงอันตราย และควรทำอย่างไรแทน
stratified random sampling ใช้ทำอะไรในกระบวนการ human review