aggregate accuracy ที่ซ่อนจุดอ่อน กับ stratified sampling

แนวคิด

ตัวเลขความแม่นยำรวม เช่น "ระบบดึงข้อมูลแม่น 97%" ฟังดูดี แต่มันอันตรายเพราะซ่อนจุดอ่อนไว้ ค่าเฉลี่ยรวมกลบความจริงที่ว่าโมเดลอาจแม่น 99% กับเอกสารประเภทหนึ่ง แต่แม่นแค่ 70% กับเอกสารอีกประเภท หรือแม่นกับ field ทั่วไปแต่พลาดบ่อยกับ field เฉพาะ ตัวเลขรวมเดียวมองไม่เห็นความไม่เท่ากันนี้

ทางแก้แรกคือแยกวิเคราะห์ความแม่นตามประเภทเอกสารและตาม field แทนที่จะดูค่ารวม ให้ดูว่าแต่ละ segment แม่นแค่ไหน ก่อนจะลดการตรวจโดยคนหรือปล่อยให้ระบบทำงานอัตโนมัติ ถ้าพบว่า field วันที่หรือเอกสารรูปแบบแปลก ๆ แม่นต่ำ นั่นคือจุดที่ยังต้องให้คนดูแม้ค่ารวมจะสูง

ทางแก้ที่สองคือ stratified random sampling คือสุ่มตัวอย่างแบบแบ่งชั้นจากการดึงข้อมูลที่โมเดลมั่นใจสูง เอามาให้คนตรวจต่อเนื่อง เพื่อวัด error rate จริงและจับ error pattern แบบใหม่ที่โผล่ขึ้นมา การสุ่มแบบแบ่งชั้นทำให้แต่ละประเภทเอกสารมีตัวแทนในกลุ่มตัวอย่าง ไม่ใช่กระจุกอยู่แค่ประเภทที่พบบ่อย

ทำไมสำคัญ

เอกสาร reduce hallucinations ของ Anthropic ย้ำว่าเทคนิคลด hallucination ช่วยได้มากแต่ไม่กำจัดทั้งหมด จึงต้องตรวจสอบข้อมูลสำคัญเสมอ โดยเฉพาะกับการตัดสินใจที่มีความเสี่ยงสูง นี่คือรากฐานของ human review คือแม้ระบบจะแม่นโดยรวม เราก็ยังต้องมีกระบวนการที่คนคอยตรวจ ไม่ใช่ไว้ใจตัวเลขรวมแล้วปล่อยมือทั้งหมด

หลักสำคัญคือความมั่นใจสูงไม่เท่ากับถูกต้องเสมอ การดึงข้อมูลที่โมเดลมั่นใจสูงจึงยังต้องถูกสุ่มมาตรวจ เพราะถ้าโมเดลมั่นใจผิดกับเอกสารประเภทใดประเภทหนึ่ง error นั้นจะไหลเข้าสู่ downstream โดยไม่มีใครเห็น จนกว่าการสุ่มตรวจจะจับได้ stratified sampling จึงเป็นเหมือนตาข่ายที่คอยจับ error ที่ค่ารวมมองไม่เห็น

สิ่งที่ต้องเข้าใจให้ลึกคือการออกแบบ output ให้รองรับ review ตั้งแต่ต้น เอกสาร define tools แนะนำให้ออกแบบผลลัพธ์ tool ให้คืนเฉพาะข้อมูล high-signal พร้อม identifier ที่มั่นคง เราต่อยอดหลักนี้ได้ด้วยการให้ schema ของการดึงข้อมูลมี field บอกประเภทเอกสารและระดับความมั่นใจต่อ field เพื่อให้ทีมตรวจกรองและจัดลำดับได้ว่าจะสุ่มดูอะไร แทนที่จะสุ่มแบบมองไม่เห็นบริบท การมี field เหล่านี้ทำให้การแยกวิเคราะห์ตาม segment ทำได้จริง ไม่ใช่แค่ในทฤษฎี

ตัวอย่าง

ค่ารวม: accuracy 97%  ← ดูดีแต่ซ่อนจุดอ่อน

แยกตาม segment:
  invoice มาตรฐาน     : 99.2%
  ใบเสร็จเขียนมือ      : 71.0%   ← จุดอ่อนที่ค่ารวมกลบไว้
  field: total        : 98.5%
  field: tax_id       : 82.0%   ← ยังต้องให้คนตรวจ

stratified sampling: สุ่มจากทุก segment ตามสัดส่วน
  → จับ error pattern ใหม่ในใบเสร็จเขียนมือได้ก่อนลาม

เช็คความเข้าใจ

ทำไม aggregate accuracy เช่น 97% จึงอันตราย และควรทำอย่างไรแทน

stratified random sampling ใช้ทำอะไรในกระบวนการ human review

aggregate accuracy ที่ซ่อนจุดอ่อน กับ stratified sampling

แนวคิด

ทำไมสำคัญ

ตัวอย่าง

เช็คความเข้าใจ

อ่านต่อ