false positive สูงบั่นทอนความเชื่อใจทั้งระบบ

แนวคิด

ในระบบที่โมเดลรายงานหลายหมวดพร้อมกัน เช่น automated code review ที่ตรวจทั้ง bug, security, style และ performance คุณภาพของแต่ละหมวดไม่ได้แยกขาดจากกันในสายตาผู้ใช้ ถ้าหมวดหนึ่งมี false positive สูง คือชอบรายงานสิ่งที่ไม่ใช่ปัญหาจริง มันไม่ได้ทำลายแค่ความน่าเชื่อของหมวดนั้น แต่ลามไปทำลายความเชื่อใจในหมวดที่แม่นยำด้วย

เพราะเมื่อ developer เจอ finding ผิด ๆ ซ้ำ ๆ จากหมวด style เขาจะเริ่มมองข้าม comment ทั้งกอง รวมถึง finding เรื่อง security ที่ถูกต้องและสำคัญ ความไว้ใจเป็นทรัพยากรรวม ไม่ใช่แยกถัง พอถังหนึ่งรั่ว คนก็เลิกดื่มจากทุกถัง

ทำไมสำคัญ

ผลลัพธ์ที่ตามมาคือ developer เริ่มปิดการแจ้งเตือน เพิกเฉยต่อ PR comment หรือเลิกใช้เครื่องมือไปเลย ทั้งที่ระบบอาจจับ bug จริงได้ดีในบางหมวด นี่คือกับดักที่ตัวเลข accuracy รวม ๆ มองไม่เห็น เพราะ finding ผิดเพียงหมวดเดียวก็พอทำให้คนไม่เชื่อทั้งระบบ

ทางแก้ที่เอกสารและแนวปฏิบัติแนะนำคือ ปิดหมวดที่ false positive สูงไว้ก่อนชั่วคราว เพื่อกู้ความเชื่อใจกลับมา ระหว่างนั้นค่อยไปปรับปรุง prompt ของหมวดนั้นแยกต่างหาก เช่น ใส่เกณฑ์เชิงหมวดหมู่ที่ชัดขึ้น หรือเพิ่ม few-shot example ที่แยกโค้ดที่ยอมรับได้ออกจากปัญหาจริง เมื่อหมวดนั้นแม่นพอแล้วจึงเปิดกลับ

เหตุผลที่ยอม "ปิดชั่วคราว" ดีกว่า "ปล่อยให้รายงานผิดต่อไป" เพราะการมีหมวดที่พอใช้แต่คนยังเชื่อ ดีกว่ามีครบทุกหมวดแต่ไม่มีใครอ่าน มูลค่าของ review อยู่ที่คนเอาไปใช้ ไม่ใช่จำนวน finding ที่ผลิตออกมา การยอมลด coverage ชั่วคราวเพื่อรักษา trust จึงเป็นการแลกที่คุ้ม

จุดนี้ต่างจากถ้อยคำใน exam guide เล็กน้อย exam guide เน้นว่า high false-positive categories บั่นทอนความเชื่อใจในหมวดที่แม่นยำ ซึ่งถูกต้อง แต่ในทางปฏิบัติควรจำคู่กับการกระทำด้วย คือ "ปิดหมวดที่พังชั่วคราว แล้วปรับปรุง prompt" ไม่ใช่แค่รับรู้ว่าปัญหามีอยู่

ตัวอย่าง

สถานการณ์: code review agent ตรวจ 4 หมวด
  bug        → แม่น, developer เชื่อถือ
  security   → แม่น, สำคัญมาก
  style      → false positive สูง, รายงานจุกจิกผิด ๆ
  performance→ ปานกลาง

ผล: developer เจอ style ผิดบ่อย เลยเลิกอ่าน comment ทั้งหมด
    security finding ที่ถูกต้องก็ถูกมองข้ามไปด้วย

แก้: ปิดหมวด style ชั่วคราว → trust กลับมา
    ปรับ prompt ของ style แยก (เกณฑ์ชัด + few-shot) → ค่อยเปิดกลับ

เช็คความเข้าใจ

ทำไมหมวดที่มี false positive สูงจึงกระทบมากกว่าตัวมันเอง

แนวทางจัดการหมวดที่ false positive สูงคืออะไร และทำไมจึงคุ้ม

false positive สูงบั่นทอนความเชื่อใจทั้งระบบ

แนวคิด

ทำไมสำคัญ

ตัวอย่าง

เช็คความเข้าใจ

อ่านต่อ