sentiment กับ self-reported confidence เป็นตัวชี้วัดที่เชื่อไม่ได้

แนวคิด

เมื่อออกแบบการ escalate เราอาจถูกล่อให้ใช้สัญญาณที่ดูสมเหตุสมผลแต่ที่จริงเชื่อไม่ได้ สองตัวที่พบบ่อยคือ sentiment ของลูกค้า และ confidence score ที่โมเดลรายงานเอง ทั้งสองเป็นตัวแทนที่ไม่ดีสำหรับ "ความซับซ้อนที่แท้จริงของเคส"

sentiment วัดอารมณ์ ไม่ได้วัดความยาก ลูกค้าอาจหงุดหงิดมากกับปัญหาที่ง่ายมาก เช่นลืมรหัสผ่าน หรืออาจพูดจาสุภาพเย็น ๆ กับปัญหาที่ต้องใช้ข้อยกเว้นนโยบายซับซ้อน ถ้า escalate ตามระดับความไม่พอใจ เราจะส่งเคสง่ายไปให้คนเต็มไปหมด และปล่อยเคสยากที่ลูกค้าไม่ได้แสดงอารมณ์ให้ agent ฝืนทำเอง

confidence ที่โมเดลรายงานเองก็มีปัญหาคล้ายกัน โมเดลมักมั่นใจผิด ๆ กับเคสยาก คือตอบด้วยความมั่นใจสูงทั้งที่ควรจะสงสัย การ route ตาม confidence ต่ำจึงพลาดเคสยากที่โมเดลเข้าใจผิดว่าตัวเองทำได้ ซึ่งเป็นเคสที่ควร escalate มากที่สุด

ทำไมสำคัญ

เอกสาร reduce hallucinations ชี้ว่าการเชื่อความมั่นใจของโมเดลตรง ๆ นั้นเสี่ยง จึงแนะนำเทคนิคเชิงโครงสร้างแทน เช่น best-of-N คือรันคำขอเดียวกันหลายครั้งแล้วเทียบผล ถ้าผลไม่ตรงกันแสดงว่าน่าจะมี hallucination หรือให้โมเดลหา quote สนับสนุนทุกคำกล่าวอ้าง ถ้าหาไม่ได้ต้องถอนคำกล่าวอ้างนั้น จุดร่วมคือไม่พึ่งคำว่า "ฉันมั่นใจ" ของโมเดลเพียงอย่างเดียว

หลักเดียวกันใช้กับการ escalate นั่นคือแทนที่จะ route ตาม sentiment หรือ self-reported confidence ให้ route ตามเงื่อนไขที่ตรวจสอบได้จริง เช่น นโยบายครอบคลุมกรณีนี้หรือไม่ ผลจาก tool คืนหลายรายการที่ตรงกันหรือไม่ ข้อมูลที่จำเป็นครบหรือไม่ เงื่อนไขเหล่านี้เป็นข้อเท็จจริง ไม่ใช่การเดาอารมณ์หรือการเดาความมั่นใจ

กรณีที่เจอบ่อยและสอนหลักนี้ได้ดีคือ เมื่อค้นลูกค้าแล้วได้ผลตรงกันหลายราย เช่นมีคนชื่อเดียวกันสามคน agent ไม่ควรเดาว่าเป็นคนไหนด้วย heuristic แต่ควรถามข้อมูลระบุตัวเพิ่ม เช่น อีเมลหรือเลขออร์เดอร์ เอกสาร define tools ระบุว่าเมื่อข้อมูลไม่พอเติม parameter ที่จำเป็น โดยเฉพาะกับ Claude Opus โมเดลมักรู้ตัวว่าขาดแล้วถามกลับ นี่คือพฤติกรรมที่เราอยากได้ คือให้ความคลุมเครือกลายเป็นคำถาม ไม่ใช่การเดา

ตัวอย่าง

สัญญาณที่เชื่อไม่ได้ (อย่าใช้เป็นตัวตัดสินหลัก):
- ลูกค้าโกรธมาก        → อาจเป็นแค่ลืมรหัสผ่าน (เคสง่าย)
- โมเดลบอก "มั่นใจ 9/10" → มักมั่นใจผิดกับเคสยาก

สัญญาณที่ตรวจสอบได้ (ใช้เป็นตัวตัดสิน):
- นโยบายครอบคลุมกรณีนี้ไหม
- ค้นลูกค้าแล้วได้หลายราย → ถามอีเมล/เลขออร์เดอร์เพิ่ม ไม่เดา
- ข้อมูลที่จำเป็นครบไหม

เช็คความเข้าใจ

ทำไม sentiment และ self-reported confidence จึงเป็นตัวชี้วัดความซับซ้อนของเคสที่เชื่อไม่ได้

เมื่อค้นลูกค้าแล้วได้ผลตรงกันหลายราย ควรทำอย่างไร แทนที่จะใช้ heuristic

sentiment กับ self-reported confidence เป็นตัวชี้วัดที่เชื่อไม่ได้

แนวคิด

ทำไมสำคัญ

ตัวอย่าง

เช็คความเข้าใจ

อ่านต่อ