รักษา provenance ผ่านการสังเคราะห์ และการจัดการค่าที่ขัดแย้ง

แนวคิด

provenance คือที่มาของข้อมูล ในระบบวิจัยหลาย agent การรักษา provenance ผ่านขั้นสังเคราะห์คือความท้าทายหลัก เมื่อ finding จากหลายแหล่งถูกบีบรวมกันโดยไม่รักษาการจับคู่ระหว่างคำกล่าวอ้างกับแหล่งที่มา source attribution จะหายไป ผลคือรายงานที่พูดข้อเท็จจริงได้ แต่บอกไม่ได้ว่าข้อเท็จจริงนั้นมาจากไหน

ทางแก้คือให้ subagent output เป็น claim-source mapping ที่มีโครงสร้าง คือจับคู่แต่ละคำกล่าวอ้างกับแหล่งของมัน เช่น URL ชื่อเอกสาร และข้อความที่ยกมา แล้ว synthesis agent ต้องรักษาและรวมการจับคู่นี้ไว้ตอนสังเคราะห์ ไม่ใช่ทิ้งมันแล้วเหลือแต่ข้อความเรียบ ๆ ที่ไร้ที่มา

เมื่อเจอสถิติที่ขัดแย้งกันจากแหล่งที่น่าเชื่อถือทั้งคู่ ทางที่ถูกไม่ใช่เลือกค่าใดค่าหนึ่งตามอำเภอใจ แต่คือกำกับความขัดแย้งไว้พร้อมระบุแหล่งของแต่ละค่า ให้ผู้อ่านหรือขั้นถัดไปตัดสินเอง และต้องระวังเรื่องเวลาด้วย บางครั้งค่าที่ดูขัดแย้งจริง ๆ แค่มาจากคนละช่วงเวลา การกำหนดให้ output มีวันที่เผยแพร่หรือวันที่เก็บข้อมูลจึงกันไม่ให้ความต่างของเวลาถูกตีความผิดว่าเป็นความขัดแย้ง

ทำไมสำคัญ

เอกสาร citations ของ Anthropic ให้กลไกที่ตรงกับแนวคิด provenance โดยตรง มันคืนข้อความต้นฉบับที่สนับสนุนแต่ละคำกล่าวอ้าง เช่น cited_text พร้อมตำแหน่งในเอกสาร เพื่อให้ผู้ใช้ตรวจสอบคำตอบและเห็นแหล่งที่มาได้ หลักการคือ ground คำตอบไว้กับเอกสารต้นทาง ซึ่งเป็นหัวใจเดียวกับการรักษา claim-source mapping ผ่านการสังเคราะห์ คือทุกคำกล่าวอ้างต้องสาวกลับไปหาที่มาได้เสมอ

เอกสาร reduce hallucinations เสริมว่าการให้โมเดลยก quote สนับสนุนทุกคำกล่าวอ้าง และถ้าหา quote ไม่ได้ต้องถอนคำกล่าวอ้างนั้น ช่วยลดการกุข้อมูลได้มาก หลักนี้บังคับให้ทุกข้อความในรายงานผูกกับหลักฐาน ซึ่งพอนำมาใช้ในบริบทหลาย agent ก็แปลว่า synthesis agent ห้ามสร้างคำกล่าวอ้างที่ไม่มีแหล่งรองรับ และห้ามทำแหล่งหายระหว่างรวม finding

สิ่งที่ต้องเข้าใจให้ลึกคือ การรักษา provenance ต้องเริ่มตั้งแต่ต้นน้ำ ถ้า subagent คืนแค่เนื้อหากับ reasoning ยาว ๆ โดยไม่แนบแหล่ง synthesis agent ก็ไม่มีอะไรให้รักษา จึงต้องกำหนดให้ subagent คืน structured claim-source mapping ตั้งแต่แรก และควรเรนเดอร์เนื้อหาแต่ละชนิดให้เหมาะกับรูปแบบของมันในผลลัพธ์สุดท้าย เช่น ข้อมูลการเงินเป็นตาราง ข่าวเป็นร้อยแก้ว และ finding เชิงเทคนิคเป็นรายการมีโครงสร้าง แทนที่จะบีบทุกอย่างให้เป็นรูปแบบเดียวกัน เพราะการบีบให้เหมือนกันหมดมักทำให้บริบทและที่มาเลือนหาย

ตัวอย่าง

{
  "claim": "ตลาดโต 12% ในปี 2025",
  "sources": [
    { "name": "ReportA", "url": "...", "excerpt": "...12% YoY...",
      "published": "2025-11" }
  ],
  "conflict": {
    "value_b": "9%",
    "source_b": { "name": "ReportB", "collected": "2024-Q4" },
    "note": "ค่าต่างกันอาจเพราะคนละช่วงเวลา ไม่ใช่ขัดแย้งจริง"
  }
}

การกำกับความขัดแย้งพร้อมแหล่งและวันที่ ทำให้ขั้นถัดไปตัดสินได้ว่าจะกระทบยอดอย่างไร แทนการเลือกค่าเดียวมั่ว ๆ

เช็คความเข้าใจ

เมื่อ finding จากหลายแหล่งถูกสังเคราะห์รวมกัน provenance หายไปได้อย่างไร และแก้อย่างไร

เมื่อเจอสถิติที่ขัดแย้งจากแหล่งที่น่าเชื่อถือทั้งคู่ ควรทำอย่างไร และทำไมต้องมีวันที่

รักษา provenance ผ่านการสังเคราะห์ และการจัดการค่าที่ขัดแย้ง

แนวคิด

ทำไมสำคัญ

ตัวอย่าง

เช็คความเข้าใจ

อ่านต่อ