การรู้จำอักขระด้วยแสงสำหรับภาษาไทย







26/11/2565

กรุณาบุ๊คมาร์คหน้านี้



การรู้จำอักขระด้วยแสง (OCR) คือ การแปลงทางอิเล็กทรอนิกส์หรือทางกลของรูปภาพที่พิมพ์ เขียนด้วยลายมือ หรือพิมพ์เป็นข้อความที่เข้ารหัสด้วยเครื่อง ไม่ว่าจะเป็นจากเอกสารที่สแกน ภาพถ่ายเอกสาร ภาพถ่ายฉาก (เช่น ข้อความบนป้ายและป้ายโฆษณาในแนวนอน ภาพถ่าย) หรือจากข้อความคำบรรยายที่ซ้อนทับบนภาพ (เช่น จากการออกอากาศทางโทรทัศน์)

ใช้กันอย่างแพร่หลายในการป้อนข้อมูลจากบันทึกกระดาษที่พิมพ์ออกมา ไม่ว่าจะเป็นหนังสือเดินทาง ใบแจ้งหนี้ ใบแจ้งยอดจากธนาคาร ใบเสร็จทางคอมพิวเตอร์ นามบัตร จดหมาย การพิมพ์ข้อมูลคงที่ หรือเอกสารอื่นๆ ที่เหมาะสม ซึ่งเป็นวิธีการทั่วไปในการแปลงข้อความที่พิมพ์ออกมาเป็นดิจิทัลเพื่อให้สามารถ ถูกแก้ไขด้วยระบบอิเล็กทรอนิกส์ ค้นหา จัดเก็บให้กะทัดรัดยิ่งขึ้น แสดงออนไลน์ และใช้ในกระบวนการของเครื่องจักร เช่น การประมวลผลทางปัญญา การแปลด้วยคอมพิวเตอร์ และ (แยก) ข้อความเป็น sp OCR เป็นสาขาย่อยของการศึกษาการจดจำรูปแบบที่ครอบคลุมปัญญาประดิษฐ์และ คอมพิวเตอร์วิทัศน์

เวอร์ชันก่อนๆ จำเป็นต้องมีการฝึกอบรมด้วยรูปถ่ายของตัวละครแต่ละตัวและทำงานบนแบบอักษรเดียวในแต่ละครั้ง ระบบขั้นสูงที่สามารถระบุได้อย่างแม่นยำในระดับสูงสำหรับแบบอักษรส่วนใหญ่นั้นมีอยู่ทั่วไป เช่นเดียวกับระบบที่ยอมรับรูปแบบไฟล์รูปภาพดิจิทัลจำนวนหนึ่งเป็นอินพุต ระบบบางระบบสามารถจำลองรูปแบบเอาต์พุตที่คล้ายกับหน้าต้นฉบับมากที่สุด รวมทั้งกราฟิก คอลัมน์ และส่วนประกอบอื่นๆ ที่ไม่ใช่ข้อความ