Chuyên Mục Công Nghệ

Ứng dụng OCR và OCV trong kiểm tra thông tin bao bì sản phẩm

By Tạ Minh Chiến / 14/10/2015 / Xử lý ảnh / Bình luận về bài viết này

Thật oái ăm là trong khi các hộp mực và đầu in của máy in thường bị nghẽn mà không được phát hiện thì việc in thiếu hay in sai chỉ một chút xíu thông tin về hạn sử dụng sản phẩm lại có thể làm cho cả một lô hàng dễ hư hỏng bị gửi trả lại. Cách duy nhất để đảm bảo rằng tất cả các thông tin đã được in đúng là phải kiểm tra, bằng cách quan sát, tất cả các chi tiết của sản phẩm. Đối với con người thì việc kiểm tra này là một việc mất thời gian và mệt mỏi, vậy nên nếu quy trình sản xuất chạy quá nhanh thì có thể ta phải dựa vào việc kiểm tra ngẫu nhiên. Trong những trường hợp như vậy, các hệ thống xử lý hình ảnh có thể hỗ trợ. Nhưng đâu là những tính năng mà một hệ thống cần có để đảm bảo nó có thể giám sát tất cả các nhãn in sản phẩm một cách đáng tin cậy và ổn định.

Theo luật, bao bì của các sản phẩm về thực phẩm, y tế, và mỹ phẩm phải chứa nhiều thông tin cụ thể. Công nghệ xử lý hình ảnh công nghiệp cho phép kiểm tra toàn bộ các nhãn in này một cách chính xác và hiệu quả.

Ở Đức, sản lượng thực phẩm hàng năm đạt đến mức 148 tỷ euro (số liệu năm 2009 theo Văn phòng Thống kê Liên bang), và mỗi món hàng phải được đóng gói và dán nhãn phù hợp với nhiều quy định. Hệ thống Mã Nhãn Hàng hoá Thực phẩm Đức (LMKV = Lebensmittel-Kennzeichnungsverordnung) liệt kê một số yêu cầu về những thông tin bắt buộc phải xuất hiện trên mỗi bao bì, trong đó có tên sản phẩm, thành phần, điều kiện bảo quản, và ngày hết hạn hay hạn sử dụng tốt nhất. Để đẩy nhanh quá trình in ấn và đảm bảo tính thống nhất, các thông tin cố định (tên sản phẩm, thành phần, vân vân) thường được in sẵn trên nhãn sản phẩm. Các thông tin thay đổi (ngày, số thứ tự lô hàng) được in sau lên các vùng còn trống trên nhãn sau khi các thành phần dễ hư hỏng đã được đóng gói. Thông thường, các máy in phun hay in laser được dùng cho bước in thứ hai. Điều này làm nảy sinh câu hỏi: Ta phải làm gì để đảm bảo, đầu tiên, là các thông tin chính xác đã được in ra, và sau đó, là những thông tin này có thể đọc được? Làm sao để phát hiện các lỗi hay thiếu sót trên nhãn sản phẩm một cách đáng tin cậy trước khi các sản phẩm thực phẩm được xuất xưởng?

Kiểm tra ngẫu nhiên vẫn chưa đủ
Việc kiểm tra ngẫu nhiên bằng phương pháp thủ công tất nhiên là một bước đi đúng hướng. Tuy nhiên, để đạt được những kết quả nhất quán và lưu trữ những kết quả này lại thì cần phải đầu tư nhiều vào con người và cho dù có làm vậy đi chăng nữa thì công việc vẫn hết sức khó khăn. Kỹ thuật xử lý ảnh công nghiệp có thể đem lại những thông tin đáng tin cậy hơn nhiều. Khi bàn về xử lý ảnh, có hai thuật ngữ quan trọng mà ta phải phân biệt một cách cẩn thận:

Nhận dạng ký tự bằng phương pháp quang học (Optical Character Recognition, OCR): OCR được dùng để xác định nội dung của một dãy ký tự chưa biết. Tuy nhiên, nó không đảm bảo rằng những gì được in có ý nghĩa hợp lý cũng như nó không đảm bảo được rằng bản in không có lỗi.
Xác nhận ký tự bằng phương pháp quang học (Optical Character Verification): OCV xác định chất lượng in ấn của một dãy ký tự đã biết trước bằng cách so sánh nó với một hình ảnh tham chiếu.

So sánh OCR và OCV

Căn bản về OCR và OCV

OCR và OCV được dùng cho các mục đích khác nhau và sử dụng các giải thuật khác nhau, tuy nhiên cả hai đều có chung một số bước xử lý cơ bản ban đầu. Trước khi phần văn bản có thể được đọc hay chất lượng in ấn của nó được đánh giá, vị trí của các ký tự trong ảnh phải được xác định. Lý do là vì kỹ thuật in phun liên tục, vốn được sử dụng rộng rãi trong lĩnh vực in công nghiệp, có thể làm cho các ký tự trong hình ảnh được phân tích bị dịch chuyển một cách đáng kể. Một khi tác vụ này được thực hiện thành công, quá trình xử lý chính có thể được bắt đầu.

Mục tiêu của OCR là xác định ký tự hay con số nào trông giống một phần của hình được in nhất. Để thực hiện phân tích này, các giải thuật cao cấp như mạng neuron nhân tạo (artificial neural network) được sử dụng. Kỹ thuật này cố gắng bắt chước kiểu suy nghĩ của con người bằng một chương trình máy tính để đạt được các kết quả giống “người”. Kết quả của thao tác này là mỗi vùng của bức ảnh được gán cho một ký tự tương ứng. Các ký tự này sau đó có thể được kết hợp lại với nhau để tạo thành nội dung của văn bản. Tuy nhiên, chuỗi ký tự và con số này không phải lúc nào cũng tạo thành một đoạn văn rõ nghĩa đối với con người. Chẳng hạn, một đốm tròn lớn có thể được dịch thành một con số 0 do nó là ký tự gần giống nhất với phần hình ảnh này.

Mục đích của OCV, trái lại, là để xác định mức độ tương tự giữa một phần bản in với một ký tự tham chiếu được định trước. Bất kỳ sự khác biệt nào đối với bản tham chiếu đều có thể được xem như là sự thay đổi trong chất lượng của bản in. Lẽ dĩ nhiên, ký tự được dùng để làm gốc so sánh phải được định trước. Nói cách khác, nội dung của bản in phải được biết trước.

Kỹ thuật nào cho tác vụ nào?
Để xác định nội dung của bản in, ta cần OCR. Chẳng hạn như khi một chi tiết phải được nhận dạng nhờ một con số được in trên đó. Trái lại, nếu mục tiêu là xác định lỗi trong một bản in, chẳng hạn như khi kiểm tra việc in hạn sử dụng trên bao bì sản phẩm, thì ta cần OCV. Trong trường hợp này, nội dung của bản in (là hạn sử dụng chính xác) phải được biết trước. Việc đảm bảo thông tin này được đưa vào hệ thống xử lý ảnh không phải là việc dễ dàng, nhất là khi thông tin được in ra thay đổi liên tục. Nhiều máy in không có tính năng thông báo về những gì đang được in, và ngay cả nếu máy in có tính năng này thì nó phải được đồng bộ chính xác với hệ thống xử lý hình ảnh. Một giải pháp lai kết hợp OCR và OCV làm đơn giản quy trình này một cách đáng kể. Đầu tiên OCR đọc nội dung của bản in. Sau đó, chất lượng và ngữ nghĩa của các ký tự được in ra có thể được xác định nhờ OCV. Vậy nên OCR thường là thành phần không thể thiếu ngay cả đối với các hệ thống chỉ làm việc giám sát nhãn in.

Máy móc chuyên dụng
Nhìn chung, có thể nói rằng OCR là một nhiệm vụ khó khăn đối với máy móc Một ví dụ ư, hãy nghĩ xem tại sao một số trang web sử dụng “captchas” để kiểm soát việc truy cập. Những “captchas” này là các hình ảnh nhỏ chứa các ký tự bị làm biến dạng mà người dùng phải nhận ra và nhập vào. Do không có máy móc nào có khả năng đọc chính xác loại chữ lộn xộn như vậy nên hệ thống có khả năng chống lại việc các chương trình máy tính thử hàng triệu mật mã để truy cập vào các tài khoản e-mail riêng tư. Đọc các ký tự không phải là việc đơn giản đối với các hệ thống xử lý hình ảnh. Để thực hiện điều này một cách đáng tin cậy, nhất là trong một hệ thống in công nghiệp dung lượng cao, ta cần có một hệ thống được thiết kế đặc biệt để giám sát các thông tin sản phẩm được in ra.

Một số lỗi in ấn thường gặp trong các máy in phun công nghiệp

(Phần còn lại của bản báo cáo kỹ thuật này là các thông tin giới thiệu sản phẩm. Bạn đọc nếu quan tâm xin mời xem bản tiếng Anh theo đường dẫn dưới đây.)

Nguyên bản tiếng Anh: “OCR vs. OCV – Monitoring of Printed Product Information,” Martin Koch and Andreas Döring, BAUMER Technical Report
Người dịch: Tạ Minh Chiến