Tiêu chuẩn quốc gia TCVN 14159-1:2024 (hoàn toàn tương đương với tiêu chuẩn quốc tế ISO 19005-1:2005) về "Quản lý tài liệu - Định dạng tệp tài liệu điện tử cho bảo quản lâu dài - Phần 1: Sử dụng PDF 1.4 (PDF/A-1)" là văn bản kỹ thuật quan trọng quy định các yêu cầu đối với định dạng tệp tài liệu điện tử nhằm bảo đảm khả năng lưu trữ, truy cập và hiển thị chính xác trong thời gian dài.
Phạm vi và đối tượng áp dụng
Tiêu chuẩn này áp dụng đối với các cơ quan, tổ chức, cá nhân tham gia vào hoạt động quản lý tài liệu, lưu trữ hồ sơ điện tử, và phát triển phần mềm liên quan đến việc tạo lập, chuyển đổi hoặc đọc các tệp PDF/A-1. Tiêu chuẩn thiết lập các nguyên tắc kỹ thuật nghiêm ngặt để đảm bảo tài liệu điện tử giữ nguyên tính toàn vẹn, khả năng đọc và cấu trúc ngữ nghĩa qua nhiều thế hệ công nghệ phần cứng và phần mềm khác nhau. Tiêu chuẩn phân chia thành hai mức độ phù hợp chính: Mức độ A (phù hợp hoàn toàn về cấu trúc và ngữ nghĩa) và Mức độ B (phù hợp tối thiểu về hiển thị trực quan).
Cấu trúc logic và các yêu cầu đối với tệp phù hợp mức độ A (Điều 6.8)
Các quy định tại Điều 6.8 chủ yếu áp dụng cho các tệp đáp ứng mức độ phù hợp A (Level A), trong khi các tệp phù hợp mức độ B (Level B) có thể bỏ qua các yêu cầu này. Mục tiêu cốt lõi là đảm bảo khôi phục chính xác nội dung văn bản theo thứ tự đọc tự nhiên và bảo toàn thông tin ngữ nghĩa mức độ cao liên quan đến cấu trúc logic của tài liệu. Các yêu cầu chi tiết bao gồm:
- Yêu cầu về PDF được gắn thẻ: Tệp phù hợp mức độ A phải đáp ứng toàn bộ yêu cầu đối với PDF được gắn thẻ. Mục từ thư mục tài liệu bắt buộc phải chứa mục từ MarkInfo với mục nhập Marked có giá trị là true để xác nhận tệp tuân thủ các quy ước về PDF được gắn thẻ.
- Quản lý đồ tạo tác (Artifacts): Các yếu tố phân trang (như đầu trang, số trang), bố cục thẩm mỹ (quy tắc chú thích cuối trang, màn hình nền) và công cụ hỗ trợ sản xuất (dấu cắt, thanh màu) phải được định nghĩa rõ ràng là các đồ tạo tác phân trang, bố cục hoặc tạo trang.
- Quy tắc ngắt chữ: Đối với các ngôn ngữ sử dụng khoảng trống để ngắt chữ, ngắt chữ phải được biểu thị rõ ràng bằng một hoặc nhiều ký tự khoảng trống trong chuỗi hiển thị. Ranh giới của chuỗi hiển thị không được coi là ký hiệu ngắt chữ tự động nếu không có ký tự khoảng trống thực tế.
- Cấp bậc cấu trúc: Cấu trúc logic của tệp phải được mô tả thông qua cấp bậc cấu trúc gắn vào mục nhập StructTreeRoot của mục từ thư mục tài liệu. Mỗi mục từ phần tử cấu trúc nên có mục nhập Type với giá trị là StructElem. Trình ghi phải nỗ lực ghi lại cấu trúc logic ở mức chi tiết nhất bằng cách sử dụng các kiểu cấu trúc tiêu chuẩn (khối-mức, dạng đoạn, danh sách, bảng, nội tuyến, liên kết, minh họa).
- Kiểu cấu trúc và ánh xạ vai trò: Các phần tử cấu trúc khối-mức phải tuân theo mô hình cấu trúc mạnh. Mọi kiểu cấu trúc phi tiêu chuẩn bắt buộc phải được ánh xạ về kiểu tiêu chuẩn tương đương gần nhất trong mục từ vai trò ánh xạ của rễ cây cấu trúc.
- Đặc tả ngôn ngữ tự nhiên: Ngôn ngữ mặc định của toàn bộ văn bản phải được khai báo bằng mục nhập Lang trong mục từ thư mục tài liệu. Các đoạn văn bản sử dụng ngôn ngữ khác ngôn ngữ mặc định phải được khai báo riêng bằng đặc tính Lang trong chuỗi nội dung được đánh dấu hoặc mục từ phần tử cấu trúc, sử dụng mã định danh ngôn ngữ theo chuẩn RFC 1766.
- Mô tả thay thế và văn bản thay thế: Các phần tử phi văn bản (hình ảnh, công thức) phải cung cấp mô tả văn bản thay thế thông qua mục nhập Alt. Các phần tử văn bản được trình bày phi tiêu chuẩn (ký tự tùy chỉnh, đồ họa nội tuyến) phải sử dụng mục nhập ActualText để cung cấp văn bản tương đương.
- Chú giải phi văn bản và chữ viết tắt: Chú giải không hiển thị văn bản phải sử dụng khóa Contents để mô tả nội dung ở dạng con người đọc được. Các chữ viết tắt và từ viết tắt phải được đặt trong chuỗi nội dung đánh dấu bằng thẻ Span có đặc tính E để cung cấp nội dung mở rộng đầy đủ.
Mẫu tương tác và trường dữ liệu (Điều 6.9)
Nhằm đảm bảo tính rõ ràng và nhất quán khi hiển thị các trường mẫu, tiêu chuẩn đưa ra các giới hạn nghiêm ngặt đối với mẫu tương tác:
- Trình đọc phù hợp không được phép sử dụng các trường mẫu để thay đổi cách thể hiện kết xuất của trang hoặc nội dung tệp tại bất kỳ thời điểm nào.
- Mục từ chú giải Ứng dụng nhỏ (Widget) hoặc mục từ Trường (Field) nghiêm cấm chứa khóa A (Hành động) hoặc AA (Hành động bổ sung).
- Cờ NeedAppearances của mẫu tương tác không được xuất hiện hoặc nếu có thì phải có giá trị là false.
- Mọi trường mẫu bắt buộc phải có mục từ hình thức (appearance dictionary) liên kết với dữ liệu trường để đảm bảo trình đọc kết xuất chính xác giao diện của trường mà không phụ thuộc vào dữ liệu mẫu.
Tóm tắt sự phù hợp PDF/A-1 (Phụ lục A)
Phụ lục A cung cấp bảng đối chiếu chi tiết về trạng thái của các toán tử, đối tượng và khóa trong PDF 1.4 khi áp dụng cho PDF/A-1, phân loại theo các trạng thái: Yêu cầu (bắt buộc), Cấm (không được phép sử dụng), Hạn chế (chỉ sử dụng dưới các ràng buộc cụ thể), Khuyến nghị, và Bỏ qua (bị bỏ qua bởi trình đọc phù hợp).
- Trạng thái của một số toán tử chính: Các toán tử thiết lập không gian màu và màu sắc như CS, cs, K, k, RG, rg và toán tử ý định kết xuất ri bị hạn chế sử dụng. Tất cả các toán tử không được quy định trong Tài liệu viện dẫn PDF đều bị nghiêm cấm.
- Trạng thái của các đối tượng và khóa quan trọng:
- AcroForm / NeedAppearances: Bị hạn chế.
- Action: Khóa N (NOP) bị cấm; khóa S với giá trị Named bị hạn chế; các giá trị hành động khác như JavaScript, Launch, Movie, Sound, ResetForm bị nghiêm cấm.
- Annot (Chú giải): Khóa AA bị cấm; khóa CA bị hạn chế; các kiểu chú giải đính kèm tệp (FileAttachment), âm thanh (Sound), phim (Movie) bị nghiêm cấm.
- Catalog (Thư mục tài liệu): Khóa Metadata là bắt buộc; khóa OCProperties (thuộc tính nội dung tùy chọn/lớp) bị nghiêm cấm để đảm bảo tính đồng nhất khi hiển thị.
- Font (Phông chữ): Chương trình phông chữ cho tất cả các phông chữ sử dụng trong tệp phải được nhúng hoàn toàn (trừ trường hợp phông chữ Type 3 hoặc chế độ kết xuất văn bản 3). Khóa ToUnicode là bắt buộc đối với mức độ phù hợp A. Khóa Widths bị trình đọc bỏ qua.
- Trailer (Đoạn giới thiệu tệp): Khóa Encrypt bị nghiêm cấm (không cho phép mã hóa hoặc đặt mật khẩu bảo vệ tệp để đảm bảo khả năng tiếp cận lâu dài); khóa ID (mã định danh tệp) là bắt buộc.
- XObject: Định dạng Subtype PS (PostScript) và các thuộc tính OPI, Ref bị nghiêm cấm. Đối với hình ảnh (Subtype Image), khóa Alternates bị cấm, khóa SMask (mặt nạ mềm) bị hạn chế.
Thực hành tốt cho PDF/A (Phụ lục B)
Phụ lục B đưa ra các khuyến nghị thực hành tối ưu nhằm hỗ trợ quá trình số hóa, chụp và chuyển đổi tài liệu sang định dạng PDF/A phục vụ lưu trữ lâu dài:
- Sử dụng siêu dữ liệu: Không khuyến khích sử dụng siêu dữ liệu không phải định dạng XMP ở mức độ tệp. Nếu có siêu dữ liệu phi XMP, cần chuyển đổi chúng sang định dạng XMP, nhúng vào tệp và ghi nhận lịch sử chuyển đổi trong đặc tính xmp:History để tránh mất mát thông tin định vị, quản lý và xác thực trong tương lai.
- Định danh ngôn ngữ tự nhiên: Khuyến nghị sử dụng các mã định danh ngôn ngữ được đăng ký theo tiêu chuẩn ISO 639-1, TCVN 7217-1 (ISO 3166-1) hoặc IANA. Trường hợp ngôn ngữ hoàn toàn không xác định, sử dụng mã x-unknown.
- Khuyến nghị khi chụp và chuyển đổi tài liệu:
- Các cơ quan lưu trữ được khuyến khích áp dụng mức độ phù hợp A để bảo toàn tối đa giá trị ngữ nghĩa và cấu trúc của tài liệu.
- Quá trình chuyển đổi không được sử dụng các thuật toán nén có tổn hao (lossy compression), giảm mẫu (downsampling) hoặc bất kỳ quy trình nào làm suy giảm chất lượng dữ liệu nguồn.
- Nghiêm cấm việc tự động thay thế văn bản gốc được quét bằng văn bản nhận dạng ký tự quang học (OCR) trực tiếp trong hình ảnh ánh xạ-bit mà không có sự xác thực thích hợp, vì quy trình OCR tự động có thể diễn giải sai ký tự và làm mất tính xác thực của tài liệu gốc.
Hiệu lực thi hành
Tiêu chuẩn quốc gia TCVN 14159-1:2024 được xây dựng dựa trên việc chấp nhận hoàn toàn tiêu chuẩn quốc tế ISO 19005-1:2005. Tình trạng hiệu lực và ngày áp dụng cụ thể của tiêu chuẩn này tại Việt Nam phụ thuộc vào quyết định công bố của cơ quan quản lý nhà nước có thẩm quyền và chưa được trích xuất chi tiết trong nguồn dữ liệu hiện tại.
Để sử dụng toàn bộ tiện ích nâng cao của Hệ Thống Pháp Luật vui lòng lựa chọn và đăng ký gói cước.
TIÊU CHUẨN QUỐC GIA
TCVN 14159-1:2024
ISO 19005-1:2005
QUẢN LÝ TÀI LIỆU - ĐỊNH DẠNG TỆP TÀI LIỆU ĐIỆN TỬ CHO BẢO QUẢN LÂU DÀI – PHẦN 1: SỬ DỤNG PDF 1.4 (PDF/A-1)
Document management - Electronic document file format for long-term preservation - Part 1: Use of PDF 1.4 (PDF/A-1)
Lời nói đầu
TCVN 14159-1:2024 hoàn toàn tương đương với ISO 19005-1:2005 và đính chính kỹ thuật 1:2007, đính chính kỹ thuật 2:2011.
TCVN 14159-1:2024 do Thư viện Quốc gia Việt Nam biên soạn, Bộ Văn hóa, Thể thao và Du lịch đề nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học và Công nghệ công bố.
Bộ TCVN 14159 (ISO 19005) Quản lý tài liệu - Định dạng tệp tài liệu cho bảo quản lâu dài gồm 2 phần:
- TCVN 14159-1:2024 (ISO 19005-1:2005), Phần 1: Sử dụng PDF 1.4 (PDF/A-1);
- TCVN 14159-2:2024 (ISO 19005-2:2011), Phần 2: Sử dụng ISO 32000- 1 (PDF/A-2);
Bộ ISO 19005 Document management còn các phần sau:
- ISO 19005-3:2012, Part 3: Use of ISO 32000-1 with support for embedded files (PDF/A-3) (sử dụng ISO 32000-1 với hỗ trợ cho tệp nhúng (PDF/A-3);
- ISO 19005-4:2020, Part 4: Use of ISO 32000-2 (PDF/A-4) (sử dụng ISO 32000-2 (PDF/A-4).
Lời giới thiệu
PDF là một định dạng số để trình bày tài liệu. Các tệp PDF có thể ở dạng nguyên bản PDF, được chuyển đổi từ định dạng điện tử hoặc số hóa từ giấy, vi dạng, hoặc dạng bản cứng khác. Các doanh nghiệp, chính phủ, thư viện, cơ quan lưu trữ, các tổ chức và cá nhân trên toàn thế giới sử dụng PDF để trình bày các phần chính yếu của nội dung thông tin quan trọng. Phần lớn thông tin này cần được lưu giữ trong một khoảng thời gian dài; một số cần được lưu trữ vĩnh viễn. Những tệp PDF này phải có khả năng sử dụng và truy cập qua nhiều thế hệ công nghệ khác nhau. Việc sử dụng và truy cập vào những đối tượng này trong tương lai phụ thuộc vào việc duy trì hình thức trực quan cũng như các đặc tính bậc cao của chúng, như tính tổ chức logic của các trang, các phần và các đoạn, dòng văn bản có khả năng tự khôi phục theo trật tự đọc tự nhiên, đa dạng trong quản lý, bảo quản và mô tả siêu dữ liệu.
Tập đoàn Adobe công bố các đặc tả của PDF. Tuy nhiên, trong nhiều trường hợp, bản chất tính năng phong phú của định dạng đòi hỏi phải bổ sung các ràng buộc khi sử dụng nhằm phù hợp với việc bảo quản lâu dài tài liệu điện tử.
Mục đích chính của tiêu chuẩn này là quy định một định dạng tệp dựa trên PDF, được gọi là PDF/A, nhằm cung cấp cơ chế trình bày tài liệu điện tử theo đúng cách thức để bảo quản hình thức trực quan của tài liệu theo thời gian, không phụ thuộc vào các công cụ và hệ thống được sử dụng để tạo lập, lưu trữ hoặc kết xuất tệp.
Mục đích thứ hai tiêu chuẩn này là cung cấp một bộ khung để ghi lại bối cảnh và lịch sử của tài liệu điện tử ở dạng siêu dữ liệu trong các tệp phù hợp.
Một mục đích khác của tiêu chuẩn này là quy định một bộ khung để trình bày cấu trúc logic và các thông tin ngữ nghĩa khác của tài liệu điện tử trong các tệp phù hợp.
Những mục tiêu này được thực hiện bằng cách định danh một bộ các thành phần PDF có thể sử dụng được và những hạn chế về mẫu sử dụng chúng, trong tệp PDF/A phù hợp.
PDF/A không nhất thiết phải đảm bảo rằng hình thức trực quan của nội dung phải phản ánh chính xác bất kỳ tài liệu nguồn ban đầu nào được sử dụng để tạo lập một tệp phù hợp; ví dụ q
Để xem đầy đủ nội dung và sử dụng toàn bộ tiện ích của Hệ Thống Pháp Luật vui lòng lựa chọn và đăng ký gói cước.
Nếu bạn đã là thành viên, hãy bấm:
- 1Tiêu chuẩn Việt Nam TCVN 6909:2001 (ISO/IEC 10646-1 : 2000) về công nghệ thông tin - Bộ mã kí tự tiếng Việt 16-bit do Bộ Khoa học Công nghệ và Môi trường ban hành
- 2Tiêu chuẩn quốc gia TCVN 5712:1999 về Công nghệ thông tin - Bộ mã ký tự tiếng Việt 8-bit
- 3Tiêu chuẩn quốc gia TCVN 7217-1:2007 (ISO 3166-1 : 2006) về Mã thể hiện tên và vùng lãnh thổ của các nước - Phần 1: Mã nước
- 4Tiêu chuẩn quốc gia TCVN 7420-1:2004 (ISO 15489-1:2001) về Thông tin và tư liệu - Quản lý hồ sơ - Phần 1: Yêu cầu chung
- 5Tiêu chuẩn quốc gia TCVN 6380:2007 (ISO 2108:2005) về Thông tin và tư liệu - Mã số tiêu chuẩn Quốc tế cho sách (ISBN)
- 6Tiêu chuẩn quốc gia TCVN 11280:2015 về Hoạt động thư viện - Thuật ngữ và định nghĩa về tổ chức kho và bảo quản tài liệu
- 7Tiêu chuẩn quốc gia TCVN 7962:2017 (ISO GUIDE 31:2015) về Mẫu chuẩn - Nội dung của giấy chứng nhận, nhãn và tài liệu kèm theo
- 8Tiêu chuẩn quốc gia TCVN 14159-2:2024 (ISO 19005-2:2011) về Quản lý tài liệu - Định dạng tệp tài liệu điện tử cho bảo quản lâu dài - Phần 2: Sử dụng ISO 32000-1 (PDF/A-2)
Tiêu chuẩn quốc gia TCVN 14159-1:2024 (ISO 19005-1:2005) về Quản lý tài liệu - Định dạng tệp tài liệu điện tử cho bảo quản lâu dài - Phần 1: Sử dụng PDF 1.4 (PDF/A-1)
- Số hiệu: TCVN14159-1:2024
- Loại văn bản: Tiêu chuẩn Việt Nam
- Ngày ban hành: 01/01/2024
- Nơi ban hành: ***
- Người ký: ***
- Ngày công báo: Đang cập nhật
- Số công báo: Đang cập nhật
- Ngày hiệu lực: 11/06/2026
- Tình trạng hiệu lực: Kiểm tra
