Tiêu chuẩn quốc gia TCVN 14481-1:2025 (hoàn toàn tương đương với tiêu chuẩn quốc gia ISO/IEC 19944-1:2020) về Tính toán đám mây và các nền tảng phân tán - Luồng dữ liệu, loại dữ liệu và sử dụng dữ liệu - Phần 1: Yêu cầu cơ bản thiết lập một khung quản lý dữ liệu dựa trên rủi ro nhằm tối đa hóa việc khai thác dữ liệu đồng thời kiểm soát chặt chẽ các nghĩa vụ pháp lý liên quan. Tiêu chuẩn này hướng tới việc cải thiện tính minh bạch trong mô tả luồng dữ liệu, giảm thiểu rủi ro nhầm lẫn và tăng cường hiệu quả giao tiếp giữa bên cung cấp dịch vụ đám mây (CSP), bên đối tác dịch vụ đám mây (CSN) và khách hàng sử dụng dịch vụ đám mây (CSC) thông qua các tuyên bố sử dụng dữ liệu có cấu trúc rõ ràng, tự nhiên và không mơ hồ.
Đồng kiểm soát và thay đổi quyền kiểm soát vòng đời dữ liệu (Điều 8)
Tiêu chuẩn phân tích sâu sắc về cơ chế kiểm soát dữ liệu trong môi trường đám mây phân tán, đặc biệt nhấn mạnh vào các khía cạnh sau:
- Đồng kiểm soát dữ liệu (Joint Data Control): Là tình huống quyền kiểm soát dữ liệu trên thực tế thuộc về nhiều bên cùng lúc (giữa các tổ chức, các cá nhân hoặc kết hợp cả hai). Điển hình là trường hợp tổ chức xử lý dữ liệu chứa thông tin định danh cá nhân (PII), trong đó chủ thể PII có quyền kiểm soát hoạt động (cập nhật, xóa hoặc hạn chế xử lý) song song với quyền kiểm soát của tổ chức. Một trường hợp khác là việc chia sẻ dữ liệu giữa các tổ chức thông qua thỏa thuận chia sẻ dữ liệu (DSA), nơi bên cung cấp áp đặt các hạn chế pháp lý lên bên tiếp nhận.
- Thay đổi quyền kiểm soát vòng đời dữ liệu: Trạng thái dữ liệu (cá nhân hay tổ chức) và số lượng tổ chức có quyền kiểm soát đối tượng dữ liệu có thể thay đổi liên tục trong suốt vòng đời của nó. Ví dụ, một bức ảnh do cá nhân chụp ban đầu là dữ liệu cá nhân, nhưng khi tải lên dịch vụ truyền thông xã hội, tổ chức cung cấp dịch vụ có thể giành được quyền kiểm soát một phần hoặc toàn bộ theo thỏa thuận người dùng. Khi bức ảnh được dùng để huấn luyện thuật toán nhận dạng hình ảnh, mô hình học máy (ML) kết quả sẽ hoàn toàn là dữ liệu tổ chức.
- Kiểm soát theo pháp lý dữ liệu tổ chức: Khi tổ chức thu nhận dữ liệu, các bản sao dữ liệu sẽ đi kèm với các ràng buộc pháp lý rõ ràng (như giấy phép bản quyền) hoặc ngầm định (như nghĩa vụ bảo vệ dữ liệu và quyền riêng tư). Các ràng buộc này tồn tại xuyên suốt vòng đời dữ liệu.
Xử lý dữ liệu và các loại sử dụng dữ liệu (Điều 9)
Tiêu chuẩn định nghĩa chi tiết các kỹ thuật xử lý dữ liệu và phân loại các mục đích sử dụng dữ liệu trong hệ sinh thái đám mây:
- Phân vùng dữ liệu: Gồm phân vùng theo chiều ngang (phân mảnh - trích xuất một tập con các bản ghi/hàng thỏa mãn điều kiện logic nhất định) và phân vùng theo chiều dọc (trích xuất một tập con các thuộc tính/cột của tất cả bản ghi).
- Tích hợp dữ liệu: Quá trình tạo ra chế độ xem thống nhất từ nhiều tập dữ liệu thông qua các phương thức: liên kết dữ liệu (kết nối các bản ghi riêng lẻ giữa các tập dữ liệu), kết tập/gom dữ liệu (kết hợp các bản ghi cùng loại từ nhiều nguồn), và tích lũy dữ liệu (lưu giữ dữ liệu theo thời gian để tạo lịch sử thay đổi).
- Hợp nhất dữ liệu (Data Fusion): Kết hợp thông tin từ nhiều nguồn và thực hiện giảm thiểu hoặc thay thế để tạo ra một tập dữ liệu duy nhất có chất lượng và độ tin cậy cao hơn.
- Cải thiện dữ liệu (Data Enrichment): Bao gồm chuẩn hóa dữ liệu, xác thực và hiệu chỉnh, làm giàu dữ liệu (điền thông tin thiếu), loại bỏ dữ liệu trùng lặp và lược bỏ dữ liệu lỗi thời.
- Mã hóa và Sao chép: Sử dụng mã hóa ở trạng thái tĩnh và khi đang di chuyển để bảo vệ dữ liệu; thực hiện sao chép/nhân bản để phục hồi lỗi và tối ưu hóa tốc độ truy cập theo vị trí địa lý.
- Xóa bỏ dữ liệu: Phân biệt giữa "xóa dữ liệu" thông thường (để tái sử dụng bộ nhớ) và "xóa dữ liệu an toàn" (quá trình hủy dữ liệu điện tử không thể đảo ngược, ngăn chặn hoàn toàn khả năng khôi phục từ mọi phía).
- Định danh lại (Re-identification): Quá trình liên kết thông tin từ tập dữ liệu đã khử định danh với một chủ thể dữ liệu cụ thể bằng các kỹ thuật tích hợp dữ liệu.
- Các loại sử dụng dữ liệu cốt lõi:
- Cung cấp (Provide): Sử dụng dữ liệu để vận hành, bảo vệ khả năng hiện tại của dịch vụ và hỗ trợ hoạt động (OSS) hoặc hỗ trợ kinh doanh (BSS) theo hợp đồng.
- Cải thiện (Improve): Sử dụng dữ liệu để nâng cao chất lượng hoặc thêm các tính năng mới cho dịch vụ.
- Cá nhân hóa (Personalize): Thay đổi cách trình bày hoặc lựa chọn nội dung dành riêng cho từng người dùng dựa trên dữ liệu thu thập được.
- Cung cấp nâng cấp hoặc bán thêm (Upsell): Sử dụng dữ liệu để chào mời các năng lực hoặc tài nguyên tăng thêm có tính phí.
- Tiếp thị/quảng cáo/khuyến mãi: Gồm quảng cáo dựa trên ngữ cảnh (không dùng dữ liệu lịch sử) và quảng cáo dựa trên cá nhân hóa.
- Chia sẻ (Share): Chuyển dữ liệu sang một thực thể khác ngoài CSP của phạm vi nguồn. CSP bắt buộc phải chỉ rõ mục đích chia sẻ, kết nối mạng và quyền kiểm soát pháp lý đối với bên nhận.
- Thu thập (Collect): Thu thập, chuẩn bị và lưu trữ dữ liệu để phục vụ cho các mục đích xử lý tiếp theo (như huấn luyện AI).
- Huấn luyện (Train AI): Sử dụng dữ liệu để huấn luyện, huấn luyện lại hoặc thử nghiệm các hệ thống trí tuệ nhân tạo.
- Phạm vi (Scope) và ranh giới dữ liệu: Xác định giới hạn thu thập và sử dụng dữ liệu theo các mức độ tăng dần: Khả năng (Capability) > Ứng dụng hoặc dịch vụ > Các dịch vụ trong thỏa thuận dịch vụ đám mây > Dịch vụ đám mây của CSP > Sản phẩm và dịch vụ của CSP > Sản phẩm và dịch vụ của bên thứ ba > Bên thứ ba và bên xử lý dữ liệu.
Cấu trúc và nguyên tắc xây dựng Tuyên bố sử dụng dữ liệu (Điều 10)
Để đảm bảo tính minh bạch, mỗi hành vi sử dụng dữ liệu phải được mô tả bằng một tuyên bố có cấu trúc chặt chẽ:
- Cấu trúc cơ bản: Một tuyên bố đầy đủ (dù ở thể chủ động hay bị động) phải xác định rõ bốn yếu tố: Sử dụng dữ liệu (loại dữ liệu nào), Phạm vi nguồn (dữ liệu đến từ đâu), Phạm vi sử dụng (ứng dụng/dịch vụ nào xử lý), và Phạm vi kết quả (tập hợp các phần tử bị tác động hoặc thay đổi do quá trình sử dụng).
- Giả định thời gian: Nếu không có quy định khác, dữ liệu được coi là thu thập từ việc sử dụng trong quá khứ và hiện tại của phạm vi nguồn, và áp dụng cho việc sử dụng hiện tại cũng như tương lai của phạm vi kết quả.
- Tuyên bố sử dụng ngoại lệ: Áp dụng cho các trường hợp truy cập đặc biệt (như hỗ trợ kỹ thuật khẩn cấp hoặc xử lý thiên tai). Tuyên bố này phải chỉ rõ: Bên cấp quyền, Bên nhận cấp quyền, Sử dụng ngoại lệ, Kích hoạt cấp quyền (sự kiện kích hoạt tự động hoặc thủ công) và Thời hạn cấp quyền.
- Chia sẻ dữ liệu: Tuyên bố chia sẻ dữ liệu toàn diện phải bổ sung mô tả kết nối mạng (ví dụ: qua Internet bằng VPN mã hóa), các đặc tính bảo đảm của phạm vi kết quả, thực thể kiểm soát và vị trí địa lý lưu trữ dữ liệu của bên nhận.
- Sử dụng phương diện dữ liệu độc lập làm thuộc tính: Cho phép gắn các thuộc tính đa chiều lên đối tượng dữ liệu để mô tả chi tiết trạng thái pháp lý và kỹ thuật của dữ liệu. Ví dụ:
- Đối với thông tin riêng tư: Sử dụng tổ hợp thuộc tính [Cá nhân][Luật riêng tư] để mô tả PII.
- Đối với tài sản trí tuệ của tổ chức: Sử dụng tổ hợp thuộc tính [Tổ chức][Luật Sở hữu trí tuệ] hoặc [Hợp đồng] để mô tả dữ liệu sản phẩm của tổ chức (OPD).
Dòng truy nguyên và nguồn gốc dữ liệu (Điều 11)
Việc thiết lập dòng truy nguyên (data lineage) và nguồn gốc dữ liệu (data provenance) là chìa khóa để tăng tính minh bạch và khả năng giải thích của hệ thống:
- Truy xuất dòng dữ liệu: Bằng cách gắn thẻ các đối tượng dữ liệu với các thuộc tính phân cấp độc lập (như mức độ khử định danh, mức độ an ninh, quyền kiểm soát pháp lý), hệ thống có thể theo dõi và duy trì lịch sử biến đổi của dữ liệu qua từng giai đoạn xử lý.
- Ứng dụng thực tiễn: Giúp xác định chất lượng dữ liệu, truy vết nguồn gốc lỗi, tự động phát lại luồng dữ liệu để cập nhật, xác định quyền sở hữu trí tuệ phát sinh từ quá trình xử lý dữ liệu chung, và cung cấp nhật ký kiểm toán phục vụ tuân thủ pháp lý.
Ứng dụng trong các kịch bản Trí tuệ nhân tạo và Học máy (Điều 12 và Điều 13)
Tiêu chuẩn này đặc biệt hữu ích cho các ứng dụng học máy (ML) được triển khai trên môi trường điện toán phân tán và đám mây:
- Phân biệt dữ liệu huấn luyện và dữ liệu vận hành: Tiêu chuẩn phân định rõ ràng giữa dữ liệu dùng cho động từ phụ "huấn luyện" (dữ liệu lịch sử quy mô lớn dùng để xây dựng mô hình) và dữ liệu dùng cho động từ "cung cấp" hoặc "cải thiện" (dữ liệu đầu vào thời gian thực đưa vào mô hình đã huấn luyện để đưa ra dự báo).
- Minh bạch hóa đường ống dẫn dữ liệu (Data Pipeline): Các tuyên bố sử dụng dữ liệu phải mô tả rõ ràng toàn bộ chuỗi tiến trình từ thu thập dữ liệu thô, tiền xử lý, chuẩn bị dữ liệu, cho đến giai đoạn huấn luyện mô hình cuối cùng. Việc gắn thẻ các thuộc tính dữ liệu (như mức độ khử định danh PII hoặc OPD của đối thủ cạnh tranh trong các mô hình chia sẻ đa bên) giúp bảo vệ quyền riêng tư và tài sản trí tuệ của các bên tham gia đồng kiểm soát dữ liệu.
Để sử dụng toàn bộ tiện ích nâng cao của Hệ Thống Pháp Luật vui lòng lựa chọn và đăng ký gói cước.
TIÊU CHUẨN QUỐC GIA
TCVN 14481-1:2025
ISO/IEC 19914-1:2020
TÍNH TOÁN ĐÁM MÂY VÀ CÁC NỀN TẢNG PHÂN TÁN - LUỒNG DỮ LIỆU, LOẠI DỮ LIỆU VÀ SỬ DỤNG DỮ LIỆU - PHẦN 1: YÊU CẦU CƠ BẢN
Cloud computing and distributed platforms - Data flow, data categories and data use - Part 1: Fundamentals
Nội dung
Lời nói đầu
1. Phạm vi áp dụng
2. Tài liệu viện dẫn
3. Thuật ngữ và định nghĩa
3.1. Thuật ngữ liên quan đến loại dữ liệu
3.2 Thuật ngữ liên quan đến dịch vụ đám mây và hệ sinh thái thiết bị
3.3 Thuật ngữ liên quan đến quyền riêng tư
3.4 Thuật ngữ liên quan đến tổ chức dữ liệu
3.5 Thuật ngữ liên quan đến đến trí tuệ nhân tạo.
3.6 Thuật ngữ chung
4. Chữ viết tắt
5. Cấu trúc tiêu chuẩn này
5.1 Tổ chức tiêu chuẩn
5.2 Tổng quan và kiến trúc tham chiếu
5.3 Phân loại dữ liệu, loại dữ liệu và cấu trúc của tuyên bố sử dụng dữ liệu
6. Tổng quan về hệ sinh thái thiết bị và dịch vụ đám mây
6.1 Bối cảnh - Sự tác động của các thiết bị cá nhân hóa và dịch vụ đám mây
6.2 Hệ sinh thái thiết bị và dịch vụ đám mây
6.3 Thiết bị và các vai trò con của người dùng
7. Mở rộng CCRA sang hệ sinh thái thiết bị và dịch vụ đám mây
7.1 Quy định chung
7.2 Các môi trường tổ chức và cá nhân
7.3 Tác động của thiết bị lên CCRA: Quan điểm người dùng
7.4 Tác động của thiết bị lên CCRA: quan điểm chức năng
8. Phân loại dữ liệu
8.1 Tổng quan
8.2 Loại dữ liệu
8.3 Bộ hạn định định danh dữ liệu
8.4 Phương diện độc lập của dữ liệu
9. Xử lý dữ liệu và các loại sử dụng
9.1 Tổng quan
9.2 Các loại xử lý dữ liệu
9.3 Các loại sử dụng dữ liệu
9.4 Phạm vi: ranh giới thu thập và sử dụng dữ liệu
10 Tuyên bố sử dụng dữ liệu
10.1 Tổng quan
10.2 Cấu trúc của tuyên bố sử dụng dữ liệu
10.3 Sử dụng phương diện dữ liệu độc lập trong tuyên bố sử dụng dữ liệu
11 Dòng truy nguyên/hành trình dữ liệu và nguồn gốc dữ liệu
11.1 Quy định chung
11.2 Truy xuất dòng dữ liệu
12 Sử dụng phân loại và tuyên bố sử dụng dữ liệu trong các môi trường điện toán khác
13 Sử dụng phân loại dữ liệu và các tuyên bố trong các kịch bản Trí tuệ nhân tạo....
Phụ lục A (tham khảo) Biểu đồ các loại dữ liệu và các bộ hạn định định danh dữ liệu
Thư mục tài liệu tham khảo
Lời nói đầu
TCVN 14481-1:2025 hoàn toàn tương đương với ISO/IEC 19944-1:2020.
TCVN 14481-1:2025<
Để xem đầy đủ nội dung và sử dụng toàn bộ tiện ích của Hệ Thống Pháp Luật vui lòng lựa chọn và đăng ký gói cước.
Nếu bạn đã là thành viên, hãy bấm:
- 1Tiêu chuẩn quốc gia TCVN 14285-8:2024 (ISO/IEC 30134-8:2022) về Công nghệ thông tin - Các chỉ số hiệu quả chính của Trung tâm dữ liệu - Phần 8: Hiệu suất Các-bon (CUE)
- 2Tiêu chuẩn quốc gia TCVN 14285-9:2024 (ISO/IEC 30134-9:2022) về Công nghệ thông tin - Các chỉ số hiệu quả chính của Trung tâm dữ liệu - Phần 9: Hiệu suất sử dụng nước (WUE)
- 3Tiêu chuẩn quốc gia TCVN 14291-1:2025 (ISO/IEC 30161-1:2020) về Internet vạn vật (IoT) - Nền tảng trao đổi dữ liệu cho các dịch vụ IoT - Phần 1: Các yêu cầu chung và kiến trúc
- 1Luật Sở hữu trí tuệ 2005
- 2Tiêu chuẩn quốc gia TCVN 12480:2019 (ISO/IEC 17788:2014) về Công nghệ thông tin - Tính toán đám mây - Tổng quan và từ vựng
- 3Tiêu chuẩn quốc gia TCVN 12481:2019 (ISO/IEC 17789:2014) về Công nghệ thông tin - Tính toán đám mây - Kiến trúc tham chiếu
- 4Tiêu chuẩn quốc gia TCVN 13902:2023 (ISO/IEC 22989:2022) về Công nghệ thông tin - Trí tuệ nhân tạo - Các khái niệm và thuật ngữ trí tuệ nhân tạo
- 5Tiêu chuẩn quốc gia TCVN 14285-8:2024 (ISO/IEC 30134-8:2022) về Công nghệ thông tin - Các chỉ số hiệu quả chính của Trung tâm dữ liệu - Phần 8: Hiệu suất Các-bon (CUE)
- 6Tiêu chuẩn quốc gia TCVN 14285-9:2024 (ISO/IEC 30134-9:2022) về Công nghệ thông tin - Các chỉ số hiệu quả chính của Trung tâm dữ liệu - Phần 9: Hiệu suất sử dụng nước (WUE)
- 7Tiêu chuẩn quốc gia TCVN 14291-1:2025 (ISO/IEC 30161-1:2020) về Internet vạn vật (IoT) - Nền tảng trao đổi dữ liệu cho các dịch vụ IoT - Phần 1: Các yêu cầu chung và kiến trúc
Tiêu chuẩn quốc gia TCVN 14481-1:2025 (ISO/IEC 19944-1:2020) về Tính toán đám mây và các nền tảng phân tán - Luồng dữ liệu, loại dữ liệu và sử dụng dữ liệu - Phần 1: Yêu cầu cơ bản
- Số hiệu: TCVN14481-1:2025
- Loại văn bản: Tiêu chuẩn Việt Nam
- Ngày ban hành: 01/01/2025
- Nơi ban hành: ***
- Người ký: ***
- Ngày công báo: Đang cập nhật
- Số công báo: Đang cập nhật
- Ngày hiệu lực: 06/06/2026
- Tình trạng hiệu lực: Kiểm tra
