Dữ liệu có thể đến từ nhiều nguồn. Đôi khi, dữ liệu có thể được sử dụng lại; nhưng thường xuyên hơn, dữ liệu cần được tạo và thu thập cụ thể cho từng dự án (từ các nguồn hiện có hoặc từ đầu).
Quản lý dữ liệu đóng vai trò trung tâm trong các ứng dụng Học máy/AI và do đó đòi hỏi nhiều sự tập trung, thời gian và nguồn lực. Nếu không có dữ liệu phù hợp, các hệ thống AI có xu hướng không hoạt động tốt.
Dữ liệu thường được lưu trữ trong cơ sở dữ liệu, được quản lý bởi một Hệ thống quản lí dữ liệu (DBSM). Có nhiều mô hình dữ liệu khác nhau cấu trúc dữ liệu trong cơ sở dữ liệu (ví dụ: mô hình quan hệ có nhiều bảng được kết nối thông qua khóa ngoại; mô hình bảng đơn chỉ sử dụng một bảng duy nhất, có thể dễ dàng xuất sang tệp CSV; và mô hình tài liệu sử dụng các tài liệu phân cấp bán cấu trúc như JSON hoặc XML). Các lược đồ khái niệm mô tả dữ liệu mà một ứng dụng cụ thể yêu cầu hoặc lưu trữ, trong khi các lược đồ logic mô tả cách lược đồ khái niệm của ứng dụng đó được thể hiện trong Mô hình dữ liệu đã chọn.