Stable Diffusion là gì? Hướng dẫn cài đặt và sử dụng

22/08/2024

Từ việc phác họa ý tưởng thiết kế cho đến việc tạo ra những bức ảnh minh họa độc đáo, Stable Diffusion – sản phẩm của trí tuệ nhân tạo AI, đang thay đổi cách chúng ta sáng tạo nội dung. Hãy cùng khám phá công cụ tuyệt vời này và cách nó có thể giúp bạn biến những ý tưởng thành hiện thực. Cùng Phong Vũ tìm hiểu sâu thêm về AI này nhé!

Mục lục

Stable Diffusion là gì?

Stable Diffusion là một sản phẩm trí tuệ nhân tạo (AI) mã nguồn mở được phát triển bởi Stability AI, đã và đang tạo nên một cơn sốt trong cộng đồng công nghệ và nghệ thuật. Với khả năng biến những mô tả văn bản đơn giản thành những hình ảnh sống động và chân thực, Stable Diffusion đã mở ra một cánh cửa mới cho sự sáng tạo, cho phép người dùng thể hiện trí tưởng tượng của mình một cách chưa từng có.

Mô hình này sử dụng một kỹ thuật gọi là khuếch tán (diffusion), trong đó nó học cách khôi phục hình ảnh từ nhiễu ngẫu nhiên. Nhờ vào sự huấn luyện trên một tập dữ liệu khổng lồ gồm hàng triệu hình ảnh, Stable Diffusion có thể tạo ra những hình ảnh đa dạng và phong phú, từ chân dung người, cảnh quan thiên nhiên, đến các tác phẩm nghệ thuật trừu tượng, thậm chí là những hình ảnh siêu thực vượt ngoài sức tưởng tượng. Cùng Phong Vũ tìm hiểu nhé!

Stable Diffusion hoạt động như thế nào?

Về cơ bản, Stable Diffusion hoạt động dựa trên một mạng nơ-ron nhân tạo (neural network) được huấn luyện trên một tập dữ liệu lớn gồm các cặp hình ảnh và mô tả văn bản. Quá trình huấn luyện này cho phép mô hình học cách liên kết các mô tả văn bản với các đặc trưng hình ảnh tương ứng, từ đó xây dựng một “bộ não” nhân tạo có khả năng hiểu và diễn giải ngôn ngữ tự nhiên.

Khi người dùng cung cấp một prompt (mô tả văn bản), mô hình sẽ sử dụng kiến thức đã học để tạo ra một hình ảnh phù hợp với prompt đó. Quá trình này diễn ra thông qua hai giai đoạn chính:

Giai đoạn khuếch tán ngược (reverse diffusion): Trong giai đoạn này, mô hình bắt đầu từ một hình ảnh nhiễu ngẫu nhiên và dần dần loại bỏ nhiễu để tạo ra một hình ảnh có ý nghĩa. Quá trình này được hướng dẫn bởi prompt của người dùng và kiến thức đã học của mô hình, từng bước tinh chỉnh và hoàn thiện hình ảnh cho đến khi đạt được kết quả mong muốn.
Giai đoạn tinh chỉnh (refinement): Sau khi tạo ra một hình ảnh cơ bản, mô hình sẽ tiếp tục tinh chỉnh các chi tiết để tạo ra một hình ảnh cuối cùng có chất lượng cao và phù hợp với prompt của người dùng. Các chi tiết như màu sắc, độ tương phản, độ sắc nét và các yếu tố khác sẽ được điều chỉnh để tạo ra một hình ảnh hoàn hảo và sống động.

huong dan cai dat su dung stable diffusion 2 — Về cơ bản, Stable Diffusion hoạt động dựa trên một mạng nơ-ron nhân tạo **(neural network)** được huấn luyện trên một tập dữ liệu lớn gồm các cặp hình ảnh và mô tả văn bản.

Các bước cài đặt Stable Diffusion

Để sử dụng Stable Diffusion trên máy tính của bạn, bạn cần tải xuống và cài đặt phần mềm Stable Diffusion WebUI, một giao diện web thân thiện và dễ sử dụng cho mô hình Stable Diffusion.

Các bước cài đặt:

Cài đặt Git: Git là một hệ thống quản lý phiên bản phân tán, cần thiết để tải xuống mã nguồn của Stable Diffusion WebUI. Bạn có thể tải xuống Git từ trang web chính thức: https://git-scm.com/ và làm theo hướng dẫn cài đặt.
Cài đặt Python: Python là một ngôn ngữ lập trình phổ biến, cần thiết để chạy Stable Diffusion WebUI. Bạn có thể tải xuống Python từ trang web chính thức: https://www.python.org/ và làm theo hướng dẫn cài đặt.
Tải xuống Stable Diffusion WebUI: Truy cập vào kho lưu trữ GitHub của Stable Diffusion WebUI: https://github.com/AUTOMATIC1111/stable-diffusion-webui và làm theo hướng dẫn để tải xuống mã nguồn. Bạn có thể sử dụng Git để clone kho lưu trữ về máy tính của mình hoặc tải xuống dưới dạng file ZIP.
Cài đặt các thư viện cần thiết: Mở cửa sổ dòng lệnh (Command Prompt hoặc Terminal) và điều hướng đến thư mục chứa mã nguồn của Stable Diffusion WebUI. Sau đó, chạy lệnh sau để cài đặt các thư viện cần thiết:

pip install -r requirements.txt

Lệnh này sẽ tự động tải xuống và cài đặt tất cả các thư viện Python cần thiết để chạy Stable Diffusion WebUI.

Tải xuống mô hình: Tải xuống mô hình Stable Diffusion từ trang web Hugging Face: https://huggingface.co/CompVis/stable-diffusion-v1-4 và đặt nó vào thư mục models/Stable-diffusion trong thư mục mã nguồn của Stable Diffusion WebUI. Mô hình này là thành phần cốt lõi của Stable Diffusion, chứa đựng kiến thức và khả năng tạo hình ảnh của AI.
Chạy Stable Diffusion WebUI: Trong cửa sổ dòng lệnh, chạy lệnh sau để khởi động Stable Diffusion WebUI:

python launch.py

Lệnh này sẽ khởi động máy chủ web cục bộ và bắt đầu chạy Stable Diffusion WebUI.

Truy cập giao diện web: Mở trình duyệt web và truy cập vào địa chỉ http://127.0.0.1:7860 để sử dụng giao diện web của Stable Diffusion. Tại đây, bạn sẽ thấy một giao diện thân thiện và trực quan, cho phép bạn nhập prompt, điều chỉnh các thông số và tạo ra những hình ảnh tuyệt vời.

Template blog Phong Vu 1 1 — Git là một hệ thống quản lý phiên bản phân tán, cần thiết để tải xuống mã nguồn của Stable Diffusion WebUI. Bạn có thể tải xuống Git từ trang web chính thức: https://git-scm.com/ và làm theo hướng dẫn cài đặt.

Hướng dẫn sử dụng Stable Diffusion AI tạo hình ảnh

Sau khi cài đặt thành công, bạn có thể sử dụng giao diện web của Stable Diffusion để tạo ra những hình ảnh độc đáo và sáng tạo.

Nhập prompt: Trong ô “Prompt”, nhập mô tả văn bản về hình ảnh bạn muốn tạo. Bạn có thể sử dụng các từ khóa đơn giản hoặc các câu phức tạp để mô tả chi tiết về hình ảnh, bao gồm cả chủ thể, phong cách, màu sắc, bố cục, và các yếu tố khác. Hãy để trí tưởng tượng của bạn bay bổng và mô tả hình ảnh một cách chi tiết nhất có thể.
Điều chỉnh các thông số: Stable Diffusion cung cấp nhiều thông số để bạn tùy chỉnh quá trình tạo hình ảnh, bao gồm:
- Sampling method: Phương pháp lấy mẫu, ảnh hưởng đến chất lượng và tốc độ tạo hình ảnh. Bạn có thể chọn từ các phương pháp khác nhau như Euler a, Euler, Heun, DPM2, DPM2 a, LMS Karras, DPM++ 2S a, DPM++ 2M, DPM++ SDE Karras, DPM fast, DPM adaptive, LMS, PLMS, DDIM, UniPC.
- Sampling steps: Số bước lấy mẫu, càng nhiều bước thì hình ảnh càng chi tiết nhưng thời gian tạo cũng lâu hơn. Bạn có thể thử nghiệm với các giá trị khác nhau để tìm ra sự cân bằng giữa chất lượng và tốc độ.
- CFG scale: Độ mạnh của prompt, càng cao thì hình ảnh càng bám sát prompt nhưng cũng có thể làm giảm sự sáng tạo. Giá trị mặc định là 7, bạn có thể tăng hoặc giảm tùy theo ý muốn.
- Seed: Giá trị ngẫu nhiên, ảnh hưởng đến kết quả tạo hình ảnh. Bạn có thể thay đổi seed để tạo ra các hình ảnh khác nhau từ cùng một prompt, khám phá những khả năng sáng tạo bất ngờ.
Tạo hình ảnh: Nhấn nút “Generate” để bắt đầu quá trình tạo hình ảnh. Thời gian tạo hình ảnh phụ thuộc vào độ phức tạp của prompt và cấu hình máy tính của bạn. Trong quá trình tạo hình ảnh, bạn có thể theo dõi tiến trình và xem các phiên bản trung gian của hình ảnh.
Lưu và chia sẻ: Sau khi hình ảnh được tạo, bạn có thể lưu nó vào máy tính hoặc chia sẻ lên mạng xã hội để khoe với bạn bè và cộng đồng. Stable Diffusion WebUI cũng hỗ trợ nhiều định dạng hình ảnh khác nhau như PNG, JPG và WebP, cho phép bạn lựa chọn định dạng phù hợp với nhu cầu của mình.

huong dan cai dat su dung stable diffusion 7 — Sau khi cài đặt thành công, bạn có thể sử dụng giao diện web của Stable Diffusion để tạo ra những hình ảnh độc đáo và sáng tạo.

Cách ghi Prompt Stable Diffusion hiệu quả

Để tạo ra những hình ảnh đẹp và phù hợp với ý tưởng của bạn, việc ghi prompt một cách hiệu quả là rất quan trọng. Prompt là cầu nối giữa ý tưởng của bạn và khả năng sáng tạo của AI, vì vậy hãy đầu tư thời gian và công sức để viết prompt một cách chi tiết và rõ ràng.

Dưới đây là một số mẹo giúp bạn viết prompt tốt hơn:

Mô tả chi tiết: Càng mô tả chi tiết về hình ảnh bạn muốn, mô hình càng có thể tạo ra hình ảnh chính xác hơn. Hãy sử dụng các tính từ, trạng từ và các cụm từ cụ thể để mô tả chủ thể, phong cách, màu sắc, bố cục, ánh sáng, góc nhìn và các yếu tố khác của
hình ảnh. Ví dụ, thay vì chỉ viết “một cô gái”, hãy thử mô tả chi tiết hơn như “một cô gái trẻ với mái tóc dài màu nâu, đôi mắt xanh biếc, mặc một chiếc váy trắng đang đứng trên cánh đồng hoa hướng dương”.
Sử dụng các từ khóa liên quan: Bổ sung các từ khóa liên quan đến chủ đề của hình ảnh để giúp mô hình hiểu rõ hơn ý định của bạn và tạo ra hình ảnh phù hợp hơn. Ví dụ, nếu bạn muốn tạo hình ảnh một chú mèo đang chơi đùa, bạn có thể thêm các từ khóa như “đáng yêu”, “tinh nghịch”, “bông len” để mô hình hiểu rõ hơn về tính cách và hoạt động của chú mèo.
Thử nghiệm với các phong cách khác nhau: Stable Diffusion có thể tạo ra hình ảnh theo nhiều phong cách khác nhau, từ tranh sơn dầu, tranh vẽ chì, đến ảnh chụp thực tế, hoạt hình, hay thậm chí là phong cách của các họa sĩ nổi tiếng. Hãy thử nghiệm với các phong cách khác nhau bằng cách thêm các từ khóa như “vẽ tay”, “tranh sơn dầu”, “phong cách Van Gogh” vào prompt của bạn để khám phá những khả năng sáng tạo bất ngờ.
Sử dụng các công cụ hỗ trợ: Có nhiều công cụ trực tuyến có thể giúp bạn tạo ra các prompt hiệu quả hơn, chẳng hạn như Lexica và Prompthero. Các công cụ này cung cấp các gợi ý về từ khóa, phong cách và các yếu tố khác, giúp bạn xây dựng prompt một cách nhanh chóng và dễ dàng.
Học hỏi từ cộng đồng: Cộng đồng Stable Diffusion rất lớn và năng động, với nhiều người dùng chia sẻ kinh nghiệm và kiến thức về cách viết prompt hiệu quả. Hãy tham gia vào các diễn đàn, nhóm thảo luận và các kênh truyền thông xã hội liên quan để học hỏi từ những người khác và cải thiện kỹ năng viết prompt của bạn.

huong dan cai dat su dung stable diffusion 6 — Prompt là cầu nối giữa ý tưởng của bạn và khả năng sáng tạo của AI, vì vậy hãy đầu tư thời gian và công sức để viết prompt một cách chi tiết và rõ ràng.

Cấu hình máy tính khi chạy Stable Diffusion

Để chạy Stable Diffusion một cách mượt mà và hiệu quả, bạn cần một cấu hình máy tính đủ mạnh, đặc biệt là về GPU và RAM. Dưới đây là một số khuyến nghị về cấu hình:

GPU: NVIDIA GeForce RTX 3060 hoặc cao hơn (khuyến nghị sử dụng GPU có VRAM từ 12GB trở lên để có hiệu suất tốt nhất). GPU đóng vai trò quan trọng trong việc xử lý các phép tính đồ họa phức tạp của Stable Diffusion, vì vậy một GPU mạnh mẽ sẽ giúp tăng tốc độ tạo hình ảnh và cho phép bạn tạo ra những hình ảnh có độ phân giải cao hơn.
CPU: Intel Core i5 hoặc AMD Ryzen 5 hoặc cao hơn. Mặc dù GPU là thành phần quan trọng nhất, CPU cũng đóng vai trò trong việc xử lý các tác vụ khác của Stable Diffusion. Một CPU mạnh mẽ sẽ giúp đảm bảo hệ thống hoạt động ổn định và mượt mà.
RAM: 32GB hoặc cao hơn. RAM là nơi lưu trữ tạm thời dữ liệu và mô hình của Stable Diffusion trong quá trình tạo hình ảnh. Càng nhiều RAM, bạn càng có thể tạo ra những hình ảnh có độ phân giải cao hơn và phức tạp hơn.
Ổ cứng: SSD NVMe PCIe 3.0 hoặc 4.0. Ổ cứng SSD NVMe mang lại tốc độ đọc/ghi dữ liệu nhanh hơn so với ổ cứng HDD truyền thống, giúp tăng tốc quá trình tải mô hình và tạo hình ảnh.

Nếu bạn không có đủ ngân sách để xây dựng một cấu hình mạnh mẽ, bạn có thể sử dụng các dịch vụ đám mây như Google Colab hoặc Paperspace để chạy Stable Diffusion. Các dịch vụ này cung cấp môi trường ảo với GPU và RAM mạnh mẽ, cho phép bạn chạy Stable Diffusion mà không cần đầu tư vào phần cứng đắt tiền.

Template blog Phong Vu 4 — Để chạy Stable Diffusion một cách mượt mà và hiệu quả, bạn cần một cấu hình máy tính đủ mạnh, đặc biệt là về GPU và RAM.

Kết luận

Stable Diffusion là một công cụ mạnh mẽ và linh hoạt, cho phép bạn thỏa sức sáng tạo và tạo ra những hình ảnh độc đáo. Bằng cách làm theo hướng dẫn trong bài viết này và thực hành thường xuyên, bạn sẽ có thể sử dụng Stable Diffusion một cách thành thạo và tạo ra những tác phẩm nghệ thuật ấn tượng.

Hãy để trí tưởng tượng của bạn bay cao và khám phá thế giới sáng tạo vô hạn với Stable Diffusion!