GPT – OSS: Hướng dẫn cách chạy và tinh chỉnh dễ dàng

16/08/2025

GPT-OSS là mô hình ngôn ngữ mã nguồn mở mạnh mẽ từ OpenAI vừa ra mắt, cho phép chạy cục bộ, tinh chỉnh linh hoạt và sử dụng thương mại miễn phí. Với hai phiên bản 20B và 120B, mô hình này phù hợp cho cả cá nhân và doanh nghiệp muốn khai thác AI mà không phụ thuộc vào cloud. Bài viết dưới đây sẽ hướng dẫn chi tiết cách triển khai GPT-OSS với Ollama, llama.cpp và cách tinh chỉnh hiệu quả. Hãy cùng Phong Vũ Tech News khám phá ngay nhé!

Mục lục

I. GPT-OSS là gì?

1. Tổng quan về GPT-OSS

GPT-OSS là một dòng mô hình ngôn ngữ lớn (LLM) mã nguồn mở do OpenAI giới thiệu vào ngày 05/08/2025, sử dụng giấy phép Apache 2.0. Mô hình cung cấp trọng số mở (open weights), tức là người dùng có thể tải về, chỉnh sửa và triển khai theo nhu cầu mà không bị ràng buộc bản quyền.

Hiện GPT-OSS có hai phiên bản:

gpt-oss-20b: Gồm 21 tỉ tham số, cần tối thiểu 16GB RAM, chạy tốt trên các dòng laptop cao cấp hoặc PC mạnh.
gpt-oss-120b: Gồm 117 tỉ tham số, yêu cầu GPU H100 hoặc VRAM 80GB phù hợp với máy trạm chuyên dụng.

Điểm nổi bật của GPT-OSS so với các mô hình thương mại nằm ở tính minh bạch, khả năng kiểm soát toàn diện và mức độ tùy biến cao. Người dùng có thể triển khai mô hình hoàn toàn nội bộ, không cần kết nối internet, rất phù hợp với các ứng dụng đòi hỏi bảo mật cao.

AD 4nXeKaHMLwMusqk4CAU6jY34YA2yHycdaOW trU6hxy8bYZDoWKx8U78SMU6X1zboS zA D0xy44Q0r1qHRE7N58TqLvRpLa V g84rNA iKDuI0FuDpG90KeqBEFoy564H4S60cC?key=awLinKD6prv LqwAzdtSmQ

Hai phiên bản của GPT-OSS (Nguồn: Internet)

2. Ứng dụng điển hình

GPT-OSS được sử dụng trong nhiều lĩnh vực:

Tạo chatbot nội bộ hoặc tổng đài trả lời tự động.
Phân tích dữ liệu và tự động hóa quy trình làm việc.
Hỗ trợ viết mã, kiểm tra lỗi hoặc huấn luyện các mô hình chuyên biệt.

Mô hình đặc biệt hữu ích với các doanh nghiệp muốn tích hợp AI vào sản phẩm mà không phụ thuộc vào dịch vụ cloud.

Xem thêm: ChatGPT tặng miễn phí model AI GPT OSS, sức mạnh ngang ngửa GPT-4o

II. Cách chạy GPT-OSS với Ollama

Ollama là công cụ đơn giản nhất để triển khai GPT-OSS trên máy cá nhân, giúp tối ưu hóa việc chạy các mô hình LLM mã nguồn mở mà không cần nhiều thao tác phức tạp.

Bước 1: Cài đặt Ollama

Truy cập ollama.com và tải phiên bản phù hợp cho hệ điều hành (Windows, macOS, Linux).

Kiểm tra phiên bản để xác nhận cài đặt thành công: ollama –version

Quá trình cài đặt chỉ mất vài phút và không cần chỉnh sửa hay thiết lập gì thêm.

Bước 2: Tải và khởi chạy GPT-OSS

Để tải và chạy mô hình gpt-oss-20b, sử dụng lệnh: ollama run gpt-oss-20b

Mô hình 20B có dung lượng khoảng 13GB, thời gian tải phụ thuộc vào tốc độ mạng. Sau khi tải xong, Ollama chuyển sang chế độ trò chuyện. Người dùng nhập prompt trực tiếp và nhận phản hồi tương tự chatbot.

AD 4nXfT NOXtEYhN myIk1tCIqC0tu4BP VJsLvWMW6mLTW3juG9E heuOZuj2N5bASv8V dLcLe31aP9xpnTayjJmxN8FN9Kg1EenSUaGKMFpTX0JuLG5 2ktq32YpunsSanc49WbFlw?key=awLinKD6prv LqwAzdtSmQ

Giao diện GPT-OSS (Nguồn: Internet)

Bước 3: Tùy chỉnh mô hình

Ollama cho phép tùy chỉnh hành vi mô hình thông qua file .modelfile. Người dùng có thể điều chỉnh:

Tone và ngôn ngữ: Ví dụ, yêu cầu trả lời bằng tiếng Việt, phong cách thân thiện.
Prompt hệ thống: Định hướng nội dung trả lời.

Các tham số quan trọng:

–temperature: Điều chỉnh độ sáng tạo (0.2 cho câu trả lời chính xác, 1.0 cho sáng tạo).
–top-p: Kiểm soát độ đa dạng của phản hồi (khuyến nghị 0.9).

Ví dụ lệnh tùy chỉnh: ollama run gpt-oss-20b –temperature 0.2 –top-p 0.9 “Viết giới thiệu về GPT-OSS”

Để tích hợp vào ứng dụng, chạy chế độ API: ollama serve

API trên hoạt động tương tự OpenAI API,nhưng chạy hoàn toàn trên máy cá nhân, giúp đảm bảo dữ liệu luôn được giữ kín và an toàn tuyệt đối.

III. Chạy GPT-OSS với llama.cpp

Llama.cpp là công cụ mạnh mẽ để tối ưu hiệu suất GPT-OSS trên phần cứng chuyên dụng, hỗ trợ tốc độ cao và tiết kiệm tài nguyên.

Bước 1: Chuẩn bị môi trường

Cài đặt các thư viện cần thiết trên Linux:

apt-get update

apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y

Clone và cấu hình llama.cpp với hỗ trợ CUDA:

git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake –build llama.cpp/build –config Release -j –clean-first –target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Bước 2: Tải mô hình GGUF

Tải mô hình từ Hugging Face bằng Python:

pip install huggingface_hub hf_transfer

import os
os.environ[“HF_HUB_ENABLE_HF_TRANSFER”] = “1”
from huggingface_hub import snapshot_download
snapshot_download(repo_id=”unsloth/gpt-oss-20b-GGUF”, local_dir=”unsloth/gpt-oss-20b-GGUF”, allow_patterns=[“F16”])

Khuyến nghị dùng phiên bản quantized (2bit/4bit) để giảm dung lượng và yêu cầu phần cứng, chỉ mất ít độ chính xác so với bản F16.

AD 4nXeAIpo8P0o 2bLaGBd6LMCh0snxYxXy6HlgH7sA5J2OMO6rO aHc8FagkIbjqcKL47llULfS 6Ir uzkWx25rKqBxKtFEbO7sjkSoLYBz9MC8hSAiMHlNXXBaN7Iu9C3NsKgZnvRQ?key=awLinKD6prv LqwAzdtSmQ

GPT-OSS là mô hình ngôn ngữ LLM của OpenAI (Nguồn: Internet)

Bước 3: Chạy mô hình

Chạy gpt-oss-20b:

./llama.cpp/llama-cli -hf unsloth/gpt-oss-20b-GGUF:F16 –jinja -ngl 99 –threads -1 –ctx-size 16384 –temp 1.0 –top-p 1.0 –top-k 0

Chạy gpt-oss-120b:

./llama.cpp/llama-cli –model unsloth/gpt-oss-120b-GGUF/gpt-oss-120b-F16.gguf –threads -1 –ctx-size 16384 –n-gpu-layers 99 -ot “.ffn_.*_exps.=CPU” –temp 1.0 –min-p 0.0 –top-p 1.0 –top-k 0

Tùy chọn tối ưu:

–n-gpu-layers NN: Offload lớp MoE lên GPU (giảm nếu VRAM thấp).
-ot “.ffn_.*_exps.=CPU”: Chuyển MoE layers sang CPU để tiết kiệm VRAM.
Quantize KV cache xuống 4 bit để giảm bộ nhớ.

IV. Tinh chỉnh (fine-tune) GPT-OSS

Fine-tuning giúp tối ưu GPT-OSS cho nhu cầu cụ thể, như tài liệu ngành hoặc hỗ trợ nội bộ đòi hỏi dữ liệu phù hợp và công cụ chuyên dụng.

1. Công cụ hỗ trợ fine-tuning

Các công cụ phổ biến:

Hugging Face Transformers: Hỗ trợ fine-tuning với dữ liệu tùy chỉnh.
Unsloth: Đang cập nhật hỗ trợ chính thức cho GPT-OSS.
Weights & Biases: Theo dõi hiệu suất fine-tuning.

Unsloth hiện là lựa chọn tiềm năng, nhưng cần theo dõi tài liệu mới nhất tại Unsloth.

AD 4nXf7xI3HAkKnm8nGCQaXe7305Oqg8wp WfVZFUl4qX0rG1ifIULdI Ed0yZ82VR5JaJnJ8TDbi6zdSSe3zaDxZ Zi24xvYaTtIIm8dTND iGUQuchtIrlF4Y8pScd6vbaK2cekljA?key=awLinKD6prv LqwAzdtSmQ

Phiên bản gpt-oss-20b (Nguồn: Internet)

2. Quy trình fine-tuning

Tuân thủ Harmony format của OpenAI để tối ưu khả năng suy luận.
Chuẩn bị dữ liệu: Tập hợp tài liệu chuyên ngành hoặc câu hỏi-tham chiếu.
Test kỹ các thiết lập: Điều chỉnh prompt hệ thống, kiểm soát an toàn đầu ra.
Luôn kiểm tra đầu ra sau fine-tuning để đảm bảo an toàn và chính xác.

V. Yêu cầu cấu hình

Để chạy GPT-OSS hiệu quả, cần đáp ứng yêu cầu phần cứng và cấu hình tham số phù hợp.

1. Yêu cầu phần cứng

Mô hình	RAM/VRAM tối thiểu	Ghi chú
gpt-oss-20b	14GB	Tốc độ ~6 token/giây
gpt-oss-120b	66GB	Cần GPU H100 hoặc VRAM 80GB

Lưu ý: Có thể chạy với bộ nhớ thấp hơn, nhưng tốc độ suy luận giảm đáng kể.

2. Cấu hình tham số inference

Tham số	Giá trị khuyến nghị	Mô tả
temperature	1.0	Độ sáng tạo
top_p	1.0	Độ đa dạng
top_k	0	Lựa chọn token
ctx-size	16,384 – 131,072	Độ dài ngữ cảnh

VI. Lưu ý khi sử dụng GPT-OSS

GPT-OSS là giải pháp AI mã nguồn mở chạy hoàn toàn cục bộ, giúp đảm bảo bảo mật tối đa khi không gửi dữ liệu ra ngoài. Đây là lựa chọn lý tưởng cho các tổ chức cần tuân thủ nghiêm ngặt về quyền riêng tư như tài chính, y tế, khi toàn bộ dữ liệu được xử lý ngay trên thiết bị người dùng.

Mô hình hỗ trợ tích hợp linh hoạt qua command line, API REST hoặc WebUI, dễ dàng triển khai vào chatbot, ứng dụng doanh nghiệp hoặc sản phẩm thương mại. Với giấy phép Apache 2.0, người dùng được toàn quyền tùy chỉnh và thương mại hóa.

Tuy nhiên, cần lưu ý về phần cứng: bản 20B chạy tốt trên máy cá nhân, trong khi bản 120B yêu cầu máy trạm hiệu năng cao. Sau khi tinh chỉnh, cần kiểm soát đầu ra để đảm bảo chất lượng nội dung. Việc theo dõi tài liệu từ Ollama và Unsloth sẽ giúp khai thác mô hình hiệu quả hơn.

VII. Tổng kết

GPT-OSS đơn giản hóa việc tiếp cận AI bằng cách cho phép vận hành cục bộ, tùy chỉnh linh hoạt và không cần phụ thuộc cloud. Mô hình phù hợp cho nhiều đối tượng, từ cá nhân học tập đến doanh nghiệp cần bảo mật cao, đồng thời giúp tiết kiệm chi phí đáng kể. Đừng quên đón đọc Phong Vũ Tech News để không bỏ lỡ những cập nhật mới nhất về xu hướng AI và tin tức công nghệ mới nhất nhé!

Nguồn: Unsloth

Bài viết liên quan: