Danh sách nguồn crawl cụ thể là những website nào? Có bao nhiêu nguồn?
-> Danh sách các nguồn và quản lý ở: Khi "tự động gắn category, tags, Featured image", logic mapping dựa trên gì? Keyword? URL pattern? Hay AI phân loại?
-> Config phân loại theo danh mục và tag trong config: https://thethaoso.online/crawl-jobs/ Output "Tags" — AI tự sinh hay chỉ chọn từ danh sách tags có sẵn trong CMS?
-> Tags tự phân loại theo AI
"Rule-based check", danh sách rule hiện tại gồm những gì? Lưu ở đâu (DB hay config file, DB thì table nào, mô tả rõ table đó được không)?
-> Hiện tại không có và đang settings tay trong: https://thethaoso.online/crawl-jobs/ Khi bài bị reject thì bài đó đi đâu? Queue chờ xử lý thủ công, hay bị discard?
-> Khi crawl bài thì trạng thái mặc định là: Nháp (Draft) ; Khi AI xử lý xong sẽ chuyển sang trạng thái: Chờ duyệt
AI moderation được dùng ở bước nào cụ thể? Kết hợp với rule-based như thế nào?
-> AI moderation được dùng khi crawl bài viết xong sẽ được gọi dịch và viết lại bài
Ai có quyền chỉnh sửa/duyệt bài thủ công? Flow phê duyệt thủ công (nếu có) là gì?
-> Hiện tại đăng nhập thì có thể chỉnh sửa và phê duyệt.
-> Flow phê duyệt khi AI sửa xong sẽ có trạng thái Chờ duyệt, lúc đó sẽ có duyệt thủ công
Scheduler dùng công nghệ gì? (Cron job, Bull Queue, hay service riêng?)
-> Cron job
"Delay publish" thì delay bao lâu? Cố định hay cấu hình theo nguồn/loại bài?
-> Sẽ config lúc crawl job và publish hiện đang cấu hình thủ công
Nếu job bị fail giữa chừng (ví dụ AI timeout) thì cơ chế retry và alert là gì?
-> Sẽ có cơ chế retry 3 lần
Module này hiện đã build xong chưa hay vẫn đang plan?
-> Đang trong plan
SEO score được tính theo tiêu chí nào? Có tích hợp tool như Yoast/RankMath không?
-> Không
Khi hệ thống bị lỗi (crawler down, AI API lỗi) thì ai nhận alert và qua kênh nào (Slack, email, Telegram)?
-> Sẽ có thông báo lỗi qua group chat MatterMost
Chiến lược xử lý bài trùng lặp (duplicate) từ nhiều nguồn crawl cùng đưa về một sự kiện là gì?
-> Có cơ chế tự động không crawl bài viết trùng lặp rồi dựa vào url nguồn
Modified at 2026-04-02 08:18:15