1. Thethaoso
Sport FE (Bongdalu, Bongdako,..)
  • Bongdalu
    • Tổng quan về Bongdalu
    • Architecture
      • System
      • Database
      • Source Code
    • Development
      • Production
  • Bongdako
    • Tổng quan về Bongdako
    • Architecture
      • System
      • Database
      • Source Code
    • Development
      • Local
      • DEV
      • Production
  • ADMIN-BANNER
    • Tổng quan
    • Logic
      • Logic tổng thể
    • Projects
      • Architecture
        • System
        • Source Code
      • Development
        • Develop
        • Production
      • Public API
        • API
      • Database
        • Cấu trúc Database
      • Admin FE
        • Hướng dẫn Đăng nhập
        • QUẢN LÝ SITE (SITE MANAGEMENT)
        • QUẢN LÝ GIẢI ĐẤU (LEAGUE MANAGEMENT)
        • QUẢN LÝ NHÀ CUNG CẤP (SUPPLIER MANAGEMENT)
        • TIP & CHUYÊN GIA - TAB QUẢN LÝ TIPS (TIPS MANAGEMENT)
        • WHITELIST
        • QUẢN LÝ MINIGAME (MINIGAME MANAGEMENT)
        • TRAFFIC REPORT
        • TOOLS - RAPID DATA
        • TOOLS - LIVE SITES
        • TOOLS - SUPPLIERS
        • THEME / PLUGIN
        • NGƯỜI DÙNG - PHÂN QUYỀN VÀ HIỂN THỊ (PERMISSION & DISPLAY MANAGEMENT)
        • QUẢN LÝ NGƯỜI DÙNG (USER MANAGEMENT)
        • NGƯỜI DÙNG - QUẢN LÝ NHÓM QUYỀN (ROLE GROUP MANAGEMENT)
  • Landing Pages
    • Tổng quan
  • Mini Games
    • Lucky Wheel
      • Tổng quan
    • Free Kick
      • Tổng quan
  • Thethaoso
    • Tổng quan
    • Tasklist
    • Vận hành
    • Questions
  1. Thethaoso

Questions

1.
Crawler Service
Danh sách nguồn crawl cụ thể là những website nào? Có bao nhiêu nguồn?
-> Danh sách các nguồn và quản lý ở:
https://thethaoso.online/crawl-jobs
https://thethaoso.online/crawl-jobs/dashboard
Cơ chế crawl là headless browser (Puppeteer/Playwright) hay simple HTTP request? Các site nguồn có chặn bot không?
-> Có thể config tĩnh ở: https://thethaoso.online/crawl-jobs/
Khi "tự động gắn category, tags, Featured image", logic mapping dựa trên gì? Keyword? URL pattern? Hay AI phân loại?
-> Config phân loại theo danh mục và tag trong config: https://thethaoso.online/crawl-jobs/
Tần suất 5–30 phút là cố định hay tự động điều chỉnh theo từng nguồn? Ai cấu hình?
-> Config tuỳ chỉnh tuỳ thích trong: https://thethaoso.online/crawl-jobs/
2.
Processing Service
"Làm sạch nội dung" — dùng thư viện gì? (e.g. Readability.js, html-to-text, custom parser?)
-> Hiện các bài crawl theo cấu trúc định nghĩa sẵn: https://thethaoso.online/crawl-jobs/
Tiêu chí nào để xác định một đoạn là "quảng cáo" hay "HTML thừa"?
-> Lọc Html và quảng cáo theo html, cấu trúc mẫu ở: https://thethaoso.online/crawl-jobs/edit/9
3.
AI Writing Engine
Bài tiếng Anh sẽ dịch trước rồi rewrite, hay dịch + rewrite trong một lần gọi API?
-> Config phân loại theo danh mục và tag trong config: https://thethaoso.online/crawl-jobs/
Prompt template hiện tại được lưu ở đâu? Có thể chỉnh sửa không, hay hardcode?
-> Prompt có thể tuỳ chỉnh trong: https://thethaoso.online/admin/ai-settings
Output "Tags" — AI tự sinh hay chỉ chọn từ danh sách tags có sẵn trong CMS?
-> Tags tự phân loại theo AI
4.
Content Moderation
"Rule-based check", danh sách rule hiện tại gồm những gì? Lưu ở đâu (DB hay config file, DB thì table nào, mô tả rõ table đó được không)?
-> Hiện tại không có và đang settings tay trong: https://thethaoso.online/crawl-jobs/
Khi bài bị reject thì bài đó đi đâu? Queue chờ xử lý thủ công, hay bị discard?
-> Khi crawl bài thì trạng thái mặc định là: Nháp (Draft) ; Khi AI xử lý xong sẽ chuyển sang trạng thái: Chờ duyệt
AI moderation được dùng ở bước nào cụ thể? Kết hợp với rule-based như thế nào?
-> AI moderation được dùng khi crawl bài viết xong sẽ được gọi dịch và viết lại bài
5.
CMS
CMS là hệ thống nào? Tự build hay dùng WordPress/custom?
-> Tự build theo page builder: https://thethaoso.online/admin/page-list
Bài sau khi publish thì có versioning/lịch sử chỉnh sửa không?
-> Có, xem trong chỉnh sửa bài viết -> Lịch sử: https://thethaoso.online/admin/edit-post/9468?lang=vn
Ai có quyền chỉnh sửa/duyệt bài thủ công? Flow phê duyệt thủ công (nếu có) là gì?
-> Hiện tại đăng nhập thì có thể chỉnh sửa và phê duyệt.
-> Flow phê duyệt khi AI sửa xong sẽ có trạng thái Chờ duyệt, lúc đó sẽ có duyệt thủ công
6.
Scheduler
Scheduler dùng công nghệ gì? (Cron job, Bull Queue, hay service riêng?)
-> Cron job
"Delay publish" thì delay bao lâu? Cố định hay cấu hình theo nguồn/loại bài?
-> Sẽ config lúc crawl job và publish hiện đang cấu hình thủ công
Nếu job bị fail giữa chừng (ví dụ AI timeout) thì cơ chế retry và alert là gì?
-> Sẽ có cơ chế retry 3 lần
7.
Analytics & SEO Module
Module này hiện đã build xong chưa hay vẫn đang plan?
-> Đang trong plan
Tracking dựa trên công cụ nào? (GA4, custom analytics, hay cả hai?)
-> Hiện tại đang trong plan và có thể config internal link: https://thethaoso.online/admin/internal-links
SEO score được tính theo tiêu chí nào? Có tích hợp tool như Yoast/RankMath không?
-> Không
8.
Vận hành tổng thể
Khi hệ thống bị lỗi (crawler down, AI API lỗi) thì ai nhận alert và qua kênh nào (Slack, email, Telegram)?
-> Sẽ có thông báo lỗi qua group chat MatterMost
Có dashboard monitoring nào để theo dõi số bài crawl/publish mỗi ngày không?
-> Có: https://thethaoso.online/crawl-jobs/dashboard
Dữ liệu bài gốc (trước khi rewrite) có được lưu lại không, và trong bao lâu?
-> Khi crawl xong thì trạng thái: Nháp. Và có lưu URL nguồn và lịch sử trong chỉnh sửa bài viết: https://thethaoso.online/admin/edit-post/9468?lang=vn
Chiến lược xử lý bài trùng lặp (duplicate) từ nhiều nguồn crawl cùng đưa về một sự kiện là gì?
-> Có cơ chế tự động không crawl bài viết trùng lặp rồi dựa vào url nguồn
Modified at 2026-04-02 08:18:15
Previous
Vận hành
Built with