Back to Home

🗓️ SUJBOT2 Roadmap

4-týdenní plán vylepšení RAG systému

📅 Týden 1-4 • 🎯 Cíl: Optimalizace všech fází pipeline

💡 Čísla v kroužcích (①②③④) označují týdny - každý úkol je rozplánován do konkrétního týdne

📋 Workflow: Pull Requests + GitHub Issues

Main branch je chráněný - všechny změny musí projít přes Pull Requesty. Pro tracking progress používejte GitHub Issues a scházejte se 2x týdně.

👥

Všichni členové týmu

📋 Úkoly: Naladit prompts/ • Naladit agent tools

1 Analýza a planning
  • Projít složku prompts/ a identifikovat všechny system/user prompty
  • Otestovat aktuální 17 agent tools na reálných dotazech
  • Zaznamenat nedostatky v prompt kvalitě a tool responses
  • Vytvořit GitHub Issues s poznatky (label: prompts, agent-tools) Research
2 Experimentování
  • A/B testování různých prompt formulací
  • Optimalizovat context v promptech (co je skutečně potřeba?)
  • Zkrátit příliš dlouhé prompty (cost reduction)
  • Zlepšit prompt clarity pro Claude/GPT-5 Testing
3 Implementace změn
  • Aplikovat vylepšené prompty do prompts/
  • Upravit tool descriptions pro lepší agent selection
  • Zkontrolovat, že prompty využívají prompt caching efektivně
  • Manuálně otestovat nové prompty na reálných dotazech Implementation
4 Subjektivní hodnocení
  • Okometricky zhodnotit kvalitu odpovědí (lepší/horší než před změnami?)
  • Finální review všech prompt změn s týmem
  • Dokumentovat best practices pro budoucí prompty
  • Zdokumentovat poznatky do GitHub Issue Review
💡 Kolaborativní poznámka: Všichni členové by měli pravidelně sdílet své poznatky přes GitHub Issues. Používejte labels pro kategorizaci (prompts, agent-tools, research) a diskutujte přímo v issue threads.
👨‍💻

Petr Vojtášek

📋 Úkol: Doimplementovat podporu pro všechny formáty (pdf, docx, txt, md, latex) a ověřit správnou strukturu

1 Analýza formátů
  • Prostudovat src/docling_extractor_v2.py a pochopit současnou implementaci
  • Zjistit, které formáty už fungují (PDF zřejmě ano)
  • Prozkoumat Docling dokumentaci pro DOCX, TXT, MD, LaTeX support
  • Identifikovat potřebné knihovny (python-docx, markdown, pylatex?) Research
2 Testovací dataset
  • Připravit testovací soubory v každém formátu (PDF, DOCX, TXT, MD, LaTeX)
  • Vytvořit metriku: Úspěšnost extrakce struktury (sections, headings) vs. čas zpracování
  • Otestovat současný kód na všech formátech a zdokumentovat selhání Testing
3 Implementace
  • Doimplementovat podporu DOCX (hierarchie přes styles)
  • Doimplementovat TXT/MD (markdown headings → struktura)
  • Doimplementovat LaTeX (\section, \subsection → struktura)
  • Zajistit, že všechny formáty generují stejný HierarchicalChunk output Implementation
4 Validace a dokumentace
  • Spustit end-to-end testy s reálnými dokumenty všech formátů
  • Ověřit kvalitu extrahované struktury (depth, section names, metadata)
  • Napsat dokumentaci do README s příklady použití
  • Pull request s code review od Michala Review
👥

Vendy + Petr Večeř

📋 Úkoly: Naladit Docling a extrakci dokumentů • Zkontrolovat summary generation + SAC embedding

1 Seznámení s kódem
  • Prostudovat src/docling_extractor_v2.py - font-size classification
  • Pochopit src/summary_generator.py - hierarchické summaries (150 chars)
  • Prostudovat src/multi_layer_chunker.py - Contextual Retrieval
  • Prostudovat parametry Docling API (OCR, font detection, layout) Research
2 Dataset a research
  • Najít nebo vytvořit dataset právních/technických dokumentů s ground truth strukturou
  • Definovat metriky: Přesnost extrakce (F1 score) vs. latence vs. OCR cost
  • Otestovat různé Docling konfigurace (OCR on/off, různé threshold pro fonts)
  • Prozkoumat research papers: Jaká je optimální délka summary pro SAC? Co říkají Reuter et al. a další studie? Research
3 Research alternativ
  • Prozkoumat chunking metody lepší než RCTS (semantic chunking, agentic chunking?)
  • Porovnat Contextual Retrieval s jinými kontextovými metodami
  • Vymyslet vylepšení summary generation (lze zlepšit 150-char limit?)
  • Napsat specifikaci implementace pro Michala (co změnit + proč + očekávaný impact) Research
4 Review Phase 1-3
  • Zkontrolovat Phase 1-3 (Docling → Summary → SAC) s novými poznatky z researche
  • Identifikovat bottlenecks a optimization opportunities v extraction/chunking
  • Vytvořit seznam prioritizovaných vylepšení pro Phase 1-3
  • Prezentovat findings týmu + diskuse o implementaci Review
💡 Kolaborativní poznámka: Pracujte společně na všech úkolech - pair programming, code reviews, společné experimenty. Pravidelně sdílejte výsledky přes GitHub Issues (label: docling, summary-generation).
👥

Matyáš + Filip

📋 Úkoly: Naladit embedding model • Naladit a vylepšit search (sparse, dense, BM25, synonym search)

1 Analýza současného stavu
  • Prostudovat src/embedding_generator.py - text-embedding-3-large vs bge-m3
  • Prostudovat src/hybrid_search.py - BM25 + Dense + RRF fusion
  • Změřit baseline performance: retrieval precision@k, recall@k, latence
  • Identifikovat problémy se synonymy (test queries s různými termíny) Research
2 Dataset a experimenty
  • Najít nebo vytvořit vhodný dataset pro evaluaci (legal/technical dokumenty + ground truth queries)
  • Porovnat embedding modely: text-embedding-3-large, bge-m3, voyage-law-2, e5-large
  • Změřit legal/technical domain performance na připraveném datasetu
  • Testovat vliv embedding dimenzionality (1024D vs 3072D) na kvalitu Testing
3 Search vylepšení
  • Implementovat synonym expansion (wordnet, vlastní synonym dictionary pro legal terms)
  • Vyladit RRF parametr k (aktuálně 60, zkusit 30-90 range)
  • Experimentovat s BM25 parametry (b, k1)
  • Diskutovat s Michalem: Jaké vylepšení search tools jsou potřeba? Co naimplementovat v agent tools? Implementation
4 Benchmark a finalizace
  • Spustit kompletní benchmark na testovacím datasetu
  • Porovnat nové vs. staré metriky (precision, recall, MRR, NDCG)
  • Zdokumentovat optimální konfiguraci do .env.example
  • Pull request s A/B test výsledky Review
💡 Kolaborativní poznámka: Pracujte společně na všech úkolech - testujte embeddings i search společně, diskutujte přístupy. Sdílejte výsledky průběžně přes GitHub Issues (label: embeddings, search-optimization).
🚀

Michal

📋 Úkoly: Agent tools • Knowledge graph • Frontend (Docker) • Compliance check tool

1 Agent tools + KG
  • Reviewovat feedback od týmu na agent tools (po týdnu 1 testování)
  • Prostudovat src/graph/ a src/graph_retrieval.py
  • Zjistit, jak vylepšit KG: Více entity types? Lepší relationship extraction?
  • Naplánovat nové agent tools na základě user potřeb Research
2 Frontend planning
  • Navrhnout frontend architekturu: React/Vue + FastAPI backend?
  • Vymyslet UI/UX pro RAG chat interface (inspirace: ChatGPT, Perplexity)
  • Naplánovat Docker setup: frontend + backend + vector DB v kontejnerech
  • Vytvořit wireframes a tech stack specifikaci Research
3 Implementace
  • Implementovat vylepšení KG na základě týden 1 researchu
  • Naimplementovat specifikace od Vendyho/Petra (chunking, summary changes)
  • Začít vyvíjet frontend (React + Tailwind + shadcn/ui)
  • Navrhnout API pro compliance check tool (co kontrolovat? formát, obsah, metadata?) Implementation
4 Integrace a deploy
  • Dokončit frontend a propojit s agent CLI přes FastAPI
  • Implementovat compliance check tool a přidat do agent tools
  • Dockerizovat celý stack (docker-compose.yml)
  • Deploy na server nebo cloud (AWS/GCP/Railway?) Implementation
💡 Prioritizace: Týden 1-2 fokus na agent tools a KG (pomůže týmu). Týden 3-4 frontend (největší úkol, může přetéct do dalších týdnů). Compliance tool může být menší projekt na konec.

📊 Tracking progress: Pull Requests pro code změny + GitHub Issues pro prompty & diskuse

💬 2x týdně meeting pro synchronizaci • 🏷️ Suggested labels: prompts, docling, embeddings, search-optimization, knowledge-graph, frontend, compliance

📂 View on GitHub