SUJBOT2 - Roadmap 4 týdny

Back to Home

🏠 Domů 📥 Indexing Pipeline 💬 Search Pipeline

📋 Workflow: Pull Requests + GitHub Issues

Main branch je chráněný - všechny změny musí projít přes Pull Requesty. Pro tracking progress používejte GitHub Issues a scházejte se 2x týdně.

Pull Requests: Všechny code změny (kromě promptů) dělejte přes PR - direct commit do main je zablokovaný
Prompty - GitHub Issues: Optimalizace promptů diskutujte v GitHub Issues (label: prompts) - testujte, sdílejte výsledky, hlasujte o nejlepší verzi
Code změny - PR workflow: Create branch → Code → Push → Create PR → Michal dělá review → Michal merguje do main
Weekly meetings: Scházíme se 2x týdně - sdílejte progress, diskutujte problémy, koordinujme práci

👥

Všichni členové týmu

📋 Úkoly: Naladit prompts/ • Naladit agent tools

1 Analýza a planning

Projít složku prompts/ a identifikovat všechny system/user prompty
Otestovat aktuální 17 agent tools na reálných dotazech
Zaznamenat nedostatky v prompt kvalitě a tool responses
Vytvořit GitHub Issues s poznatky (label: prompts, agent-tools) Research

2 Experimentování

A/B testování různých prompt formulací
Optimalizovat context v promptech (co je skutečně potřeba?)
Zkrátit příliš dlouhé prompty (cost reduction)
Zlepšit prompt clarity pro Claude/GPT-5 Testing

3 Implementace změn

Aplikovat vylepšené prompty do prompts/
Upravit tool descriptions pro lepší agent selection
Zkontrolovat, že prompty využívají prompt caching efektivně
Manuálně otestovat nové prompty na reálných dotazech Implementation

4 Subjektivní hodnocení

Okometricky zhodnotit kvalitu odpovědí (lepší/horší než před změnami?)
Finální review všech prompt změn s týmem
Dokumentovat best practices pro budoucí prompty
Zdokumentovat poznatky do GitHub Issue Review

💡 Kolaborativní poznámka: Všichni členové by měli pravidelně sdílet své poznatky přes GitHub Issues. Používejte labels pro kategorizaci (prompts, agent-tools, research) a diskutujte přímo v issue threads.

👨‍💻

Petr Vojtášek

📋 Úkol: Doimplementovat podporu pro všechny formáty (pdf, docx, txt, md, latex) a ověřit správnou strukturu

1 Analýza formátů

Prostudovat src/docling_extractor_v2.py a pochopit současnou implementaci
Zjistit, které formáty už fungují (PDF zřejmě ano)
Prozkoumat Docling dokumentaci pro DOCX, TXT, MD, LaTeX support
Identifikovat potřebné knihovny (python-docx, markdown, pylatex?) Research

2 Testovací dataset

Připravit testovací soubory v každém formátu (PDF, DOCX, TXT, MD, LaTeX)
Vytvořit metriku: Úspěšnost extrakce struktury (sections, headings) vs. čas zpracování
Otestovat současný kód na všech formátech a zdokumentovat selhání Testing

3 Implementace

Doimplementovat podporu DOCX (hierarchie přes styles)
Doimplementovat TXT/MD (markdown headings → struktura)
Doimplementovat LaTeX (\section, \subsection → struktura)
Zajistit, že všechny formáty generují stejný HierarchicalChunk output Implementation

4 Validace a dokumentace

Spustit end-to-end testy s reálnými dokumenty všech formátů
Ověřit kvalitu extrahované struktury (depth, section names, metadata)
Napsat dokumentaci do README s příklady použití
Pull request s code review od Michala Review

👥

Vendy + Petr Večeř

📋 Úkoly: Naladit Docling a extrakci dokumentů • Zkontrolovat summary generation + SAC embedding

1 Seznámení s kódem

Prostudovat src/docling_extractor_v2.py - font-size classification
Pochopit src/summary_generator.py - hierarchické summaries (150 chars)
Prostudovat src/multi_layer_chunker.py - Contextual Retrieval
Prostudovat parametry Docling API (OCR, font detection, layout) Research

2 Dataset a research

Najít nebo vytvořit dataset právních/technických dokumentů s ground truth strukturou
Definovat metriky: Přesnost extrakce (F1 score) vs. latence vs. OCR cost
Otestovat různé Docling konfigurace (OCR on/off, různé threshold pro fonts)
Prozkoumat research papers: Jaká je optimální délka summary pro SAC? Co říkají Reuter et al. a další studie? Research

3 Research alternativ

Prozkoumat chunking metody lepší než RCTS (semantic chunking, agentic chunking?)
Porovnat Contextual Retrieval s jinými kontextovými metodami
Vymyslet vylepšení summary generation (lze zlepšit 150-char limit?)
Napsat specifikaci implementace pro Michala (co změnit + proč + očekávaný impact) Research

4 Review Phase 1-3

Zkontrolovat Phase 1-3 (Docling → Summary → SAC) s novými poznatky z researche
Identifikovat bottlenecks a optimization opportunities v extraction/chunking
Vytvořit seznam prioritizovaných vylepšení pro Phase 1-3
Prezentovat findings týmu + diskuse o implementaci Review

💡 Kolaborativní poznámka: Pracujte společně na všech úkolech - pair programming, code reviews, společné experimenty. Pravidelně sdílejte výsledky přes GitHub Issues (label: docling, summary-generation).

👥

Matyáš + Filip

📋 Úkoly: Naladit embedding model • Naladit a vylepšit search (sparse, dense, BM25, synonym search)

1 Analýza současného stavu

Prostudovat src/embedding_generator.py - text-embedding-3-large vs bge-m3
Prostudovat src/hybrid_search.py - BM25 + Dense + RRF fusion
Změřit baseline performance: retrieval precision@k, recall@k, latence
Identifikovat problémy se synonymy (test queries s různými termíny) Research

2 Dataset a experimenty

Najít nebo vytvořit vhodný dataset pro evaluaci (legal/technical dokumenty + ground truth queries)
Porovnat embedding modely: text-embedding-3-large, bge-m3, voyage-law-2, e5-large
Změřit legal/technical domain performance na připraveném datasetu
Testovat vliv embedding dimenzionality (1024D vs 3072D) na kvalitu Testing

3 Search vylepšení

Implementovat synonym expansion (wordnet, vlastní synonym dictionary pro legal terms)
Vyladit RRF parametr k (aktuálně 60, zkusit 30-90 range)
Experimentovat s BM25 parametry (b, k1)
Diskutovat s Michalem: Jaké vylepšení search tools jsou potřeba? Co naimplementovat v agent tools? Implementation

4 Benchmark a finalizace

Spustit kompletní benchmark na testovacím datasetu
Porovnat nové vs. staré metriky (precision, recall, MRR, NDCG)
Zdokumentovat optimální konfiguraci do .env.example
Pull request s A/B test výsledky Review

💡 Kolaborativní poznámka: Pracujte společně na všech úkolech - testujte embeddings i search společně, diskutujte přístupy. Sdílejte výsledky průběžně přes GitHub Issues (label: embeddings, search-optimization).

🚀

Michal

📋 Úkoly: Agent tools • Knowledge graph • Frontend (Docker) • Compliance check tool

1 Agent tools + KG

Reviewovat feedback od týmu na agent tools (po týdnu 1 testování)
Prostudovat src/graph/ a src/graph_retrieval.py
Zjistit, jak vylepšit KG: Více entity types? Lepší relationship extraction?
Naplánovat nové agent tools na základě user potřeb Research

2 Frontend planning

Navrhnout frontend architekturu: React/Vue + FastAPI backend?
Vymyslet UI/UX pro RAG chat interface (inspirace: ChatGPT, Perplexity)
Naplánovat Docker setup: frontend + backend + vector DB v kontejnerech
Vytvořit wireframes a tech stack specifikaci Research

3 Implementace

Implementovat vylepšení KG na základě týden 1 researchu
Naimplementovat specifikace od Vendyho/Petra (chunking, summary changes)
Začít vyvíjet frontend (React + Tailwind + shadcn/ui)
Navrhnout API pro compliance check tool (co kontrolovat? formát, obsah, metadata?) Implementation

4 Integrace a deploy

Dokončit frontend a propojit s agent CLI přes FastAPI
Implementovat compliance check tool a přidat do agent tools
Dockerizovat celý stack (docker-compose.yml)
Deploy na server nebo cloud (AWS/GCP/Railway?) Implementation

💡 Prioritizace: Týden 1-2 fokus na agent tools a KG (pomůže týmu). Týden 3-4 frontend (největší úkol, může přetéct do dalších týdnů). Compliance tool může být menší projekt na konec.

📊 Tracking progress: Pull Requests pro code změny + GitHub Issues pro prompty & diskuse

💬 2x týdně meeting pro synchronizaci • 🏷️ Suggested labels: prompts, docling, embeddings, search-optimization, knowledge-graph, frontend, compliance