Back to Home
📋 Workflow: Pull Requests + GitHub Issues
Main branch je chráněný - všechny změny musí projít přes Pull Requesty. Pro tracking progress používejte GitHub Issues a scházejte se 2x týdně.
- Pull Requests: Všechny code změny (kromě promptů) dělejte přes PR - direct commit do main je zablokovaný
- Prompty - GitHub Issues: Optimalizace promptů diskutujte v GitHub Issues (label: prompts) - testujte, sdílejte výsledky, hlasujte o nejlepší verzi
- Code změny - PR workflow: Create branch → Code → Push → Create PR → Michal dělá review → Michal merguje do main
- Weekly meetings: Scházíme se 2x týdně - sdílejte progress, diskutujte problémy, koordinujme práci
- Projít složku
prompts/ a identifikovat všechny system/user prompty
- Otestovat aktuální 17 agent tools na reálných dotazech
- Zaznamenat nedostatky v prompt kvalitě a tool responses
- Vytvořit GitHub Issues s poznatky (label: prompts, agent-tools) Research
- A/B testování různých prompt formulací
- Optimalizovat context v promptech (co je skutečně potřeba?)
- Zkrátit příliš dlouhé prompty (cost reduction)
- Zlepšit prompt clarity pro Claude/GPT-5 Testing
- Aplikovat vylepšené prompty do
prompts/
- Upravit tool descriptions pro lepší agent selection
- Zkontrolovat, že prompty využívají prompt caching efektivně
- Manuálně otestovat nové prompty na reálných dotazech Implementation
- Okometricky zhodnotit kvalitu odpovědí (lepší/horší než před změnami?)
- Finální review všech prompt změn s týmem
- Dokumentovat best practices pro budoucí prompty
- Zdokumentovat poznatky do GitHub Issue Review
💡 Kolaborativní poznámka: Všichni členové by měli pravidelně sdílet své poznatky přes GitHub Issues. Používejte labels pro kategorizaci (prompts, agent-tools, research) a diskutujte přímo v issue threads.
- Prostudovat
src/docling_extractor_v2.py a pochopit současnou implementaci
- Zjistit, které formáty už fungují (PDF zřejmě ano)
- Prozkoumat Docling dokumentaci pro DOCX, TXT, MD, LaTeX support
- Identifikovat potřebné knihovny (python-docx, markdown, pylatex?) Research
- Připravit testovací soubory v každém formátu (PDF, DOCX, TXT, MD, LaTeX)
- Vytvořit metriku: Úspěšnost extrakce struktury (sections, headings) vs. čas zpracování
- Otestovat současný kód na všech formátech a zdokumentovat selhání Testing
- Doimplementovat podporu DOCX (hierarchie přes styles)
- Doimplementovat TXT/MD (markdown headings → struktura)
- Doimplementovat LaTeX (\section, \subsection → struktura)
- Zajistit, že všechny formáty generují stejný HierarchicalChunk output Implementation
- Spustit end-to-end testy s reálnými dokumenty všech formátů
- Ověřit kvalitu extrahované struktury (depth, section names, metadata)
- Napsat dokumentaci do README s příklady použití
- Pull request s code review od Michala Review
- Prostudovat
src/docling_extractor_v2.py - font-size classification
- Pochopit
src/summary_generator.py - hierarchické summaries (150 chars)
- Prostudovat
src/multi_layer_chunker.py - Contextual Retrieval
- Prostudovat parametry Docling API (OCR, font detection, layout) Research
- Najít nebo vytvořit dataset právních/technických dokumentů s ground truth strukturou
- Definovat metriky: Přesnost extrakce (F1 score) vs. latence vs. OCR cost
- Otestovat různé Docling konfigurace (OCR on/off, různé threshold pro fonts)
- Prozkoumat research papers: Jaká je optimální délka summary pro SAC? Co říkají Reuter et al. a další studie? Research
- Prozkoumat chunking metody lepší než RCTS (semantic chunking, agentic chunking?)
- Porovnat Contextual Retrieval s jinými kontextovými metodami
- Vymyslet vylepšení summary generation (lze zlepšit 150-char limit?)
- Napsat specifikaci implementace pro Michala (co změnit + proč + očekávaný impact) Research
- Zkontrolovat Phase 1-3 (Docling → Summary → SAC) s novými poznatky z researche
- Identifikovat bottlenecks a optimization opportunities v extraction/chunking
- Vytvořit seznam prioritizovaných vylepšení pro Phase 1-3
- Prezentovat findings týmu + diskuse o implementaci Review
💡 Kolaborativní poznámka: Pracujte společně na všech úkolech - pair programming, code reviews, společné experimenty. Pravidelně sdílejte výsledky přes GitHub Issues (label: docling, summary-generation).
- Prostudovat
src/embedding_generator.py - text-embedding-3-large vs bge-m3
- Prostudovat
src/hybrid_search.py - BM25 + Dense + RRF fusion
- Změřit baseline performance: retrieval precision@k, recall@k, latence
- Identifikovat problémy se synonymy (test queries s různými termíny) Research
- Najít nebo vytvořit vhodný dataset pro evaluaci (legal/technical dokumenty + ground truth queries)
- Porovnat embedding modely: text-embedding-3-large, bge-m3, voyage-law-2, e5-large
- Změřit legal/technical domain performance na připraveném datasetu
- Testovat vliv embedding dimenzionality (1024D vs 3072D) na kvalitu Testing
- Implementovat synonym expansion (wordnet, vlastní synonym dictionary pro legal terms)
- Vyladit RRF parametr k (aktuálně 60, zkusit 30-90 range)
- Experimentovat s BM25 parametry (b, k1)
- Diskutovat s Michalem: Jaké vylepšení search tools jsou potřeba? Co naimplementovat v agent tools? Implementation
- Spustit kompletní benchmark na testovacím datasetu
- Porovnat nové vs. staré metriky (precision, recall, MRR, NDCG)
- Zdokumentovat optimální konfiguraci do
.env.example
- Pull request s A/B test výsledky Review
💡 Kolaborativní poznámka: Pracujte společně na všech úkolech - testujte embeddings i search společně, diskutujte přístupy. Sdílejte výsledky průběžně přes GitHub Issues (label: embeddings, search-optimization).
- Reviewovat feedback od týmu na agent tools (po týdnu 1 testování)
- Prostudovat
src/graph/ a src/graph_retrieval.py
- Zjistit, jak vylepšit KG: Více entity types? Lepší relationship extraction?
- Naplánovat nové agent tools na základě user potřeb Research
- Navrhnout frontend architekturu: React/Vue + FastAPI backend?
- Vymyslet UI/UX pro RAG chat interface (inspirace: ChatGPT, Perplexity)
- Naplánovat Docker setup: frontend + backend + vector DB v kontejnerech
- Vytvořit wireframes a tech stack specifikaci Research
- Implementovat vylepšení KG na základě týden 1 researchu
- Naimplementovat specifikace od Vendyho/Petra (chunking, summary changes)
- Začít vyvíjet frontend (React + Tailwind + shadcn/ui)
- Navrhnout API pro compliance check tool (co kontrolovat? formát, obsah, metadata?) Implementation
- Dokončit frontend a propojit s agent CLI přes FastAPI
- Implementovat compliance check tool a přidat do agent tools
- Dockerizovat celý stack (docker-compose.yml)
- Deploy na server nebo cloud (AWS/GCP/Railway?) Implementation
💡 Prioritizace: Týden 1-2 fokus na agent tools a KG (pomůže týmu). Týden 3-4 frontend (největší úkol, může přetéct do dalších týdnů). Compliance tool může být menší projekt na konec.
📊 Tracking progress: Pull Requests pro code změny + GitHub Issues pro prompty & diskuse
💬 2x týdně meeting pro synchronizaci • 🏷️ Suggested labels: prompts, docling, embeddings, search-optimization, knowledge-graph, frontend, compliance