Case study: AI videos and articles
Cíl: mít “second brain” z videí a článků a ptát se přirozeně. Ne scrollovat a nehledat “kde to bylo”. Hlavní trik je pipeline + konzistentní formát + jednoduché dotazování přes MCP.
Kontext
- 866 videí, 15 801 chunků (YouTube kanály + kurátorované články)
- dotazování přes MCP přímo v Claude Code (příkaz
ask)
Design rozhodnutí (a proč)
- Transkripty → markdown: sjednocený formát pro ingest i ruční čtení
- Embeddings lokálně: vektory se generují z pipeline a MCP je používá při dotazu
- Watchdog: dlouhé stahování transkriptů se samo restartuje při pádu
- Kurátorované články: jednoduché appendování do
articles.mda rychlé keyword search
Největší pasti
- rate limits / výpadky při downloadu → řešení: log + watchdog + restartable kroky
- nepřehledný dataset → řešení: metadata + jasné slugs + disciplína ve struktuře
- velké embedding soubory → řešení: držet je mimo git a generovat deterministicky
Důkazy / provozní signály
- čísla datasetu (videí/chunků) a opakovatelná pipeline pro nový kanál
- MCP dotazování:
askzkratka je rychlejší než procházení složek
Co bych udělal dál
- jednoduchý web UI nad stejným indexem (read‑only)
- automaty na “nová videa” (týdenní ingest)