Case study: AI videos and articles

Cíl: mít “second brain” z videí a článků a ptát se přirozeně. Ne scrollovat a nehledat “kde to bylo”. Hlavní trik je pipeline + konzistentní formát + jednoduché dotazování přes MCP.

Kontext

  • 866 videí, 15 801 chunků (YouTube kanály + kurátorované články)
  • dotazování přes MCP přímo v Claude Code (příkaz ask)

Design rozhodnutí (a proč)

  • Transkripty → markdown: sjednocený formát pro ingest i ruční čtení
  • Embeddings lokálně: vektory se generují z pipeline a MCP je používá při dotazu
  • Watchdog: dlouhé stahování transkriptů se samo restartuje při pádu
  • Kurátorované články: jednoduché appendování do articles.md a rychlé keyword search

Největší pasti

  • rate limits / výpadky při downloadu → řešení: log + watchdog + restartable kroky
  • nepřehledný dataset → řešení: metadata + jasné slugs + disciplína ve struktuře
  • velké embedding soubory → řešení: držet je mimo git a generovat deterministicky

Důkazy / provozní signály

  • čísla datasetu (videí/chunků) a opakovatelná pipeline pro nový kanál
  • MCP dotazování: ask zkratka je rychlejší než procházení složek

Co bych udělal dál

  • jednoduchý web UI nad stejným indexem (read‑only)
  • automaty na “nová videa” (týdenní ingest)