Case study: Diktafon
Cíl: hlasové poznámky, které se dají použít. Ne jen “nahrávka”, ale segmenty, přepis a shrnutí tak, aby šlo rychle dohledat pointu.
Kontext
- PWA: instalovatelná appka do telefonu/desktopu bez App Store
- přepis přes OpenAI Whisper (
gpt-4o-transcribe) - sumarizace po segmentech i celé session (GPT‑4o mini)
Design rozhodnutí (a proč)
- Segmenty: raději více krátkých částí než jedna dlouhá nahrávka (lepší orientace a export)
- Wake Lock: během nahrávání se displej nesmí uspávat (API + fallbacky)
- Export do Markdown: nejrychlejší “portable” výstup pro další práci
- Oddělení FE/BE: frontend React/Vite, backend FastAPI (snadná iterace)
Největší pasti
- mobilní prohlížeče a audio recording edge cases → řešení: jednoduché stavy + jasné chyby
- latence přepisu/sumarizace → řešení: dělit práci na segmenty a průběžně zobrazovat výsledek
- bezpečnost API → řešení: bearer token + rate limiting
Důkazy / provozní signály
- nasazení backendu i frontendu (Railway)
- vizuální ukázky UI přímo na project stránce (screenshoty)
Co bych udělal dál
- persist sessions do DB (aby restart backendu nesmazal sezení)
- lepší “search” přes segmenty (embeddings / full‑text)