Case study: Diktafon

Cíl: hlasové poznámky, které se dají použít. Ne jen “nahrávka”, ale segmenty, přepis a shrnutí tak, aby šlo rychle dohledat pointu.

Kontext

  • PWA: instalovatelná appka do telefonu/desktopu bez App Store
  • přepis přes OpenAI Whisper (gpt-4o-transcribe)
  • sumarizace po segmentech i celé session (GPT‑4o mini)

Design rozhodnutí (a proč)

  • Segmenty: raději více krátkých částí než jedna dlouhá nahrávka (lepší orientace a export)
  • Wake Lock: během nahrávání se displej nesmí uspávat (API + fallbacky)
  • Export do Markdown: nejrychlejší “portable” výstup pro další práci
  • Oddělení FE/BE: frontend React/Vite, backend FastAPI (snadná iterace)

Největší pasti

  • mobilní prohlížeče a audio recording edge cases → řešení: jednoduché stavy + jasné chyby
  • latence přepisu/sumarizace → řešení: dělit práci na segmenty a průběžně zobrazovat výsledek
  • bezpečnost API → řešení: bearer token + rate limiting

Důkazy / provozní signály

  • nasazení backendu i frontendu (Railway)
  • vizuální ukázky UI přímo na project stránce (screenshoty)

Co bych udělal dál

  • persist sessions do DB (aby restart backendu nesmazal sezení)
  • lepší “search” přes segmenty (embeddings / full‑text)