なぜ改訂版を作ることにしたか 10日ほど前にGemini APIを使った文字起こしのスクリプトについて、記事を投稿した。 この方法では、5つのスクリプトを使って、①MP3ファイルを指定したタイムスタンプで分割、②Gemini APIを通じて文字起こし、③タイムスタンプ ...
1時間を超える、そこそこ長いインタビュー音声(MP3、100分超)をAIを使って文字起こしする作業を行うことになった。手順などをメモしておきたい。 1時間を超える音声ファイルであるため、ツールの選択などに制限がかかるほか、下準備も必要になる。
The pipeline estimates an empirical MMD threshold (τ) using same-domain calibration, and then tests whether samples from another dataset (or perturbed version of the same dataset) come from a ...