<?xml version="1.0" encoding="utf-8"?> 
<rss version="2.0"
  xmlns:itunes="http://www.itunes.com/dtds/podcast-1.0.dtd"
  xmlns:atom="http://www.w3.org/2005/Atom">

<channel>

<title>Заметки — Игорь К.: заметки с тегом транскрибация</title>
<link>https://blog.fossko.ru/tags/transkribaciya/</link>
<description>Блог Игоря К. о маркетинге, аналитике, фотографии и жизни...</description>
<author></author>
<language>ru</language>
<generator>Aegea 11.4 (v4171)</generator>

<itunes:subtitle>Блог Игоря К. о маркетинге, аналитике, фотографии и жизни...</itunes:subtitle>
<itunes:image href="" />
<itunes:explicit></itunes:explicit>

<item>
<title>Транскрибируем видео из телеграма</title>
<guid isPermaLink="false">510</guid>
<link>https://blog.fossko.ru/all/transkribiruem-video-iz-telegrama/</link>
<pubDate>Fri, 12 May 2023 12:51:24 +0300</pubDate>
<author></author>
<comments>https://blog.fossko.ru/all/transkribiruem-video-iz-telegrama/</comments>
<description>
&lt;p&gt;Когда требуется распознать видео с вебинара в телеграме, делаем следующее:&lt;/p&gt;
&lt;ol start="1"&gt;
&lt;li&gt;Скачиваем видео к себе на компьютер&lt;/li&gt;
&lt;li&gt;Вытаскиваем аудиодорожку через ffmpeg&lt;/li&gt;
&lt;/ol&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;ffmpeg -i video1014957119.mp4 video1014957119.mp3&lt;/code&gt;&lt;/pre&gt;&lt;ol start="3"&gt;
&lt;li&gt;Транскрибируем через &lt;a href="/all/rasshifrovka-audio-i-video/"&gt;whisper-ctranslate2 в Гугл колаб&lt;/a&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;div class="e2-text-picture"&gt;
&lt;img src="https://blog.fossko.ru/pictures/whisper-ctranslate2-audio-to-text-bystry.ipynb---Colaboratory---Google-Chrome-2023-05-12-12.44.30.jpg" width="920" height="416" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Фрагмент вебинара SEO c Ильей Карбышевом: &lt;a href="https://t.me/irinausichenko/865" class="nu"&gt;«&lt;u&gt;SEO для редакторов&lt;/u&gt;»&lt;/a&gt;&lt;/div&gt;
&lt;/div&gt;
</description>
</item>

<item>
<title>Расшифровка аудио и видео</title>
<guid isPermaLink="false">508</guid>
<link>https://blog.fossko.ru/all/rasshifrovka-audio-i-video/</link>
<pubDate>Fri, 21 Apr 2023 15:13:37 +0300</pubDate>
<author></author>
<comments>https://blog.fossko.ru/all/rasshifrovka-audio-i-video/</comments>
<description>
&lt;p&gt;Когда требуется расшифровать аудиофайл, или ролик с ютуба, я пользуюсь whisper или whisper-ctranslate2 в среде &lt;a href="https://colab.research.google.com/"&gt;Гугл колаб&lt;/a&gt;&lt;/p&gt;
&lt;div class="e2-text-picture"&gt;
&lt;div class="fotorama" data-width="761" data-ratio="1.4834307992203"&gt;
&lt;img src="https://blog.fossko.ru/pictures/Untitled0.ipynb---Colaboratory---Google-Chrome-2023-04-21-14.35.15.jpg" width="761" height="513" alt="" /&gt;
&lt;img src="https://blog.fossko.ru/pictures/Untitled0.ipynb---Colaboratory---Google-Chrome-2023-04-21-14.36.18.jpg" width="711" height="309" alt="" /&gt;
&lt;/div&gt;
&lt;div class="e2-text-caption"&gt;При использовании библиотеки whisper-ctranslate2 лучше использовать графическую карту — GPU. Меню → Среда выполнения → Сменить среду выполнения → GPU&lt;/div&gt;
&lt;/div&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;# установка оригинального whisper
!pip install git+https://github.com/openai/whisper.git

# установка ffmpeg
!sudo apt update &amp;amp;&amp;amp; sudo apt install ffmpeg

# установка whisper-ctranslate2
!pip install -U whisper-ctranslate2

# установка yt-dlp для сохранения видео с ютуба
!pip install yt-dlp&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Двойной символ &amp;&amp; используется для запуска двух команд одновременно, если первая команда завершена успешно. Это означает, что если первая команда возвращает ошибку, то вторая команда не будет выполнена.&lt;/p&gt;
&lt;p&gt;&lt;a href="https://github.com/Softcatala/whisper-ctranslate2"&gt;Гитхаб whisper-ctranslate2&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;С декабря 2023 года выдается ошибка: «RuntimeError: Library libcublas.so.11 is not found or cannot be loaded»&lt;br /&gt;
Для исправления ошибки установите Cuda 11 командой:&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;!apt install libcublas11&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Скачивать будем ролик Ильи Бирмана из лекции &lt;a href="https://ilyabirman.ru/meanwhile/all/understanding-the-task/"&gt;о понимании задачи&lt;/a&gt;&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;# качаем ролик id в mp3 в корень
!yt-dlp -x --audio-format mp3 -o ./birman_ponimanie_zadachi.mp3 -- PbnbwkoCQOE&lt;/code&gt;&lt;/pre&gt;&lt;p&gt;Распознавать можно whisper-ctranslate2 — по моим наблюдением расшифровывает в 2—3 раза быстрее чем оригинальный whisper.  На данный момент модель large-v2 самая полная.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;#распознаем через whisper-ctranslate2
!whisper-ctranslate2 &amp;quot;birman_ponimanie_zadachi.mp3&amp;quot; --language Russian  -o ./result --model large-v2 --model_dir ./model&lt;/code&gt;&lt;/pre&gt;&lt;div class="e2-text-picture"&gt;
&lt;img src="https://blog.fossko.ru/pictures/rasshifrovka-audio-i-video.png" width="749" height="558" alt="" /&gt;
&lt;div class="e2-text-caption"&gt;Результат в консоле будет появляться по мере распознавания. Результирующие файлы будут в папке result в форматах .json, .srt, .tsv, .txt и .vtt. Например, в txt — только текст, в tsv — таймкоды, в vtt и srt — субтитры.&lt;/div&gt;
&lt;/div&gt;
&lt;p&gt;Через оригинальный whisper имеет смысл распознавать на компьютерах без видеокарт, это долго, но работает. Whisper требует версию питона 3.8—3.10, на других версиях не заработает.&lt;/p&gt;
&lt;pre class="e2-text-code"&gt;&lt;code class=""&gt;#распознаем через оригинальный whisper
!whisper &amp;quot;iliahov2.mp3&amp;quot; -o ./result --model large-v2 --model_dir ./model&lt;/code&gt;&lt;/pre&gt;&lt;p class="loud"&gt;Если вам нужно что-то распознать или транскрибацию провести. Пишите в телеграм, договоримся :—)&lt;/p&gt;
</description>
</item>


</channel>
</rss>