
Hindi: 
इस समय जब मैं क्वारंटाइन में हूं,
मेरा बस एक शौक है,
टहलने जाना।
मैं टहलने के दौरान सब कुछ करती हूं,
मैं पॉडकास्ट सुनती हूं, मीटिंग करती हूं।
पर एक चीज़ है
जो टहलने के दौरान करना मुश्किल है
और वह है शोध पेपर पढ़ना।
ऐसा मेरा सोचना था जब तक मुझे
इस नए प्रोजेक्ट के बारे में पता नहीं चला,
जिस पर मेरे सहयोगी, काज़ सातो,
जापान में काम कर रहे है।
उन्होंने मशीन लर्निंग की मदद से 
पीडीएफ़ को ऑडियोबुक में बदला
आज, मैं आपको दिखाऊंगी कि 
यह कैसे करते है,
कंप्यूटर विज़न और टेक्स्ट-टू-स्पीच
का उपयोग कैसे करना है
ताकि आप पीडीएफ़ को 
ऑडियोबुक में बदल सकें।
तो शुरू करते है।
तो पहले मैंने काज़ के साथ बात करी कि
कैसे उन्होंने अपना प्रोजेक्ट बनाया।
मैंने पीडीएफ़ पुस्तकों को टेक्स्ट फ़ाइल
में परिवर्तित किया है
विज़न एपीआई ओसीआर सुविधा का उपयोग करके।
मैंने दस्तावेज़ के लेआउट को समझने के लिए
यहां ऑटो एमएल टेबल्स का उपयोग किया है
और फिर मैंने पूर्व संसाधित टेक्स्ट को
.mp3 ऑडियो फ़ाइल में
परिवर्तित करने के लिए 
टेक्स्ट-टू-स्पीच एपीआई का उपयोग किया है।

English: 
So, now that I'm in quarantine,
I have basically this one hobby,
which is going for walks.
I do everything on walks,
I listen to podcasts, I take meetings.
There's just one thing
that's really hard to do on a walk
and that's reading a research paper.
Or so I thought until I learned about
a new project that my colleague, Kaz Sato,
who's based in Japan, is working on.
He used machine learning
to transform PDFs into audiobooks.
Today, I'll show you
how to do the same thing,
how to use computer vision
and text-to-speech
to turn your own PDFs into audiobooks.
Let's get started.
♪ [music] ♪
So first I decided to chat with Kaz
to see how he built his project.
I have converted the PDF books
into the text file
by using the Vision API OCR feature.
I have used here Auto ML Tables
to understand the layout of the document.
And then I have used
the Text-to-Speech API for converting
the pre-processed text
into the .mp3 audio file.

Japanese: 
感染予防期間中の私の趣味は散歩です
［AIエンジニア デール･マークウィズ］
ポッドキャストも会議もすべて
歩きながらしています
歩きながらするのが難しいのは
研究論文を読むことくらいです
それも 日本の同僚サトー･カズが手掛けた
新規プロジェクトで解決です
機械学習を使った
PDFからオーディオブックへの変換です
今日はそれをお見せしますね
コンピュータビジョンと音声合成を使い
PDFをオーディオブックに変える方法です
では 始めましょう
まず このプロジェクトのビルド方法を
カズに聞いてみます
Vision API OCR機能を使用して
PDFブックをテキストファイルへ変換しました
また Auto ML Tablesを使用して
ドキュメントのレイアウトを判読しました
そして Text-to-Speech APIを使用し
事前処理したテキストを
MP3オーディオ ファイルに変換しました

Hindi: 
मैं काज़ के प्रोजेक्ट को अपने संस्करण
में ढालना चाहती थी
जो शोध पत्रों को ऑडियोबुक में बना दे।
तो मैं काज़ की संरचना की
काफ़ी हद तक नकल करूंगी।
पहले, काज़ की तरह,
मैं एक Google क्लाउड स्टोरेज बकेट बनाऊंगी,
जहां सभी पीडीएफ़ होंगे
जिन्हें मैं परिवर्तित करना चाहती हूं।
फिर, मैं पीडीएफ़ से टेक्स्ट निकालने के लिए
विज़न एपीआई का उपयोग करूंगी,
जिन्हें मैं बाद में शब्दों में बदल दूँगी।
मैं काज़ के कोड का उपयोग करूंगी
जो पायथन से विज़न एपीआई को कॉल करता है।
जब आप पीडीएफ़ को API में ले जाते हैं
तो आउटपुट ऐसा दिखता है।
जैसा कि आप देख सकते हैं,
इसमें टेक्स्ट बिखरा हुआ है,
लेकिन अक्षरों के एक्स,
वाई निर्देशांक भी हैं।
काज़ ने इस प्रोजेक्ट को
बहुत अच्छे तरीके से सेटअप किया है।
उन्होंने क्लाउड फ़ंक्शन का उपयोग किया,
जो क्लाउड में छोटे कोड को
चलाने का तरीका है, अगर कुछ होता है।
यहां पर हम इसे सेटअप करेंगे ताकि
क्लाउड स्टोरेज में पीडीएफ़ अपलोड करने पर
क्लाउड फ़ंक्शन ट्रिगर होगा जो ऑडियोबुक
बनाने की प्रक्रिया शुरू कर देगा।
मैं एक क्लाउड फ़ंक्शन बनाने जा रही हूं,
और इसमें काज़ के कोड को कॉपी करूंगी।
पीडीएफ़ को टेक्स्ट में बदलने के बाद,
हमें यह तय करने की आवश्यकता है कि

Japanese: 
カズのプロジェクトを借用し
研究論文をオーディオブックへ変換したいので
カズの方式と同様にします
まずカズ同様 変換したいPDF全体を保存する
Google Cloudストレージ バケットを作ります
次に Vision APIで
PDFからテキストを抽出します
これが後に音声へ変換されます
PythonからVision APIを呼び出すコードは
カズから拝借します
このAPIを介してPDFを渡した
結果がこちらです
このように テキストだけでなく
文字のXY座標も含まれています
カズのプロジェクトは
巧みに作られています
Cloud Functionを使用していて
イベントが発生すると
クラウドでコードが実行します
こうすると PDFが
クラウド ストレージにアップされると
Cloud Functionがトリガーされ
オーディオブック作成を開始します
私もCloud Functionを作り
カズのコードをそこにコピーします
PDFをテキストに変換したら

English: 
I wanted to build
my own version of Kaz's project
that would convert
research papers into audiobooks.
So I'm going to copy most
of Kaz's architecture.
First, like Kaz, I'll create
a Google Cloud Storage bucket
where all the PDFs
I want to be converted will be stored.
Next, I'll use the Vision API
to extract text from those PDFs,
which I'll later convert
into spoken words.
I'll use Kaz's code which calls
the Vision API from Python.
Here's what the output looks like
when you pass a PDF through the API.
As you can see, it contains
both the raw text
but also the X, Y coordinates
of the characters.
So Kaz set up this project
in a really nice way.
He used a Cloud Function, which is a way
of running a tiny bit of code
in the cloud when something happens.
In our case, we'll set it up so that
uploading a PDF to cloud storage
triggers the cloud function that kicks off
our audiobook-making pipeline.
I'm going to create a cloud function, too,
and copy Kaz's code into it.
After we've converted the PDFs into text,
we still need to decide

Hindi: 
पीडीएफ़ टेक्स्ट के किन हिस्सों को
हम ऑडियोबुक में शामिल करना चाहते हैं।
उदाहरण के लिए,
अगर हम बॉडी टेक्स्ट और शीर्षक चाहते हैं,
लेकिन हम पृष्ठ संख्या 
या संदर्भ या इमेज कैप्शन
जैसी चीज़ों के बारे में
परवाह नहीं करते हैं।
तो यहां हमें इस मशीन लर्निंग मॉडल
की आवश्यकता हैं
जिसे काज़ के शब्दों में 
गार्बेज (कचरा) टेक्स्ट हटाना कहते हैं।
ऑटो एमएल टेबल्स मॉडल
यह पता लगा सकते हैं कि
क्या कोई टेक्स्ट
गार्बेज टेक्स्ट हो सकता है,
जैसे पृष्ठ शीर्षलेख या पृष्ठ संख्या,
या बॉडी टेक्स्ट,
या अन्य छोटे लेबल
जो आप रेखा-चित्रों में पा सकते हैं।
गार्बेज टेक्स्ट की पहचान करने की
समस्या से निपटने के लिए,
काज़ ने कस्टम मशीन लर्निंग मॉडल बनाया,
जिसमें ऑटो एमएल टेबल्स टूल का उपयोग किया।
उस मॉडल को आज़माने के लिए,
उन्होंने पृष्ठ पर टेक्स्ट के आकार और
उसकी स्थिति के बारे में
सारी जानकारी एकत्र की।
इसके लिए, काज़ को बहुत सारे पीडीएफ़
को मैन्युअल रूप से लेबल करना पड़ा,
अच्छे टेक्स्ट को गार्बेज टेक्स्ट
से अलग करना पड़ा।
हर बुक के लिए तीन घंटे लगते थे,
और शुरू की 
आरंभिक पाँच बुक्स के लिए
दो दिन लगते थे।
कुल 15 घंटे।

Japanese: 
オーディオブックに含める部分を決めます
例えば 本文とタイトルは必要でも
ページ番号や参照
画像の説明文などは不要です
ここで登場するのが カズが作成した
「不要テキスト削除用」機械学習モデルです
Auto ML Tablesモデルは
テキストが不要かどうかを検出できます
例えば ページヘッダーや ページ番号や
本文や 図中の符号などのテキストです
不要なテキストを区別するために
カズは Auto ML Tablesを使用した
機械学習モデルをビルドしました
そのモデルを訓練するため
テキストのサイズや位置などの
情報を集めましたが
そのために
必要または不要なテキストを分け
多量のPDFに手作業で
ラベル付けする必要がありました
各ブックに３時間かかりました
最初のうちは５つのブックに
２日間かかりましたね
15時間よね

English: 
which parts of the PDF text we want
to include in the audiobook.
For example, we probably want
the body text and the title,
but we probably don't care about
things like page numbers
or references or image captions.
So this is where our custom
machine-learning model comes in
to do what Kaz calls
remove the garbage text.
The Auto ML Tables model
can detect whether
a text could be a garbage text,
such as the page headers 
or the page numbers,
or the body text, or the other small labels
you can find in the diagrams.
So to handle the problem
of identifying the garbage text,
Kaz built a custom machine-learning model
using a tool called Auto ML Tables.
To train that model,
he collected all this information
about the size of the text
on the page and its position.
But in order to do that, Kaz had
to manually label a lot of PDFs,
marking the good text
from the garbage text.
It took three hours for each book,
and for the initial five books,
it took like two days.
That's 15 hours. (laughs)

Japanese: 
実家にいたからできたことです
この作業以外は何もしませんでした
自分でラベル付けしなくて済むよう
ここで少しズルをします
カズのモデルを修正せずに
文字の大きさに注目し
最頻出サイズの文字が本文だと仮定して
オーディオブックに入れることにしました
私やカズの方法を詳しく知るには
下記リンクのブログ投稿をご覧ください
ここからは お楽しみ
コンピュータ音声の生成です！
では 始めます
Google Cloud Text-to-Speechは
40超の言語
220超の音声に対応しています
他のも試したいな
私はナレーターです
私はナレーターです
私はナレーターです
私はナレーターです
私はナレーターです
完璧ね
私好みの声にしたわ
コードを更新すると
PDFアップロード時に
オーディオブックが自動生成されます
では 聞いてみましょう

English: 
I could do that because I was back
in my parent's home,
and I had nothing to do
except for this one.
So in order to avoid
labeling data myself,
I'm going to use a little cheat here.
Instead of building a custom model,
I'll just look at all the font sizes
and whatever font size
is most frequently used,
I'm just going to assume
that's the body text
and that should go into the audiobook.
If you want more details
about my and Kaz's approach,
make sure you check out
the blog post linked below.
And now for the fun part:
generating computer voices!
(computer voice 1) I'll take it from here.
Google Cloud Text-to-Speech supports
over 220 voices in 40+ languages.
Let's try another one.
(computer voice 2) I am your narrator.
(computer voice 3) I am your narrator.
(computer voice 4) I am your narrator.
(computer voice 5) I am your narrator.
(computer voice 6) I am your narrator.
Perfect. Now that I've chosen
my favorite voice,
I can update the codes,
that when I upload a PDF, an audiobook
will automatically be generated.
Let's take a look at what it sounds like.

Hindi: 
मैं ऐसा कर पाया क्योंकि मैं
अपने माता-पिता के घर में वापस आ गया था
और इसके सिवाए मेरे पास
करने के लिए कुछ भी नहीं था।
डेटा लेबल खुद करने के बजाए,
मैं थोड़ा 'चीट' का उपयोग
करने जा रही हूं।
कस्टम मॉडल बनाने के बजाए,
मैं सभी फ़ॉन्ट आकारों को देखूंगी
और जो फ़ॉन्ट आकार सबसे अधिक बार
उपयोग किया गया हो,
मैं उसी को बॉडी टेक्स्ट मानूँगी
और इसे ऑडियोबुक में आना चाहिए।
यदि आप मेरे और काज़ के काम 
के बारे में अधिक जानकारी चाहते हैं,
तो नीचे दिए गए ब्लॉग पोस्ट
को अवश्य देखें।
और अब मज़ेदार हिस्से के लिए:
कंप्यूटर आवाज़ें पैदा करना!
मैं यहाँ से आगे बताऊँगा।
Google Cloud टेक्स्ट-टु-स्पीच 
40 से अधिक भाषाओं मे 
220 से अधिक आवाज़ में बात कर सकता है।
चलिए, एक चीज़ और देखते हैं।
मैं आपका सूत्रधार हूं।
मैं आपका सूत्रधार हूं।
मैं आपका सूत्रधार हूं।
मैं आपका सूत्रधार हूं।
मैं आपका सूत्रधार हूं।
बहुत बढ़िया। अब जब मैंने अपनी पसंदीदा
आवाज चुन ली है,
तो मैं कोड्स को अपडेट कर सकती हूं,
ताकि जब मैं पीडीएफ़ अपलोड करूंगी तो एक
ऑडियोबुक खुद-ब-खुद जेनरेट हो जाएगा।
आइए एक नज़र डालते हैं कि यह कैसा लगता है।

Japanese: 
汎用人工知能における
自動定型化への道は有望です
クリスチャン･セゲディ
従来は人間独自の能力だと
考えられていた課題の解決を
現在 AIシステムは学べます
ご視聴ありがとう
ビルドしてほしいことを
コメントして下さい
次回もお楽しみに
[Googleで何でもビルドしよう]
[もっと見る]

Hindi: 
सामान्य आर्टिफ़िशियल इंटेलिजेंस में
ऑटोफ़ॉर्मलाईज़ेशन की ओर
एक आशाजनक शुरुआत
क्रिश्चियन सगेडी।
आज, एआई सिस्टम
उन कार्यों को हल करने में सक्षम हैं
जो कुछ समय पहले तक
विशिष्ट मानव क्षमताओं के
द्वारा ही हो पाता था।
देखने के लिए धन्यवाद।
कमेंट करके बताएं कि
मैं अगली बार क्या बनाऊँ।
फिर मिलते हैं।

English: 
(computer voice 1) A promising path
towards autoformalization
in general artificial intelligence.
(computer voice 2) Christian Szegedy.
Today, AI systems are able
to learn solving tasks
that used to be thought of taking
uniquely human capabilities,
until recently.
(Dale) Thanks for watching.
Let me know in the comments
what you want to see me build.
See you next time.
