こんにちは Phil Anderson です
Watson Discovery サービスのオファリング・マネージャーです
本日は AI を使用して
大量の非構造化文書から 5 分で回答を探し出す方法を説明します
Watson Discovery サービスは Watson プラットフォームの洞察エンジンです
大量の非構造化文書から
例えば Google のように文書とスニペットを返すだけではなく
質問への実際の回答を返すように設計されています
非構造化文書というのは このような資料です
これは 豊富な IBM 製品のうちの ある製品のマニュアルです
わかりやすく書かれた貴重な情報が満載されている数百ページに及ぶ資料です
ただ 数百ページもあるのです
一般的な検索ソリューションを使用して
この文書に存在する可能性のある回答を探し出したい場合
例えば Google などでは 文書へのリンクと
探している回答に該当するのかを判断する手掛かりとなるスニペットを
結果として返すのが限度です
文書を開いて おなじみの CTRL + F で 
「reinstall (再インストール方法)」を検索します
検索しても 検索しても なかなか答えにたどり着きません
文書を最短 1 分で検索できたとしても
その後 文書内の実際の答えを探し出すのに 10 分から 20 分はかかるでしょう
効率的な時間の使い方とは言えません
しかし これはもはや過去の悩みです
この文書から回答を探し出す方法を 2 つ紹介します
まずは Watson Assistant を使用します
Watson Assistant は Watson プラットフォーム のチャットボットです
Watson Assistant を簡単に説明すると
一般的な質問に対する回答を返すために使用できる技術です
例えば 「パスワードのリセット方法は？」などです
質問の意図を非常にインテリジェントに理解し 回答を返します
しかし すべての質問に回答できるようにプログラミングすることは不可能です
しかも その回答はすでに知識ベースの記事にあるわけですから
すべての回答を学習させるのは無意味です
拡張性がありません
そこで Watson Assistant に新しい機能が追加されました
現在ベータ版で提供している検索スキルです
検索スキルは Watson Discovery に接続し 自動で連携します
対話の質問に対し回答がわからなかった場合は 検索スキルを使用できます
では早速 詳細を見てみましょう
名前には「Test」と入力します
すると Discovery のインスタンスがすべて表示されます
私の場合は数えきれないほど出てきますが お手元の画面では 1 つか 2 つでしょう
数多くあるインスタンスから 1 つ選択すると 自動で接続します
少し待つと
すべてのコレクションが表示されます
先ほどお見せした文書をコレクションに追加しています
文書が 1 つあるのがわかります
そのコレクションを検索します
これからお見せするのは 一般的な検索エンジンを使用した
ロングテールのパターンです
テキスト応答を返すように設定すると いわゆる検索結果が返されます
「Try it」をクリックして試してみます
ボットに「How do you reinstall Watson Explorer?」と質問してみましょう
Watson Explorer は先ほどのマニュアルの製品です
質問してみます
索引には文書が 1 つしかないため 応答も 1 件です
その文書の中のどこからかのスニペットも表示されています
文書へのリンクを提供してもいいでしょう
ただ この情報はあまり役に立ちません
これでは 他の検索エンジンとさほど変わりません
役に立つと評価する人もいるかもしれませんが 私はそう思いません
もっと効果的に検索できるはずです
では Watson Discovery の新しい機能 
Smart Document Understanding を使用してみましょう
先ほどの文書はアップロード済みです
現時点ではどの検索エンジンでも長らくやってきたように
すべての文章をフラット・テキスト構造に変換します
これだとフォーマットがもたらしていた意味がなくなってしまっています
NLP を適用したことは評価できます
センチメント分析とエンティティー抽出が実行されています
さらに データの構造について Discovery をトレーニングします
そうすることで 失われた構造をある程度戻すことができます
こちらが Smart Document Understanding のインターフェースです
左側には元の文書 右側には認識された内容が表示されています
認識という表現を使用するのは 視覚的なイメージング技術を使用しているからです
人間と同じように テキストを閲覧し OCR 機能もあります
例をお見せしましょう
このように テキストの上に被せたり
IBM ロゴの OCR 認識もできています
ご覧のとおり わかりやすく色分けされています
この黄色は こちらのテキスト・フィールドに該当します
どうやらほとんどテキストのようです
別のページを開いてみましょう
ほとんどテキストです
非常に視覚的な合図により
例えば中国語など わからない言語でも
視覚的に このテキストがこのセクションの下にあることがわかります
早速この文書に構造を戻していきましょう
今回もまた色分け機能を使用します
これをサブタイトルとします
フッターもラベル付けします
必要のない情報にラベルを付けると有効です
つまり フッター 目次 ヘッダーなどです
セクションのタイトルなど意味のある内容にもラベルを付けますが
フッターなど排除したい情報にもラベルを付けます
トレーニング用にサブミットします
トレーニングのプロセスは非常に高速です
こちらをクリックして また先ほどの画面に戻すと
すでに学習しているはずです
こちらがトレーニングさせたページで
こちらが学習しているページですが まだのようですね
このページでもフッターとサブタイトルのトレーニングをしましょう
このサブタイトルは少し違うようです
そのため 学習していなかったのかもしれません
再度トレーニングします
3 つ目のページに移ります
現在 2 ページ分のトレーニングしか行っていませんが
3 つ目のページになると情報は 100% 正確です
トレーニングさせた 2 つのタイプのサブタイトルとフッターを認識しています
別のページを確認してみましょう
しっかりとフッターが認識されています
かなり整ってきました
文書の構造を認識するだけではありません
この表のように準構造化内容もあります
「table」フィールドを選択します
表自体にラベルを付けます
表全体を選択して 注釈を付けていきます
列に注釈を付けます
この作業を行う理由は 表の構造は機械で認識できないからです
罫線がなく フォーマットのみで定義されている表もあります
トレーニングを行うと Watsonで学習した表が左側に表示されます
列と行が認識されています
列ヘッダーも同様にトレーニングできます
追加で行ヘッダーと
残りの本体テキストのトレーニングも行います
細かくトレーニングすることで
Watson Explorer エンジンのモジュールで
サポートされるブラウザーに該当する内容を照会することができます
するとこの表のこのテキスト部分をピンポイントで返します
検索でこのような質問に対し表からこのような回答が返せる非常に強力な機能です
ではサブミットします
これだけのトレーニングを行うにはどんな意味があるのでしょうか
今回変更は保存しません
ラベルやフッターを抽出する理由は何でしょうか
パイプラインの次のステップにつながります
これらのタブを左から右に進むパイプラインとします
「Manage fields」を開くとフィールドを管理できます
フッター ヘッダー 目次などを索引から除外できます
必要のない情報は索引に含みません
これで 目次やフッターに含まれている関連のない内容が
検索結果に含まれることがありません
さらに NLP の効果が高まります
目次やフッターからの抽出が行われなくなるからです
さらに分割というオプションもあります
分割では 文書をセグメント化し 照会結果の対象を絞ることができます
今回はサブタイトルを選択しセクションに分割します
ユーザーに返す結果として適切でしょう
サブタイトルを基に分割します
変更をコレクションに適用します
実は事前に別のコレクションで実施してみました
同様に 3 ページ分のトレーニングを行っています
同じデモを使用して分割結果をお見せしましょう
分割を行ったコレクションはこれです
Discovery で簡単に使ってみましょう
保存しなくても大丈夫です
取り込むと先ほどよりも構造化されていることがわかります
1 つだけではなく 2 つのフィールドがあります
フッターもどこかにあると思います
今回は文書が 1 つだけではなく 47 文書あります
早速試してみましょう
いくつかのオプションが提示されます
まず定義済みの新規フィールド「subtitle」を
Watson Assistant でのタイトルとして指定します
テキストは先ほどと同じです
すでに結果の内容が改善されています
ファイル名には URL を指定します
早速試してみましょう
同じ文書に対し Watson Explorer の再インストールについて同じ質問をします
まさに求めていた結果が返されました
必要なセクションから必要な回答が得られました
文書を開くためのクリック操作も必要ありませんでした
クリックだけではなく それにかかる数分の時間も節約できています
回数を考えるとかなりの時間の節約につながります
操作も非常に簡単でした
コーディングを一切行わず
AI およびプログラミングの知識も必要とせず
正確な結果を返すように システムをトレーニングできました
他の照会結果も返されています
こちらも使えないわけではないでしょう
Discovery の Relevancy Training インターフェースを使用して
関連のある例 関連のない例を学習させることができます
時間の経過とともに 結果はますます改善されます
非常に優れたテクノロジーです
本番環境で使用されているお客様もいます
お問い合せは E メールでお寄せください
今回はお試しいただきありがとうございました
