|
情報処理学会第65回全国大会 [
情報処理学会]
セマンティック・トランスコーディング -Semantic Webのために今やるべきこと-
長尾 確 名古屋大学 情報メディア教育センター
PDF版 [nagao_ipsj65.pdf]
目次
1. はじめに
次世代の高度な知識共有のインフラであるSemantic Webに不可欠な
ものは、ユーザーが自由にコンテンツを作成し、さらにその共有化
を促進し、知識として再利用可能にするためにコンテンツを意味的
に拡張するツールやプラットフォームである。われわれは、これまで
セマンティック・トランスコーディングという枠組みにおいて、
現在のWebの若干の延長線上に、Semantic Webと同等の機能を有する
仕組みを研究してきた。
それは、主に以下の3つのシステムから成っている。
-
既存のWebコンテンツに対して、機械による内容理解を促進する補足情報
(アノテーション)を付与するオーサリングツール
-
アノテーションデータを管理・共有するためのサーバ
-
アノテーションデータを用いてコンテンツを動的にユーザに
適合させるためのトランスコーディングプロキシ
これらのシステムを実現した経験に基づいて、
Semantic Webの早期実現のために、近い将来に、われわれが何を、
どのように行うべきか、に関する一つの提言を行う。
2. Semantic Webのためにやるべきこと
Semantic Web[10]はグローバルな知識共有のインフラを目指す
アプローチであるが、そのような試みがそう簡単にうまくいくはずがないのは、
これまでの人工知能(特に、知識工学)、あるいは経営工学における知識管理
などの分野における方法論の多くの失敗から考えても明らかである。
ではどうしたら、この困難な問題に対処できるだろうか。
筆者の考える「現在の」Semantic Webの主な問題点は以下の通りである。
-
RDFやOWL等のSemantic Webを構成する記述言語の仕様が必要以上に複雑に
なっている。
-
メタデータの作成の方法論が確立していないため、何をどう作ればよいのか
わからない。
-
意味的な検索以外の具体的な応用についてほとんど述べられていない。
-
マルチメディアデータのようなテキスト以外のコンテンツの意味構造化に
ついてはまったく述べられていない。
以下では、これらの問題についての具体的なアプローチについて述べる。
キーとなる概念は、アノテーションによる情報の階層化とトランスコーディング
による情報の個別化である。
当然ながら、これらはXMLのような、情報を相互運用するための枠組みを前提と
している。
アノテーションとトランスコーディングによって、内容および利用の観点から
拡張されたWebは、「現在における」Semantic Webの一つの具体例と考えられる。
これは、人間と機械がよりよく助け合って利用するためのWebである。
システムの内部に人間が上手に関わっていくための仕組みがないと、知識共有の
ような高度なシステムはうまく機能しないだろう。
アノテーションは、従来のデジタルコンテンツを知的コンテンツとするための
最良の手段である。それは、人間が、自分自身あるいは他者の創り出したコンテンツ
を再評価し、価値あるものとそうでないものを見分ける良い機会が与えられるから
である。
コンテンツを人類共有の財産とするためには、やはりそのコンテンツを責任を持っ
て吟味する人間が必要であろう。アノテーションとは、まさにそのような責任の
所在を明らかにし、内容にさらなる価値を与えていく仕組みなのである。
また、トランスコーディングは、コンテンツのアクセシビリティ(ユーザの身体的
特性やスキル、使用するツールなどによらずに適切にアクセスできること)を強化
する手段である[1]。これによって、コンテンツは真に人類共有
の資源となる。
アノテーションは人間と機械の構成するシステム全体が賢くなっていくための
仕組みである。この場合の機械とは、あらかじめプログラムされた手続きを文脈に
応じて選択的に実行する自律的なシステム、すなわちエージェントである。
エージェントをある程度以上に複雑にする代わりに、コンテンツの方をアノテー
ションによって、人間がエージェントにとって都合の良い形に変えていければ、
人間とエージェントとコンテンツが構成するシステム全体をより高度にすることが
できる。
つまり、コンテンツそのものがより理解しやすくなれば、それを扱うエージェント
が可能なタスクもより高度になるだろう。
エージェントはアノテーションの付与されたコンテンツを対象にすることによって、
単純な手続きを繰り返すだけで、より高度なサービスを提供できる。これは、
見かけ上、エージェントが賢くなったように見えるが、実際はコンテンツそのものが
(人間の不断の努力によって)賢くなっているのである。
このようになって初めて、人々はエージェントの価値を認めて受け入れていくだろう。
そして、情報の収集や分類などのタスクはエージェントに任せて、より創造的な
仕事に専念できるようになると思う。
3. アノテーション:デジタルコンテンツの階層化
図1で示されるように、アノテーションは、現在のWebに上位構造
を作る基盤になる。現在のWebコンテンツが最下層で、アノテーションはコンテンツに
情報を付け加えるメタ(上位)コンテンツ、さらにメタコンテンツに対するメタ
コンテンツのように階層をなしている。
図1.
アノテーションによるWebコンテンツの拡張
この図にあるように、従来のWebコンテンツは一枚の平面上に存在する要素
群として捉えることができる。セマンティック・トランスコーディングでは、Web
コンテンツを平面から立体に拡張する手法を提案する。コンテンツの各要素に意味
や文書構造を示すアノテーションを付加する。このことによってWebコンテンツに、
コンテンツの各要素の意味や文書構造を記述した上位構造を築くことができる。代
表的なアノテーションの例としては、リンク元の文書に埋め込まれていないハイパー
リンクである外部リンクXLink[7]や、コンテンツに対するコメント
などが挙げられる。アノテーションを作成して公開することが容易に
なれば、Webコンテンツの表現力は大幅に高まり、その利用価値が飛躍的に向上
するだろう。
アノテーションによる階層化の手法を用いて、具体的にはHTML文書などの
Webコンテンツが抱える、以下の3つの課題を解消できるだろう。
-
HTMLではレイアウトなどの文書の表現につ
いては規定している。しかし、文書の意味などといった内容に関してはほとんど
何も規定していない。
この点を改善するために、RDF[8]を
用いることができるが、その方法論は未だ確立しているとは言えない。
-
HTMLなどで記述したハイパーテキストは、各文書間のネットワーク構造を
記述できる。ただしリンク情報が常に正しいとは限らず、その修正ができるのは
もとの文書の著者だけである。
-
Web文書の著者は一般にその読者のことを考慮して著作してはいない。
なおかつ著者と読者の間に立って吟味・調整する役割の人間も通常はいない。
Webは、新しいスタイルの文書のあり方を示したという点において革新的だったと
言えるだろう。
Webコンテンツの自由度の高さは疑いようがない。しかし、現状で
はWebコンテンツを読者が読みやすいような体裁に機械的に変換することは非常に
困難である。
4. トランスコーディング:デジタルコンテンツの個別化
デジタルコンテンツがあたりまえのものとして世の中に溢れ出したのは20世紀の情
報技術の進歩からすると必然的であっただろう。そして、それら膨大なコンテンツ
を活用するための技術もさまざまなものが発明され、進歩を遂げていくことは間違
いがない。
これまでは、ともかくコンテンツを作成して流通させることが主目的であったのに
対し、これからは、それらのコンテンツをいかに賢く利用するか、あるいは、いか
に多様に、多目的に利用するか、ということが最も重要な課題になると思われる。
デジタルコンテンツの高度利用の主なものに、パーソナライゼーションとアダプテー
ションがある。
デジタル放送の映像やWebページなどのデジタルコンテンツをユーザの好みに応じ
て変換することをパーソナライゼーションと呼び、それらのコンテンツをPCや
PDAや携帯電話などのデバイスの特性に合わせて変換することをアダプテーション
と呼ぶ。
これらは、ともにコンテンツの個別化の例である。個別化はコンテンツの送受信が
ブロードキャストからポイントtoポイントになったことと大いに関係がある。
ここでは、デジタルコンテンツのパーソナライゼーションとアダプテーションを合
わせたものをトランスコーディングと呼ぶ。
現状では、オンラインコンテンツへのアクセスはPC経由で行なわれることが多い。
しかし、この様相は近年、急激に変わりつつある。PCに加えて、携帯電話や
PDA、テレビ、カーナビなどを使ってインターネットにアクセスする機会がますま
す増加するだろう。
このとき重要となるものがトランスコーディングである。
たとえば、PCで表示することを前提にして作成したWebページを携帯電話な
どで表示する場合、画像の縮小やテキスト部分の圧縮といった操作を自動的に行な
う必要がある。
トランスコーディングには、少ない伝送容量を使ってサーバからクライアントにコ
ンテンツを配信できるという利点の他に、ユーザの嗜好に応じた理解しやすいコン
テンツを生成できるといった利点がある。
トランスコーディング技術を使えば、画面の表示機能やデータ伝送速度など、それ
ぞれ違った仕様や制約をもつ多様な機器に対して、1つのコンテンツ・ソースから
情報やサービスを提供できるようになる。コンテンツ・プロバイダ
やサービス・プロバイダは、それそれの機器に対応したコンテンツを個別に用意し
なくても済む。具体的な応用例としては、PC向けWebコンテンツのトランス
コーディングによって、携帯電話向けのコンテンツを生成するといった利用法があ
る。コンテンツ・プロバイダは、現状のようにPC向けと携帯電話向けのコン
テンツを作り分ける必要がなくなる。
このトランスコーディングをさらに進めて、テキストの要約などの内容に基づく処
理の精度を高める工夫を盛り込んだのが、筆者の提案するセマンティック・トラン
スコーディングである[4]。具体的には、コンテンツに含まれる
テキスト文要素に言語構造や語彙情報をアノテーションとして関連付けることに
よって、要約や翻訳などの自然言語処理の精度を大きく向上させることができる。
たとえば、アノテーションによってコンテンツに含まれるテキスト文の意味を明確
にすると、正確な要約や翻訳が期待できる。コンテンツにアノテーションを付ける
手間が増すが、誤解なく伝達すべき重要な情報にはアノテーションを付与して、
より適切な形で伝達・共有すべきだろう。
このアノテーションはコンテンツの内容理解を促進するものとして機能する。
セマンティック・トランスコーディングは、ユーザが指定したWeb上の新聞記事な
どのコンテンツを任意の圧縮率で要約して表示したり、テレビ番組などの映像デー
タからユーザの好みに応じた話題だけを抜き出して、ダイジェスト映像を作成する
といったことを可能にする。
さらに、要約したコンテンツを翻訳したり、テキストを音声化して聴くこともできる。
コンテンツサーバにおかれたテキスト、画像、音声、映像などのコンテンツは
トランスコーディングプロキシによって、ユーザの使用するデバイス
(PC、携帯電話、カーナビなど)や、ユーザの要求(概要をつかみたい、
母国語で読みたい、声で聞きたい、など)に合わせて加工される。
このとき、アノテーションと呼ばれる付加情報を用いて、より精度の高い要約・翻
訳を行う。アノテーションはアノテーションサーバに蓄えられている。
セマンティック・トランスコーディングは、基本的にテキストコンテンツの処理
を中心としたものであるが、その手法は映像や画像などの非テキストコンテンツ
の加工にも応用され、マルチメディア・データを含むコンテンツに適用できる。
5. トランスコーディングの仕組み
セマンティック・トランスコーディングを実行する複数のソフトウェア・モジュー
ル(トランスコーダ)は、HTTPプロキシ上で機能
するプラグインとして実装した。トランスコーダを制御するHTTPプロキシをトラン
スコーディングプロキシと呼ぶ。
図2はセマンティック・トランスコーディングシステムの
構成を表している。
図2.
セマンティック・トランスコーディングシステムの構成
トランスコーディングプロキシを中心とした情報の流れは次のようになる。
-
クライアントのWebブラウザからURLとクライアントIDを受け取る。
-
WebサーバにURLの示すWebページをリクエストする。
-
Webページを受け取ると、そのハッシュ値を計算する。
-
アノテーションサーバにURLに関連するアノテーションデータを要求する。
もし、アノテーションデータが見つかったら、アノテーションサーバからデー
タを受け取る。
-
データを受け取ると、データのハッシュ値とWebページのハッシュ値と比較する。
-
同時にクライアントIDに基づいてユーザ情報を検索する。ユーザ情報がない場合
は、ユーザから与えられるまでデフォルト設定を使う。
-
ハッシュ値を照合したら、アノテーションデータとユーザ情報に基づいて適切な
トランスコーダを起動する。
-
加工したコンテンツをユーザのWebブラウザに送信する。
トランスコーディングプロキシは、実装環境としてIBM Almaden Research
Centerの開発したWBI (Web Intermediaries)を使用した[2]。
このWBIを利用したトランスコーディングプロキシには、以下の3つの
主要な機能がある。個人情報の管理、アノテーションデータの収集と管理、そし
てトランスコーダの起動と結果の統合である。
個人情報の管理を行なうには、まずアクセスしてきたユーザを特定する必要がある。
ユーザの特定にCookieを使う。個人情報を管理するIDを、Cookieデータとしてユー
ザに渡す。これにより、ユーザのアクセスポイントに関係なくユーザの特定が行える。
ただし、既存のWebブラウザは、Cookieをセットしたサーバに対して、そのCookie
を渡すものであり、プロキシのCookie利用は考慮されていない。通常プロキシは、
ホスト名とIPアドレスのみによってユーザを識別する。
そこで、ユーザが個人情報をセットした時に、Cookie情報(ユーザID)と個人情報を
関連付け、一方、アクセスポイントの変化ごとにIPアドレスとホスト名、Cookie情
報(ユーザID)を関連付け直す。これによりIPアドレスが変化してもユーザの特定
が行える。
トランスコーディングプロキシは、アノテーションサーバと通信して、アノテー
ション・データを入手する。アノテーションサーバは複数存在することができるの
で、それぞれのサーバの管理するアノテーションデータのインデックスを定期的に
作っておく。このインデックスを、どのアノテーションサーバからデータを入手す
べきかを判断するときに役立てる。
トランスコーディングプロキシの最も重要な役割は、個人情報とアノテーション
データに基づいてコンテンツを加工することである。コンテンツの加工は、必要な
トランスコーダを起動し、その結果を統合することによって行なう。
現在、開発済みのトランスコーダは、テキスト文、画像、音声、映像にそれぞれ対
応したものである。これらのトランスコーダは、直列あるいは並列に結合すること
で、複合的なトランスコーディングが実現できる。たとえば、文書を要約後に翻訳
して、さらに音声化するなどの一連の処理をトランスコーダの使い分けにより行う。
6. 提言
セマンティック・トランスコーディングで用いるアノテーションは、主に
文書の言語構造、マルチメディアの内容に基づく構造化情報、任意のコンテンツ
に対するコメント情報などである。これらは、ある種のリテラシーがあれば
誰にでも作成可能な情報である。そのようなリテラシーは、アノテーション
エディタと呼ばれるツールを使っているうちに自然に獲得されていくような仕組みに
すべきだと思っている。
一方、「現在の」Semantic Webにおける主な(メタ)コンテンツは、従来のコンテンツ
とは表現形式が異なり、作成が困難である。
たとえば、RDFによるグラフ構造によるメタデータは何をどう作ればよいのかよく
わからないし、OWL[11]によるオントロジカルなデータは、さらに何を
どう記述すればよいのかわからない。やはり、具体的なコンテンツに関して、
自然に追加できるような内容でないと動機的にも技量的にもとっかかりがないの
である。
アノテーションは、コンテンツと乖離したトップダウン的なものであるべき
ではないし、段階的により高度なものに発展させていく必要があるだろう。
そのために必要なのは、コンテンツをサーバ側で変換して配信する場合にも、
オリジナルデータへのポインター(データベースURLやレコードIDなど)を変換後
のコンテンツの該当する部分に挿入し、アノテーションがオリジナルデータに
直接関連付けられるように工夫することである。
また、当然ながら、Semantic Webは、現状のWebとシームレスに統合できるもの
でなければならない。トランスコーディングプロキシはサーバとクライアントの
「中間」で処理を行なうため現在のWebのアーキテクチャに自然に統合される。
ここで必要なのは、URLのようなコンテンツのポインターを要求するだけでなく、
どのプロキシにどのような変換を必要するかということも含めて要求とすること
である。これは、現在ではブラウザの機能とトランスコーディングプロキシの
データベースを用いることで解決しているが、
たとえば、トランスコーディングのためのプロファイルをXMLを用いて標準化して、
SOAP (Simple Object Access Protocol)[9]等でリクエストを送るように
すれば、より一般化できるだろう。
参考文献
[
1] Chieko Asakawa and Hironobu Takagi. Annotation-based transcoding for nonvisual Web access. Proceedings of the Fourth International ACM Conference on
Assistive Technologies (ASSETS 2000). pp.172-179. 2000.
[
2] Steven C. Ihde, Paul P. Maglio, Joerg Meyer, and Robert Barrett. Intermediary-based transcoding framework. IBM SYSTEMS JOURNAL. Vol.40. No.1. pp.179-192. 2001.
[
3] Katashi Nagao, Shigeki Ohira, and Mitsuhiro Yoneoka. Annotation-based multimedia summarization and translation. Proceedings of the Nineteenth International Conference on
Computational Linguistics (COLING-02). pp.702-708. 2002.
[
4] Katashi Nagao, Yoshinari Shirai, and Kevin Squire. Semantic annotation and transcoding: Making Web content more accessible. IEEE MultiMedia. Vol.8. No.2. pp.69-81. 2001.
[
5] Shigeki Ohira, Mitsuhiro Yoneoka, and Katashi Nagao. A multilingual video transcriptor and annotation-based video
transcoding. Proceedings of the Second International Workshop on
Content-Based Multimedia Indexing (CBMI-01). 2001.
[
6] Text REtrieval Conference (TREC). TREC-2002 Video Track. http://www-nlpir.nist.gov/projects/trecvid/. 2002.
[
7] W3C. XML Linking Language (XLink) Version 1.0. http://www.w3.org/TR/xlink/. 2001.
[
8] W3C. Resource Description Framework (RDF) Model and Syntax
Specification. http://www.w3.org/TR/REC-rdf-syntax/. 2002.
[
9] W3C. Simple Object Access Protocol (SOAP) 1.1. http://www.w3.org/TR/SOAP/. 2002.
[
10] W3C. The Semantic Web Community Portal. http://www.semanticweb.org/. 2002.
[
11] W3C. Web-Ontology (WebOnt) Working Group. http://www.w3.org/2001/sw/WebOnt/. 2002.
|