「メディア/モダリティ統合における言語処理」ワークショップ

言語処理学会第9回年次大会併設ワークショップ

主催：言語処理学会
共催：名古屋大学21世紀COEプログラム「社会情報基盤のための音声・映像の知的統合」

3月21日(金：春分の日)
横浜国立大学教育文化ホール大集会室

近年、ブロードバンドネットワークの発展にともないテキストコンテンツのみならず音声や映像などのマルチメディアコンテンツの流通が活発に行われるようになった。しかし、従来の検索技術は文字情報に基づいているためそのままでは多様なメディア情報の検索には応用できない。そのため、メディア情報と言語情報を適切に関連付ける研究が盛んに行われるようになってきた。また、マルチモーダルインタフェースのような、さまざまなモダリティを統合的に処理して人間の意図を推論するシステムにおいても、視覚的あるいは聴覚的に与えられるメディア情報と言語情報を適切に組み合わせて処理する必要がある。メディア情報統合においてキーとなるのはやはり言語とその処理の枠組みであろう。たとえば、メディア情報の意味を具体的に扱うためには、言語の意味表現の枠組みを用いる必要があるし、マルチモーダルインタフェースは対話理解の枠組みに各種のモダリティから得られる情報を追加していくことによって処理を行う場合が多い。このようにメディア情報の統合的処理と言語処理は密接に関わっており、従来の信号処理のブレークスルーを言語処理の延長上に見出せる可能性は高いと思われる。以上の状況に鑑み、ビデオやオーディオなどのメディア情報の研究者・技術者と言語処理の研究者・技術者の交流を活発化するために、メディア/モダリティ統合における言語処理に関する研究成果を発表し、将来の方向性について議論することはきわめて有益であると考える。

このワークショップのテーマは以下のものです。

メディア統合における言語処理
- 信号処理と記号処理の統合
- 言語を媒介とした異種メディア情報の関連付け
マルチメディアアノテーション
- マルチメディアコンテンツの解析と意味記述
- アノテーションに基づくマルチメディアの検索や要約
マルチモーダルインタフェース
- モダリティの統合的処理
- 複数メディアを用いた対話処理
情報統合
- ハイパーメディアと言語
- マルチメディアコンテンツ間の自動リンク付け

問い合わせ先(e-mailでお願いします)
名古屋大学　長尾　確
E-mail: nagao@nuie.nagoya-u.ac.jp

DVDの内容

論文原稿(PDFファイル)
- 本DVDのpapersフォルダ
- 以下のプログラムの発表タイトルにリンクしてあります。
講演資料(PDFファイル)
- 本DVDのslidesフォルダ
- 以下のプログラムのスライドという文字にリンクしてあります。
講演ビデオ(AVIムービーファイル)
- 本DVDのmoviesフォルダ
- 以下のプログラムのムービーという文字にリンクしてあります。
- 収録されたAVIファイルのCODECは、MS-MPEG4 CODEC v2 となっています。
  Windowsであれば、Windows Media Playerなどで再生が可能となっています。
  ただし、CODECが自動的に入手できないなど、再生ができない場合、以下のURLより、 Windows Media Toolsをダウンロードし、インストールすることで再生が可能となります。
  http://www.microsoft.com/japan/windows/windowsmedia/technologies/tools.asp
  また、マッキントッシュでは、以下のWepページを参照に設定を行うことで再生が可能となります。
  ただし、こちらの環境にマッキントッシュが無いため、動作確認はしておりません。
  http://allabout.co.jp/computer/macos/closeup/CU20010219avi1/index.htm

プログラム委員

長尾　確(委員長　名古屋大学)
橋田浩一(本大会プログラム委員長　産業技術総合研究所)
河口信夫(名古屋大学)
角　康之(ATRメディア情報科学研究所)
間瀬健二(名古屋大学)

セッション１　マルチモダリティ

10:00-10:45	フレーム駆動によるマルチモーダル対話制御方式 (スライド) (ムービー)
	荒木雅弘, 秋田祥史(京都工芸繊維大学) E-mail: araki@dj.kit.ac.jp
	一般的なマルチモーダル対話記述言語は、中心となるモードのインタラクション記述に、他のモードのコントロールとタスクレベルの対話制御情報が混在した形式を取ることが多く、可読性・保守性の面で問題が多い。我々は、既提案のフレーム駆動による対話制御方式を拡張し、基本的にフレーム単位でマルチモーダル情報のコントロールを行うことと、主モード(音声)および副モード(HTMLによってコントロールされるモード)のインタラクションをフレームおよびスロット毎のプロセスとして記述することによって、可読性・タスク移植性の高いマルチモーダル対話制御方式を開発した。提案方式の利点は、(1)タスク知識をフレーム形式で表現するだけで対話制御が実現できること、(2)音声モードにVoiceXML、それ以外のモードのコントロールにHTMLを用いており、それらを拡張することなくマルチモーダル対話が実現できることである。提案方式の処理系を実装し、典型的なマルチモーダルアプリケーションが動作することを確認した。
10:45-11:30	視線を用いた自動辞書引きシステム (スライド) (ムービー)
	東中竜一郎, 大野健彦(NTTコミュニケーション科学基礎研究所) E-mail: rh@atom.brl.ntt.co.jp
	本稿では，電子文書の閲覧作業において，ユーザの視線情報から，ユーザの文書の理解度を自動的に測定する手法を提案する．本手法は電子文書中の単語領域に対する視線情報と，ユーザが辞書引きを必要とするかどうかを関連付ける関係式を決定木学習の手法を用いて作成する．被験者実験の結果，再現率が平均17.5% (最大36.4%，最低3.4%)，適合率が平均29.9% (最大58.1%，最低9.1%)でユーザの辞書引きを必要とする単語を推定できることが分かった．また，決定木の個人差は比較的大きいため，決定木は個人ごとに作成するのがよく，ユーザの辞書引き単語数が増加するにつれて，辞書引きの精度が向上することが示された．

90分休憩

セッション２　メディア統合

13:00-13:55	アノテーションに基づく意味的メディア統合 (スライド) (ムービー)
	長尾　確(名古屋大学) E-mail: nagao@nuie.nagoya-u.ac.jp
	メディア情報を意味的に統合するためには、メディア情報の日常世界へのグラウンディング、つまり情報と人間の世界との明示的な関連付けが必要になる。情報のグラウンディングに対するアプローチには、メディア情報の内容を人間の直感に適合する形で機械的に操作可能な記号表現で記述する知識表現アプローチと、メディア情報に対する機械的な処理を人間が補足して内容記述を作成していくアノテーション・アプローチがある。本研究は、アノテーション・アプローチによってメディア情報のグラウンディング、さらに意味的統合を目指すものである。具体的には、テキストやマルチメディアコンテンツに対して半自動的にアノテーションを作成して、検索や要約や翻訳、さらに複数のコンテンツ間の関連付けを行う。アノテーションには、音声のトランスクリプトや自然言語文の言語構造、映像のシーンやオブジェクトに関する意味属性(カテゴリー情報)などが含まれる。本発表では、テキストやマルチメディアへのアノテーションの作成支援ツールおよびアノテーションに基づくコンテンツの検索やカスタマイゼーションのデモを行い、意味的メディア統合に関する展望を述べる。

5分休憩

14:00-14:55	画像・映像の撮影・編集・提示から対話的映像メディアまで (スライド) (ムービー)
	中村裕一(筑波大学機能工学系) E-mail: yuichi@image.esys.tsukuba.ac.jp
	マルチメディアという言葉がすっかり定着したが，複合メディアの本質的な部分には，まだ手付かずの問題が多い．短時間でわかりやすく情報や知識を伝えるメディアの形態，また，その構築方法について，これから試行錯誤で探っていく必要がある．本講演では，複合メディアの一つである映像をテーマとし，以下の項目について考える．映像のインデキシング，検索映像製作(映像撮影，編集，蓄積)の計算機による補助，自動化映像を用いた対話的メディアの構築とその提示形態このような問題に対し，従来から，クローズドキャプション(発話の書き起こし)の自然言語処理が利用できることが実証されてきたが，画像や音声を用いたマルチモーダルな手法が必要とされる場合も多く，それが映像処理の本質的な問題となっている．そのために，講演者は，画像処理，動作認識，自然言語処理を用いる様々な映像処理について研究を行ってきた．その中から，ニュースや料理番組などのインデキシングにおける画像情報，言語情報の利用，プレゼンテーション，作業，個人行動等を伝えるための映像撮影・編集と動作，発話情報の利用，対話的に映像内容を提示するためのデータ構成やそのQA手法(QUEVICO)，そのインデックスを自動的に取得する試み等について紹介する．また，将来の方向性やその中での自然言語処理への期待についてふれたい．

5分休憩

15:00-15:55	異なるメディアの間でのアクセスをどうやって行うのか？ (スライド) (ムービー)
	岡　隆一(会津大学) E-mail: oka@u-aizu.ac.jp
	日常で得られるマルチメディアの情報について、異なるメディア間でのアクセス手法の例を示す。これはアノテーションや自動認識を行わないで実現されるものである。異なるメディアのBridge Dataの作成と、それを用いた検索アルゴリズムが中核技術となっている。言語による音声波形、音声による言語データ、言語によるビデオデータ、音声による音声データ、歌声による音楽データなどの実現例をデモで示す。

5分休憩

セッション３　情報統合

16:00-16:55	連想に基づく情報空間との対話技術 (スライド) (ムービー)
	高野明彦(国立情報学研究所) E-mail: aki@nii.jp
	自分の脳に蓄えられた情報（知）に基づいて思考する人間を，外部の膨大な情報と創造的に相互作用（interact）させるためのカギは，人間の連想能力の活性化にあると考える．認知心理学等の研究が示すように，記憶内の連想的探索は関連知識の無意識的想起を引き起こし，それが人間の創造活動にとって重要な役割を果たしている．人間の創造性を高める新しい情報技術の基礎は，脳内の記憶の連想的探索・無意識的想起と，脳の外にある膨大な情報からの関連情報の探索・分析・提示との新しい結びつきに求められる．外部の膨大な情報が，ユーザの意図に基づく連想的探索可能な形で提供され，探索結果がユーザの無意識的想起を促す形でフィードバックされるならば，ある意味で「第二の脳」としての役割を果たせると期待できる．このような新しい創造的相互作用に理論的・技術的基礎づけを与える「連想の情報学」の確立が求められるが，その構築には情報科学・認知心理学を中心とする学際研究が必要となろう．本講演では，我々がこの分野に情報科学の手法によってアプローチして，膨大な情報に基づく連想過程に計算的な基礎づけを与え，この新しい研究分野の基盤となる情報処理技術を提供することを目指して行っている研究について報告する．

5分休憩

17:00-18:00

パネル討論
「メディア/モダリティ統合における言語処理への期待」
(スライド) (ムービー)

パネリスト：中村裕一, 岡隆一, 高野明彦, 橋田浩一司会：長尾確

Katashi Nagao <nagao@nuie.nagoya-u.ac.jp>
Center for Information Media Studies
Nagoya University