(セッション表へ)

マルチメディア,分散,協調とモバイル(DICOMO2007)シンポジウム

セッション 4F  マルチメディア2(DPS)
日時: 2007年7月5日(木) 8:30 - 10:10
部屋: 展望サロンA
座長: 寺西 裕一 (大阪大学)

4F-1 (時間: 8:30 - 8:55)
題名コールセンタオペレータ通話認識における話し言葉認識言語モデルの効率的な構築
著者*三木 清一, 畑崎 香一郎, 佐藤 研治 (NEC共通基盤ソフトウェア研究所)
Pagepp. 784 - 790
Keyword音声認識, 言語モデル, コールセンタ
Abstract従来、音声認識は人が機械を操作するためのマンマシンインタフェースとして使用されることが多かった。しかし今日、音声認識技術の発展により、より複雑で困難な人と人の話し言葉の認識が可能となってきた。このような話し言葉の認識技術により、動画コンテンツの音声を認識してインデキシングを行ったり、議会音声を認識して会議録作成を支援したり、コールセンタのオペレータが顧客と会話する音声を認識して業務を支援したりといった応用が実現されつつある。実用的な音声認識を行うためには認識対象とマッチした言語モデルを作成する必要があるが、そのためには音声認識対象となる発話内容を表現する大量のテキストコーパスが必要となる。しかしながら新聞やWWW等から得られる書き言葉テキストと異なり、話し言葉の場合、そのようなテキストコーパスを得るためには膨大な録音作業と書き起こし作業が必要となる。話し言葉の認識技術を実用化するためには、このような言語モデル作成コストを低減する必要がある。今回、コールセンタのオペレータ通話音声の認識を対象とし、業務の異なる別のコールセンタの既存の書き起こしが利用可能な場合に、それに対して対象とするコールセンタの文書データ(書き言葉)を加えることで効率良く、認識対象とマッチした言語モデルを作成する方式を検討した。話し言葉の認識のための言語モデルを作成する際に、書き言葉である文書データを用いる場合、その文章のスタイルの違いが問題となる。このような問題に対し、本稿において、既存の書き起こし(話し言葉)と文書データのキーフレーズ(N−gram)を組み合わせる方法を提案する。キーフレーズとはキーワードを含む前後の単語からなるN−gramである。キーワードとは対象コールセンタに特徴的な単語である。この方法により、話し言葉と書き言葉の文章のスタイルの違いに対する頑健さと、単語コンテキストの導入による言語的制約の反映を両立させることができる。我々は既存の書き起こしとして、異なる2種のコールセンタの書き起こし、対象とするコールセンタの文書データとして、顧客との通話後に書かれるレポート(応対履歴)を用い、認識実験を行って本手法を評価した。書き起こしと文書データを混合する方法としては提案手法とともに、文書データから得られるキーワードのみを追加する方法を実験して比較した。対象とするコールセンタ(A)は情報機器に関する問い合わせを受け付けるコールセンターである。既存の書き起こしとして、対象コールセンタと比較的似た業務を行っている、情報機器に関する問い合わせを受け付けるコールセンタ(B)と、サービス業のコールセンタ(C)の2つを用いた。既存の書き起こしはそれぞれ100時間分の通話から得られたものであり、文書データは3ヶ月分の応対履歴である。キーワードとしては新聞記事に応対履歴を一文書として加え、応対履歴に含まれる単語の中からtf−idf値が大きいもの1万単語を抜き出し、更にその中で自立語であるものを選択した。対象コールセンタの通話音声に対し、各コーパス・手法により作成された言語モデルを用いて認識実験を行った。実験の結果、応対履歴のみを用いて作成された言語モデルは、評価データと業務が同じであるにも関わらず、その書き言葉と話し言葉の文章スタイルの違いから54.5%と低い認識率を示した。別コールセンタの書き起こしのみを用いた場合、業務内容が近いコールセンタ(B)のデータで70.2%、コールセンタ(C)のデータで63.3%の認識率が得られた。業種の近さが認識精度に影響することが分かる。コールセンタ(B)のデータに対し、応対履歴から得られるキーワードのみを加えることで72.2%の認識率が得られ、更に提案手法により、73.1%の認識率が得られた。比較のため、対象コールセンタ(A)の100時間分の通話の書き起こしから作成した言語モデルを用いた実験を行ったがその認識率は75.2%であり、提案手法との差は小さく、提案手法により十分認識対象とマッチした言語モデルが得られたと考えられる。また、品詞別の認識率を比較した結果、アプリケーションで使用されることが多いと考えられる「名詞」「数詞」といった単語では提案手法と、対象コールセンタの書き起こしを用いた場合とでほとんど差が見られなかった。提案手法では「動詞」等の活用語で少し認識精度が低い傾向が見られ、業務に依存する活用語の話し言葉表現への対応が不十分であることも分かった。以上のように、既存の書き起こしと文書データを用いて効率良く精度の高い言語モデルを作成する方式を提案し、その効果を認識実験を通じて確認した。今後、キーワード選択手法の改善や、言い換え技術のように文書のスタイルを話し言葉のように変換する技術を検討する。

4F-2 (時間: 8:55 - 9:20)
題名質問同定を用いた自由文検索方式の提案 〜 コンタクトセンターFAQ検索と携帯電話マニュアル音声検索 〜
著者*石川 開, 花沢 健, 赤峯 享, 山端 潔 (NECメディア情報研究所)
Pagepp. 791 - 798
KeywordFAQ, マニュアル, 質問, 検索
Abstract近年のコンタクトセンターやQAサイトの浸透に伴い、質問と回答のペアからなる大規模なFAQデータの構築が可能となり、効率の良いアクセス方法が求められている。また、携帯電話をはじめとする身近な電子機器の多機能化が進み、利用者が機能の使い方を全ては把握するのは困難になっている。そのため、膨大な量の操作方法が記載されているマニュアルの中から、必要な機能の使い方だけを簡便取り出せるようなアクセス方法が求められている。我々は、これらの異なる要求について、それぞれ質問同定を用いた異なる2つの自由文検索方式を提案し、その有効性を検証する。 [コンタクトセンターFAQ検索] コンタクトセンターに蓄積されるFAQは、特定のサービスや製品に関して、その価格がいくらであるか、その期間が何時であるか、その場所がどこであるかなどの検索要求によって、異なった回答となる場合が多い。自然文による検索方式は、類似文書検索が主流となっているが、FAQ検索に用いた場合、検索要求と無関係の文書が多く検索され、正解が埋もれやすいという問題がある。つまり、FAQ検索は、ドメインが限定されるため、検索要求やFAQの内容が異なっても、同じ単語が出現する割合が高く、類似文検索では、これらの文書に高いスコアを与えてノイズが増える傾向がある。この解決として、Lytinenらは質問タイプを用いたFAQ 検索方式を提案し、検索精度の向上を確認している。しかし、質問タイプは利用者の質問内容が同じでも、質問文の表現次第で異なる場合がある。異なる質問タイプを照合する際に、曖昧さが生じるという問題がある。本稿では、より曖昧さの少ない質問内容の表現として質問タイプとトピックの組を導入し、この質問タイプ・トピックの組の類似度から、利用者の質問文とFAQの質問内容の類似度をより精緻に求めるFAQ検索方式を提案する。また、銀行応対業務に関するFAQに対して提案方式を評価した結果を報告する。 [携帯電話マニュアル音声検索] 携帯電話のマニュアルは、特定機器の操作方法にドメインが限定されるため、操作内容が異なる文同士でも、使われる表現や語彙は重複することが多い。一方、同じ機能の操作方法について表現した要求文であっても、利用者ごとに様々な表現が用いられる。このような、検索対象における語彙や表現の重複と、要求文における表現の多様性は、いずれも類似性の尺度に基づく従来のテキスト検索技術にとって、検索誤りを生じる要因となる。本稿では、利用者の要求を識別することで、利用者が入力する特定分野の要求に対して適合率の高い検索方式を提案する。本方式では、(1)利用者の情報要求を識別する構文解析ベースの識別器を構築し、(2)文字組ベースの類似文書検索と組み合わせる。我々は、本方式を用いて、携帯電話の操作方法に関する質問や操作要求を中国語で音声検索できるプロトタイプシステムを開発し、PDA上で動作を確認した。中国語の携帯電話マニュアルを対象とする評価実験を行い、従来の検索手法との比較により、提案手法の有効性を示す。 最後に、コンタクトセンターFAQ検索と携帯電話マニュアル音声検索という異なるタスクにおける質問同定を用いた2つの提案方式を比較し、タスクの規模や要求文、検索対象の違いや、異なるアーキテクチャーを通じて実現されている共通する質問同定の効果について論じる。

4F-3 (時間: 9:20 - 9:45)
題名カメラを用いた未知物体へのアノテーションシステム
著者*池田 卓朗, 塚本 昌彦 (神戸大学大学院/工学研究科電気電子工学専攻), 山本 哲也 (神戸大学大学院/自然科学研究科情報・電子科学専攻)
Pagepp. 799 - 806
Keywordアノテーションシステム, 画像認識, ウェアラブル, ユビキタス, 拡張現実感
Abstract近年,カメラを搭載した携帯電話や小型PCの普及に伴い,小型で高性能なカメラが開発されている.また,計算機の処理能力の飛躍的な向上,高速な無線通信網の発展により,画像や映像を小型の情報機器で容易に扱えるようになりつつある.このため,ものや人といった実空間の物体をカメラ画像と対応付け,アノテーション(注釈)を表示する研究が行われている.これらの多くは,画像のテンプレートマッチングに基づくため,想定されていないものを検索,認識する場合に,テンプレートを作成できないことが多い. 本研究では,3次元モデルとWeb画像検索の2つの手法を用いてテンプレートの作成を行い,カメラ画像と作成したテンプレートに対して画像処理を行うことにより,未知物体にアノテーションを表示するシステムの構築を行う.物体の種類によって異なったアルゴリズムを用いてテンプレートを作成することにより,柔軟な物体検索を行い,アノテーションをカメラ画像に表示できる.

4F-4 (時間: 9:45 - 10:10)
題名ピクトグラムとWordNetの連携によるオントロジマッピング促進システム
著者*松田 基弘 (青山学院大学大学院理工学研究科), 伊藤 一成, Martin J. Duerst (青山学院大学理工学部)
Pagepp. 807 - 810
Keywordピクトグラム, WordNet, オントロジマッピング, 多言語語彙データベース
Abstract世界には多くの言語が存在し,各言語において語彙オントロジの構築が進められている.これまでEuroWordNetなどで多言語語彙オントロジの構築が進められてきたが,概念プリミティブとなるPrinceton WordNetには言語依存性があることがわかっている.そこで近年,言語非依存の構造を持つSUMOにWordNetを写像する試みが行われているが,推論構造の低下が問題となっている.我々はその解決案として,ピクトグラムによる概念プリミティブの表現を提案する.本稿ではその手始めとして,ピクトグラムとPrinceton WordNetを連携し,Web上でのデータ付与によって多言語語彙のマッピングを実現するシステムを提案する.ピクトグラムを多言語間を連携する共通言語として利用し,さらにピクトグラムを利用した容易なデータ付与方式を提案することにより更新手続きの困難性を解決する.ピクトグラムを共通言語として利用することで,世界各国での利用を想定とすると共に,多言語語彙および既存WordNetの親和的なマッピングを可能とする.