題名 | Web行動履歴を用いたユーザ嗜好特性推定技術の検討 |
著者 | *市川 裕介, 中村 美穂, 後藤 真一郎, 岸本 康成, 黒川 裕彦, 中川 哲也 (日本電信電話株式会社 NTT情報流通プラットフォーム研究所) |
Page | pp. 1786 - 1792 |
Keyword | パーソナライズ, プロファイリング, 行動履歴, 嗜好推定, 推薦システム |
Abstract | インターネット上で流通する情報量の爆発的な増加,端末やユーザ層の多様化による非PCユーザの増加の傾向はいっそう加速するものと考えられる.その結果,キーワード検索のようにユーザからの特別な入力を要求することなく,ユーザの行動履歴等から推定したユーザ個々の嗜好や状況に合わせ,最適化された情報を提供する「パーソナルコンシェルジュ」サービス実現への期待が高まっている. ユーザの行動履歴に基づき,ユーザが興味を持ちそうな情報を推薦する既存方式には,大別すると,協調フィルタリングに代表される傾向の類似するユーザを集めて推薦情報を抽出する方式と,コンテンツベースフィルタリングに代表される情報の内容の類似度に基づきユーザが興味を持った情報と類似する情報を抽出する2方式が挙げられる.しかし,協調フィルタリングでは,推薦を受ける全てのサイトに対してユーザが履歴を提供しなければいけないことや,コンテンツベースではサイトやカテゴリをまたがって推薦することが困難などの課題がある.従って,パーソナルコンシェルジュサービス実現の為には,ユーザの嗜好特性をサイトやカテゴリをまたがって利用可能な値でプロファイリングする技術と,そのプロファイルに基づき情報推薦を行うレコメンデーション技術が必要となる.また,プロファイリング方式は,情報量の爆発的な増加やユーザの増加に対応でき,なおかつユーザからの特別な入力を要求しない方式である必要がある. 我々は,前回調査において,ユーザが新規性や話題性を重視して商品選択をしていることに着目し,この特性で分類する手法である「革新性」でユーザを分類することが有効である見通しを得た.革新性とは,ユーザがどの普及段階にある商品を好んで採用するかを表す特性を指し,革新性の違いによって分類されたグループ内では,商品の採用時期以外の行動にも,例えば「話題性を重視する」等の共通する特徴があることがわかっている. そこで,我々は「嗜好特性(革新性)が類似するユーザ同士はWeb上での行動にも共通する特徴がある」と仮説を立て,Web上での行動が類似するユーザ群をWebアクセス履歴の単純な統計処理により抽出することで,前記課題を解決する嗜好特性の推定方式について検討を行った. 革新性推定方式の検討は,(手順1)まずユーザの革新性とWeb上での行動に対する態度の相関についての分析により,Web上の行動から革新性を推定する「モデル構築」を実施,(手順2)次に,構築したモデルに対し「実際のWebアクセス履歴を用いてモデルの推定精度の評価」を実施して行った. 手順1:モデル構築は,商品カテゴリ毎のユーザの革新性とWeb上での行動に対する態度についてアンケートにより調査を行い,両者間の相関を分析することで行った.アンケート調査は,EC サイトの利用経験のある251人を分析対象とし,革新性に関連するユーザ嗜好に関する質問(革新性調査),および,実際に購買経験のある商品カテゴリについてのWebサイトの利用の仕方(Web行動に対する態度調査)について質問を行った. アンケート回答を分析した結果,(1)革新性を持つユーザの分布は商品カテゴリ毎に異なり,食品,化粧品において革新性を持つユーザが多く,書籍については少ない傾向があること,(2)革新性が似たユーザ同士でWeb行動が類似する傾向があり,線形判別分析で推定できる見通しを得た. 手順2:次に,手順1で得たモデルの推定精度の評価を,予め革新性が判明しているパネルユーザが使用するブラウザから収集したECサイトへのWebアクセス履歴を用いて,実際に革新性の推定が可能か精度評価することで行った.推定の手法としては,手順1(2)で見通しを得た,「Web行動の傾向の類似性を用いて推定する手法(手法A)」の他に,比較対照として,「ユーザが商品を選択した時期(採用時期)で推定する方法(手法B)」の2つの手法について精度評価を実施した. 手法Aについての評価の結果,(a)一部ユーザの外れ値が推定精度に与える影響が大きく,外れ値を取り除く仕組みが必要であること,(b)履歴の量が推定精度に与える影響が大きいこと,(c)逆に商品カテゴリやWebサイトの特性が推定精度に与える影響は少ないことがわかった.対して,手法Bについては,革新性で分類したユーザ群と採用時期との相関が見られず,単純に選択行動の時期のみでの革新性推定を行うことが困難であることがわかった. 今後は,手法Aに対し,外れ値等のノイズ要因を取り除いた推定精度向上度の評価,革新性以外の嗜好特性への適用性の評価,革新性を用いた推薦サービスの評価を行っていく予定である. |
題名 | Wikipediaの語彙資源を利用したインタラクティブ型Web質問応答システム |
著者 | *三枝 優一 (東京工業大学大学院 総合理工学研究科 知能システム科学専攻), 服部 哲 (神奈川工科大学 情報メディア学科), 速水 治夫 (神奈川工科大学大学院 工学研究科 情報工学専攻), 奥村 学 (東京工業大学 精密工学研究所) |
Page | pp. 1793 - 1802 |
Keyword | 情報検索, 情報抽出, 質問応答, Wikipedia, シソーラス |
Abstract | 1.はじめに 近年,人類が発信する情報は爆発的に増加している.特にWorld Wide Web(以下,Webと総称)における情報の増加率は様々な情報源の中で最も高いことが報告されている.しかし,Web上の情報には統制がないため,利用者が膨大な情報を十分有効に活用しきれているとは言い難い.現在,こうしたWeb上の膨大な情報を体系化された知識源として扱おうとする研究が広く行われている. そうした情報の一つに文書情報が挙げられ,膨大な文書情報から必要な情報を検索する既存のシステムとして検索エンジンがある.既存の検索エンジンは,リンク構造を基に検索結果をランキング表示するなど検索結果の見せ方に様々な工夫を施しているものの,本質的には利用者から入力されたキーワードに対し,そのキーワードを含むWebページや関連するWebページを利用者に提示するのみである.したがって,利用者は検索エンジンにより提示された文書の中から,求める情報を再度自らで探し出さなければならないという問題がある (問題点1). 一方で,Web上には同種の情報が多様な表現で記述されている.そのため,利用者は検索エンジンに対して,どのようなキーワード入力が効果的に情報を絞り込めるのか,「適切なキーワードを一意に選べない」,また,「求める情報を導くキーワードを想起できない」などの理由から,多様な表現による複数回の検索を行なわなければならない.さらに,期待する情報が含まれるWebページが,必ずしも入力されたキーワードを含んでいるとは限らないため,期待する情報が必ず見つかる保証もない.現状これは,利用者自身の知識や経験といった力量に依存しているため,必ずしも全ての利用者が有用な情報に到達できる保証はないという問題がある (問題点2). 2.問題解決の着眼点 問題点1に対する解決策として,Web質問応答システムが挙げられる.Web質問応答システムは利用者が自然言語で質問文を入力する.これに対し,Web上から情報を収集し,関連文書を出力するのみならず,質問文から利用者が要求する情報を判定し,直接質問に対する回答を提示する.しかし,質問文や回答候補を抽出する文書中に形態素解析辞書やシソーラスなどの自然言語処理に用いられる既存の言語資源には登録されていない,人名や地名,時間表現などの固有表現に代表される多様な新しい表現が数多く存在するという問題がある.また,時間の経過とともに新しい表現が増大するという問題もある.このような表現は自然言語の解析ミスを引き起こしやすく,精度よく回答を抽出できないなどシステム全体の精度低下を招く.そのため,獲得できる固有表現などの新たな表現は情報の更新頻度が高い他の資源などを利用して獲得することが必要とされる. 問題点2に対する解決策として,多様に表現される同種の情報を吸収し効率よく情報検索を行う必要がある.同種の情報を吸収するために,同義語辞書や関連語辞書などの言語資源が必要である.しかし,Web上には既存の言語資源には登録されていない多様な表現が数多く存在し,また時間の経過とともに増大するという問題がある.そのため,獲得できる同義語・関連語表現は情報の更新頻度が高い他の資源などを利用して獲得することが必要とされる. 3.解決手法 3.1 インタラクティブ型Web質問応答システム 本研究では,人に優しい情報検索を実現することを目的とし,人名や地名,時間表現などの固有表現が回答に含まれる質問文に対して,Webを情報源に情報を検索し,利用者が求める情報のみを探し出し,利用者に提示するインタラクティブ型Web質問応答システムを提案する.これはエキスパートシステム等のある特定の分野(以下,ドメインと総称)の知識や情報を提示するシステムと異なり,Webを情報源に用いることでドメインを問わない多様な情報を扱うことができる. 3.2 Wikipediaシソーラスの構築 また本研究では,多様な表現が数多く存在し,時間の経過とともに新しい表現が増大するWeb上の文書情報に対応するための言語資源としてオンライン百科事典Wikipedia[1](以下,Wikipediaと総称)に注目した.Wikipediaにおいて,記事の見出し語には固有表現が数多く含まれる.また,記事間のアンカーテキストやリダイレクトにより別の記事を参照することができ,記事が属するカテゴリからカテゴリ間の関係や同じカテゴリに属する関連記事を抽出できる.さらに,記事内には見出し語に関する事柄のみが記述されており,同一記事内のリストや表には,見出し語の素性や,関連語などが含まれる.その上,Wikipediaは,日々新たな記事が追加されるため既存の言語資源に比べ言語情報の鮮度,網羅性が高い.このような特有な構造をもつWikipediaは固有表現と同意語・関連語表現の獲得に適した資源であると言える. しかし現状では,Wikipediaの記事は人が閲覧することを前提に記述されているため,そのままではコンピュータから利用することは難しい.そこで本研究では,上記のような特徴を持つWikipediaを言語資源としてコンピュータから用いるため,固有表現と同義語,関連語などの語彙同士のネットワークを抽出したWikipediaシソーラスを構築した. これを質問応答システム上で利用することより,多様な表現で記述されている同種の情報を吸収することが可能になる.また,あるカテゴリに属する記事には,どの単語が多く含まれているかという情報を抽出し,どの単語がそのカテゴリを特徴づけるかを導く文書分類における確率情報を教師付き機械学習手法であるナイーブ・ベイズ分類器を用いて学習した.Wikipediaのカテゴリツリーの構造からカテゴリ同士の距離を,情報の絞り込みに適用させることにより,利用者の質問意図から外れた情報を除外することが可能になると考えられる. 4.まとめ 本研究では,上記の解決手法をふまえ,Web質問応答システムの各モジュールに対し,Wikipediaシソーラスの各情報を適用することによるインタラクティブ型Web質問応答システムの回答精度と利用者の利便性の向上を目的とし,実験を行った.実験結果より,本研究の提案手法が有効であること確認した.よって,これを報告する. |
題名 | 記事集合からのトピック抽出とトピック間の探索的ナビゲーション方式の提案 |
著者 | *島田 諭 (筑波大学大学院図書館情報メディア研究科), 福原 知宏 (東京大学人工物工学研究センター), 佐藤 哲司 (筑波大学大学院図書館情報メディア研究科) |
Page | pp. 1803 - 1810 |
Keyword | トピック, ナビゲーション |
Abstract | ブログ等を中心とするCGM(Consumer Generated Media)においては,単独では内容が完結していない断片的な記事が多い.このような断片的な記事の理解には,同じ著者が書いた記事や,同一のトピックを含む記事など,関連する記事を合わせて読むことが必要となる.本論文では,利用者に検索語の入力を求めることなく,情報空間を探索的に移動できるようにする手法を提案する.具体的には,記事集合中に出現するキーワードの反復度を用いてトピックを形成すると思われるキーワード集合を抽出する.相互に関連するトピック間ではキーワードの一部が共有されていると考え,キーワードの共起関係を用いて複数の記事を局所的に関連付ける.これにより,利用者の情報空間の把握を支援する.提案手法をブログ,質問回答サイト,新聞記事のデータに適用して記事の関連付けを行なった結果,記事間の明示的なリンクのみによるネットワークに比べ平均クラスタ係数が向上し,到達不可能なノードが削減できることがわかった. |
題名 | ブログを用いた人とセンサとの情報共有システムの開発 |
著者 | *溝渕 昭二 (近畿大学理工学部情報学科), 横前 拓磨 (近畿大学大学院総合理工学研究科), 白石 善明 (名古屋工業大学大学院工学研究科), 井口 信和 (近畿大学理工学部情報学科) |
Page | pp. 1811 - 1815 |
Keyword | ブログ, アノテーション, 情報共有, センサ, マイニング |
Abstract | 本論文では,ブログを媒介として,センサから観測されたデータとを,それに対して人が付与した言語データとを共有するシステムを提案する.従来の環境モニタリングシステムには,視覚化や分析等の機能により獲得した観測データに潜んでいる意味や知見をフィードバックする手段が備わっていない.そのため,獲得された意味や知見が何らかのメディアに形式知化されない場合,それらは活用される機会を持たないまま失われてしまうか,あるいは,それを見出した個人のみが暗黙知として利用するにとどまってしまう.本システムでは,観測データから見出された意味や知見を観測データ自身にフィードバックする手段にブログのコメントやトラックバックを利用する.この仕組みにより,個人が見出した意味や知見が言語データとなって観測データに付与される.また,それらをブログを閲覧しているユーザで共有することもできる. |