研究者データベース

伊藤 敏彦(イトウ トシヒコ)
情報科学研究院 メディアネットワーク部門 情報メディア学分野
准教授

基本情報

所属

  • 情報科学研究院 メディアネットワーク部門 情報メディア学分野

職名

  • 准教授

学位

  • 博士(工学)(豊橋技術科学大学)

ホームページURL

J-Global ID

研究キーワード

  • 対話制御   発話意図   音声対話   音声対話システム   対話リズム   ユーザ満足度   音声言語理解   発話タイミング   韻律   身体性   動画   話者交替   共同補完   ペン入力   アニメーション生成   音声インターフェース   学習支援システム   生命音声認識   教材知識ベース   MULTEXT   文献検索   日本語教育   顔表情   韻律コーパス   携帯情報端末   文脈処理   基本周波数   フォーム入力   手   姓名音声認識   音声言語情報処理   Speech Language Processing   

研究分野

  • 情報通信 / 知能ロボティクス
  • 情報通信 / 知覚情報処理
  • 人文・社会 / 教育工学
  • 情報通信 / 知能情報学

職歴

  • 2007年 - 2010年 北海道大学 大学院・情報科学研究科 准教授
  • 1999年 - 2002年 静岡大学 助手
  • 1999年 - 2002年 Shizuoka University, Research Assistant

学歴

  •         - 1999年   豊橋技術科学大学   工学研究科   電子情報
  •         - 1999年   豊橋技術科学大学
  •         - 1996年   豊橋技術科学大学   工学部   情報
  •         - 1996年   豊橋技術科学大学

所属学協会

  • 情報処理学会   人工知能学会   日本音響学会   

研究活動情報

論文

  • Noriki Fujiwara, Toshihiko Itoh, Kenji Araki
    TEXT, SPEECH AND DIALOGUE, PROCEEDINGS 4629 564 - 573 2007年 [査読有り][通常論文]
     
    We consider that factors such as prosody of systems' utterances and dialogue rhythm are important to attain a natural human-machine dialogue. However, the relations between dialogue rhythm and speaker's various states in task-oriented dialogue have been not revealed. In this study, we collected task-oriented dialogues and analyzed the relations between "dialogue structures, kinds of dialogue acts (contents of utterances), Aizuchi (backchannellacknowledgment), Repeat and interjection" and "dialogue rhythm (response timing, F0, and speech rate)".

その他活動・業績

  • 平井康義, 伊藤敏彦 電子情報通信学会技術研究報告 117 (502(WIT2017 66-91)) 2018年
  • 平井康義, 伊藤敏彦 電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2017 2017年
  • 小川翼, 伊藤敏彦 人工知能学会言語・音声理解と対話処理研究会資料 68th 2013年
  • 伊藤敏彦, 小川翼 人工知能学会言語・音声理解と対話処理研究会資料 68th 2013年
  • 江間 旬記, 王 龍標, 甲斐 充彦, 伊藤 敏彦 電子情報通信学会ソサイエティ大会講演論文集 2010 (0) 166 -166 2010年08月31日 [査読無し][通常論文]
  • 江間旬記, WANG Longbiao, 甲斐充彦, 伊藤敏彦 電子情報通信学会大会講演論文集 2010 166 2010年08月31日 [査読無し][通常論文]
  • 桂川 景子, 大野 健, 冨樫 実, 小暮 悟, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会論文誌 50 (1) 181 -192 2009年01月15日 
    近年,多くのユーザがPCや携帯電話,カーナビなど複数種類の情報端末機器を所有,利用するようになってきた.これにともない,同一のサービスを環境に応じてインタフェースを変更しながら利用可能な仕組みへの要求も高まっている.しかし複数種類の端末機器を使用する際には,同一のシステムであっても各機器に備わるインタフェースでの操作方法を個別に習得しなければならず,扱える端末機器が増えるほどユーザの負担は増大する.本論文ではこの問題を,ミラー効果に基づく相互チュートリアル機能を各インタフェースに持たせることで解決する.ミラー効果に基づく相互チュートリアルとは次の2つの特徴を持つ操作方法の学習支援機構である.(1) 同一システム上の同一タスクを実行する際には,どのインタフェースを使用する際であっても,同一のプログラムと入力データが利用されることに着目し,異なるインタフェース上で同一の操作結果が得られる操作手順を生成する.(2) ユーザがあるインタフェースを利用した際に,同一タスクを他のインタフェースで実行するための操作手順を生成・デモンストレーションすることで他のインタフェースでの操作方法を自然に身につけさせる.カーナビでのメニュー操作インタフェースからPCでの自然言語インタフェースへの相互チュートリアル機能を実装したシステムの評価では,タスク達成時間が約24%短縮,入力文の受理率は約17%向上し,その有効性が示された.Recently, cell phones, PCs and car navigation systems are increasingly used for taking advantage of a single software service. Although such a system typically offers different interfaces according to the users' environments, not every user is familiar to the operation of all the available devices; hence, the users face difficulties in switching from one device to another. One of the biggest problems of a service accessible from multiple devices is that the users must learn different operations on different interfaces. Needless to say, this is a heavy burden on the users and it is desirable to alleviate the load. To solve this problem, we propose a mirror-effect-based mutual tutorial system to support learning operations on different interfaces. The basic functions of our tutorial system involve the following two procedures. 1) By focusing on a pair of a program and its input data for conducting a task, the system generates operation procedure to perform the same task on different interfaces. 2) By demonstrating the generated procedures, the system helps the users learn operations on different interfaces. It is experimentally confirmed that the tutorial system improves the usability. The task completion time is reduced by 24% and the input acceptance rate is increased by 17%.
  • 桂川 景子, 大野 健, 冨樫 実, 小暮 悟, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会論文誌 50 (1) 181 -192 2009年01月15日 [査読無し][通常論文]
     
    近年,多くのユーザがPCや携帯電話,カーナビなど複数種類の情報端末機器を所有,利用するようになってきた.これにともない,同一のサービスを環境に応じてインタフェースを変更しながら利用可能な仕組みへの要求も高まっている.しかし複数種類の端末機器を使用する際には,同一のシステムであっても各機器に備わるインタフェースでの操作方法を個別に習得しなければならず,扱える端末機器が増えるほどユーザの負担は増大する.本論文ではこの問題を,ミラー効果に基づく相互チュートリアル機能を各インタフェースに持たせることで解決する.ミラー効果に基づく相互チュートリアルとは次の2つの特徴を持つ操作方法の学習支援機構である.(1) 同一システム上の同一タスクを実行する際には,どのインタフェースを使用する際であっても,同一のプログラムと入力データが利用されることに着目し,異なるインタフェース上で同一の操作結果が得られる操作手順を生成する.(2) ユーザがあるインタフェースを利用した際に,同一タスクを他のインタフェースで実行するための操作手順を生成・デモンストレーションすることで他のインタフェースでの操作方法を自然に身につけさせる.カーナビでのメニュー操作インタフェースからPCでの自然言語インタフェースへの相互チュートリアル機能を実装したシステムの評価では,タスク達成時間が約24%短縮,入力文の受理率は約17%向...
  • 桂川景子, 桂川景子, 大野健, 冨樫実, 小暮悟, 伊藤敏彦, 小西達裕, 伊東幸宏 情報処理学会論文誌ジャーナル(CD-ROM) 50 (1) 181 -192 2009年01月15日 [査読無し][通常論文]
  • 伊藤敏彦, 北岡教英, 西村良太 電子情報通信学会技術研究報告 108 (283(NLC2008 19-23)) 7 -12 2008年11月03日 [査読無し][通常論文]
     
    先行研究で行ってきた対話リズムに関する分析結果の妥当性を検証するために,発話タイミングに関する分析結果に基づいた音声対話を作成し,対話の自然性や合成音声の違和感,発話の聞き取りやすさなどを調査する知覚実験を行った.知覚実験1では合成音声による4ターンの短いタスク指向対話を,知覚実験2では実音声と合成音声の1分程度の長めの雑談対話を用いて実験を行った.その結果,発話における自然な発話タイミングが存在すること,発話内容に即した発話タイミングに自然性を感じるなど,対話リズムに関する分析結果の妥当性を示すことができた.
  • 伊藤敏彦, 北岡教英, 西村良太 情報処理学会研究報告 2008 (68(SLP-72)) 99 -104 2008年07月11日 [査読無し][通常論文]
  • 中野幹生, 船越孝太郎, 伊藤敏彦, 荒木健治, 長谷川雄二, 辻野広司 人工知能学会全国大会論文集(CD-ROM) 22nd 1H1-04 -4 2008年 [査読無し][通常論文]
  • 藤原 敬記, 伊藤 敏彦, 荒木 健治 言語・音声理解と対話処理研究会 50 (0) 45 -50 2007年07月23日 [査読無し][通常論文]
  • 藤原敬記, 伊藤敏彦, 荒木健治 人工知能学会言語・音声理解と対話処理研究会資料 50th 45 -50 2007年07月23日 [査読無し][通常論文]
  • 藤原 敬記, 伊藤 敏彦, 荒木 健治 情報処理学会研究報告. SLP, 音声言語情報処理 2007 (47) 37 -42 2007年05月24日 [査読無し][通常論文]
     
    従来,自然で滑らかな人対機械のコミュニケーション実現において,音声認識や言語理解の精度,合成音声の質などが重要であると考えられていたが,我々の先行研究ではたとえ認識精度などが高くとも,対話リズムやシステム発話の韻律情報が十分でないと人は機械と自然な対話を行えないことを示した.しかしながら,タスク指向対話における対話リズムの研究についてはほとんど行われていない.そこで本稿では,自然で滑らかな対話を行えるタスク指向型の音声対話システム実現のために,タスク指向対話を収集し,「対話構造,発話意図(発話内容),相槌,復唱,間投詞」と「対話リズム(発話タイミング,F0,発話速度)」の関係について分析した.その結果,対話リズムは対話構造と発話意図による影響が強いこと,相槌・復唱には,対話リズムを維持するための厳しい制約が存在することが明らかとなった.
  • 藤原 敬記, 伊藤 敏彦, 荒木 健治 情報処理学会研究報告. 自然言語処理研究会報告 2007 (47) 37 -42 2007年05月24日 [査読無し][通常論文]
     
    従来,自然で滑らかな人対機械のコミュニケーション実現において,音声認識や言語理解の精度,合成音声の質などが重要であると考えられていたが,我々の先行研究ではたとえ認識精度などが高くとも,対話リズムやシステム発話の韻律情報が十分でないと人は機械と自然な対話を行えないことを示した.しかしながら,タスク指向対話における対話リズムの研究についてはほとんど行われていない.そこで本稿では,自然で滑らかな対話を行えるタスク指向型の音声対話システム実現のために,タスク指向対話を収集し,「対話構造,発話意図(発話内容),相槌,復唱,間投詞」と「対話リズム(発話タイミング,F0,発話速度)」の関係について分析した.その結果,対話リズムは対話構造と発話意図による影響が強いこと,相槌・復唱には,対話リズムを維持するための厳しい制約が存在することが明らかとなった.
  • 藤原敬記, 伊藤敏彦, 荒木健治 情報処理学会研究報告 2007 (47(NL-179 SLP-66)) 37 -42 2007年05月24日 [査読無し][通常論文]
  • 伊藤敏彦, 山田真也, 荒木健治 日本音響学会誌 63 (5) 251 -261 2007年05月01日 [査読無し][通常論文]
  • 陰地 祐太, 小暮 悟, 伊藤 敏彦 言語・音声理解と対話処理研究会 49 (0) 57 -62 2007年03月02日 [査読無し][通常論文]
  • 陰地祐太, 小暮悟, 伊藤敏彦, 甲斐充彦, 小西達裕, 伊東幸宏 人工知能学会言語・音声理解と対話処理研究会資料 49th 57 -62 2007年03月02日 [査読無し][通常論文]
  • 岩崎 祥範, 小暮 悟, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. HI, ヒューマンインタフェース研究会報告 2007 (11) 67 -72 2007年02月09日 [査読無し][通常論文]
     
    近年、音声認識技術や言語処理技術、コンピュータ性能の向上により、音声操作可能な高度情報システムの車内利用が現実のものとなっている。しかしながら、カーナビゲーションシステムに代表される車内音声対話システムの多くは、ユーザの発話形式が自然発話であることや、走行ノイズなどの様々な雑音環境下での利用により、認識誤りは避けて通れない問題となっている。そこで、本稿では対話状況に応じた文脈情報と応答内容を用いて次発話において発話される可能性の高い単語を予測し、それらの単語の単語生起確率を上昇させ、認識結果のN-best中に正解単語を出現させやすくすることで認識精度の向上を目指す。評価実験の結果、手法を用いない場合に比べて提案手法を用いた場合に単語正解率が83.5%から85.1%に上昇し、提案手法の有効性が示せた。
  • 岩崎祥範, 小暮悟, 伊藤敏彦, 甲斐充彦, 小西達裕, 伊東幸宏 情報処理学会研究報告 2007 (11(HI-122 SLP-65)) 67 -72 2007年02月09日 [査読無し][通常論文]
     
    近年、音声認識技術や言語処理技術、コンピュータ性能の向上により、音声操作可能な高度情報システムの車内利用が現実のものとなっている。しかしながら、カーナビゲーションシステムに代表される車内音声対話システムの多くは、ユーザの発話形式が自然発話であることや、走行ノイズなどの様々な雑音環境下での利用により、認識誤りは避けて通れない問題となっている。そこで、本稿では対話状況に応じた文脈情報と応答内容を用いて次発話において発話される可能性の高い単語を予測し、それらの単語の単語生起確率を上昇させ、認識結果のN-best中に正解単語を出現させやすくすることで認識精度の向上を目指す。評価実験の結果、手法を用いない場合に比べて提案手法を用いた場合に単語正解率が83.5%から85.1%に上昇し、提案手法の有効性が示せた。Recently, the technology of speech recognition and natural language processing, and the performance of computer calculation ability has been highly improved, so we can utilize speech interface to handle information service in car. Cars' spoken dialogue systems like existent navigation system, however, often misrecognized user utterances. In this paper, the system predicts the frequency uttered word using the contextual information and the system response, and raise word occurrence probabilities of those words. As a result, we make the correct answer word appear in the recognition result easily. As a result of the evaluation experiment, the word recognition rate rose from 83.5% to 85.1% according to use the proposal method. We show the effectiveness of the method.
  • 池ヶ谷有希, 野口靖浩, 小暮悟, 伊藤敏彦, 小西達裕, 近藤真, 麻生英樹, 高木朗, 伊東幸宏 人工知能学会論文誌 22 (3) 291 -310 2007年 [査読無し][通常論文]
     
    This paper describes how to perform syntactic parsing and semantic analysis in a dialog system. The paper especially deals with how to disambiguate potentially ambiguous sentences using the contextual information. Although syntactic parsing and semantic analysis are often studied independently of each other, correct parsing of a sentence often requires the semantic information on the input and/or the contextual information prior to the input. Accordingly, we merge syntactic parsing with semantic analysis, which enables syntactic parsing taking advantage of the semantic content of an input and its context. One of the biggest problems of semantic analysis is how to interpret dependency structures. We employ a framework for semantic representations that circumvents the problem. Within the framework, the meaning of any predicate is converted into a semantic representation which only permits a single type of predicate: an identifying predicate "aru". The semantic representations are expressed as sets of "attribute-value" pairs, and those semantic representations are stored in the context information. Our system disambiguates syntactic/semantic ambiguities of inputs referring to the attribute-value pairs in the context information. We have experimentally confirmed the effectiveness of our approach specifically, the experiment confirmed high accuracy of parsing and correctness of generated semantic representations.
  • 繁田 佳宏, 池ヶ谷 有紀, 野口 靖浩, 小暮 悟, 伊藤 敏彦, 小西 達裕, 近藤 真, 伊東 幸宏 情報科学技術フォーラム一般講演論文集 5 (2) 157 -158 2006年08月21日 [査読無し][通常論文]
  • 繁田佳宏, 池ケ谷有紀, 野口靖浩, 小暮悟, 伊藤敏彦, 小西達裕, 近藤真, 伊東幸宏 情報科学技術フォーラム FIT 2006 157 -158 2006年08月21日 [査読無し][通常論文]
  • 藤原 敬記, 伊藤 敏彦, 荒木 健治, 甲斐 充彦, 小西 達裕, 伊東 幸宏 電子情報通信学会論文誌. D, 情報・システム 89 (7) 1493 -1503 2006年07月01日 [査読無し][通常論文]
     
    実環境での音声対話システムの使用において,誤認識を回避することは難しい.誤認識が起きると,システムはユーザの期待する応答とかけ離れた応答を行い,対話がスムーズに進まなくなることも多い.そこで本研究では,音声認識器が誤認識した場合でも,認識信頼度と対話履歴を用いることで正しくユーザの意図を推定することができる音声言語理解手法を提案する.これは,音声認識器が誤認識した場合でも多くの場合,複数候補(N-best)中に正解が含まれていること,システムが誤認識した場合にはユーザは大体訂正反応を示すこと,タスク指向対話には強い一貫性がありユーザは基本的に意味的・文脈的に関係した内容以外を発話しないことを利用する.また,提案手法ではあらかじめすべての認識可能単語を理解候補として保持し,言語理解部の対話戦略において音声認識結果中の単語との意味的関連性などを考慮している.これにより音声認識結果のN-best中に正解の一部が含まれていない場合でも,複数のユーザ発話の認識結果に基づくことで正しい意図を推定することが可能となっている.評価データにおいて,提案手法における対話単位での理解率は72.2%(21,430/29,670対話),単語単位での理解率は87.1%(77,544/89,010単語)であり,従来手法の最新認識結果の上位候補を優先するシステムの57.9% (17,178/29,670対話...
  • 藤原敬記, 伊藤敏彦, 荒木健治, 甲斐充彦, 小西達裕, 伊東幸宏 電子情報通信学会論文誌 D J89-D (7) 1493 -1503 2006年07月01日 [査読無し][通常論文]
     
    実環境での音声対話システムの使用において,誤認識を回避することは難しい.誤認識が起きると,システムはユーザの期待する応答とかけ離れた応答を行い,対話がスムーズに進まなくなることも多い.そこで本研究では,音声認識器が誤認識した場合でも,認識信頼度と対話履歴を用いることで正しくユーザの意図を推定することができる音声言語理解手法を提案する.これは,音声認識器が誤認識した場合でも多くの場合,複数候補(N-best)中に正解が含まれていること,システムが誤認識した場合にはユーザは大体訂正反応を示すこと,タスク指向対話には強い一貫性がありユーザは基本的に意味的・文脈的に関係した内容以外を発話しないことを利用する.また,提案手法ではあらかじめすべての認識可能単語を理解候補として保持し,言語理解部の対話戦略において音声認識結果中の単語との意味的関連性などを考慮している.これにより音声認識結果のN-best中に正解の一部が含まれていない場合でも,複数のユーザ発話の認識結果に基づくことで正しい意図を推定することが可能となっている.評価データにおいて,提案手法における対話単位での理解率は72.2%(21,430/29,670対話),単語単位での理解率は87.1%(77,544/89,010単語)であり,従来手法の最新認識結果の上位候補を優先するシステムの57.9% (17,178/29,670対話),75.4%(67,084/89,010単語)と比較しても有効である.
  • 山田 真也, 伊藤 敏彦, 荒木 健治 情報処理学会研究報告. SLP, 音声言語情報処理 2006 (40) 7 -12 2006年05月11日 [査読無し][通常論文]
     
    様々な対話状況で収録した対話音声の音響的特徴を用いた機械学習により対システム発話の推定を行い,その有効性を調査する.対話音声には,我々がすでに調査・分析を行ってきた2者対話実験で収録したものと,今回新たに追加した3者対話実験で収録したものを使用した.収録した対話の状況設定はカーナビゲーションシステムを使用することを想定した目的地検索・設定タスクである.2者対話実験ではタスクの遂行役としての人間,または対話システとの対話で,3者対話実験では同乗者の人間とタスク遂行役の対話システムとの対話で,対人開発話と対システム発話を収録した.対話状況が異なる発話での比較により,様々な発話条件を考慮した識別も行った.実験の結果,対話相手の音声認識率や親密度が識別の性能に影響を与えることが分かった.
  • 東海林 圭輔, 高橋 美佳, 井原 誠也, 伊藤 敏彦, 荒木 健治 情報処理学会研究報告. SLP, 音声言語情報処理 2006 (40) 43 -48 2006年05月11日 [査読無し][通常論文]
     
    人間同士の対話における最適な対話のリズムは,その対話の中で生まれる.対話の中でそのリズムを意識することにより,より円滑で満足度の高い対話を行うことが期待できる.本稿では,人間と人間のコミュニケーションをできるだけ模倣する方向性の一つとして,対話のリズムを重視した音声対話システムを開発し,ユーザに自然な発話を促すことでユーザ満足度の向上を目指す.今回,我々が着目した対話のリズムの要素は,システムからの発話や相槌のタイミング,発話速度である.これらの自然なリズムを実現するために,ポーズ単位で言語理解を行いながら,発話途中でも相手のタスク意図を予測する言語理解部,ユーザモデルを用いて協調的でリズムを考慮した応答を生成する応答生成部,相槌判定を含む話者交代判定とリズムの同調をリアルタイムに行う対話リズム生成部の3つのモジュールを新たに作成し,タスク指向型の音声対話システムを構築した.
  • 山田真也, 伊藤敏彦, 荒木健治 情報処理学会研究報告 2006 (40(SLP-61)) 7 -12 2006年05月11日 [査読無し][通常論文]
     
    様々な対話状況で収録した対話音声の音響的特徴を用いた機械学習により対システム発話の推定を行い その有効性を調査する.対話音声には,我々がすでに調査・分析を行ってきた2者対話実験で収録したものと,今回新たに追加した3者対話実験で収録したものを使用した.収録した対話の状況設定はカーナビゲーションシステムを使用することを想定した目的地検索・設定タスクである.2者対話実験ではタスクの遂行役としての人間,または対話システとの対話で,3者対話実験では同乗者の人間とタスク遂行役の対話システムとの対話で,対人間発話と対システム発話を収録した.対話状況が異なる発話での比較により,様々な発話条件を考慮した識別も行った.実験の結果,対話相手の音声認識率や親密度が識別の性能に影響を与えることが分かった.This paper prcsents uscfulness of identifying user`s uttcrances made to a spoken dialogue system using machine learning which uses acoustic features of user`s utterances recorded in vanious situations. We have already performed dialogue experiments with two speakers (human-human or human-machine patterns) in several situations and we newly performed the experiments with three speakers (human-human-machine). The dialogue task simulates voice control of a car navigation system,where we made users perform goal settings or look the goal up in destnation database. We prepared a spoken dialogue system for all experiments and prepared a human operator for the experiment with two speakers. We used the dialogue data achieved from the experiments and identified user`s utterances made to the spoken dialogue system. Additionally,by comparison with utterances which were collected from different situations,we researched the influence of various conditions on performance of identifying utterances.
  • 東海林圭輔, 高橋美佳, 井原誠也, 伊藤敏彦, 荒木健治 情報処理学会研究報告 2006 (40(SLP-61)) 43 -48 2006年05月11日 [査読無し][通常論文]
     
    人間同士の対話における最適な対話のリズムは,その対話の中で生まれる.対話の中でそのリズムを意識することにより,より円滑で満足度の高い対話を行うことが期待できる.本稿では,人間と人間のコミュニケーションをできるだけ模倣する方向性の一つとして,対話のリズムを重視した音声対話システムを開発し,ユーザに自然な発話を促すことでユーザ満足度の向上を目指す.今回,我々が着目した対話のリズムの要素は,システムからの発話や相槌のタイミング;発話速度である.これらの自然なリズムを実現するために,ポーズ単位で言語理解を行いながら,発話途中でも相手のタスク意図を予測する言語理解部,ユーザモデルを用いて協調的でリズムを考慮した応答を生成する応答生成部,相槌判定を含む話者交代判定とリズムの同調をリアルタイムに行う対話リズム生成部の3つのモジュールを新たに作成し,タスク指向型の音声対話システムを構築した.The best rhythm of the conversation between humans is developed during their conversation. It can be expected that users conscious of rhythm will perform smoother conversation. In this paper,as one of the methods is to copy human communication abilities as much as possible, we develop spoken dialog system which puts the importance to the rhythm of dialog aiming at improvement of user satisfaction by encouraging an user to utter naturally. Elements of rhythm of dialog that we paid our attention is speaking rate and timing of an utterance and backchanneling from a system. To realize such natural rhythm, we newly designed three modules-Understanding Component to predict user`s task intention in the middle of his utterance while performing language understanding by a pause unit; Response Generator which generates the response considering rhythm and uses a user model; Rhythm Generator to perform a speaker change judgment including backchanneling judgment and rhythm synchronization in real time. These components are to construct a task oriented spoken dialog system.
  • 高木 浩吉, 小暮 悟, 伊藤 敏彦 言語・音声理解と対話処理研究会 46 (0) 33 -38 2006年03月03日 [査読無し][通常論文]
  • 高木浩吉, 小暮悟, 伊藤敏彦, 甲斐充彦, 小西達裕, 伊東幸宏 人工知能学会言語・音声理解と対話処理研究会資料 46th 33 -38 2006年03月03日 [査読無し][通常論文]
  • 山田 真也, 伊藤 敏彦, 荒木 健治 情報処理学会研究報告. SLP, 音声言語情報処理 2005 (127) 67 -72 2005年12月21日 [査読無し][通常論文]
     
    人間同士や人間と機械との対話において, 対話相手の違い, 対話相手の音声認識率, 対話相手の応答音声の品質の違いが発話に与える影響について, 対話収集実験から得られた音声対話データを用いて分析を行う.対話タスクはカーナビゲーションシステム上での音声インターフェースを用いた目的地検索・設定タスクであり, そのタスクにおける様々な状況下でのユーザの発話に表れる言語的・音響的な特徴の比較を行った.さらに, 各対話状況における対話相手や被験者自身の発話に関する主観的評価のためのアンケート調査を行った.また, 機械(対話システム)に対する潜在的意識(先入観)が発話に与える影響を調査するため, アンケートの評価値によりグループ分けを行い, 各グループで発話の特徴を分析した.調査の結果, 応答音声の品質や発話のリズムによってユーザの発話が変化し, 音声の品質は対話相手に対する印象に影響を与えることが分かった.また, 機械に対する潜在的意識によりユーザの発話が変化することが確認された.
  • 鈴木 貞之, 小暮 悟, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. SLP, 音声言語情報処理 2005 (127) 115 -120 2005年12月21日 [査読無し][通常論文]
     
    本稿では, カーナビゲーションの目的地設定をタスクとした自由発話において, 文レベルでの文法制約を用いた音声認識で得られるN-best候補と, ワードスポッティングによる音声認識で得られる単語ラティス情報とを組み合わせ, 先行研究でのN-best候補からの音声理解の枠組みにおける性能改善のため, N-best候補の精度(正解候補の順位や含有率など)を高める手法を提案する.まず, ワードスポッティングから各発話における単語の確からしさを計算し, その確からしさの情報を利用して, 文レベルでの文法制約によるN-best候補の単語尤度の上昇や単語の交換等を行う.評価実験において, 特に, 間投詞や未知語が存在する文において, 本手法を用いることによって正解単語のN-best候補の出現順位が上昇し, 本手法の有効性を示せた.
  • 鈴木 貞之, 小暮 悟, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 電子情報通信学会技術研究報告. SP, 音声 105 (496) 25 -30 2005年12月15日 [査読無し][通常論文]
     
    本稿では, カーナビゲーションの目的地設定をタスクとした自由発話において, 文レベルでの文法制約を用いた音声認識で得られるN-best候補と, ワードスポッティングによる音声認識で得られる単語ラティス情報とを組み合わせ, 先行研究でのN-best候補からの音声理解の枠組みにおける性能改善のため, N-best候補の精度(正解候補の順位や含有率など)を高める手法を提案する.まず, ワードスポッティングから各発話における単語の確からしさを計算し, その確からしさの情報を利用して, 文レベルでの文法制約によるN-best候補の単語尤度の上昇や単語の交換等を行う.評価実験において, 特に, 間投詞や未知語が存在する文において, 本手法を用いることによって正解単語のN-best候補の出現順位が上昇し, 本手法の有効性を示せた.
  • 鈴木貞之, 小暮悟, 伊藤敏彦, 甲斐充彦, 小西達裕, 伊東幸宏 電子情報通信学会技術研究報告 105 (496(SP2005 105-138)) 25 -30 2005年12月15日 [査読無し][通常論文]
  • 山田 真也, 伊藤 敏彦, 荒木 健治 電子情報通信学会技術研究報告. SP, 音声 105 (495) 67 -72 2005年12月14日 [査読無し][通常論文]
     
    人間同士や人間と機械との対話において, 対話相手の違い, 対話相手の音声認識率, 対話相手の応答音声の品質の違いが発話に与える影響について, 対話収集実験から得られた音声対話データを用いて分析を行う.対話タスクはカーナビゲーションシステム上での音声インターフェースを用いた目的地検索・設定タスクであり, そのタスクにおける様々な状況下でのユーザの発話に表れる言語的・音響的な特徴の比較を行った.さらに, 各対話状況における対話相手や被験者自身の発話に関する主観的評価のためのアンケート調査を行った.また, 機械(対話システム)に対する潜在的意識(先入観)が発話に与える影響を調査するため, アンケートの評価値によりグループ分けを行い, 各グループで発話の特徴を分析した.調査の結果, 応答音声の品質や発話のリズムによってユーザの発話が変化し, 音声の品質は対話相手に対する印象に影響を与えることが分かった.また, 機械に対する潜在的意識によりユーザの発話が変化することが確認された.
  • 山田真也, 伊藤敏彦, 荒木健治 電子情報通信学会技術研究報告 105 (495(SP2005 90-104)) 67 -72 2005年12月14日 [査読無し][通常論文]
  • 伊藤 敏彦, 山田 真也, 荒木 健治 情報処理学会研究報告. 自然言語処理研究会報告 2005 (50) 101 -106 2005年05月26日 [査読無し][通常論文]
     
    人間同士または人間と機械との音声対話において, タスク遂行役の音声認識率、対話状況や対話相手の違いによって生じる言語・音響的な特徴の差異に関して実音声対話データの分析結果から明らかにする.機械との対話を扱うため, 比較的単純な状況設定としてカーナビゲーションシステムにおける目的地検索・設定タスクを想定し, その音声インタフェースという具体的な状況設定においてユーザ発話に現れる言語・音響的な特徴の差異を比較した.想定した状況は, 音声認識率が100%と約80%の場合, 対話相手が人間, 応答能力が制限された人間, 又は機械の場合, 運転中又は停車中の場合である.これらの対話状況の違いにより発話形態にどのような違いがあるか, 被験者24名による実対話音声の収録データに基づいて分析を行なった.運転操作中の状況設定に関しては, 擬似的な運転操作環境を設定した.さらに, 対話状況の違いと併せて, 対話相手が誤認識・誤理解した場合の次発話の言語・音響的な分析も行った.その結果, 運転操作の有無による言語的な特徴の差異はほとんどないが, 音響的な特徴の違いが一部見られたほか, 応答が自然音声か合成音声かで幾つかの言語・音響的な特徴の差異が明らかになった.
  • 伊藤 敏彦, 山田 真也, 荒木 健治 情報処理学会研究報告. SLP, 音声言語情報処理 2005 (50) 101 -106 2005年05月26日 [査読無し][通常論文]
     
    人間同士または人間と機械との音声対話において, タスク遂行役の音声認識率、対話状況や対話相手の違いによって生じる言語・音響的な特徴の差異に関して実音声対話データの分析結果から明らかにする.機械との対話を扱うため, 比較的単純な状況設定としてカーナビゲーションシステムにおける目的地検索・設定タスクを想定し, その音声インタフェースという具体的な状況設定においてユーザ発話に現れる言語・音響的な特徴の差異を比較した.想定した状況は, 音声認識率が100%と約80%の場合, 対話相手が人間, 応答能力が制限された人間, 又は機械の場合, 運転中又は停車中の場合である.これらの対話状況の違いにより発話形態にどのような違いがあるか, 被験者24名による実対話音声の収録データに基づいて分析を行なった.運転操作中の状況設定に関しては, 擬似的な運転操作環境を設定した.さらに, 対話状況の違いと併せて, 対話相手が誤認識・誤理解した場合の次発話の言語・音響的な分析も行った.その結果, 運転操作の有無による言語的な特徴の差異はほとんどないが, 音響的な特徴の違いが一部見られたほか, 応答が自然音声か合成音声かで幾つかの言語・音響的な特徴の差異が明らかになった.
  • 伊藤敏彦, 山田真也, 荒木健治 情報処理学会研究報告 2005 (50(NL-167 SLP-56)) 101 -106 2005年05月26日 [査読無し][通常論文]
     
    人間同士または人間と機械との音声対話において,タスク遂行役の音声認識率、対話状況や対話相手の違いによって生じる言語・音響的な特徴の差異に関して実音声対話データの分析結果から明らかにする.機械との対話を扱うため,比較的単純な状況設定としてカーナビゲーションシステムにおける目的地検索・設定タスクを想定し,その音声インタフェースという具体的な状況設定においてユーザ発話に現れる言語・音響的な特徴の差異を比較した.想定した状況は,音声認識率が100%と約80%の場合,対話相手が人間,応答能力が制限された人間,又は機械の場合,運転中又は停車中の場合である.これらの対話状況の違いにより発話形態にどのような違いがあるか,被験者24名による実対話音声の収録データに基づいて分析を行なった.運転操作中の状況設定に関しては,擬似的な運転操作環境を設定した.さらに,対話状況の違いと併せて,対話相手が誤認識・誤理解した場合の次発話の言語・音響的な分析も行った.その結果,運転操作の有無による言語的な特徴の差異はほとんどないが,音響的な特徴の違いが一部見られたほか,応答が自然音声か合成音声かで幾つかの言語・音響的な特徴の差異が明らかになった.This paper presents the characteristic differences of linguistic and acoustic features observed in different spoken dialogue situations and with different dialogue partners: human-human vs. human-machine interactions. We compare the linguistic and acoustic features of the user's speech to a spoken dialogue system and to a human operator in several goal setting and destination database searching tasks for a car navigation system. It has been pointed out that speech-based interaction has the potential to distract the driver's attention and degrade safety. On the other hand, it is not clear enough whether different dialogue situations and different dialogue partners cause any differences of linguistic or acoustic features on one's utterances in a speech interface system. Additionally, research about influence of speech recognition rate is not enough either. We collected a set of spoken dialogues by 24 subject speakers for each experiment under several dialogue situations. For a car driving situation, we prepared a virtual driving simulation system. We also prepared two patterns where we have two dialogue partners with different speech recognition rate (100% and about 80%). We analyzed the characteristic differences of user utterances caused by different dialogue situations and with different dialogue partners in two above mentioned patterns.
  • 徐 金安, 伊藤 敏彦, 荒木 健治 ヒューマンインタフェース学会誌 = Journal of Human Interface Society : human interface 7 (1) 55 -67 2005年02月25日 [査読無し][通常論文]
  • 水野 智士, 高木 浩吉, 小暮 悟, 甲斐 充彦, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. SLP, 音声言語情報処理 2005 (12) 77 -82 2005年02月04日 [査読無し][通常論文]
     
    近年の音声認識、言語理解技術、及びコンピュータ性能の向上によって、音声を用いるインタフェースやタスク指向型の対話システムが利用されるようになってきた。そんな中で、より一般的にシステムが利用されるようになるには、より頑健な言語理解が必要となる。本稿では、より頑健な意味理解を実現するために、音声認識信頼度と対話履歴を利用して、ユーザ発話意図の推定を行う手法について記述する。本研究では、言語理解の頑健さを向上させるために、対話履歴において、県名や市町村名など、どのカテゴリについての発話がされたのかを識別する。その識別結果と、認識結果のn-bestを利用して言語理解結果を生成する。これを実現する場合、カテゴリ識別の精度がそのまま言語理解精度に影響する。そこで、ユーザの発話意図を推定することで、カテゴリ識別精度の向上を図り言語理解精度向上を目指した。評価実験を行い、音声認識の1-bestをそのまま利用する言語理解手法よりも提案手法のほうが、言語理解精度が高くなることを示した。
  • 水野智士, 高木浩吉, 小暮悟, 甲斐充彦, 伊藤敏彦, 小西達裕, 伊東幸宏 情報処理学会研究報告 2005 (12(SLP-55)) 77 -82 2005年02月04日 [査読無し][通常論文]
     
    近年の音声認識、言語理解技術、及びコンピュータ性能の向上によって、音声を用いるインタフェースやタスク指向型の対話システムが利用されるようになってきた。そんな中で、より一般的にシステムが利用されるようになるには、より頑健な言語理解が必要となる。本稿では、より頑健な意味理解を実現するために、音声認識信頼と対話履歴を利用して、ユーザ発話意図の推定を行う手法について記述する。本研究では、言語理解の頑健さを向上させるために、対話履歴において、県名や市町村名など、どのカテゴリについての発話がされたのかを識別する。その識別結果と、認識結果のn-bestを利用して言語理解結果を生成する。これを実現する場合、カテゴリ識別の精度がそのまま言語理解精度に影響する。そこで、ユーザの発話意図を推定することで、カテゴリ識別精度の向上を図り言語理解精度向上を目指した。評価実験を行い、音声認識の1-bestをそのまま利用する言語理解手法よりも提案手法のほうが、言語理解精度が高くなることを示した。The spoken dialogue interface and the task oriented dialogue system has come to be used by improving the speech recognition, the language understanding technologies, and the computer performance. We need a more robust language understanding for the system to come to be used more generally. Our paper deals with speech intent presumption method using the confidence score of speech recognition and dialogue history for robust meaning understanding. This language understanding results are generated by using the speech recognition results (n-best) and the identification results. Thus, the accuracy of the category identification influences the language understanding accuracy. Then, we used the presumption of user's speech intention in order to improve the language understanding accuracy. As the result of evaluation experiment, we show that the language understanding performance used our proposed method is higher than the language understanding method which simply gives priority to the first hypothesis of a n-best.
  • XU J, 伊藤敏彦, 荒木健治 ヒューマンインタフェース学会論文誌 7 (1) 55 -67 2005年02月 [査読無し][通常論文]
  • 薬袋直貴, 白鳥雄史, 伊藤敏彦, 小西達裕, 近藤真, 伊東幸宏 教育システム情報学会全国大会講演論文集 29th 37 -38 2004年08月20日 [査読無し][通常論文]
  • Rzepka Rafal, 伊藤 敏彦, 荒木 健治 情報処理学会研究報告. 自然言語処理研究会報告 2004 (73) 11 -18 2004年07月15日 [査読無し][通常論文]
     
    本稿では、以前に技術的に実現が不可能であったスクリプトやプランなどの再使用に関するアイディアを提案する。我々はゴールを達成するために利用されるプランの構築を支援できるSchankのスクリプトを再考し、古典的な認知科学的なコンセプトの作者と違い、現在の強力なコンピュータ、および数テラバイトのデータを使用することにより、ドメインを制限しない常識知識め処理を可能にしたい。60年代から多くのプロジェクトが、主に手動入力の壁にぶつかり、諦めざるを得なかったが、我々はWWW資源から常識的なデータを抽出し、統合した常識処理システムを構築することを計画している。本稿では、予備実験の結果に基づいて開発された手法の理論的な面について述べる。
  • 桐山伸也, 北沢茂良, 伊藤敏彦 日本音響学会研究発表会講演論文集 2004 237 -238 2004年03月17日 [査読無し][通常論文]
  • 北沢茂良, 桐山伸也, 伊藤敏彦 日本音響学会研究発表会講演論文集 2004 349 -350 2004年03月17日 [査読無し][通常論文]
  • 伊東幸宏, 小西達裕, 近藤真, 伊藤敏彦 静岡大学情報学研究 9 119 -123 2004年03月10日 [査読無し][通常論文]
  • 鈴木夕紀子, 池ケ谷有希, 野口靖浩, 伊藤敏彦, 小西達裕, 伊東幸宏, 高木朗 人工知能学会言語・音声理解と対話処理研究会資料 40th 73 -78 2004年03月05日 [査読無し][通常論文]
  • 白木 将幸, 伊藤 敏彦, 甲斐 充彦, 中谷 広正 情報処理学会研究報告. SLP, 音声言語情報処理 2004 (15) 69 -74 2004年02月06日 [査読無し][通常論文]
     
    近年、音声認識技術の進展に伴い、音声対話システムの研究が盛んに行われている。しかしながら、音声認識の誤認識や話し言葉特有の表現などが原因で、自然発話においてユーザの意図を正確に抽出することは難しく、十分な結果が得られていない。そこで我々は、自然発話の意味理解において、統計的な意図推定を用いた方法を提案する。これは、発話の大まかな意図というものを捉えて、それをもとに部分的な解析を行うことで発話の意味を理解する手法である。意図の推定規則はコーパスから学習して獲得するが、実際の音声認識結果や自然発話を含むコーパスを用いることで、頑健な意図理解が可能となる。本論文では、意図理解に、N-gramモデル、ベクトル空間モデル、Support Vector Machine(SVM)を利用し、意図推定精度における実験と評価を行った。
  • 白木将幸, 伊藤敏彦, 甲斐充彦, 中谷広正 情報処理学会研究報告 2004 (15(SLP-50)) 69 -74 2004年02月06日 [査読無し][通常論文]
     
    近年、音声認識技術の進展に伴い、音声対話システムの研究が盛んに行われている。しかしながら、音声認識の誤認識や話し言葉特有の表現などが原因で、自然発話においてユーザの意図を正確に抽出することは難しく、十分な結果が得られていない。そこで我々は、自然発話の意味理解において、統計的な意図推定を用いた方法を提案する。これは、発話の大まかな意図というものを捉えて、それをもとに部分的な解析を行うことで発話の意味を理解する手法である。意図の推定規則はコーパスから学習して獲得するが、実際の音声認識結果や自然発話を含むコーパスを用いることで、頑健な意図理解が可能となる。本論文では、意図理解に、N-gramモデル、ベクトル空間モデル、Support Vector Machine(SVM)を利用し、意図推定精度における実験と評価を行った。Recently, research on spoken dialog systems has been active with progress of the speech recognition technology. However, it is difficult to extract user intention correctly from natural utterance. Most of these difficulties are due to the errors of speech recognition results, and a variety of linguistic phenomena included in natural utterance. We propose statistical methods to extract user intention from natural utterance. By learning examples, a set of rules which are robust to various linguistic phenomena can be automatically acquired. In this paper, N-gram model, vector space model, and Support Vector Machine (SVM) are used for understanding user intention. We perform the experiments of intention understanding and evaluate the performances of those methods.
  • 池ケ谷有希, 野口靖浩, 鈴木夕紀子, 伊藤敏彦, 小西達裕, 近藤真, 高木朗, 中島秀之, 伊東幸宏 人工知能学会全国大会論文集(CD-ROM) 18th 3E2-10 2004年 [査読無し][通常論文]
  • 由浅 裕規, 水野 智士, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. SLP, 音声言語情報処理 2003 (124) 199 -204 2003年12月18日 [査読無し][通常論文]
     
    本稿では,状況及び文脈を利用した言語理解手法をもつ音声対話システムの構築と,その有効性を示すための評価実験について述べる.システムに対する発話方法を「対象を操作」又は「属性は値」という文体に制限することで認識率の向上を図り,また一入力だけでなく連続的に複数の入力を一発話で行えるようにシステムを構築した.タスクとしてはエアコン・カーステレオの操作を想定し,その音声インタフェースという具体的な状況設定において,被験者20名による評価実験を行った.対話の分析を行うことによって,状況及び文脈を利用した言語理解の有効性,制限された発話方法における言語的な特徴や複数設定発話に関するユーザ意識など,様々な知見を得ることができた.
  • 森田 浩康, 林 真弘, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏, 桂川 桂子, 大野 健 情報処理学会研究報告. SLP, 音声言語情報処理 2003 (124) 205 -210 2003年12月18日 [査読無し][通常論文]
     
    本稿では,車載情報機器を音声操作する際に機器ごとに入力できる文体や語彙が異なるため,ユーザが異なった人力方法を習得しなければならず負担になってしまうという問題に対して,一貫性のある入力を用いた音声言語インタフェースを提案する.そこで,車載情報機器の特徴と,音声人力する際の問題点を整理し,入力文体の統一という手法について述べる.車載情報機器には様々な機能が搭載されているが,まずは訪問地検索にタスクを限定してシステムを実装した.一般的な対話形式との比較など,2つの評価実験を行い,我々の提案する手法が有効であることを実証した.
  • 由浅裕規, 水野智士, 伊藤敏彦, 甲斐充彦, 小西達裕, 伊東幸宏 電子情報通信学会技術研究報告 103 (517(NLC2003 50-90)) 199 -204 2003年12月18日 [査読無し][通常論文]
  • 森田浩康, 林真弘, 伊藤敏彦, 甲斐充彦, 小西達裕, 伊東幸宏, 桂川桂子, 大野健 電子情報通信学会技術研究報告 103 (517(NLC2003 50-90)) 205 -210 2003年12月18日 [査読無し][通常論文]
  • 桂川 景子, 柳 拓良, 大野 健, 渡部 眞幸, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会論文誌 44 (12) 2990 -3001 2003年12月15日 
    本論文では車での移動を前提とした旅行やドライブのための移動プラン作成をサポートするドライブプランニングシステムを提案し,その主要なコンポーネントとなるPC上でドライブプランを作成・編集するためのサブシステムDPS-PCの構成と評価について述べる.我々は,移動体の移動プランを前もって登録しておくことは,各種ITSサービスの質的向上を支援しうると考えている.DPS-PCは,カーナビゲーションシステムの機能の1つである目的地設定や経路設定機能を拡張し,複数の訪問地やそれに付随する発着時間,日数や経路などの設定を行うものである.本論文では,まず,目的施設や経路の指定のためにどのような機能が必要かを考察する.その機能を実現するためには,データベースの拡充や検索アルゴリズムの改良が必要であるが,それに加え,条件指定をしやすいインタフェースを工夫する必要がある.そのためDPS-PCでは,自然言語インタフェースを採用する.本論文では,DPS-PCが受理すべき条件指定表現を分析し,入力文の解釈手法を考案して,自然言語インタフェースを有するプロトタイプシステムを紹介する.また,プロトタイプシステムの評価実験を行い,その有用性を示す.10名の被験者に対し,本システムを用いて家族旅行の計画を立案させたところ,入力文の92.4%を受理でき,平均15分程度で全員が1泊2日の旅行計画を立案することができた.また,入力文の65%はGUIベースのインタフェースでは1アクションでは入力不可能な内容を含んでおり,自然言語インタフェースの有用性を確認した.In this paper,we propose a drive planning system that supports users in making a plan for a trip. We introduce a sub-system named DPS-PC which runs on stand-alone PC. We think if we can register our trip plan to an ITS system previously, the ITS services it provides for us will be more rich. DPS-PC has the function to help users decide several factors of a trip: multiple destinations and waypoints,arrival and departure times,the number of days that the trip will take and the route. The drive is planned interactively by a dialog with the system through a natural language interface. We discuss what conditions such a drive planning system should accept, describe the implementation of a prototype of DPS-PC, and present the result of evaluation of its usefulness. We make 10 subjects construct each drive plan for 2 days trip by using DPS-PC. It accepts 92.4% sentences that the subjects input and all subjects can construct their plan in 15 minutes. Moreover, we confirm that our natural language interface can accept various requirements in one sentence, while it takes multiple actions to designate such requirements by using usual GUI.
  • 桂川 景子, 柳 拓良, 大野 健, 渡部 眞幸, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会論文誌 44 (12) 2990 -3001 2003年12月15日 [査読無し][通常論文]
     
    本論文では車での移動を前提とした旅行やドライブのための移動プラン作成をサポートするドライブプランニングシステムを提案し,その主要なコンポーネントとなるPC上でドライブプランを作成・編集するためのサブシステムDPS-PCの構成と評価について述べる.我々は,移動体の移動プランを前もって登録しておくことは,各種ITSサービスの質的向上を支援しうると考えている.DPS-PCは,カーナビゲーションシステムの機能の1つである目的地設定や経路設定機能を拡張し,複数の訪問地やそれに付随する発着時間,日数や経路などの設定を行うものである.本論文では,まず,目的施設や経路の指定のためにどのような機能が必要かを考察する.その機能を実現するためには,データベースの拡充や検索アルゴリズムの改良が必要であるが,それに加え,条件指定をしやすいインタフェースを工夫する必要がある.そのためDPS-PCでは,自然言語インタフェースを採用する.本論文では,DPS-PCが受理すべき条件指定表現を分析し,入力文の解釈手法を考案して,自然言語インタフェースを有するプロトタイプシステムを紹介する.また,プロトタイプシステムの評価実験を行い,その有用性を示す.10名の被験者に対し,本システムを用いて家族旅行の計画を立案させたところ,入力文の92.4%を受理でき,平均15分程度で全員が1泊2日の旅行計画を立案することができた...
  • 桂川景子, 柳拓良, 大野健, 渡部真幸, 伊藤敏彦, 小西達裕, 伊東幸宏 情報処理学会論文誌 44 (12) 2990 -3001 2003年12月15日 [査読無し][通常論文]
  • 由浅 裕規, 水野 智士, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103 (517) 199 -204 2003年12月11日 [査読無し][通常論文]
     
    本稿では,状況及び文脈を利用した言語理解手法をもつ音声対話システムの構築と,その有効性を示すための評価実験について述べる.システムに対する発話方法を「対象を操作」,又は嘱性は値」という文体に制限することで認識率の向上を図り,また一入力だけでなく連続的に複数の入力を一発話で行えるようにシステムを構築した.タスクとしてはエアコン・カーステレオの操作を想定し,その音声インタフェースという具体的な状況設定において,被験者20名による評価実験を行った.対話の分析を行うことによって,状況及び文脈を利用した言語理解の有効性,制限された発話方法における言語的な特徴や複数設定発話に関するユーザ意識など,様々な知見を得ることができた.
  • 森田 浩康, 林真 弘, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏, 桂川 桂子, 大野 健 電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 103 (517) 205 -210 2003年12月11日 [査読無し][通常論文]
     
    本稿では,車載情報機器を音声操作する際に機器ごとに入力できる文体や語彙が異なるため,ユーザが異なった入力方法を習得しなければならず負担になってしまうという問題に対して,一貫性のある入力を用いた音声言語インタフェースを提案する.そこで,車載情報機器の特徴と,音声入力する際の問題点を整理し,入力文体の統一という手法について述べる.車載情報機器には様々な機能が搭載されているが,まずは訪問地検索にタスクを限定してシステムを実装した.一般的な対話形式との比較など,2つの評価実験を行い,我々の提案する手法が有効であることを実証した.
  • 由浅 裕規, 水野 智士, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 電子情報通信学会技術研究報告. SP, 音声 103 (519) 199 -204 2003年12月11日 [査読無し][通常論文]
     
    本稿では,状況及び文脈を利用した言語理解手法をもつ音声対話システムの構築と,その有効性を示すための評価実験について述べる.システムに対する発話方法を「対象を操作」,又は嘱性は値」という文体に制限することで認識率の向上を図り,また一入力だけでなく連続的に複数の入力を一発話で行えるようにシステムを構築した.タスクとしてはエアコン・カーステレオの操作を想定し,その音声インタフェースという具体的な状況設定において,被験者20名による評価実験を行った.対話の分析を行うことによって,状況及び文脈を利用した言語理解の有効性,制限された発話方法における言語的な特徴や複数設定発話に関するユーザ意識など,様々な知見を得ることができた.
  • 森田 浩康, 林真 弘, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏, 桂川 桂子, 大野 健 電子情報通信学会技術研究報告. SP, 音声 103 (519) 205 -210 2003年12月11日 [査読無し][通常論文]
     
    本稿では,車載情報機器を音声操作する際に機器ごとに入力できる文体や語彙が異なるため,ユーザが異なった入力方法を習得しなければならず負担になってしまうという問題に対して,一貫性のある入力を用いた音声言語インタフェースを提案する.そこで,車載情報機器の特徴と,音声入力する際の問題点を整理し,入力文体の統一という手法について述べる.車載情報機器には様々な機能が搭載されているが,まずは訪問地検索にタスクを限定してシステムを実装した.一般的な対話形式との比較など,2つの評価実験を行い,我々の提案する手法が有効であることを実証した.
  • 田中勝, 伊藤敏彦, 竹内一雅, 七海憲 ネットワークポリマー講演討論会講演要旨集 53rd 89 -92 2003年10月23日 [査読無し][通常論文]
  • 竹内一雅, 田中勝, 伊藤敏彦, 七海憲 ネットワークポリマー講演討論会講演要旨集 53rd 85 -88 2003年10月23日 [査読無し][通常論文]
  • 桐山伸也, 三ツ田佳史, 細川雄太, 伊藤敏彦, 北沢茂良 電子情報通信学会技術研究報告 103 (332(SP2003 94-102)) 35 -40 2003年09月30日 [査読無し][通常論文]
     
    言語情報を利用して,韻律ラベルを自動生成する手法を開発した.大量の韻律データベースの必要性が叫ばれて久しいが,韻律の持つ多様性により韻律ラベリングの自動化は困難であり,データベース作成は最終的に人手に頼らざるを得ない.我々の目的は,「韻律ラベリング支援システム」の開発である.すなわち,韻律ラベリングの完全自動化を目指すのではなく,適切なラベリング支援情報をラベラに提供することで,手動ラベリング作業の効率化を図ることを目標としている.今回,読み上げテキストの言語情報のみに着目して,音素ラベル・J-ToBIの初期ラベルを自動生成する手法を開発した.評価実験を通して,提案手法によりJ-ToBIのトーン層・BI層ラベルの70%以上が正しく付与できたことを示した.さらに,音素ラベルにおける音素別の誤差の傾向や,J-ToBIラベルにおけるアクセント句境界の複数の分割可能性といった評価結果の分析から得られた知見を基に,ラベリング支援システムの構築へ向けて,ラベリング支援情報の付与手法を検討した.
  • 桐山 伸也, 三ッ田 佳史, 細川 雄太, 伊藤 敏彦, 北澤 茂良 電子情報通信学会技術研究報告. DSP, ディジタル信号処理 103 (330) 35 -40 2003年09月23日 [査読無し][通常論文]
     
    言語情報を利用して,韻律ラベルを自動生成する手法を開発した.大量の韻律データベースの必要性が叫ばれて久しいが,韻律の持つ多様性により韻律ラベリングの自動化は困難であり,データベース作成は最終的に人手に頼らざるを得ない.我々の目的は,「韻律ラベリング支援システム」の開発である.すなわち,韻律ラベリングの完全自動化を目指すのではなく,適切なラベリング支援情報をラベラに提供することで,手動ラベリング作業の効率化を図ることを目標としている.今回,読み上げテキストの言語情報のみに着目して,音素ラベル・J-ToBIの初期ラベルを自動生成する手法を開発した.評価実験を通して,提案手法によりJ-ToBIのトーン層・BI層ラベルの70%以上が正しく付与できたことを示した.さらに,音素ラベルにおける音素別の誤差の傾向や,J-ToBIラベルにおけるアクセント句境界の複数の分割可能性といった評価結果の分析から得られた知見を基に,ラベリング支援システムの構築へ向けて,ラベリング支援情報の付与手法を検討した.
  • 桐山 伸也, 三ッ田 佳史, 細川 雄太, 伊藤 敏彦, 北澤 茂良 電子情報通信学会技術研究報告. SP, 音声 103 (332) 35 -40 2003年09月23日 [査読無し][通常論文]
     
    言語情報を利用して,韻律ラベルを自動生成する手法を開発した.大量の韻律データベースの必要性が叫ばれて久しいが,韻律の持つ多様性により韻律ラベリングの自動化は困難であり,データベース作成は最終的に人手に頼らざるを得ない.我々の目的は,「韻律ラベリング支援システム」の開発である.すなわち,韻律ラベリングの完全自動化を目指すのではなく,適切なラベリング支援情報をラベラに提供することで,手動ラベリング作業の効率化を図ることを目標としている.今回,読み上げテキストの言語情報のみに着目して,音素ラベル・J-ToBIの初期ラベルを自動生成する手法を開発した.評価実験を通して,提案手法によりJ-ToBIのトーン層・BI層ラベルの70%以上が正しく付与できたことを示した.さらに,音素ラベルにおける音素別の誤差の傾向や,J-ToBIラベルにおけるアクセント句境界の複数の分割可能性といった評価結果の分析から得られた知見を基に,ラベリング支援システムの構築へ向けて,ラベリング支援情報の付与手法を検討した.
  • 三ツ田佳史, 桐山伸也, 北沢茂良, 伊藤敏彦 日本音響学会研究発表会講演論文集 2003 363 -364 2003年09月17日 [査読無し][通常論文]
  • 伊藤佳世, 桐山伸也, 北沢茂良, 伊藤敏彦, 北村達也 日本音響学会研究発表会講演論文集 2003 361 -362 2003年09月17日 [査読無し][通常論文]
  • はつ川友宏, 伊藤敏彦, 坂根裕, 新谷誠, 小西達裕, 伊東幸宏 教育システム情報学会全国大会講演論文集 28th 141 -142 2003年08月30日 [査読無し][通常論文]
  • 白鳥雄史, 伊藤敏彦, 小西達裕, 近藤真, 伊東幸宏 教育システム情報学会全国大会講演論文集 28th 33 -34 2003年08月30日 [査読無し][通常論文]
  • 野口靖浩, 池ケ谷有希, 鈴木夕紀子, 伊藤敏彦, 小西達裕, 近藤真, 高木朗, 中島秀之, 伊東幸宏 人工知能学会全国大会論文集 17th (Pt.1) 1C1.05,1-4 2003年06月23日 [査読無し][通常論文]
  • 池ケ谷有希, 野口靖浩, 鈴木夕紀子, 伊藤敏彦, 小西達裕, 近藤真, 高木朗, 中島秀之, 伊東幸宏 人工知能学会全国大会論文集 17th (Pt.2) 3B1.05,1-4 -4 2003年06月23日 [査読無し][通常論文]
  • 三ッ田 佳史, 桐山 伸也, 北澤 茂良, 伊藤 敏彦 日本音響学会研究発表会講演論文集 2003 (1) 379 -380 2003年03月18日 [査読無し][通常論文]
  • 桐山 伸也, 伊藤 敏彦, 北澤 茂良 日本音響学会研究発表会講演論文集 2003 (1) 381 -382 2003年03月18日 [査読無し][通常論文]
  • 望月 和也, 桐山 伸也, 伊藤 敏彦, 北澤 茂良 日本音響学会研究発表会講演論文集 2003 (1) 383 -384 2003年03月18日 [査読無し][通常論文]
  • 桐山伸也, 伊藤敏彦, 北沢茂良 日本音響学会研究発表会講演論文集 2003 381 -382 2003年03月18日 [査読無し][通常論文]
  • 水谷 誠, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. SLP, 音声言語情報処理 2003 (14) 113 -118 2003年02月07日 [査読無し][通常論文]
     
    音声対話インターフェイスのひとつとして、カーナビゲーションシステムが注目されているが、自然発声であることや走行ノイズなどの影響による誤認識によって対話がスムーズに進まなくなり、ユーザに不快感を与えることが多い。そこで、本研究では音声認識結果の信頼度や対話履歴を利用して言語理解や応答生成を行うことで、スムーズな対話と高いユーザ満足度を得られる対話システムの構築を目指している。本稿では、その対話システムにおける音声言語理解手法について示す。単純に音声認識の信頼度を使うのではなく発話の種類や対話履歴の情報も利用して生成されるスコアを使用する事で、対話全体において尤もらしい言語理解が可能である。評価実験結果からは、単純に音声認識結果(n=best)の第一候補を最優先する言語理解手法よりも10%程度言語理解性能が高いことが示された。
  • 伊東 幸宏, 小西 達裕, 近藤 真, 伊藤 敏彦 静岡大学情報学研究 9 (0) 119 -123 2003年 [査読無し][通常論文]
  • 小暮 悟, 伊藤 敏彦, 中川 聖一 言語・音声理解と対話処理研究会 36 (0) 71 -76 2002年11月07日 [査読無し][通常論文]
  • 小暮 悟, 伊藤 敏彦, 中川 聖一 情報科学技術フォーラム一般講演論文集 2002 (3) 467 -468 2002年09月13日 [査読無し][通常論文]
  • 伊藤 敏彦, 甲斐 充彦, 岩本 善行, 水谷 誠, 由浅裕規, 小西 達裕, 伊東 幸宏 情報処理学会論文誌 43 (7) 2118 -2129 2002年07月15日 
    人間同士または人間と機械との音声対話において,対話状況や対話相手の違いによって生じる言語・音響的な特徴の差異に関して実音声対話データの分析結果から明らかにする.機械との対話を扱うため,比較的単純な状況設定としてカーナビゲーションシステムにおける目的地設定タスクを想定し,その音声インタフェースという具体的な状況設定においてユーザ発話に現れる言語・音響的な特徴の差異を比較している. 運転操作中の音声インタフェースの使用という状況設定では,最近,運転操作の安全性への影響(ディストラクション)の可能性がいわれている. 一方で,設計された音声インタフェースによって生じる言語・音響的な特徴への影響は明らかではない.そこで,相手が人間または機械,運転中または停車中といった対話状況の違いにより発話形態にどのような違いがあるか,被験者10名による実対話音声収録実験のデータに基づいて分析を行った.運転操作中の状況設定に関しては,擬似的な運転操作環境を設定した.さらに,対話状況の違いとあわせて,対話相手が誤認識・誤理解した場合の次発話の言語・音響的な分析も行った.その結果,運転操作の有無による言語的な特徴の差異はほとんどないが,音響的な特徴の違いが一部みられたほか,相手が人間か機械かでいくつかの言語・音響的な特徴の差異が明らかになった.This paper presents the characteristic differences of acoustic andlinguistic features observed for different spoken dialogue situations inhuman-human and human-machine interactions. We compare the acoustic andlinguistic features of the user's dialogue speech both for a spokendialogue system and an actual human-operator service in severallandmark-setting tasks for a car navigation system. It is known thatspeech-based interaction has the potential to distract drivers anddegrade safety. On the other hand, it is not clear whether a differentdialogue situation causes some acoustic or linguistic differences ontheir utterances in a speech interface system. We collected a set ofspoken dialogue data by 10 subject speakers under several dialoguesituations. For the car-driving condition, we prepared a virtualdriving simulation system. We analyzed the characteristic differencesof user utterances caused by different dialogue situations or the systemunderstanding errors. As a result, we observed that the existence of acar-driving task affects some prosodic features and the difference ofhuman-machine and human-human dialogue conditions also affects the otheracoustic and linguistic features, while no significant differences areobserved for the other acoustic and linguistic features whether theyperformed a car-driving task or not.
  • 伊藤 敏彦, 甲斐 充彦, 岩本 善行, 水谷 誠, 由浅 裕規, 小西 達裕, 伊東 幸宏 情報処理学会論文誌 43 (7) 2118 -2129 2002年07月15日 [査読無し][通常論文]
     
    人間同士または人間と機械との音声対話において,対話状況や対話相手の違いによって生じる言語・音響的な特徴の差異に関して実音声対話データの分析結果から明らかにする.機械との対話を扱うため,比較的単純な状況設定としてカーナビゲーションシステムにおける目的地設定タスクを想定し,その音声インタフェースという具体的な状況設定においてユーザ発話に現れる言語・音響的な特徴の差異を比較している.運転操作中の音声インタフェースの使用という状況設定では,最近,運転操作の安全性への影響(ディストラクション)の可能性がいわれている.一方で,設計された音声インタフェースによって生じる言語・音響的な特徴への影響は明らかではない.そこで,相手が人間または機械,運転中または停車中といった対話状況の違いにより発話形態にどのような違いがあるか,被験者10名による実対話音声収録実験のデータに基づいて分析を行った.運転操作中の状況設定に関しては,擬似的な運転操作環境を設定した.さらに,対話状況の違いとあわせて,対話相手が誤認識・誤理解した場合の次発話の言語・音響的な分析も行った.その結果,運転操作の有無による言語的な特徴の差異はほとんどないが,音響的な特徴の違いが一部みられたほか,相手が人間か機械かでいくつかの言語・音響的な特徴の差異が明らかになった.
  • 岩本 善行, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. SLP, 音声言語情報処理 2002 (50) 61 -67 2002年05月24日 [査読無し][通常論文]
     
    音声入力インタフェースを使用する状況において、対話相手が人間又は機械、運転中又は停車中といった対話状況の違いにより発話にどのような特徴の変化があるのかを調べる為に、対話を収集し分析を行った。その書き起こしや言語的・音響的特徴の統計的な分析結果では、運転の有無は発話の言語的特徴に影響を与えないというものであり、我々の仮説とは異なっていた。しかしながら、運転タスクの難易度が低すぎたことによる影響の可能性がある為、運転操作に必要な認知的負荷を変化させた場合の発話の言語的・音響的特徴に関する分析を行った。その結果、発話の言語的特徴においては、ほとんど運転タスクの影響を受けず、音響的特徴に若干の影響を与える事が明らかになった。
  • 岩本 善行, 伊藤 敏彦, 甲斐 充彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. 自然言語処理研究会報告 2002 (44) 125 -131 2002年05月23日 [査読無し][通常論文]
     
    音声入力インタフェースを使用する状況において、対話相手が人間又は機械、運転中又は停車中といった対話状況の違いにより発話にどのような特徴の変化があるのかを調べる為に、対話を収集し分析を行った。その書き起こしや言語的・音響的特徴の統計的な分析結果では、運転の有無は発話の言語的特徴に影響を与えないというものであり、我々の仮説とは異なっていた。しかしながら、運転タスクの難易度が低すぎたことによる影響の可能性がある為、運転操作に必要な認知的負荷を変化させた場合の発話の言語的・音響的特徴に関する分析を行った。その結果、発話の言語的特徴においては、ほとんど運転タスクの影響を受けず、音響的特徴に若干の影響を与える事が明らかになった。
  • 伊東 幸宏, 小西 達裕, 伊藤 敏彦, 桂川 景子 人工知能学会誌 17 (3) 285 -290 2002年05月01日 [査読無し][通常論文]
  • 北村 達也, 伊藤 佳世, 伊藤 敏彦, 北澤 茂良 電子情報通信学会技術研究報告. SP, 音声 102 (35) 61 -66 2002年04月19日 [査読無し][通常論文]
     
    意味的強調を含む対話音声を対象として,対話の文脈や語順が焦点の判断に与える影響について聴取実験を行った.「大阪へ自動車で行きます.」と「自動車で大阪で行きます.」という語順の異なる2つの文章に関して,どの文節も強調しない,「大阪へ」を強調する,「自動車で」を強調する,という3つの文脈で音声を収録した.そして,これらの音声を,「明日,どちらに行かれるんですか?」,「明日,何に乗って行かれるんですか?」という2つの質問文と組み合わせて呈示し,どの文節に焦点があたっているかを被験者に回答させた.その結果,本研究の実験条件のもとでは,(1)焦点の判断には文脈よりも韻律的特徴が寄与する,(2)焦点の判断には文脈の影響がある,(3)焦点の判断に語順が影響を与える可能性がある,ということが示された.
  • 北村 達也, 伊藤 佳世, 伊藤 敏彦, 北澤 茂良 電子情報通信学会技術研究報告. EA, 応用音響 102 (33) 61 -66 2002年04月19日 [査読無し][通常論文]
     
    意味的強調を含む対話音声を対象として,対話の文脈や語順が焦点の判断に与える影響について聴取実験を行った.「大阪へ自動車で行きます.」と「自動車で大阪で行きます」という語順の異なる2つの文章に関して,どの文節も強調しない,「大阪へ」を強調する,「自動車で」を強調する,という3つの文脈で音声を収録した.そして,これらの音声を,「明日,どちらに行かれるんですか?」,「明日,何に乗って行かれるんですか?」という2つの質問文と組み合わせて呈示し,どの文節に焦点があたっているかを被験者に回答させた.その結果,本研究の実験条件のもとでは,(1)焦点の判断には文脈よりも韻律的特徴が寄与する,(2)焦点の判断には文脈の影響がある,(3)焦点の判断に語順が影響を与える可能性がある,ということが示された.
  • 望月 和也, 北澤 茂良, 北村 達也, 伊藤 敏彦 日本音響学会研究発表会講演論文集 2002 (1) 369 -370 2002年03月18日 [査読無し][通常論文]
  • 成瀬 聡, 鈴木 正浩, 伊藤 敏彦 知的教育システム研究会 34 (0) 99 -104 2002年03月02日 [査読無し][通常論文]
  • 小暮 悟, 伊藤 敏彦, 中川 聖一 情報処理学会研究報告. HI, ヒューマンインタフェース研究会報告 2002 (10) 139 -144 2002年02月01日 [査読無し][通常論文]
     
    音声対話システムにおける音声認識技術や言語処理技術の要素技術に関しては確立しつつあり,実用化に向けシステム開発が進んでいる.実用化などを考慮した場合,今までのような使い易さ,頑健性などに関する技術だけでは不十分であり,拡張性や移植性なども十分考慮する必要がある.我々も移植性の高い音声対話システムについての検討を行ない,音声認識部については言語モデルのタスク適用について未知語の登録を考慮した手法を提案している.また言語理解部についても従来システムと比較して性能を落さずにシステム構築の効率を大幅に削減できたことをすでに報告している.今回,従来システムにおいて不完全であった対話管理部に注目し,データベース検索の分野において,対話を管理する情報をドメイン・タスク独立な情報とドメイン・タスク依存な情報に分割した.アプリケーション構築者はドメイン・タスク依存な情報であるXMLベースの対話スクリプトを構築することによって様々な対話主導を実現可能である.さらに,対話スクリプトを編集するGUIツールを試作したので報告する.
  • 小暮 悟, 伊藤 敏彦, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 2002 (10) 139 -144 2002年02月01日 [査読無し][通常論文]
     
    音声対話システムにおける音声認識技術や言語処理技術の要素技術に関しては確立しつつあり,実用化に向けシステム開発が進んでいる.実用化などを考慮した場合,今までのような使い易さ,頑健性などに関する技術だけでは不十分であり,拡張性や移植性なども十分考慮する必要がある.我々も移植性の高い音声対話システムについての検討を行ない,音声認識部については言語モデルのタスク適用について未知語の登録を考慮した手法を提案している.また言語理解部についても従来システムと比較して性能を落さずにシステム構築の効率を大幅に削減できたことをすでに報告している.今回,従来システムにおいて不完全であった対話管理部に注目し,データベース検索の分野において,対話を管理する情報をドメイン・タスク独立な情報とドメイン・タスク依存な情報に分割した.アプリケーション構築者はドメイン・タスク依存な情報であるXMLベースの対話スクリプトを構築することによって様々な対話主導を実現可能である.さらに,対話スクリプトを編集するGUIツールを試作したので報告する.
  • 北村 達也, 伊藤 敏彦, 望月 和也, 北澤 茂良 電子情報通信学会技術研究報告. SP, 音声 101 (603) 23 -30 2002年01月17日 [査読無し][通常論文]
     
    日本語韻律データベースを構築するために, 詳細なセグメンテーションを行った.この韻律データベースには, 東京方言の男女各3人により発声された, 朗読発話と模擬自発発話が収録されている.音声データのセグメンテーションの単位は, 言語音声知覚単位として定義される「韻律句」とした.正確にセグメンテーションを行うために, 従来用いられてきた広帯域スペクトログラムに加え, 狭帯域スペクトログラムも用いて, 音声波形振幅の変化, 基本周波数の変化, 高次も含めたフォルマント振幅の変化を総合して韻律的セグメントの候補を決定し, さらに1基本周期単位の時間調整を行って最終的に聴取によって「切れ具合」を確認した.さらに, 全データを1人が精査することにより, セグメンテーションに関する一貫性を目指している.
  • 甲斐 充彦, 石丸 明子, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 日本音響学会研究発表会講演論文集 2001 (2) 63 -64 2001年10月01日 [査読無し][通常論文]
  • 伊藤 敏彦, 岩本 善行, 水谷 誠, 油浅 裕規, 甲斐 充彦, 小西 達裕, 伊東 幸宏 日本音響学会研究発表会講演論文集 2001 (2) 65 -66 2001年10月01日 [査読無し][通常論文]
  • 北澤 茂良, 北村 達也, 望月 和也, 伊藤 敏彦 日本音響学会研究発表会講演論文集 2001 (2) 227 -228 2001年10月01日 [査読無し][通常論文]
  • 桂川 景子, 丹羽 教泰, 柳 拓良, 渡部 眞幸, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. MBL, [モバイルコンピューティングとワイヤレス通信] 2001 (83) 229 -236 2001年09月06日 [査読無し][通常論文]
     
    本稿では車での移動を前提とした旅行やドライブのための移動プラン作成をサポートするドライブプランニングシステムを提案する.このシステムは, カーナビゲーションシステムの機能の一つである目的地設定を拡張し, 複数の目的地やそれに付随する発着時間, 日数や経路などの設定を行なうものである.これら複数のパラメータを自然言語対話によって設定する手法について報告する.特にその言語解析部について詳しく検討し, 実装したプロトタイプシステムを紹介する.また, 試作したシステムの評価を行ない, 有用性と問題点を明確にする.
  • 桂川 景子, 丹羽 教泰, 柳 拓良, 渡部 眞幸, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. ITS, [高度交通システム] 2001 (83) 229 -236 2001年09月06日 [査読無し][通常論文]
     
    本稿では車での移動を前提とした旅行やドライブのための移動プラン作成をサポートするドライブプランニングシステムを提案する.このシステムは, カーナビゲーションシステムの機能の一つである目的地設定を拡張し, 複数の目的地やそれに付随する発着時間, 日数や経路などの設定を行なうものである.これら複数のパラメータを自然言語対話によって設定する手法について報告する.特にその言語解析部について詳しく検討し, 実装したプロトタイプシステムを紹介する.また, 試作したシステムの評価を行ない, 有用性と問題点を明確にする.
  • 丹羽 教泰, 秋山 泰三, 柳 拓良, 渡辺 眞幸, 伊藤 敏彦, 小西 達裕, 伊東 幸宏 情報処理学会研究報告. SLP, 音声言語情報処理 2000 (101) 55 -60 2000年10月27日 [査読無し][通常論文]
     
    本稿では, ドライブプランニングシステムにおける対話インタフェースについて述べる.このシステムは, カーナビゲーションシステムの機能の一つである目的地設定を拡張し, 一つの目的地だけではなく, 複数の目的地やそれに付随する発着時間, 日数などの設定を行うものである.これらのパラメータの設定を行うための対話における言語処理手法について報告する.特に, 対話処理に必要となる構文解析・意味解析, 文と文のつながりを理解するための文脈処理, プランをスムーズに作成するための対話制御について検討し, 実装したプロトタイプシステムを紹介する.また, 試作したシステムの評価を行い, 有用性と問題点を明確にした.
  • 伊藤 敏彦, 峯松 信明, 中川 聖一 日本音響学会誌 55 (5) 333 -342 1999年05月01日 [査読無し][通常論文]
     
    本研究では, 独話や対話に存在する間投詞に着目し「発話中の間投詞は聞き手に対してどのような働きを持つのか」「協調的なシステムの応答文生成において間投詞は有効・必要なのか」という観点から, 聴取実験による検討を行った。その結果, 間投詞に関する幾つかの知見を得ることができた。これらの知見に基づき, 対話システムにおいて「より自然なシステム応答」及び「情報検索・応答文生成によって不可避的に生じる無音が引き起こす不自然さの軽減」を目的として, システム応答音声中に間投詞を挿入することを考案した。そして, WOZ (Wizard of OZ)による音声対話システムを用いて, 間投詞が付与されたシステム応答に対する評価実験を行った。実験結果より間投詞が, 音声対話システムにおける応答文生成時間の確保や, 発話権の維持, 及びシステムが動作中であることを示すサインとして有用であることが分かり, 間投詞挿入による効果が確認された。
  • 荒木 雅弘, 伊藤 敏彦, 熊谷 智子, 石崎 雅人 人工知能学会誌 14 (2) 251 -260 1999年03月01日 [査読無し][通常論文]
     
    In this paper, we propose a standard utterane-unit tagging scheme, which has been developed by the discourse tagging working group under SIG-SLUD, JSAI. Utterance-unit tagging mainly addresses the type of illocutionary force and the role of The interaction unit. We have made a first version of the tagging scheme by surveying existing tagging schemes developed by several research groups. We have evaluated it on an experimental basis and thereby revised it to the new version that we propose as a standard scheme. The reliability of this scheme is demonstrated by another tagging experiment.
  • 小暮 悟, 伊藤 敏彦, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 99 (14) 13 -18 1999年02月05日 [査読無し][通常論文]
     
    近年、音声認識技術や言語処理技術に関してはある程度確立しつつあり、実用化に向け開発が進んでいる。実用化などを考慮した場合、今までのような使い易さ、頑健性などに関する技術だけでは不十分であり、拡張性や移植性なども十分考慮する必要がある。そこで我々はこれまで開発を行なってきた富士山観光案内対話システムのタスクを富士山観光案内から三河観光案内に変更する作業を通して音声対話システムの移植性の問題点などを考察する。また、一般的なデータベースを用意するだけで音声によるデータベース検索ができる汎用性の高いデータベース検索システムを開発した。
  • 55 (5) 333 -342 1999年 [査読無し][通常論文]
  • 小暮 悟, 伊藤 敏彦, 廣瀬 良文, 甲斐 充彦, 中川 聖一 全国大会講演論文集 57 (2) 239 -240 1998年10月05日 [査読無し][通常論文]
  • 伊藤 敏彦, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 98 (68) 61 -66 1998年07月24日 [査読無し][通常論文]
     
    著者らは、対話に存在する間投詞に着目し「発話中の間投詞は聞き手に対してどのような働きを持つか」「協調的な応答文生成において間投詞は有効・必要なのか」という観点から、聴取実験による検討を行ない、その結果、間投詞に関するいくつかの知見を得ることができた。本稿では、これらの知見に基づき、対話システムにおいて「より自然なシステム応答」及び「情報検索・応答文生成によって生じる無音が引き起こす不自然さの軽減」を目的として、システム応答音声中に間投詞を挿入することを考察し、WOZ(Wizard of OZ)による音声対話システムを用いて, 間投詞が付与されたシステム応答に対する評価実験を行なった。実験結果より、間投詞挿入による効果が確認され、間投詞が音声対話システムにおける応答文生成時間の確保や、発話権の維持、及びシステムが動作中であることを示すサインとして有用であることが分かった。また、聞き手(認識・理解)が人間か機械かというユーザの意識によって、ユーザのふるまいがどのように変化するかという被験者実験も行ない、意識の違いだけによってもユーザのふるまいが変化することが分かった。
  • 伊藤 敏彦, 峯松 信明, 中川 聖一 人工知能学会全国大会論文集 = Proceedings of the Annual Conference of JSAI 12 (0) 499 -502 1998年06月16日 [査読無し][通常論文]
  • 伊藤 敏彦, 小暮 悟, 中川 聖一 情報処理学会論文誌 39 (5) 1248 -1257 1998年05月15日 
    自然言語による音声対話システムにおいては,システムがユーザと協調的に対話を進めていくことは重要である.この考えを基に我々は音声対話システムにおける協調的応答生成システムを開発した.応答生成システムは対話制御部,問題解決器,知識データベース,応答文生成部から構成され,対話システムの意味理解システムによって生成された意味表現を受け取り,可能なかぎり協調的応答をする.たとえば,ユーザの質問文に検索に必要な情報を含まれていなかったり,検索結果の数が多い場合などはユーザへの質問を行う.また,ユーザの望む検索結果が得られなかった場合,それに代わる代案を提案する.本論文では音声対話システムの評価実験であげられたいくつかの応答生成システムの問題点を改良し,ユーザの対話の焦点を抽出し,協調的な応答を行う応答機能を持った応答生成システムについて述べる.また,「システムの使い勝手の良さ」が協調的応答生成の導入によってどのように向上するのかに着目して行った評価実験について述べる.We have developed a robust dialogue system which aids users in information retrieval through spontaneous speech.Dialog system through natural language must be designed so that it can cooperatively response to users.Based on this consideration,we developed a cooperative response generator in the dialogue system.The response generator is composed of dialog manager,problem solver,knowledge databases,and response sentence generator.The response generator receives a semantic representation (that is,semantic network) which the interpreter builds for the user's utterance and generates as cooperative response sentences as possible.For example,if a user's query doesn't have enough conditions/information to answer the question by the system,and if there are many information retrieval candidates from the knowledge database for user's question,the dialog manger queries the user to get necessary conditions and to select the information.Further,if the system can't retrieve any information related to the user's question,the generator proposes an alternative plan.And evaluation experiments are described how the above improvement increses "convenience of the system".
  • 伊藤 敏彦, 小暮 悟, 中川 聖一 情報処理学会論文誌 39 (5) 1248 -1257 1998年05月15日 [査読無し][通常論文]
     
    自然言語による音声対話システムにおいては, システムがユーザと協調的に対話を進めていくことは重要である.この考えを基に我々は音声対話システムにおける協調的応答生成システムを開発した.応答生成システムは対話制御部, 問題解決器, 知識データベース, 応答文生成部から構成され, 対話システムの意味理解システムによって生成された意味表現を受け取り, 可能なかぎり協調的応答をする.たとえば, ユーザの質問文に検索に必要な情報を含まれてなかったり, 検索結果の数が多い場合などはユーザへの質問を行う.また, ユーザの望む検索結果が得られなかった場合, それに代わる代案を提案する.本論文では音声対話システムの評価実験であげられたいくつかの応答生成システムの問題点を改良し, ユーザの対話の焦点を抽出し, 協調的な応答を行う応答機能を持った応答生成システムについて述べる.また, 「システムの使い勝手の良さ」が協調的応答生成の導入によってどのように向上するのかに着目して行った評価実験について述べる.
  • 傳田 明弘, 伊藤 敏彦, 中川 聖一 全国大会講演論文集 56 (2) 86 -87 1998年03月17日 [査読無し][通常論文]
  • 中川 聖一, 傳田 明弘, 伊藤 敏彦 人工知能学会誌 13 (2) 241 -251 1998年03月01日 [査読無し][通常論文]
     
    Recent improvements of speech recognition and natural language processing enable dialogue systems to deal with spontaneous speech. With the aim of supporting these systems, multi-modal man-machine interface has been introduced to the system widely. We have been aiming at realization of a robust dialogue system using spontaneous speech as main input modality. Although our conventional system was developed with a robust natural language interpreter, since its user interface was built only on speech, the system did not always give enough usability. However, in this case, response sentences bec...
  • 協調的応答を備えた音声対話システムとその評価
    情報処理学会論文誌 55 (5) 333 -342 1998年 [査読無し][通常論文]
  • A Spoken Dialogue System with Cooperative Response and Evaluation for the System
    55 (5) 333 -342 1998年 [査読無し][通常論文]
  • 傳田 明弘, 伊藤 敏彦, 小暮 悟, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 97 (101) 39 -46 1997年10月24日 [査読無し][通常論文]
     
    本研究室では、富士山周辺の観光案内をタスクとする「富士山観光案内日本語音声対話システム」に「タッチ入力」及び「対話の途中経過の画面表示」の機能を付加した、マルチモーダルインタフェース化の開発を行なっている。さらに、実顔画像/アニメーション、及び、実音声/合成音声を用いたエージェントインタフェースをシステムに実装し、被験者によるタスク遂行及びアンケート調査の評価実験で、インタフェース及びシステム全体についての評価を行なった。実験では、ユーザは「機械らしく」「首尾一貫している」エージェントを好むことが分かった。また、本システムのマルチモーダルインタフェースの有用性を十分に示すことができ、旅行案内のタスクにおいてマルチモーダル対話システムが持つ可能性を見い出すことができた。
  • 伊藤 敏彦, 峯松 信明, 中川 聖一 全国大会講演論文集 55 (2) 27 -28 1997年09月24日 [査読無し][通常論文]
     
    本研究では協調的な問題解決の対話音声中に存在する間投詞に着目し「発話中の間投詞は聞き手に対してどのような働きを持つか。」, 「協調的な応答文生成において間投詞は有効又必要なのか。」という観点から, 知覚実験による検討を行なった。実験は対話音声より, 間投詞部分を1) 抜き出して切り詰めた音声試料, 2) 同一時間長の無音置換を施した音声試料, 3) 異なる箇所で発声された同一種類の間投詞, 4) 異なる種類の間投詞と置換した音声試料, 5) 2)の無音区間の長さを様々に変化させた音声試料, 6) 間投詞の直前に位置する無音区間を様々に変化させた音声試料, を各々用意し被験者に提示した。1)〜4)までの音声試料に対しては自然である(違和感を全く感じない)との反応を示した。5), 6)に対しては「長い無音区間が不自然に感じる」との反応が幾らかあった。以下, 本実験の目的・計画・結果・考察について述べる。なお, 本稿で言う無音置換とはバックグランドノイズとの置換を意味する。
  • 伊藤 敏彦, 甲斐 充彦, 山本 一公, 中川 聖一 全国大会講演論文集 55 (2) 33 -34 1997年09月24日 [査読無し][通常論文]
     
    近年, バーソナルコンピューター(PC)の性能が向上し, 音声・動画といった計算パワーが必要なマルチメディア関係のアブリケーションも多く見られるようになってきた。そのため, アプリケーションの入力インターフェイスとしてもキーボード・マウスだけでなく, これまでは計算量の問題から実現が難しかったソフトウェアによる音声認識も使用可能となってきた。パソコン上でソフトウェアのみで動作する音声認識システムはいくつか提案されている。我々はワークステーショシ上で開発された音声認識システムをベースに, PC上で動作する音声認識システムを開発した。この音声認識システムは音声入力・分析クライアントと音声認識サーバから構成されておりネットワークを介した文, 句などの複数単語の系列(連続音声)の音声認識か可能である。
  • 甲斐 充彦, 伊藤 敏彦, 山本 一公, 中川 聖一 日本音響学会研究発表会講演論文集 1997 (2) 175 -176 1997年09月01日 [査読無し][通常論文]
  • 伊藤 敏彦, 中川 聖一 全国大会講演論文集 54 (2) 235 -236 1997年03月12日 [査読無し][通常論文]
     
    自然言語による対話システムにおいては、システムがユーザと協調的に対話を進めていくことは重要である。データベース検索における協調的応答生成に関しては質問の答以外に付加的な情報を与えたり、失敗した質問に対する理由や代案を提示するものが多い。例えば、ユーザの質問文に検索に必要な情報が含まれていなかったり、検索結果の数が多い場合などはユーザへの質問を行なったり、ユーザの望む検索結果が得られなかった場合、それに代わる代案を提供する。このようなユーザへの協調的応答によってユーザにかかる負担や不安を軽減することを我々は試みている。本稿では、我々が協調的応答生成に関して改良した音声対話シスチムについて、「システムの使い勝手の良さ」、「協調的応答」に着目して行なった評価実験について述べる。
  • 傳田 明弘, 伊藤 敏彦, 小暮 悟, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 97 (16) 47 -52 1997年02月07日 [査読無し][通常論文]
     
    近年、音声対話システムの対話を支援し、使い勝手の良いインタフェースをユーザに提供することを目的としたマルチモーダルインタフェースの研究が盛んになってきている。音声対話システムの入出力のインタフェースをマルチモーダル化することは、より自然で内容豊かなマンマシン対話を実現するために有用なことである、という考えの元に、本研究室では、富士山周辺の観光案内をタスクとする「富士山観光案内日本語音声対話システム」に「タッチ入力」及び「対話の途中経過の画面表示」の機能を付加した、マルチモーダルインタフェース化の改良を行なっている。我々は、今回、マルチモーダルインタフェースを備えた観光案内対話システムを使用して、あるタスクを達成してもらう被験者実験を行なった。本稿では、その結果について述べる。
  • 伊藤 敏彦, 中川 聖一 全国大会講演論文集 53 (2) 353 -354 1996年09月04日 [査読無し][通常論文]
     
    自然言語による対話システムにおいては、システムがユーザと協調的に対話を進めていくことは重要である。発話内容を決定する方法としては、談話の結束性に注目し、修飾構造、談話の焦点などの情報を利用し発話内容を決定するアプローチや、談話をある目的のためのプランとして考え、システムがユーザの質問意図として談話ゴールを推論し、そのゴールの達成に必要な内容を協調的発話として生成するアプローチがある。データベース検索における協調的応答生成に関しては質問の答以外に付加的な情報を与えたり、失敗した質問に対する理由や代案を提示するものが多い。本稿では我々が開発した富士山観光案内音声対話システムとその評価実験で挙げられた応答生成システムの問題点を改良するために構築した、協調的な応答機能をもった応答生成システムについて述べる。
  • 傳田 明弘, 伊藤 敏彦, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 96 (74) 53 -54 1996年07月26日 [査読無し][通常論文]
     
    In this paper, we propose a drive planning system that supports users in making a plan for a trip. This system has the function to help users decide several factors of a trip: multiple destinations and waypoints, arrival and departure times, the number of days that the trip will take and the route. It also proposes taking a rest on a long distance trip in order to ensure safe driving. The drive is planned interactively by a dialog with the system through a natural language interface. We propose a method to construct such a drive planning system, describe the implementation of a prototype di...
  • YAMAMOTO MIKIO, ITOH TOSHIHIKO, HIDANO MASARU, NAKAGAWA SEIICHI 情報処理学会論文誌 37 (4) 471 -482 1996年04月15日 [査読無し][通常論文]
     
    In a current speech recognition technology, an interpreter that receives the recognized sentences must be developed so as to cope not only with spontaneous sentences but also with illegal sentences with recognition errors to improve a spoken dialogue system property. Therefore, we carried out experiments to investigate how humans modify or correct the recognized sentences which might include errors. Although 43% of the sentences were the results of misrecognition, the results showed that the subjects who were familiar with the system could correctly interpret 87% of all the sentences. And s...
  • 伊藤 敏彦, 中川 聖一 情報処理学会研究報告. HI, ヒューマンインタフェース研究会報告 96 (21) 105 -110 1996年02月29日 [査読無し][通常論文]
     
    我々はユーザが自然言語を用いてシステムと対話することによって情報を検索するロバストな音声対話システムを構築し、被験者を用いた評価実験を行なった。その評価実験において、応答生成部に関するいくつかの改良点が挙げられた。それは我々が構築した音声対話システムはQ&Aシステムに非常に近いものであり、質問文以外の発話文に対する処理やユーザへの協調的な応答に関してであった。自然言語による音声対話システムにおいては、システムがユーザと協調的に対話を進めていくことは重要である。この考えを基に我々は音声対話システムにおける協調的応答生成システムを開発した。応答生成システムは対話制御部、問題解決器、知識テータペース、応答文生成部から構成され、対話システムの意味理解システムによって生成された意味表現を受けとり、可能なかぎり協調的応答をする。例えば、ユーザの質問文に検索に必要な情報を含まれていなかったり、検索結果の数が多い場合などはユーザへの質問を行なう。また、ユーザの望む検索結果が得られなかった場合、それに代わる代案を提案する。本稿では音声対話システムの評価実験で挙げられたいくつかの応答生成システムの問題点を改良し、ユーザの簡単な対話の焦点を抽出し、協調的な応答を行なう応答機能をもった応答生成システムについて述べる。
  • 伊藤 敏彦, 肥田野 勝, 山本 幹雄, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 95 (73) 139 -144 1995年07月20日 [査読無し][通常論文]
     
    ユーザに自然な発話を許す対話システムは,これまで音声認識でテスト用に用いられてきた朗読文などの発話に比べてバリエーションの大きな発話を扱わなければならない。文法は書き言葉に比べてかなり緩くなり,間投詞、言い直し,曖昧な発話などの現象も多く生じてくる。制約の多くを文法的制約に頼る音声認識システムではパープレキシティが増大し,認識率が下がる。また、間投詞や言い直し,未知語などの問題によって認識率はさらに下がり,音声認識結果には単語の置換、挿入、脱落などが増大する,このため、現状の音声対話システムでは誤りを含んだ認識結果を解析しなければならない。すなわち、音声対話システムの品質を向上させるためには,間投詞、助詞落ち、言い直し,倒置などを含む文の理解はもちろん、誤認識文からの発話文の復元も必要不可欠である。本稿では,人間が誤認識を含んだ認識文をどのようにして復元しているか調査した実験を参考に考案した復元ストラテジーを報告する。また復元ストラテジーを用いたロバストな意味理解システムとそのシステム評価実験について報告する。
  • 肥田野 勝, 伊藤 敏彦, 山本 幹雄, 中川 聖一 全国大会講演論文集 50 (2) 467 -468 1995年03月15日 [査読無し][通常論文]
     
    音声対話システムにおいて自然な発話における間投詞、助詞落ち、言い直し、倒置などを含む文の理解、あるいは誤認識文からの発話文の復元は対話システム品質を向上させるために必要不可欠である。本稿では人間がいかにして文の復元を行なっているかを被験者実験を通して調べ、それを参考にして復元ストラテジーを考案し、ロバストな意味理解システムを構築した。
  • A Robust Spoken Dialogue System Basoz on Understanding Mechanism of Human Being
    36 (4) 471 -481 1995年 [査読無し][通常論文]
  • 伊藤 敏彦, 大谷 耕嗣, 肥田野 勝, 山本 幹雄, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 94 (109) 49 -56 1994年12月15日 [査読無し][通常論文]
     
    自然な発話を許す音声対話システムでは,ユーザの発話を表現する文法が書き言葉と比べてかなり緩くなり,しかも間投詞,言い直しなどの現象も多く生じるため,音声認識率はどうしても低くなる.受理可能な文を多くすることと認識率はトレードオフであるためどこかで妥協する必要があり,このため話者の入力文と受理可能な文にはギャップが生じる.また自然な発話を音声認識部だけで対処することは現在のところ無理があり,誤認識された入力文にも対処することが意味理解部に要求される.本報告では以上の問題点に関する検討のための基礎データを集めることを目標に行なった3つの実験について述べる.一つ目は音声対話システムを使用するユーザへの事前の説明を変えることによって対話システムへのユーザの入力がどのように変化するかを調べた.二つ目はユーザの入力文数に対して異なり単語数がどのように変化するかを調べ,あるタスクでどの程度の単語数が必要かを検討した.三つ目の実験は音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかである.
  • 伊藤 敏彦, 大谷 耕嗣, 肥田野 勝, 山本 幹雄, 中川 聖一 電子情報通信学会技術研究報告. SP, 音声 94 (398) 49 -56 1994年12月15日 [査読無し][通常論文]
     
    自然な発話を許す音声対話システムでは、ユーザの発話を表現する方法が書き言葉と比べてかなり緩くなり、しかも間投詞、言い直しなどの現象も多く生じるため、音声認識率はどうしても低くなる。受理可能な文を多くすることと認識率はトレードオフであるためどこかで妥協する必要があり、このため話者の入力文と受理可能な文にはギャップが生じる。また自然な発話を音声認識部だけで対処することは現在のところ無理があり、誤認識された入力文にも対処することが意味理解部に要求される。本報告では以上の問題点に関する検討のための基礎データを集めることを目標に行なった3つの実験について述べる。一つ目は音声対話システムを使用するユーザへの事前の説明を変えることによって対話システムへのユーザの入力がどのように変化するかを調べた。二つ目はユーザの入力文数に対して異なり単語数がどのように変化するかを調べ、あるタスクでどの程度の単語数が必要かを検討した。三つ目の実験は音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかである。
  • 山本 幹雄, 肥田野 勝, 伊藤 敏彦, 甲斐 充彦, 中川 聖一 情報処理学会研究報告. SLP, 音声言語情報処理 94 (57) 91 -98 1994年07月07日 [査読無し][通常論文]
     
    自然な発話を許す音声対話システムでは,ユーザの発話を表現する文法が書き言葉と比べてかなり緩くなり,しかも間投詞,言い直しなどの現象も多く生じるため,音声認識率がどうしても低くなる.このような自然な発話を音声認識部だけで対処することは現在のところ無理があるため,ある程度誤認識された文でも正しく意味解析ができる文字レベルの構文・意味解析部が必要である.本報告では,助詞落ち,倒置などの現象を含む自然な発話を理解できるだけでなく,音声認識部で誤認識された文(例えば,助詞の誤認識)にもある程度対応できる構文・意味理解システムと,それを応用した対話システムについて報告する.助詞落ち,助詞誤り,倒置にはいくつかのヒューリスティックスで対応する.また,タスクや場面設定のような文脈的情報も誤りを含む文を理解する場合は重要であるため,これを利用するためのフィルタリングの手法とトップダウン的なキーワードをもとにした意味抽出を用いている.

特許

受賞

  • 2018年12月 電子情報通信学会 平成30年度ヒューマンコミュニケーション賞
     PCノートテイカーによる誤入力文章の自動修正システム 
    受賞者: 平井 康義;伊藤 敏彦

共同研究・競争的資金等の研究課題

  • 文部科学省:科学研究費補助金(若手研究(B))
    研究期間 : 2008年 -2010年 
    代表者 : 伊藤 敏彦
     
    本研究は音声インターフェイスにおいて、対話のリズムが、ユーザの快適性や安全性にどれほどの影響を与えるか明らかにし、これらの要素を音声インターフェイスに導入するための新たな枠組みを提案することである。そこで、これらに関する対話リズムを生成するためのモデル化のさらなる改良と、音声対話システムへの実装、システム処理速度向上などを行った。結果、これまでの音声対話システムに比べ、人間らしさ、安心感などの評価を上げることができたが、制作システムの処理速度、タイミング認識精度、音声認識・言語理解精度などの不完全さにより、人間と同等の評価まで上げることはできなかった。
  • 文部科学省:科学研究費補助金(若手研究(B))
    研究期間 : 2005年 -2007年 
    代表者 : 伊藤 敏彦
     
    本研究は音声インターフェイスにおいて、対話のリズムと身体性が、ユーザの快適性や安全性にどれほどの影響を与えるか明らかにし、これらの要素を音声インターフェイスに導入するための新たな枠組みを提案することである。昨年までこの目的のために対話リズムを考慮した音声対話システムの基本システムを構築した。これは人間同士の対話データから発話タイミングを機械学習し、ユーザの音響的特徴と言語的特徴から音声対話システムの発話タイミングを決定する方法で実現した。しかし、予備的な評価実験からユーザ満足度や発話のしやすさなどの向上は確認できたが、人間同士の対話に近い感覚を与えるまでには至らなかった。この原因を調査するために人間同士の対話データを収集し、発話タイミングや韻律的特徴を発話意図(発話内容)の違いにより分類・比較した結果、対話における話し手の発話タイミングは対話相手の発話特徴のみで決定できるわけではなく、話し手の発話意図(発話内容)や発話の重要度、感情などに大きく影響を受けることが示唆された。つまり、音声対話システムがリズミカルに発話するだけでは人間は機械に対して人間らしさ(安心感)を感じるわけではなく、発話意図(発話内容)や発話の重要度、感情なども考慮した適切なタイミングで発話することが人間らしさ(安心感)を感じさせるために重要である。また、聞き手も話し手の発話タイミングの変化やずれなどから発...
  • 文部科学省:科学研究費補助金(特定領域研究)
    研究期間 : 2006年 -2006年 
    代表者 : 北岡 教英, 中川 聖一, 井藤 敏彦
     
    人間と機械が対話を行うことを考えるとき,機械が人間同士の会話と同様にあいつちなどさまざまな応答を自然に返すことができれば,より円滑な対話を行うことが期待できる.本研究では,特に雑談のような対話に着目し,自然な雑談対話をする上で最も重要である応答タイミングと韻律的同調性の生成手法を提案した。さらにそれを用いて、種々の雑談的対話現象を生成できる対話システムの枠組みを提案し、それに基づく対話システムを試作した.まず、ユーザーシステム間の対話において、システムは時々刻々ユーザ発話の特徴から決定ルールを用いて相槌や話者交替の判断やそのタイミングを生成し、リアルタイムに応答する手法を実現した。これにより、オーバラップした相槌や話者交代、さらに相手の発話内容を予測してオーバラップして発話する「共同補完」などの、自然な対話で生起するさまざま雑談現象に対応できる手法となることを示した。タイミング生成や、発話内容の選択には、最後のユーザ発話の表層的言語情報及び韻律情報(ピッチやパワーの変化パターン)を情報源として用いた。さらに、対話はスムーズで盛り上がった場合には対話者間の韻律、特に声の高さが同期して変動していることを、実際の人間同士の対話の分析により確かめた。そして、それをシステムで実現するために、ユーザの韻律に追従する韻律制御モデルを提案して、その挙動が人間の動作に似たものであることを示した...
  • 文部科学省:科学研究費補助金(特定領域研究)
    研究期間 : 2003年 -2004年 
    代表者 : 伊東 幸宏, 小西 達裕, 伊藤 敏彦
     
    (1)知識表現の再設計実用規模の知識ベース構築にあたり、単に規模によるコスト増大にとどまらない問題が生じた。一般に、問題解決の場面や学習の進行につれ、同一対象についての知識でも一貫しない表現を持つことがある。例えば高校化学では化学現象を再現する際、分子・原子間の対応関係レベル(反応式レベル)で考えれば良い場合と、反応に直接関わらない物質も含め、実空間における化学反応レベルで考えるべき場合がある。このように場面毎に知識の使い分けを必要とする場合、知識表現や推論機構を完全に一定のアーキテクチャのもとで設計することは難しい。この問題に対処するために、本研究では(a)ひとつの概念に複数の属性値を与えたり、ひとつの概念を表す知識を複数持つことを許容する知識表現手法(b)問題に応じて、適切な知識を選択する問題解決エンジンを設計実装した。(2)システムの再構築昨年度まで、システム開発にはUNIX環境におけるTCL/TK言語を用いていた。しかし現場教師との交流などを通じて、教育現場への可搬性、高校における教育用計算機環境の現状との整合性、システム運用の容易さ、処理速度の面から、Webブラウザ上で稼動するJava環境による開発がより望ましいとの知見を得た。知識表現は基本的にはプログラミング言語に依存しないが、部分的に修正を要する部分もあり、見直しを行った。(3)オーサリングツール設計のための基...
  • 文部科学省:科学研究費補助金(基盤研究(B))
    研究期間 : 2002年 -2004年 
    代表者 : 伊東 幸宏, 伊藤 敏彦, 竹内 勇剛, 小西 達裕, 小暮 悟
     
    1.学習者支援システムの拡張(1)プログラム理解機構の拡張の検討従来は大小関係世界を対象としてプログラムを理解する機構が提案されていたが拡張性に乏しいため、二次元平面上で数値計算法の解を求める問題領域を例に拡張手法を提案した。拡張する際、プログラム中で操作された一つの変数値が対象世界中のどの実体のどの属性値であるかを特定する方法を確立するために対象世界の状態から次に操作を受け得る実体の属性値を予測するヒューリスティックスを導入し、二次元平面上での操作に基づくプログラム(ニュートン法、台形法など)の理解が可能となった。(2)日本語説明とアニメーションを生成する方法の検討従来の日本語説明を生成する機構では命令群の実行前後の世界モデルの差分に相当する変化を説明する文章を生成していたが、アニメーション説明を生成する機構においては変化しない部分も併せて世界モデルの全体像を常に提示する機構として実現した。試作システムについて評価実験を行い、システムの有効性を確認した。2.教師支援システムの拡張と評価(1)プログラミング言語に依存しない教育意図への対応の検討従来はプログラミング言語に用意されているデータ構造に対する操作だけに対応していたが、実際のプログラミング演習ではリストや表といった抽象的なデータ構造の概念についても教育が行われる。そのため、教育意図を表現するためには、抽象データ型に対す...
  • 文部科学省:科学研究費補助金(基盤研究(B))
    研究期間 : 2001年 -2003年 
    代表者 : 中川 聖一, 甲斐 充彦, 北岡 教英, 小林 聡, 中野 崇, 伊藤 敏彦
     
    WWW上の既存の情報検索サービス・コンテンツのアクセスを想定して、対話的な音声ユーザインタフェース(UI)を実現するシステムを提案した。具体的には、選択メニュー型フォーム入力を含むWebページに対して音声UIを提供する仕組みを、一般的なWebプラウザを介したプロキシ型サービスによるアーキテクチャとした。HTML文書からの情報抽出・言語処理との組み合わせによって汎用的に実現する方法を提案した。提案システムの有効性を確認する評価実験として、音声入力インタフェースとペンタッチ入力インタフェースの場合の優劣を調べるために利用機器(PDA)の携帯の有無による異なった使用環境について、12名による被験者実験を行った。操作性に関する主観評価の結果は、提案システムの優位性は音声認識性能が十分高い想定ではペンタッチ入力と同等以上であり、携帯情報端末の現実的な使用状況で有用となる可能性が示された。Webのフォーム入力には、姓名、所属組織名、住所、電話番号など、一般の辞書に登録されていない入力を要求するものがある。そこで、本研究では、姓名入力に特化して、音節N-gramと単語辞書を併用した音声認識を用いた姓名入力インタフェースを提案した。認識結果から単語候補、音節系列候補、音節候補をタッチパネルに表示し、ペンタッチにより簡単に選択して入力が可能な姓名入力インタフェースを実装し、その有効性被験者実験...
  • 文部科学省:科学研究費補助金(特定領域研究(B), 特定領域研究)
    研究期間 : 2000年 -2003年 
    代表者 : 北澤 茂良, 北村 達也, Campbell Nick, 板橋 秀一, 伊藤 敏彦, 市川 熹, 桐山 伸也, Nick Campbell
     
    1.新規の韻律コーパスの作成(静岡大学)韻律コーパスとして日本語のMULTEXT韻律データベースの40パッセジにJ-ToBI韻律タグ付けを完了し、同様の手法で、筑波大学と千葉大学と東京大孝と東工大グループの既存音声コーパスの各種案内読上げと模擬対話と対話音声、マルチモーダル対話音声、天気予報、模擬感情音声へのJ-ToBIタグ付けを行った。これらのラベリング作業について研究支援者を雇用して行った。言語情報を利用した韻律ラベリング手法の開発と、音素ラベリング支援のための音素自動セグメンテーションと、連接境界における音響的特徴の詳細について研究成果を発表した。2.既存の音声コーパスの韻律分析と韻律コーパスの作成(筑波大学)既存の音声コーパスとして、日本音響学会「研究用連続音声データベース」の各種案内読上げ文と模擬対話、重点領域研究「音声対話」の対話音声コーパス、の3種のコーパスに基本周波数分析と発話ラベルと付与した。200ms以上の無音区間で区切られた音声区間を発話単位として、発話単位長を読上げ音声と模擬対話音声で比較した。模擬対話では間投詞や割込みによって発話単位が短くなる。音声パワーと基本周波数の標準偏差は対話に比べて読上げは狭い範囲に集中していることが分かった。3.ジェスチャー・顔表情付の対話音声収録(千葉大学)音声対話における視線や頷きなどジェスチャーを記録・分析するため、...
  • 文部科学省:科学研究費補助金(基盤研究(C))
    研究期間 : 1999年 -2001年 
    代表者 : 中谷 広正, 伊藤 敏彦, 佐治 斉
     
    人間から人工環境へのコミュニケーションは、キーボードやポインティングデバイスを中心に今日まで行われてきた。本課題では、人間の顔および全身から表出されるその人独自の表情・動作を解析・識別し人間の意志・感情を理解するシステムの構築を目的に研究を進めてきた。その過程で、つぎの成果が得られた。1.人物動画像3次元計測装置の設計・製作ビデオカメラ・プロジェクタ光源・スリット光源・ビデオキャプチャーカードおよびワークステーションを組み合わせて、時間変化する表情・動作から3次元情報を計測する装置を設計・製作した。2/15秒の動きに追随できる方式を考案し、人間の自然な動作を解析できる装置を開発した。2.人物検出システムが利用者の存在を認識するために人物検出について考察をおこない、エッジベクトルとエッジの信頼度を用いた移動物体の検出法、およびカラーインデクシング法を用いた人物検出法を開発した。3.表情追跡・認識時間的に連続した動画像フレーム間での顔面の動きの追跡と、表情の時間変化から動きの特徴パラメータの抽出を行う手法を開発した。この時、各筋肉の骨格や皮膚への付着位置・筋繊維の方向などの解剖学的な知識を利用し、顔面の自然な動きに適応できる画像処理手法を開発した。4.動作追跡対象物を人間が指示する場合に大きな役割を果たす腕・指に注目し、ステレオ法による腕の動作の3次元空間での追跡手法の開発、画像...
  • 文部科学省:科学研究費補助金(特定領域研究(A))
    研究期間 : 2000年 -2000年 
    代表者 : 伊東 幸宏, 小西 達裕, 近藤 真, 中谷 広正, 伊藤 敏彦
     
    1)入力文の意味解釈能力の向上に関する検討1-1)対話訓練に効果的な協調的タスクを設定し、取り扱う必要がある概念・語彙・文体について事例分析を行った。1-2)同義表現の吸収、文意の文脈への位置付け、文意の統合(蓄積)を可能にする意味表現方法を開発した。この意味表現方法は以下のような特色を持つ。・表層の依存構造によらず、一定の表現形式で意味が表現可能・意味内容毎に、それを位置付ける場所が決まっている2)対話訓練を指向した対話制御に関する検討2.1)協調的タスクのためのプランニング手法を開発し、特に1-1)で設定したタスクについて知識の設計を行った。2-2)タスクに対する学習者の発話の有効性を踏まえてシステムが取るべき教育行動を、対話戦略として実装した。3)タスク設定に関する検討:学習目標を効果的に達成する上で適したタスクを自動設定する手法を開発することをめざし、特に今年度は、学習者に与えるタスクと、それにより学習される事項の関係を整理した。4)試作システムの構築:以上の成果を踏まえて、ホテル検索を中心とした対話をテストベッドにした日本語対話システムを構築した。現状では、対話範囲をホテル検索や観光名所案内等に限定した上で、「ホテルを探して下さい」・「名古屋テレビ塔はどこにありますか」等の、文法に則った正しい文の入力を受け付けることが可能である。この入力の中には「依頼」や「動詞のて...
  • 協調的音声対話制御
  • 統計的音声言語処理
  • Cooperative Speech Dialogue Manag
  • Stochastic speech Language Processing

教育活動情報

主要な担当授業

  • 自然言語処理学特論
    開講年度 : 2021年
    課程区分 : 修士課程
    開講学部 : 情報科学研究科
    キーワード : 対話処理,言語獲得,機械翻訳,質問応答,音声言語処理.音声特徴抽出,音声対話処理 Dialogue processing, Language acquisition, Machine translation, Spoken language processing, Question and answering, Feature extraction of speech, Spoken dialogue processing
  • 自然言語処理学特論
    開講年度 : 2021年
    課程区分 : 修士課程
    開講学部 : 情報科学院
    キーワード : 対話処理,言語獲得,機械翻訳,質問応答,音声言語処理.音声特徴抽出,音声対話処理 Dialogue processing, Language acquisition, Machine translation, Spoken language processing, Question and answering, Feature extraction of speech, Spoken dialogue processing
  • 自然言語処理学特論
    開講年度 : 2021年
    課程区分 : 博士後期課程
    開講学部 : 情報科学研究科
    キーワード : 対話処理,言語獲得,機械翻訳,質問応答,音声言語処理.音声特徴抽出,音声対話処理 Dialogue processing, Language acquisition, Machine translation, Spoken language processing, Question and answering, Feature extraction of speech, Spoken dialogue processing
  • 自然言語処理学特論
    開講年度 : 2021年
    課程区分 : 博士後期課程
    開講学部 : 情報科学院
    キーワード : 対話処理,言語獲得,機械翻訳,質問応答,音声言語処理.音声特徴抽出,音声対話処理 Dialogue processing, Language acquisition, Machine translation, Spoken language processing, Question and answering, Feature extraction of speech, Spoken dialogue processing
  • 言語メディア理解論
    開講年度 : 2021年
    課程区分 : 学士課程
    開講学部 : 工学部
    キーワード : 形態素解析,かな漢字変換,構文解析,意味解析,機械翻訳,対話処理
  • 音声メディア応用論
    開講年度 : 2021年
    課程区分 : 学士課程
    開講学部 : 工学部
    キーワード : 音,音声,音声認識,音声言語,意図理解,対話制御,マルチモーダル


Copyright © MEDIA FUSION Co.,Ltd. All rights reserved.