研究者詳細

顔写真

イトウ アキノリ
伊藤 彰則
Akinori Ito
所属
大学院工学研究科 通信工学専攻 知的通信ネットワーク工学講座(ヒューマンインターフェース分野)
職名
教授
学位
  • 工学博士(東北大学)

  • 工学修士(東北大学)

e-Rad 研究者番号
70232428

経歴 7

  • 2010年4月 ~ 継続中
    東北大学 大学院工学研究科 教授

  • 2002年4月 ~ 2010年3月
    東北大学 大学院工学研究科 助教授

  • 1999年10月 ~ 2002年3月
    山形大学工学部 助教授

  • 1995年4月 ~ 1999年9月
    山形大学工学部 講師

  • 1998年5月 ~ 1999年4月
    ボストン大学工学部 客員研究員

  • 1992年4月 ~ 1995年3月
    東北大学 情報処理教育センター 助手

  • 1991年4月 ~ 1992年3月
    東北大学 応用情報学研究センター 助手

︎全件表示 ︎最初の5件までを表示

学歴 2

  • 東北大学 工学研究科 情報工学専攻

    ~ 1991年3月

  • 東北大学 工学部 通信工学科

    ~ 1986年3月

委員歴 42

  • Journal of Information Hiding and Multimedia Signal Processing Associate Editor

    2009年4月 ~ 継続中

  • 日本音響学会 評議員

    2007年5月 ~ 継続中

  • 日本音響学会 代議員

    2005年5月 ~ 継続中

  • 日本音響学会 会長

    2019年5月 ~ 2021年5月

  • 日本音響学会 理事

    2009年6月 ~ 2021年5月

  • 日本音響学会 編集委員会 委員長

    2015年6月 ~ 2017年6月

  • 日本音響学会 編集委員会 委員長

    2015年6月 ~ 2017年6月

  • 電子情報通信学会 マルチメディア情報ハイディング・エンリッチメント研究会 委員長

    2015年5月 ~ 2017年4月

  • Acoustical Society of Japan Vice President

    2013年6月 ~ 2015年6月

  • 日本音響学会 副会長

    2013年6月 ~ 2015年6月

  • 情報処理学会 音声言語情報処理研究会 運営委員

    2004年5月 ~ 2015年4月

  • 日本音響学会 編集委員会 副主査

    2007年5月 ~ 2009年4月

  • 情報処理学会 音楽情報科学研究会 運営委員

    2007年5月 ~ 2009年4月

  • 日本音響学会 編集委員会 副主査

    2007年5月 ~ 2009年4月

  • 情報処理学会 音楽情報科学研究会 運営委員

    2007年5月 ~ 2009年4月

  • 電子情報通信学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 日本音響学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 電子情報通信学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 日本音響学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 日本音響学会 学術委員会 幹事

    2005年9月 ~ 2007年6月

  • 日本音響学会 学術委員会 幹事

    2005年9月 ~ 2007年6月

  • 日本音響学会 電子化推進委員会 委員

    2005年9月 ~ 2007年5月

  • 電子情報通信学会 和文論文誌D 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 日本音響学会 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 電子情報通信学会 和文論文誌D 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 日本音響学会 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 日本音響学会 編集委員会 編集委員

    2003年5月 ~ 2005年4月

  • 日本音響学会 編集委員会 編集委員

    2003年5月 ~ 2005年4月

  • 日本音響学会 東北支部 幹事

    2002年5月 ~ 2005年4月

  • 電子情報通信学会 和文論文誌D編集委員会 編集委員

    2002年5月 ~ 2005年4月

  • 日本音響学会 東北支部 幹事

    2002年5月 ~ 2005年4月

  • 電子情報通信学会 和文論文誌D編集委員会 編集委員

    2002年5月 ~ 2005年4月

  • 電子情報通信学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 日本音響学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 電子情報通信学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 日本音響学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 情報処理学会 音声言語情報処理研究会 連続音声認識コンソーシアム 実行委員

    2001年1月 ~ 2003年9月

  • 情報処理学会 音声言語情報処理研究会 連続音声認識コンソーシアム 実行委員

    2001年1月 ~ 2003年9月

  • 情報処理学会 音声言語研究会 連絡委員

    1997年5月 ~ 2001年4月

  • 情報処理学会 音声言語研究会 連絡委員

    1997年5月 ~ 2001年4月

  • 大学入試センター 教科専門委員会 問題作成部会 委員

    1996年4月 ~ 1997年3月

  • 大学入試センター 教科専門委員会 問題作成部会 委員

    1996年4月 ~ 1997年3月

︎全件表示 ︎最初の5件までを表示

所属学協会 6

  • ヒューマンインタフェース学会

  • International Speech Communication Association

  • The Institute of Electrical and Electronics Engineers

  • 情報処理学会

  • 電子情報通信学会

  • 日本音響学会

︎全件表示 ︎最初の5件までを表示

研究キーワード 5

  • 外国語教育システム

  • 音楽情報処理

  • 自然言語処理

  • 音声処理

  • 音声認識

研究分野 2

  • 人文・社会 / 外国語教育 /

  • 情報通信 / 知能情報学 /

受賞 5

  1. Best Paper Award of International Conference on Natural Language Processing and Knowledge Engineering

    2008年10月 Organizing Committee of International Conference on Natural Language Processing and Knowledge Engineering

  2. Best Paper Award of International Conference on Intelligent Information Hiding and Multimedia Signal Processing

    2007年11月 Organizing Committee of International Conference on Intelligent Information Hiding and Multimedia Signal Processing

  3. Best Paper Award of The 5th International Conference on Education and Information Systems, Technologies and Applications

    2007年7月 Organizing Committee of The 5th International Conference on Education and Information Systems, Technologies and Applications

  4. 石田(實)記念財団研究奨励賞

    2003年11月28日 石田(實)記念財団 音声言語処理に関する研究

  5. オープンソフトウェア大賞 入賞

    2000年6月7日 電子ネットワーク協議会 ソフトウェア“w3m”の開発

論文 380

  1. Automatic assessment of English proficiency for Japanese learners without reference sentences based on deep neural network acoustic models 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Speech Communication 116 86-97 2020年1月

    DOI: 10.1016/j.specom.2019.12.002  

    ISSN:0167-6393

  2. Japanese Shadowing Training Using Synchronized Partial Captions

    Syuyu Fang, Akinori Ito, Takashi Nose

    2025 13th International Conference on Information and Education Technology (ICIET) 177-181 2025年4月18日

    出版者・発行元: IEEE

    DOI: 10.1109/iciet66371.2025.11046256  

  3. Adaptive Depth-Wise Pruning for Efficient Environmental Sound Classification 査読有り

    Changlong Wang, Akinori Ito, Takashi Nose

    IEEE Access 13 69751-69759 2025年4月16日

    出版者・発行元: Institute of Electrical and Electronics Engineers (IEEE)

    DOI: 10.1109/access.2025.3561590  

    eISSN:2169-3536

  4. The Development of an Emotional Embodied Conversational Agent and the Evaluation of the Effect of Response Delay on User Impression 査読有り

    Simon Christophe Jolibois, Akinori Ito, Takashi Nose

    Applied Sciences 15 (8) 4256 2025年4月11日

    DOI: 10.3390/app15084256  

  5. Robust Human Tracking Using a 3D LiDAR and Point Cloud Projection for Human-Following Robots 査読有り

    Sora Kitamoto, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Sensors 25 (6) 2025年3月12日

    DOI: 10.3390/s25061754  

  6. Reversible Spectral Speech Watermarking with Variable Embedding Locations Against Spectrum-Based Attacks 査読有り

    Xuping Huang, Akinori Ito

    Applied Sciences 15 (1) 381 2025年1月3日

    DOI: 10.3390/app15010381  

  7. Unified model for voice conversion of speech and singing voice using adaptive pitch constraints 査読有り

    Shogo Fukawa, Takashi Nose, Shuhei Imai, Akinori Ito

    Acoustical Science and Technology 46 (1) 120-123 2025年1月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.e24.47  

    ISSN:1346-3969

    eISSN:1347-5177

  8. We open our mouths when we are silent 査読有り

    Shoki Kawanishi, Yuya Chiba, Akinori Ito, Takashi Nose

    Acoustical Science and Technology 46 (1) 96-99 2025年1月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.e24.21  

    ISSN:1346-3969

    eISSN:1347-5177

  9. Fast end-to-end non-parallel voice conversion based on speaker-adaptive neural vocoder with cycle-consistent learning 査読有り

    Shuhei Imai, Aoi Kanagaki, Takashi Nose, Shogo Fukawa, Akinori Ito

    Acoustical Science and Technology 46 (1) 116-119 2025年1月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.e24.46  

    ISSN:1346-3969

    eISSN:1347-5177

  10. LLM as decoder: Investigating Lattice-based Speech Recognition Hypotheses Rescoring Using LLM 査読有り

    Sheng Li, Yuka Ko, Akinori Ito

    2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 1-5 2024年12月3日

    出版者・発行元: IEEE

    DOI: 10.1109/apsipaasc63619.2025.10848752  

  11. A Study on Variable Embedding Locations of Reversible Spectral Speech Watermarking

    Xuping Huang, Akinori Ito

    2024 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 1-6 2024年12月3日

    出版者・発行元: IEEE

    DOI: 10.1109/apsipaasc63619.2025.10848605  

  12. Simulated Annealingによる論文審査会スケジュールの準最適割当てシステム 査読有り

    伊藤彰則

    学術情報処理研究 28 106-113 2024年11月

    DOI: 10.24669/jacn.28.1_106  

  13. Selection of key sentences from lecture video transcription and its application to feedback to the learner 査読有り

    Miki Takeuchi, Akinori Ito, Takashi Nose

    Proceedings of the 2024 8th International Conference on Education and Multimedia Technology 218-223 2024年6月22日

    出版者・発行元: ACM

    DOI: 10.1145/3678726.3678733  

  14. Development of a Personal Guide Robot That Leads a Guest Hand-in-Hand While Keeping a Distance 査読有り

    Hironobu Wakabayashi, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Sensors 24 (7) 2345-2345 2024年4月7日

    出版者・発行元: MDPI AG

    DOI: 10.3390/s24072345  

    eISSN:1424-8220

    詳細を見る 詳細を閉じる

    This paper proposes a novel tour guide robot, “ASAHI ReBorn”, which can lead a guest by hand one-on-one while maintaining a proper distance from the guest. The robot uses a stretchable arm interface to hold the guest’s hand and adjusts its speed according to the guest’s pace. The robot also follows a given guide path accurately using the Robot Side method, a robot navigation method that follows a pre-defined path quickly and accurately. In addition, a control method is introduced that limits the angular velocity of the robot to avoid the robot’s quick turn while guiding the guest. We evaluated the performance and usability of the proposed robot through experiments and user studies. The tour-guiding experiment revealed that the proposed method that keeps distance between the robot and the guest using the stretchable arm enables the guests to look around the exhibits compared with the condition where the robot moved at a constant velocity.

  15. Imperceptible and Reversible Acoustic Watermarking Based on Modified Integer Discrete Cosine Transform Coefficient Expansion 査読有り

    Xuping Huang, Akinori Ito

    Applied Sciences 14 (7) 2757-2757 2024年3月25日

    出版者・発行元: MDPI AG

    DOI: 10.3390/app14072757  

    eISSN:2076-3417

    詳細を見る 詳細を閉じる

    This paper aims to explore an alternative reversible digital watermarking solution to guarantee the integrity of and detect tampering with data of probative importance. Since the payload for verification is embedded in the contents, algorithms for reversible embedding and extraction, imperceptibility, payload capacity, and computational time are issues to evaluate. Thus, we propose a reversible and imperceptible audio information-hiding algorithm based on modified integer discrete cosine transform (intDCT) coefficient expansion. In this work, the original signal is segmented into fixed-length frames, and then intDCT is applied to each frame to transform signals from the time domain into integer DCT coefficients. Expansion is applied to DCT coefficients at a higher frequency to reserve hiding capacity. Objective evaluation of speech quality is conducted using listening quality objective mean opinion (MOS-LQO) and the segmental signal-to-noise ratio (segSNR). The audio quality of different frame lengths and capacities is evaluated. Averages of 4.41 for MOS-LQO and 23.314 [dB] for segSNR for 112 ITU-T test signals were obtained with a capacity of 8000 bps, which assured imperceptibility with the sufficient capacity of the proposed method. This shows comparable audio quality to conventional work based on Linear Predictive Coding (LPC) regarding MOS-LQO. However, all segSNR scores of the proposed method have comparable or better performance in the time domain. Additionally, comparing histograms of the normalized maximum absolute value of stego data shows a lower possibility of overflow than the LPC method. A computational cost, including hiding and transforming, is an average of 4.884 s to process a 10 s audio clip. Blind tampering detection without the original data is achieved by the proposed embedding and extraction method.

  16. Character Expressions in Meta-Learning for Extremely Low Resource Language Speech Recognition 査読有り

    Rui Zhou, Akinori Ito, Takashi Nose

    Proceedings of the 2024 16th International Conference on Machine Learning and Computing 2024年2月2日

    出版者・発行元: ACM

    DOI: 10.1145/3651671.3651730  

  17. Evaluation of Environmental Sound Classification using Vision Transformer 査読有り

    Changlong Wang, Akinori Ito, Takashi Nose, Chia-Ping Chen

    Proceedings of the 2024 16th International Conference on Machine Learning and Computing 665-669 2024年2月2日

    出版者・発行元: ACM

    DOI: 10.1145/3651671.3651733  

  18. Toward Photo-Realistic Facial Animation Generation Based on Keypoint Features 査読有り

    Zikai Shu, Takashi Nose, Akinori Ito

    Proceedings of the 2024 16th International Conference on Machine Learning and Computing 39 334-339 2024年2月2日

    出版者・発行元: ACM

    DOI: 10.1145/3651671.3651731  

  19. Speaker Intimacy Estimation in Chat-Talks Based on Verbal and Non-Verbal Information 査読有り

    Yuya Chiba, Akinori Ito

    IEEE Access 12 184592-184606 2024年

    DOI: 10.1109/ACCESS.2024.3507945  

  20. A Replaceable Curiosity-Driven Candidate Agent Exploration Approach for Task-Oriented Dialog Policy Learning 査読有り

    Xuecheng Niu, Akinori Ito, Takashi Nose

    IEEE Access 2024年

    DOI: 10.1109/ACCESS.2024.3462719  

  21. Multilingual Meta-Transfer Learning for Low-Resource Speech Recognition 査読有り

    Rui Zhou, Takaki Koshikawa, Akinori Ito, Takashi Nose, Chia-Ping Chen

    IEEE Access 2024年

    DOI: 10.1109/ACCESS.2024.3486711  

  22. Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning 査読有り

    Xuecheng Niu, Akinori Ito, Takashi Nose

    IEEE Access 12 46940-46952 2024年

    DOI: 10.1109/ACCESS.2024.3376418  

    eISSN:2169-3536

  23. Development of a Play-Tag Robot with Human–Robot Contact 査読有り

    Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Applied Sciences 13 (23) 12909-12909 2023年12月1日

    出版者・発行元: MDPI AG

    DOI: 10.3390/app132312909  

    eISSN:2076-3417

    詳細を見る 詳細を閉じる

    Many robots that play with humans have been developed so far, but developing a robot that physically contacts humans while playing is challenging. We have developed robots that play tag with humans, which find players, approach them, and move away from them. However, the developed algorithm for approaching a player was insufficient because it did not consider how the arms are attached to the robot. Therefore, in this paper, we assume that the arms are fixed on both sides of the robot and develop a new algorithm to approach the player and touch them with an arm. Since the algorithm aims to move along a circular orbit around a player, we call this algorithm “the go-round mode”. To investigate the effectiveness of the proposed method, we conducted two experiments. The first is a simulation experiment, which showed that the proposed method outperformed the previous one. In the second experiment, we implemented the proposed method in a real robot and conducted an experiment to chase and touch the player. As a result, the robot could touch the player in all the trials without collision.

  24. Multimodal Expressive Embodied Conversational Agent Design 査読有り

    Simon Jolibois, Akinori Ito, Takashi Nose

    Communications in Computer and Information Science 244-249 2023年7月9日

    出版者・発行元: Springer Nature Switzerland

    DOI: 10.1007/978-3-031-35989-7_31  

    ISSN:1865-0929

    eISSN:1865-0937

  25. Spoken term detection from utterances of minority languages 招待有り 査読有り

    Akinori Ito, Satoru Mizuochi, Takashi Nose

    Issues in Japanese Psycholingustics from Comparative Perspectives 1 2023年7月

  26. Effect of Data Size and Machine Translation on the Accuracy of Automatic Personality Classification 査読有り

    Yuki Fukazawa, Akinori Ito, Takashi Nose

    Advances in Intelligent Information Hiding and Multimedia Signal Processing 405-413 2023年5月24日

    出版者・発行元: Springer Nature Singapore

    DOI: 10.1007/978-981-99-0105-0_36  

    ISSN:2190-3018

    eISSN:2190-3026

  27. Spoken Dialogue System Development Without Speech Recognition Towards Language Revitalization 査読有り

    Akinori Ito

    Advances in Intelligent Information Hiding and Multimedia Signal Processing 393-404 2023年5月24日

    出版者・発行元: Springer Nature Singapore

    DOI: 10.1007/978-981-99-0105-0_35  

    ISSN:2190-3018

    eISSN:2190-3026

  28. A Robotic System for Remote Teaching of Technical Drawing 査読有り

    Yutaka Hiroi, Akinori Ito

    Education Sciences 13 (4) 2023年3月28日

    DOI: 10.3390/educsci13040347  

  29. Personality Analysis of Entrepreneurial Text for Entrepreneurship Education 査読有り

    Akinori Ito, Kotaro Takeda, Shuichi Ishida

    2023 5th International Conference on Natural Language Processing (ICNLP) 2023年3月

    出版者・発行元: IEEE

    DOI: 10.1109/icnlp58431.2023.00047  

  30. Path Following Algorithm with Small Error for Guide Robot 査読有り

    Hironobu Wakabayashi, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Robot Intelligence Technology and Applications 7 56-67 2023年3月1日

    出版者・発行元: Springer International Publishing

    DOI: 10.1007/978-3-031-26889-2_6  

    ISSN:2367-3370

    eISSN:2367-3389

  31. Confidence-based Utterance Selection for a Recognizer-free Spoken Dialogue System 査読有り

    Akinori Ito

    Proceedings of the 2023 15th International Conference on Machine Learning and Computing 481-484 2023年2月17日

    出版者・発行元: ACM

    DOI: 10.1145/3587716.3587796  

  32. Response Sentence Modification Using a Sentence Vector for a Flexible Response Generation of Retrieval-based Dialogue Systems 査読有り

    Ryota Yahagi, Akinori Ito, Takashi Nose, Yuya Chiba

    2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2022年11月7日

    出版者・発行元: IEEE

    DOI: 10.23919/apsipaasc55919.2022.9979841  

  33. Design and Construction of Japanese Multimodal Utterance Corpus with Improved Emotion Balance and Naturalness 査読有り

    Daisuke Horii, Akinori Ito, Takashi Nose

    2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2022年11月7日

    出版者・発行元: IEEE

    DOI: 10.23919/apsipaasc55919.2022.9980272  

  34. Multimodal Dialogue Response Timing Estimation Using Dialogue Context Encoder 査読有り

    Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

    Lecture Notes in Electrical Engineering 133-141 2022年11月1日

    出版者・発行元: Springer Nature Singapore

    DOI: 10.1007/978-981-19-5538-9_9  

    ISSN:1876-1100

    eISSN:1876-1119

  35. Combination of deep-learning-based audio separation and speech enhancement for noise reduction of extracted signal from polyphonic music 査読有り

    Soichiro Kobayashi, Takashi Nose, Akinori Ito

    Proceedings of the 24th International Congress of Acoustics 2022年10月

  36. Successive Binary Partition K-means Method for Clustering with Less Cluster Size Bias 査読有り

    Akinori Ito

    2022 7th International Conference on Signal and Image Processing (ICSIP) 2022年7月20日

    出版者・発行元: IEEE

    DOI: 10.1109/icsip55141.2022.9886452  

  37. Development of a Teleoperated Play Tag Robot with Semi-Automatic Play 査読有り

    Yoshitaka Kasai, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    2022 IEEE/SICE International Symposium on System Integration (SII) 2022年1月9日

    出版者・発行元: IEEE

    DOI: 10.1109/sii52469.2022.9708883  

  38. Spoken Term Detection of Zero-Resource Language Using Posteriorgram of Multiple Languages

    Satoru MIZUOCHI, Takashi NOSE, Akinori ITO

    Interdisciplinary Information Sciences 28 (1) 1-13 2022年

    出版者・発行元: Graduate School of Information Sciences, Tohoku University

    DOI: 10.4036/iis.2022.a.04  

    ISSN:1340-9050

    eISSN:1347-6157

  39. Study on the Background Music Cancellation System for Speech Privacy 査読有り

    Jianning Huang, Akinori Ito

    2021 IEEE 6th International Conference on Signal and Image Processing (ICSIP) 2021年10月22日

    出版者・発行元: IEEE

    DOI: 10.1109/icsip52628.2021.9688835  

  40. Analysis of Feature Extraction by Convolutional Neural Network for Speech Emotion Recognition 査読有り

    Daisuke Horii, Akinori Ito, Takashi Nose

    2021 IEEE 10th Global Conference on Consumer Electronics (GCCE) 2021年10月12日

    出版者・発行元: IEEE

    DOI: 10.1109/gcce53005.2021.9621964  

  41. Speaker Intimacy in Chat-Talks: Analysis and Recognition based on Verbal and Non-Verbal Information 査読有り

    Chiba, Yuya, Yoshihiro Yamazaki, Akinori Ito

    Proceedings of the 25th Workshop on the Semantics and Pragmatics of Dialogue 2021年9月

  42. Effect of Training Data Selection for Speech Recognition of Emotional Speech 査読有り

    Yusuke Yamada, Yuya Chiba, Takashi Nose, Akinori Ito

    International Journal of Machine Learning and Computing 11 (5) 362-366 2021年9月

  43. Improvement of Automatic English Pronunciation Assessment with Small Number of Utterances Using Sentence Speakability 査読有り

    Satsuki Naijo, Akinori Ito, Takashi Nose

    Interspeech 2021 2021年8月30日

    出版者・発行元: ISCA

    DOI: 10.21437/interspeech.2021-1132  

  44. Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational Systems 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    Interspeech 2021 2021年8月30日

    出版者・発行元: ISCA

    DOI: 10.21437/interspeech.2021-381  

  45. Development of a Mobile Robot That Plays Tag with Touch-and-Away Behavior Using a Laser Range Finder 査読有り

    Yoshitaka Kasai, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Applied Sciences 11 (16) 7522-7522 2021年8月17日

    出版者・発行元: MDPI AG

    DOI: 10.3390/app11167522  

    eISSN:2076-3417

    詳細を見る 詳細を閉じる

    The development of robots that play with humans is a challenging topic for robotics. We are developing a robot that plays tag with human players. To realize such a robot, it needs to observe the players and obstacles around it, chase a target player, and touch the player without collision. To achieve this task, we propose two methods. The first one is the player tracking method, by which the robot moves towards a virtual circle surrounding the target player. We used a laser range finder (LRF) as a sensor for player tracking. The second one is a motion control method after approaching the player. Here, the robot moves away from the player by moving towards the opposite side to the player. We conducted a simulation experiment and an experiment using a real robot. Both experiments proved that with the proposed tracking method, the robot properly chased the player and moved away from the player without collision. The contribution of this paper is the development of a robot control method to approach a human and then move away safely.

  46. SMOC corpus: A large-scale Japanese spontaneous multimodal one-on-one chat-talk corpus for dialog systems 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 42 (4) 210-213 2021年7月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.42.210  

    ISSN:1346-3969

    eISSN:1347-5177

  47. A Light-weight Hand-waving Gesture Recognition Method Using Kinect V2 and Frequency Analysis 査読有り

    Yuki Misaki, Yutaka Hiroi, Akinori Ito

    2021 IEEE/SICE International Symposium on System Integration, SII 2021 750-755 2021年1月11日

    DOI: 10.1109/IEEECONF49454.2021.9382709  

  48. CycleGAN-Based High-Quality Non-Parallel Voice Conversion with Spectrogram and WaveRNN 査読有り

    Aoi Kanagaki, Masaya Tanaka, Takashi Nose, Ryohei Shimizu, Akira Ito, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 356-357 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291952  

  49. Incremental response generation using prefix-to-prefix model for dialogue system 査読有り

    Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 349-350 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291883  

  50. A study on minimum spectral error analysis of speech 査読有り

    Takuma Hayasaka, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 362-363 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291840  

  51. Filler prediction based on bidirectional LSTM for generation of natural response of spoken dialog 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 360-361 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291867  

  52. Successive Japanese lyrics generation based on encoder-decoder model 査読有り

    Rikiya Takahashi, Takashi Nose, Yuya Chiba, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 126-127 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291718  

  53. Analysis and Estimation of Sentence Speakability for English Pronunciation Evaluation 査読有り

    Satsuki Naijo, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 353-355 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9292072  

  54. LJSing: large-scale singing voice corpus of single Japanese singer 査読有り

    Takuto Fujimura, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 364-365 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291704  

  55. Improving Pronunciation Clarity of Dysarthric Speech Using CycleGAN with Multiple Speakers 査読有り

    Shuhei Imai, Takashi Nose, Aoi Kanagaki, Satoshi Watanabe, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 366-367 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9292041  

  56. Spoken term detection based on acoustic models trained in multiple languages for zero-resource language 査読有り

    Satoru Mizuochi, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 351-352 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291761  

  57. Integration of accent sandhi and prosodic features estimation for japanese text-to-speech synthesis 査読有り

    Daisuke Fujimaki, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 358-359 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291906  

  58. Language modeling in speech recognition for grammatical error detection based on neural machine translation 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 41 (5) 788-791 2020年9月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.41.788  

    ISSN:1346-3969

    eISSN:1347-5177

  59. Construction and analysis of a multimodal chat-talk corpus for dialog systems considering interpersonal closeness 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings 443-448 2020年

  60. Multi-stream attention-based BLSTM with feature segmentation for speech emotion recognition 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2020-October 3301-3305 2020年

    DOI: 10.21437/Interspeech.2020-1199  

    ISSN:2308-457X

    eISSN:1990-9772

  61. A symbol-level melody completion based on a convolutional neural network with generative adversarial learning 査読有り

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Journal of Information Processing 28 248-257 2020年

    DOI: 10.2197/ipsjjip.28.248  

    ISSN:0387-5806

    eISSN:1882-6652

  62. Human-machine metacommunication towards development of a human-like agent: A short review 査読有り

    Akinori Ito

    Acoustical Science and Technology 41 (1) 166-169 2020年

    DOI: 10.1250/ast.41.166  

    ISSN:1346-3969

    eISSN:1347-5177

  63. Evaluation of Person Tracking Methods for Human-Robot Physical Play 査読有り

    Koyuki Ikemoto, Yutaka Hiroi, Akinori Ito

    Proceedings of the 2020 IEEE/SICE International Symposium on System Integration, SII 2020 416-421 2020年1月

    DOI: 10.1109/SII46433.2020.9026275  

  64. A pedestrian avoidance method considering personal space for a guide robot 査読有り

    Yutaka Hiroi, Akinori Ito

    Robotics 8 (4) 2019年12月1日

    DOI: 10.3390/ROBOTICS8040097  

    eISSN:2218-6581

  65. Realization of a Robot System That Plays “Darumasan-Ga-Koronda ” Game with Humans 査読有り

    Robotics 8 (3) 2019年9月1日

    DOI: 10.3390/robotics8030055  

    eISSN:2218-6581

  66. Improving human scoring of prosody using parametric speech synthesis 査読有り

    Hafiyan Prafianto, Takashi Nose, Yuya Chiba, Akinori Ito

    Speech Communication 111 14-21 2019年8月

    出版者・発行元: Elsevier {BV}

    DOI: 10.1016/j.specom.2019.06.001  

    ISSN:0167-6393

  67. Effect of Mutual Self-Disclosure in Spoken Dialog System on User Impression 査読有り

    Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

    2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2018 - Proceedings 806-810 2019年3月4日

    DOI: 10.23919/APSIPA.2018.8659630  

  68. Latent words recurrent neural network language models for automatic speech recognition 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Sumitaka Sakauchi, Akinori Ito

    IEICE Transactions on Information and Systems E102D (12) 2557-2567 2019年

    DOI: 10.1587/transinf.2018EDP7242  

    ISSN:0916-8532

    eISSN:1745-1361

  69. Preface

    Jeng Shyang Pan, Akinori Ito, Pei Wei Tsai, Lakhmi C. Jain

    Smart Innovation, Systems and Technologies 110 v-vi 2019年

    DOI: 10.1109/ICB.2012.6199777  

    ISSN:2190-3018

    eISSN:2190-3026

  70. Multi-condition training for noise-robust speech emotion recognition 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 40 (6) 406-409 2019年

    DOI: 10.1250/ast.40.406  

    ISSN:1346-3969

    eISSN:1347-5177

  71. Evaluation of English speech recognition for Japanese learners using DNN-based acoustic models 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 93-100 2019年

    DOI: 10.1007/978-3-030-03748-2_11  

    ISSN:2190-3018

    eISSN:2190-3026

  72. Comparison of speech recognition performance between kaldi and google cloud speech API 査読有り

    Takashi Kimura, Takashi Nose, Shinji Hirooka, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 109-115 2019年

    DOI: 10.1007/978-3-030-03748-2_13  

    ISSN:2190-3018

    eISSN:2190-3026

  73. Segmental pitch control using speech input based on differential contexts and features for customizable neural speech synthesis 査読有り

    Shinya Hanabusa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 124-131 2019年

    DOI: 10.1007/978-3-030-03748-2_15  

    ISSN:2190-3018

    eISSN:2190-3026

  74. Melody completion based on convolutional neural networks and generative adversarial learning 査読有り

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 116-123 2019年

    DOI: 10.1007/978-3-030-03748-2_14  

    ISSN:2190-3018

    eISSN:2190-3026

  75. Two-stage sequence-to-sequence neural voice conversion with low-to-high definition spectrogram mapping 査読有り

    Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito

    Smart Innovation, Systems and Technologies 110 132-139 2019年

    DOI: 10.1007/978-3-030-03748-2_16  

    ISSN:2190-3018

    eISSN:2190-3026

  76. DNN-based talking movie generation with face direction consideration 査読有り

    Toru Ishikawa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 157-164 2019年

    DOI: 10.1007/978-3-030-03748-2_19  

    ISSN:2190-3018

    eISSN:2190-3026

  77. A study on a spoken dialogue system with cooperative emotional speech synthesis using acoustic and linguistic information 査読有り

    Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 101-108 2019年

    DOI: 10.1007/978-3-030-03748-2_12  

    ISSN:2190-3018

    eISSN:2190-3026

  78. Leveraging a small corpus by different frame shifts for training of a speech recognizer 査読有り

    Akinori Ito

    Smart Innovation, Systems and Technologies 110 82-89 2019年

    DOI: 10.1007/978-3-030-03748-2_10  

    ISSN:2190-3018

    eISSN:2190-3026

  79. Muting machine speech using audio watermarking 査読有り

    Akinori Ito

    Smart Innovation, Systems and Technologies 110 74-81 2019年

    DOI: 10.1007/978-3-030-03748-2_9  

    ISSN:2190-3018

    eISSN:2190-3026

  80. Improvement of accent sandhi rules based on Japanese accent dictionaries 査読有り

    Hiroto Aoyama, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 140-148 2019年

    DOI: 10.1007/978-3-030-03748-2_17  

    ISSN:2190-3018

    eISSN:2190-3026

  81. Multiple player detection and tracking method using a laser range finder for a robot that plays with human 査読有り

    Yuko Nakamori, Yutaka Hiroi, Akinori Ito

    ROBOMECH Journal 5 (1) 25 2018年12月1日

    DOI: 10.1186/s40648-018-0122-x  

    eISSN:2197-4225

  82. 深層学習を用いた音紋による船種同定の試み (応用音響)

    西村 竜一, 天間 克宏, 服部 聖彦, 金子 健司, 伊藤 彰則, 藤井 豊展, 木島 明博

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 118 (234) 1-6 2018年10月

    出版者・発行元: 電子情報通信学会

    ISSN:0913-5685

  83. An Analysis of the Effect of Emotional Speech Synthesis on Non-Task-Oriented Dialogue System. 査読有り

    Yuya Chiba, Takashi Nose, Taketo Kase, Mai Yamanaka, Akinori Ito

    Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018 371-375 2018年7月

    出版者・発行元: Association for Computational Linguistics

  84. Improving User Impression in Spoken Dialog System with Gradual Speech Form Control. 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018 235-240 2018年7月

    出版者・発行元: Association for Computational Linguistics

  85. Domain adaptation based on mixture of latent words language models for automatic speech recognition 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    IEICE Transactions on Information and Systems E101D (6) 1581-1590 2018年6月

    出版者・発行元: Institute of Electronics, Information and Communication, Engineers, IEICE

    DOI: 10.1587/transinf.2017EDP7210  

    ISSN:0916-8532

    eISSN:1745-1361

  86. Analyses of example sentences collected by conversation for example-based non-task-oriented dialog system 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    IAENG International Journal of Computer Science 45 (2) 285-293 2018年5月28日

    ISSN:1819-656X

    eISSN:1819-9224

  87. Spoken term detection of zero-resource language using machine learning 査読有り

    Akinori Ito, Masatoshi Koizumi

    ACM International Conference Proceeding Series 45-49 2018年2月26日

    DOI: 10.1145/3193063.3193068  

  88. Analysis of efficient multimodal features for estimating user's willingness to talk: Comparison of human-machine and human-human dialog 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings - 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2017 2018-February 428-431 2018年2月5日

    出版者・発行元: IEEE

    DOI: 10.1109/APSIPA.2017.8282069  

  89. Analysis of efficient multimodal features for estimating user's willingness to talk: Comparison of human-machine and human-human dialog 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings - 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2017 2018-February 428-431 2018年2月5日

    DOI: 10.1109/APSIPA.2017.8282069  

  90. Enhancement of person detection and tracking for a robot that plays with human 査読有り

    Yuko Nakamori, Yutaka Hiroi, Akinori Ito

    SII 2017 - 2017 IEEE/SICE International Symposium on System Integration 2018-January 494-499 2018年2月1日

    出版者・発行元: IEEE

    DOI: 10.1109/SII.2017.8279261  

  91. Enhancement of person detection and tracking for a robot that plays with human 査読有り

    Yuko Nakamori, Yutaka Hiroi, Akinori Ito

    SII 2017 - 2017 IEEE/SICE International Symposium on System Integration 2018-January 494-499 2018年2月1日

    DOI: 10.1109/SII.2017.8279261  

  92. Special section on enriched multimedia — Potential and possibility of multimedia contents for the future

    Akinori Ito

    IEICE Transactions on Information and Systems E101D (1) 1 2018年

    DOI: 10.1587/transinf.2017MUF0001  

    ISSN:0916-8532

    eISSN:1745-1361

  93. Dialog-based interactive movie recommendation: Comparison of dialog strategies 査読有り

    Hayato Mori, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 77-83 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_10  

    ISSN:2190-3018

    eISSN:2190-3026

  94. Response selection of interview-based dialog system using user focus and semantic orientation 査読有り

    Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 84-90 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_11  

    ISSN:2190-3018

    eISSN:2190-3026

  95. Detection of singing mistakes from singing voice 査読有り

    Isao Miyagawa, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 130-136 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_17  

    ISSN:2190-3018

    eISSN:2190-3026

  96. Evaluation of nonlinear tempo modification methods based on sinusoidal modeling 査読有り

    Kosuke Nakamura, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 104-111 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_14  

    ISSN:2190-3018

    eISSN:2190-3026

  97. Development and evaluation of julius-compatible interface for Kaldi ASR 査読有り

    Yusuke Yamada, Takashi Nose, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 91-96 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_12  

    ISSN:2190-3018

    eISSN:2190-3026

  98. Voice conversion from arbitrary speakers based on deep neural networks with adversarial learning 査読有り

    Sou Miyamoto, Takashi Nose, Suzunosuke Ito, Harunori Koike, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 97-103 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_13  

    ISSN:2190-3018

    eISSN:2190-3026

  99. A study on 2D photo-realistic facial animation generation using 3D facial feature points and deep neural networks 査読有り

    Kazuki Sato, Takashi Nose, Akira Ito, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 113-118 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_15  

    ISSN:2190-3018

    eISSN:2190-3026

  100. Foreword

    Akinori Ito

    IEICE Transactions on Information and Systems E101D (1) 1 2018年1月

    DOI: 10.1587/transinf.2017MUF0001  

    ISSN:0916-8532

    eISSN:1745-1361

  101. Analyzing effect of physical expression on English proficiency for multimodal computer-assisted language learning 査読有り

    Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2018-September 1746-1750 2018年1月1日

    出版者・発行元: ISCA

    DOI: 10.21437/Interspeech.2018-1425  

    ISSN:2308-457X

    eISSN:1990-9772

  102. Analysis of preferred speaking rate and pause in spoken Easy Japanese for non-native listeners 査読有り

    Hafiyan Prafiyanto, Takashi Nose, Yuya Chiba, Akinori Ito

    Acoustical Science and Technology 39 (2) 92-100 2018年

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.39.92  

    ISSN:1346-3969

    eISSN:1347-5177

  103. Guest editorial: Introduction to the special issue on the enrichment of sound, speech and music media

    Yôiti Suzuki, Akinori Ito, Kazuhiro Kondo

    Journal of Information Hiding and Multimedia Signal Processing 8 (6) 1323-1324 2017年11月

    出版者・発行元: Ubiquitous International

    ISSN:2073-4212

    eISSN:2073-4239

  104. Enrichment of audio signal using side information 査読有り

    Akinori Ito

    Journal of Information Hiding and Multimedia Signal Processing 8 (6) 1325-1334 2017年11月

    ISSN:2073-4212

    eISSN:2073-4239

  105. Manipulating vocal signal in mixed music sounds using side information based on the fundamental frequency 査読有り

    Akinori Ito, Yuto Sasaki

    Journal of Information Hiding and Multimedia Signal Processing 8 (6) 1372-1381 2017年11月

    ISSN:2073-4212

    eISSN:2073-4239

  106. HMM-Based Photo-Realistic Talking Face Synthesis Using Facial Expression Parameter Mapping with Deep Neural Networks 査読有り

    Journal of Computer and Communications 5 (10) 55-65 2017年8月

    DOI: 10.4236/jcc.2017.510006  

  107. 日常音識別による活動記録自動生成のためのデータの収集と分析

    古谷崇拓, 千葉祐弥, 能勢隆, 伊藤彰則

    情報処理学会研究報告 1-6 2017年6月17日

  108. Cluster-based approach to discriminate the user’s state whether a user is embarrassed or thinking to an answer to a prompt 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Journal on Multimodal User Interfaces 11 (2) 185-196 2017年6月1日

    DOI: 10.1007/s12193-017-0238-y  

    ISSN:1783-7677

    eISSN:1783-8738

  109. Construction and analysis of phonetically and prosodically balanced emotional speech database 査読有り

    Emika Takeishi, Takashi Nose, Yuya Chiba, Akinori Ito

    2016 Conference of the Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques, O-COCOSDA 2016 16-21 2017年5月3日

    出版者・発行元: Institute of Electrical and Electronics Engineers Inc.

    DOI: 10.1109/ICSDA.2016.7918977  

  110. Recognition of sounds using square cauchy mixture distribution 査読有り

    Akinori Ito

    2016 IEEE International Conference on Signal and Image Processing, ICSIP 2016 726-730 2017年3月27日

    DOI: 10.1109/SIPROCESS.2016.7888359  

  111. A precise evaluation method of prosodic quality of non-native speakers using average voice and prosody substitution 査読有り

    Hafiyan Prafianto, Takashi Nose, Akinori Ito

    ICALIP 2016 - 2016 International Conference on Audio, Language and Image Processing - Proceedings 208-212 2017年2月7日

    DOI: 10.1109/ICALIP.2016.7846620  

  112. A Compression Method for Spherical Microphone Array Recordings using Principal Component Analysis 査読有り

    Hironori Sato, Arif Wicaksono, Shuichi Sakamoto, Cesar Salvador, Jorge Trevino, Yôiti Suzuki, Akinori Ito

    Proc. 2017 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP'17) 2PM1-3-4 433-436 2017年2月

  113. Special section on enriched multimedia -new technology trends in creation, utilization and protection of multimedia information

    Akinori Ito

    IEICE Transactions on Information and Systems E100D (1) 1 2017年1月

    ISSN:0916-8532

    eISSN:1745-1361

  114. Demonstration experiment of data hiding into OOXML document for suppression of plagiarism 査読有り

    Akinori Ito

    Smart Innovation, Systems and Technologies 63 3-10 2017年

    DOI: 10.1007/978-3-319-50209-0_1  

    ISSN:2190-3018

    eISSN:2190-3026

  115. Estimation of user’s willingness to talk about the topic: Analysis of interviews between humans 査読有り

    Yuya Chiba, Akinori Ito

    Lecture Notes in Electrical Engineering 999 LNEE 411-419 2017年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-981-10-2585-3_34  

    ISSN:1876-1100

    eISSN:1876-1119

  116. Collection of example sentences for non-task-oriented dialog using a spoken dialog system and comparison with hand-crafted DB 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 713 458-464 2017年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-3-319-58750-9_63  

    ISSN:1865-0929

  117. Synthesis of photo-realistic facial animation from text based on HMM and DNN with animation unit 査読有り

    Kazuki Sato, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 64 29-36 2017年

    DOI: 10.1007/978-3-319-50212-0_4  

    ISSN:2190-3018

    eISSN:2190-3026

  118. Development of an easy Japanese writing support system with text-to-speech function 査読有り

    Takeshi Nagano, Hafiyan Prafianto, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 64 221-228 2017年

    DOI: 10.1007/978-3-319-50212-0_27  

    ISSN:2190-3018

    eISSN:2190-3026

  119. A study on tailor-made speech synthesis based on deep neural networks 査読有り

    Shuhei Yamada, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 63 159-166 2017年

    DOI: 10.1007/978-3-319-50209-0_20  

    ISSN:2190-3018

    eISSN:2190-3026

  120. Foreword. 招待有り

    Akinori Ito

    IEICE Transactions 100-D (1) 1 2017年

    DOI: 10.1587/transinf.2016MUF0001  

  121. A Crowd Avoidance Method Using Circular Avoidance Path for Robust Person Following 査読有り

    Kohei Morishita, Yutaka Hiroi, Akinori Ito

    Journal of Robotics 2017 1 2017年

    出版者・発行元: Hindawi Limited

    DOI: 10.1155/2017/3148202  

    ISSN:1687-9600

    eISSN:1687-9619

  122. Multiple description vector quantizer design based on redundant representation of central code 査読有り

    Akinori Ito

    European Signal Processing Conference 2016-November 106-109 2016年11月28日

    DOI: 10.1109/EUSIPCO.2016.7760219  

    ISSN:2219-5491

  123. Investigation of combining various major language model technologies including data expansion and adaptation 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    IEICE Transactions on Information and Systems E99D (10) 2452-2461 2016年10月

    DOI: 10.1587/transinf.2016SLP0013  

    ISSN:0916-8532

    eISSN:1745-1361

  124. Tempo Modification of Mixed Music Signal by Nonlinear Time Scaling and Sinusoidal Modeling 査読有り

    Tsukasa Nishino, Takashi Nose, Akinori Ito

    Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015 146-149 2016年2月19日

    DOI: 10.1109/IIH-MSP.2015.86  

  125. Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting 査読有り

    Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015 433-436 2016年2月19日

    DOI: 10.1109/IIH-MSP.2015.85  

  126. Playing with a Robot: Realization of «red Light, Green Light» Using a Laser Range Finder 査読有り

    Keisuke Sakai, Yutaka Hiroi, Akinori Ito

    Proceedings - 2015 3rd International Conference on Robot, Vision and Signal Processing, RVSP 2015 1-4 2016年2月3日

    DOI: 10.1109/RVSP.2015.9  

  127. Estimating the user's state before exchanging utterances using intermediate acoustic features for spoken dialog systems 査読有り

    Yuya Chiba, Takashi Nose, Masashi Ito, Akinori Ito

    IAENG International Journal of Computer Science 43 (1) 1-9 2016年2月1日

    ISSN:1819-656X

    eISSN:1819-9224

  128. DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討 査読有り

    齋藤優貴, 能勢隆, 伊藤彰則

    電子情報通信学会論文誌 J199-D (11) 1112-1115 2016年

  129. Multiple Description Vector Quantizer Design Based on Redundant Representation of Central Code 査読有り

    Akinori Ito

    2016 24TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO) 106-109 2016年

    DOI: 10.1109/EUSIPCO.2016.7760219  

    ISSN:2076-1465

  130. Influence of the height of a robot on comfortableness of verbal interaction 査読有り

    Yutaka Hiroi, Akinori Ito

    IAENG International Journal of Computer Science 43 (4) 447-455 2016年

    ISSN:1819-656X

    eISSN:1819-9224

  131. 発話状態推定に基づく協調的感情音声合成による音声対話システムの評価 査読有り

    加瀬嵩人, 能勢隆, 千葉祐弥, 伊藤彰則

    電子情報通信学会誌A J199-A (1) 25-35 2016年1月1日

  132. Estimation of User's Willingness to Talk About the Topic: Analysis of Interviews Between Humans. 査読有り

    Yuya Chiba, Akinori Ito

    Dialogues with Social Robots - Enablements, Analyses, and Evaluation, Seventh International Workshop on Spoken Dialogue Systems, IWSDS 2016, Saariselkä, Finland, January 13-16, 2016 411-419 2016年

    出版者・発行元: Springer

    DOI: 10.1007/978-981-10-2585-3_34  

  133. Investigation of Pause Insertion Effect in Spoken Easy Japanese for Non-Native Listeners 査読有り

    Hafiyan Prafianto, Takeshi Nagano, Takashi Nose, Akinori Ito

    Proceedings of 12th Western Pacific Acoustics Conference 507-511 2015年12月8日

  134. Automatic Generation of Proper Noun Entries in a Speech Recognizer for Local Information Recognition 査読有り

    Kenta Shiga, Takashi Nose, Akinori Ito, Ryo Masumura, Hirokazu Masataki

    Proceedings of 12th Western Pacific Acoustics Conference 2015年12月8日

  135. Development of a mobile robot moving on a handrail —Control for preceding a person keeping a distance 査読有り

    Yuma Fujiwara, Yutaka Hiroi, Yuki Tanaka, Akinori Ito

    Proceedings of IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) 2015-November 413-418 2015年11月20日

    DOI: 10.1109/ROMAN.2015.7333579  

  136. YANSIS: An “Easy Japanese” writing support system 査読有り

    Takeshi Nagano, Akinori Ito

    Proceedings of 8th International Conference ICT for Language Learning 2015年11月12日

  137. 応答タイミングを考慮した英会話練習のための音声対話型英語学習システム 査読有り

    鈴木 直人, 廣井 富, 千葉 祐弥, 能勢 隆, 伊藤 彰則

    情報処理学会論文誌 56 (11) 2177-2189 2015年11月1日

    ISSN:1882-7764

    詳細を見る 詳細を閉じる

    本研究では,音声を用いた英会話の学習が可能なコンピュータ利用言語学習(Computer-Assisted Language Learning, CALL)システムを提案する.特に,英会話学習における学習者の応答タイミングに着目する.一般的に学習段階において応答タイミングは適切なものに比べ遅くなりがちであるが,システムとの英会話では応答タイミングを意識しにくい.そこで対話相手としてCGキャラクタを導入し,応答を要求する表現であるタイムプレッシャー表現を付加する練習方法を提案する.CGキャラクタの有無,タイムプレッシャー表現の有無のほかに,短期間での繰返し練習,および期間をおいた練習を通じて,提案手法の有効性について論じる.We propose a CALL (Computer-Assisted Language Learning) system for training of English conversation using spoken dialogue. Especially, we focus on a spoken dialogue system for training the learner's timing of response. To suppress the long pause and practice an appropriate pause duration, we introduced a CG character as a counterpart of the dialogue installed the behavior of "time pressure" to prevent the learner taking long time to consider the utterance. To verify if the expression is effective, we desighed three experiments. First, we conducted with or without CG character. Second experiment was conducted with or without the time-pressure expression. Finally, we conducted the learning of dialogue in short-term repetition as well as the same learning after two weeks interval. In conclusion, we discuss the effectiveness of the proposed method.

  138. 指差しによる人間への位置提示精度調査とその精度向上手法 査読有り

    廣井 富, 伊藤 彰則

    情報処理学会論文誌 56 (8) 1634-1645 2015年8月15日

    ISSN:1882-7764

    詳細を見る 詳細を閉じる

    我々の考える指差しジェスチャを利用する最終目標は,人間とロボットが空間情報を共有することである.本論文は,部屋の中の特定の位置を空間情報として想定する.本研究の目的は,「ロボットが指差しをして人間がそれを理解する」というコミュニケーションチャネルを確立することである.そのため,次の2点について調査・検証を行ったので報告する.1.ロボットが特定座標を指差したとき,人間はその位置をどの程度の精度で認識可能なのか調査する.2.ロボットの指差しを制御することで,人間による位置認識精度を向上させることができるか検証する.ロボットの正面3.5mに実験参加者を立たせ,ロボットが6点をランダムに指差し,その座標と人間が認識した座標との誤差を測定する.結果,角度方向の誤差の平均値は,約-1degであったのに対し,距離方向は約-545mmと大きな誤差となった.しかし,距離方向の誤差に系統的な傾向が見られたため,線形回帰によってロボットの指差し座標の補正を行った結果,角度の誤差平均は約0.1deg,距離方向は約-235mmとなり,43%誤差が低減した.Our aim of using a pointing gesture in a human-robot interaction is to share spatial information between a human and a robot. In this paper, we assume specific positions in a room as "spatial information." The purpose of this study is to establish a communication channel where "A robot makes a pointing gesture and a human recognizes it." To realize this, we investigated the following two points. First, when the robot is pointing a specific coordinate, we investigated how precisely a human perceived the pointed position. Second, we investigated whether the human perception error of the pointed position could be reduced by adjusting the pointing coordinate of the robot. We instructed the participants to stand at the position 3.5m front of the robot, then the robot pointed 6 points, and finally we measured the error between the pointed positions and the perceived positions. As a result, the average error of the perceived angle was about -1 degree, whereas the distance error was as large as about -545mm. We observed linear relationship between the distance error and absolute distance to the pointed position. Then we adjusted the pointing position based on a linear regression. As a result, the angle error reduced to -0.1 degree. The distance error also reduced to about 235mm, which was 43% smaller than the result without adjustment.

  139. Robot: Have I done something wrong? —Analysis of prosodic features of speech commands under the robot's unintended behavior— 査読有り

    Noriko Totsuka, Yuya Chiba, Takashi Nose, Akinori Ito

    International Conference on Audio, Language and Image Processing 887-890 2015年1月13日

    DOI: 10.1109/ICALIP.2014.7009922  

  140. Subjective evaluation of packet loss recovery techniques for voice over IP 査読有り

    Masahito Okamoto, Takashi Nose, Akinori Ito, Takeshi Nagano

    ICALIP 2014 - 2014 International Conference on Audio, Language and Image Processing, Proceedings 711-714 2015年1月13日

    DOI: 10.1109/ICALIP.2014.7009887  

  141. A study on the effect of speech rate on perception of spoken easy Japanese using speech synthesis 査読有り

    Hafiyan Prafianto, Takashi Nose, Yuya Chiba, Akinori Ito, Kazuyuki Sato

    ICALIP 2014 - 2014 International Conference on Audio, Language and Image Processing, Proceedings 476-479 2015年1月13日

    DOI: 10.1109/ICALIP.2014.7009839  

  142. Hierarchical Latent Words Language Models for Robust Modeling to Out-Of Domain Tasks. 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, Lisbon, Portugal, September 17-21, 2015 1896-1901 2015年

  143. On appropriateness and estimation of the emotion of synthesized response speech in a spoken dialogue system 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 528 747-752 2015年

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

  144. On appropriateness and estimation of the emotion of synthesized response speech in a spoken dialogue system 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 528 747-752 2015年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

  145. Entropy-Based Sentence Selection for Speech Synthesis Using Phonetic and Prosodic Contexts 査読有り

    Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga, Akinori Ito

    16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5 3491-3495 2015年

  146. Tempo Modification of Mixed Music Signal by Nonlinear Time Scaling and Sinusoidal Modeling 査読有り

    Tsukasa Nishino, Takashi Nose, Akinori Ito

    2015 INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP) 146-149 2015年

    DOI: 10.1109/IIH-MSP.2015.86  

  147. Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting 査読有り

    Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    2015 INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP) 433-436 2015年

    DOI: 10.1109/IIH-MSP.2015.85  

  148. On Appropriateness and Estimation of the Emotion of Synthesized Response Speech in a Spoken Dialogue System 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    HCI INTERNATIONAL 2015 - POSTERS' EXTENDED ABSTRACTS, PT I 528 747-752 2015年

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

  149. Latent words recurrent neural network language models 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2015-January 2380-2384 2015年

    ISSN:2308-457X

    eISSN:1990-9772

  150. Combinations of various language model technologies including data expansion and adaptation in spontaneous speech recognition 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2015-January 463-467 2015年

    ISSN:2308-457X

    eISSN:1990-9772

  151. Hierarchical latent words language models for robust modeling to out-of domain tasks 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing 1896-1901 2015年

    出版者・発行元: The Association for Computational Linguistics

    DOI: 10.18653/v1/d15-1217  

  152. Entropy-based sentence selection for speech synthesis using phonetic and prosodic contexts 査読有り

    Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2015-January 3491-3495 2015年

    ISSN:2308-457X

    eISSN:1990-9772

  153. Preface 査読有り

    Junzo Watada, Akinori Ito, Jeng Shyang Pan, Han Chieh Chao, Chien Ming Chen

    Proceedings - 2014 10th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2014 XXV 2014年12月24日

    DOI: 10.1109/IIH-MSP.2014.5  

  154. Analysis of english pronunciation of singing voices sung by Japanese speakers 査読有り

    Kazumichi Yoshida, Takashi Nose, Akinori Ito

    Proceedings - 2014 10th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2014 554-557 2014年12月24日

    DOI: 10.1109/IIH-MSP.2014.143  

  155. Assessing the Intended Enthusiasim of Singing Voice Using Energy Variance 査読有り

    Akinori Ito

    Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing 558-561 2014年12月24日

    DOI: 10.1109/IIH-MSP.2014.144  

  156. Teaching a robot where objects are: Specification of object location using human following and human orientation estimation 査読有り

    Keisuke Sakai, Yutaka Hiroi, Akinori Ito

    World Automation Congress Proceedings 490-495 2014年10月24日

    DOI: 10.1109/WAC.2014.6936012  

    ISSN:2154-4824

    eISSN:2154-4832

  157. Analysis of spectral enhancement using global variance in HMM-based speech synthesis 査読有り

    Takashi Nose, Akinori Ito

    Proceedings of Interspeech 2014年9月18日

  158. Accent type and phrase boundary estimation using acoustic and language models for automatic prosodic labeling 査読有り

    Tomoki Koriyama, Hiroshi Suzuki, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    Proceedings of Interspeech 2014年9月17日

  159. User modeling by using bag-of-behaviors for building a dialog system sensitive to the interlocutor's internal state 査読有り

    Yuya Chiba, Masashi Ito, Takashi Nose, Akinori Ito

    Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue 2014年7月18日

  160. TEMPO MODIFICATION OF MUSIC SIGNAL USING SINUSOIDAL MODEL AND LPC-BASED RESIDUE MODEL 査読有り

    Akinori Ito, Yuki Igarashi, Masashi Ito, Takashi Nose

    Proceedings of International Congress on Sound and Vibration 2014年7月13日

  161. User Modeling by Using Bag-of-Behaviors for Building a Dialog System Sensitive to the Interlocutor’s Internal State 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito, Masashi Ito

    Proceedings of 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue 74 2014年6月18日

  162. Packet loss concealment of voice-over IP packet using redundant parameter transmission under severe loss conditions 査読有り

    Takeshi Nagano, Akinori Ito

    Journal of Information Hiding and Multimedia Signal Processing 5 (2) 285-294 2014年4月

    ISSN:2073-4212

    eISSN:2073-4239

  163. Modeling User's State During Dialog Turn Using HMM For Multi-modal Spoken Dialog System 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Proceedings of The Seventh International Conference on Advances in Computer-Human Interactions 343-346 2014年3月2日

  164. 低リソースな計算機による音声認識の検討

    長野 雄, 伊藤 彰則, 大河 雄一

    日本音響学会2014年春季研究発表会講演論文集 67-70 2014年3月

    出版者・発行元: 日本音響学会

    ISSN:1880-7658

  165. Automatic evaluation of singing enthusiasm for karaoke 査読有り

    Ryunosuke Daido, Masashi Ito, Shozo Makino, Akinori Ito

    Computer Speech and Language 28 (2) 501-517 2014年3月

    DOI: 10.1016/j.csl.2012.07.007  

    ISSN:0885-2308

    eISSN:1095-8363

  166. Speech recognition in a home environment using parallel decoding with GMM-based noise modeling 査読有り

    Kohei Machida, Takashi Nose, Akinori Ito

    2014 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2014 2014年2月12日

    DOI: 10.1109/APSIPA.2014.7041622  

  167. Controlling Switching Pause Using an AR Agent for Interactive CALL System 査読有り

    Naoto Suzuki, Takashi Nose, Akinori Ito, Yutaka Hiroi

    Communications in Computer and Information Science 435 PART II 588-593 2014年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-3-319-07854-0_102  

    ISSN:1865-0929

  168. Manipulation of vocal signal in mixed music signal using side information of F0 and backing spectrum 査読有り

    Akinori Ito, Yuto Sasaki

    International Conference on Signal Processing Proceedings, ICSP 2015-January (October) 605-609 2014年

    DOI: 10.1109/ICOSP.2014.7015075  

    ISSN:2164-5221

  169. Analysis of spectral enhancement using global variance in HMM-based speech synthesis 査読有り

    Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2917-2921 2014年

    ISSN:2308-457X

    eISSN:1990-9772

  170. User modeling by using bag-of-behaviors for building a dialog system sensitive to the interlocutor's internal state 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito, Masashi Ito

    SIGDIAL 2014 - 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue, Proceedings of the Conference 74-78 2014年

    DOI: 10.3115/v1/w14-4310  

  171. Tempo modification of music signal using sinusoidal model and LPC-based residue model 査読有り

    Akinori Ito, Yuki Igarashi, Masashi Ito, Takashi Nose

    21st International Congress on Sound and Vibration 2014, ICSV 2014 1 928-935 2014年

  172. Modeling user's state during dialog turn using HMM for multi-modal spoken dialog system 査読有り

    Yuya Chiba, Akinori Ito, Masashi Ito

    ACHI 2014 - 7th International Conference on Advances in Computer-Human Interactions 343-346 2014年

  173. Foreword to the special issue on the speech communication and its related technologies 査読有り

    Akinori Ito

    Acoustical Science and Technology 34 (2) 63 2013年

    DOI: 10.1250/ast.34.63  

    ISSN:1346-3969

    eISSN:1347-5177

  174. ASAHI: OK for failure a robot for supporting daily life, equipped with a robot avatar 査読有り

    Yutaka Hiroi, Akinori Ito

    ACM/IEEE International Conference on Human-Robot Interaction 141-142 2013年

    DOI: 10.1109/HRI.2013.6483541  

    ISSN:2167-2148

    eISSN:2167-2148

  175. 拡張現実感を用いたロボットデザインの評価 査読有り

    廣井富, 伊藤彰則

    日本バーチャルリアリティ学会誌 18 (2) 161-170 2013年

    出版者・発行元: 特定非営利活動法人 日本バーチャルリアリティ学会

    DOI: 10.18974/tvrsj.18.2_161  

    ISSN:1344-011X

    詳細を見る 詳細を閉じる

    We can make a robot suitable for users' preference by designing its appearance and interaction through subjective evaluation. However, for evaluating users' impressions using real robots, it is necessary to build many robots with various specifications such as height, which is time-consuming and costly. In this paper, we propose a robot design methodology based on augmented reality (AR). We conducted experiments to evaluate a robot's head size using both AR and real robots, and similar results were obtained from both evaluation experiments in an environment with simple background. Next, we conducted experiments to evaluate a robot's head size using both AR and real robots in a real environment, and similar results were obtained from both evaluation experiments. From these experiments, we can conclude that the CG-based robot evaluation is as effective as that using real robots. In addition, the AR technology enables us to evaluate the robot in a real environment, which realizes more realistic evaluation of robot design without building real robots.

  176. Estimation of User's State during a Dialog Turn with Sequential Multi-modal Features 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Communications in Computer and Information Science 374 (PART II) 572-576 2013年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-3-642-39476-8_115  

    ISSN:1865-0929

  177. Multi-modal voice activity detection by embedding image features into speech signal 査読有り

    Yohei Abe, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 271-274 2013年

    出版者・発行元: IEEE Computer Society

    DOI: 10.1109/IIH-MSP.2013.76  

  178. Acoustic features and auditory impressions of death growl and screaming voice 査読有り

    Keizo Kato, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 460-463 2013年

    DOI: 10.1109/IIH-MSP.2013.120  

  179. Speech recognition under noisy environments using multiple microphones based on asynchronous and intermittent measurements 査読有り

    Kohei Machida, Akinori Ito

    2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2013 1-4 2013年

    DOI: 10.1109/APSIPA.2013.6694362  

  180. ASAHI: OK for Failure A Robot for Supporting Daily Life, Equipped with a Robot Avatar 査読有り

    Yutaka Hiroi, Akinori Ito

    PROCEEDINGS OF THE 8TH ACM/IEEE INTERNATIONAL CONFERENCE ON HUMAN-ROBOT INTERACTION (HRI 2013) 141-+ 2013年

    DOI: 10.1109/HRI.2013.6483541  

    ISSN:2167-2121

  181. A packet loss recovery of G.729 speech using discriminative model and N-gram 査読有り

    Takeshi Nagano, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 267-270 2013年

    DOI: 10.1109/IIH-MSP.2013.75  

  182. Evaluation of sinusoidal modeling for polyphonic music signal 査読有り

    Yuki Igarashi, Masashi Ito, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 464-467 2013年

    DOI: 10.1109/IIH-MSP.2013.121  

  183. A Mobile Robot System With Semi-Autonomous Navigation Using Simple And Robust Person Following Behavior 査読有り

    Yutaka Hiroi, Shohei Matsunaka, Akinori Ito

    Journal of Man, Machine and Technology 1 (1) 44-62 2012年12月

    DOI: 10.4156/jmmt.vol1.issue1.4  

  184. Packet Loss Concealment of VoIP Under Severe Loss Conditions 査読有り

    Akinori Ito, Takeshi Nagano

    International Symposium on Wireless Personal Multimedia Communication 2012年9月24日

  185. Advanced Information Hiding for G.711 Telephone Speech 査読有り

    Akinori Ito, Yoiti Suzuki

    Multimedia Information Hiding Technologies and Methodologies for Controlling Data 2012年9月23日

  186. 災害に役立つ情報通信サービス 招待有り

    庄司貞雄, 青木孝文, 伊藤彰則, 大町真一郎, 伊藤康一

    電子情報通信学会技術研究報告 112 (209) 69-70 2012年9月

    詳細を見る 詳細を閉じる

    NS2012-64,IN2012-62,CS2012-53

  187. Model shrinkage for discriminative language models 査読有り

    Takanobu Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

    IEICE Transactions on Information and Systems E95-D (5) 1465-1474 2012年5月

    DOI: 10.1587/transinf.E95.D.1465  

    ISSN:0916-8532

    eISSN:1745-1361

  188. On short essays carried in the acoustical science and technology

    Ito, A.

    Acoustical Science and Technology 33 (1) 72-72 2012年

    DOI: 10.1250/ast.33.72  

  189. 混合音響信号の正弦波モデルによる分析合成

    五十嵐 佑樹, 伊藤 仁, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 187-187 2012年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_187  

  190. 口唇画像情報の音声信号へのデータハイディング

    阿部 洋平, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 188-188 2012年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_188  

  191. 断片的な環境測定に基づく雑音除去の検討

    町田 晃平, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 184-184 2012年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_184  

  192. 人間共存型ロボットのための呼びかけ制御の検討

    戸塚 典子, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 149-149 2012年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_149  

  193. Effect of Linguistic Contents on Human Estimation of Internal State of Dialog System Users 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Proceedings of The Interdisciplinary Workshop on Feedback Behavior in Dialog 11-14 2012年

  194. Round-robin duel discriminative language models 査読有り

    Takanobul Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

    IEEE Transactions on Audio, Speech and Language Processing 20 (4) 1244-1255 2012年

    DOI: 10.1109/TASL.2011.2174225  

    ISSN:1558-7916

    eISSN:1558-7924

  195. Robust Transmission of Audio Signals over the Internet: An Advanced Packet Loss Concealment for MP3-Based Audio Signals 査読有り

    Akinori Ito, Kiyoshi Konno, Masashi Ito, Shozo Makino

    Interdisciplinary Information Sciences 18 (2) 99-105 2012年

    出版者・発行元: The Editorial Committee of the Interdisciplinary Information Sciences

    DOI: 10.4036/iis.2012.99  

    ISSN:1340-9050

    詳細を見る 詳細を閉じる

    This paper describes packet loss concealment methods for MP3 audio. The proposed methods are based on estimation of modified discrete cosine transform (MDCT) coefficients of the lost packets. The estimation of MDCT coefficients of lower dimensions is performed by switching two concealment methods: the sign correction method and the correlation-based method. The concealment methods are switched based on redundant side information calculated subband-by-subband for reducing MDCT prediction errors. Next, a method for improving estimation of MDCT coefficients of higher dimensions was proposed. The method estimates the absolute value and sign of an MDCT coefficient independently. The subjective evaluation experiment proved that both of the improvement methods for lower and higher dimensions effectively improved the subjective audio quality.

  196. Mobile Robot System With Semi-Autonomous Navigation Using Simple And Robust Person Following Behavior 査読有り

    Yutaka Hiroi, Shohei Matsunaka, Akinori Ito

    Journal of Man, Machine and Technology 1 (1) 44-62 2012年

  197. Spoken document retrieval by discriminative modeling in a high dimensional feature space 査読有り

    Takanobu Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 5153-5156 2012年

    DOI: 10.1109/ICASSP.2012.6289080  

    ISSN:1520-6149

  198. Estimating a user's internal state before the first input utterance 査読有り

    Yuya Chiba, Akinori Ito

    Advances in Human-Computer Interaction 2012 2012年

    DOI: 10.1155/2012/865362  

    ISSN:1687-5893

    eISSN:1687-5907

  199. Effect of robot height on comfortableness of spoken dialog 査読有り

    Yutaka Hiroi, Takayuki Nakayama, Hisanori Kuroda, Shinji Miyake, Akinori Ito

    International Conference on Human System Interaction, HSI 29-34 2012年

    DOI: 10.1109/HSI.2012.14  

    ISSN:2158-2246

    eISSN:2158-2254

  200. Estimation of User’s Internal State before the User’s First Utterance Using Acoustic Features and Face Orientation 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Proceedings of 5th International Conference on Human System Interaction 23-28 2012年

    DOI: 10.1109/HSI.2012.13  

    ISSN:2158-2246

    eISSN:2158-2254

  201. Recognition of utterances with grammatical mistakes based on optimization of language model towards interactive CALL systems 査読有り

    Takuya Anzai, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

  202. A Japanese lyrics writing support system for amateur songwriters 査読有り

    Chihiro Abe, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

  203. A spoken dialogue system using virtual conversational agent with augmented reality 査読有り

    Shinji Miyake, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

  204. A packet loss recovery of G.729 speech under severe packet loss condition 査読有り

    Takeshi Nagano, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

  205. Automatic assessment of easiness of Japanese for writing aid of "Easy Japanese" 査読有り

    Meng Zhang, Akinori Ito, Kazuyuki Sato

    ICALIP 2012 - 2012 International Conference on Audio, Language and Image Processing, Proceedings 303-307 2012年

    DOI: 10.1109/ICALIP.2012.6376630  

  206. Packet loss concealment of VoIP under severe loss conditions 査読有り

    Akinori Ito, Takeshi Nagano

    International Symposium on Wireless Personal Multimedia Communications, WPMC 489-490 2012年

    ISSN:1347-6890

  207. Influence of the size factor of a mobile robot moving toward a human on subjective acceptable distance 査読有り

    Hiroi, Yutaka, Ito, Akinori

    Mobile Robots-Current Trends 177-190 2011年10月26日

    出版者・発行元: IntechOpen

  208. A System for Evaluating Singing Enthusiasm for Karaoke 査読有り

    Ryunosuke Daido, Seong-Jun Hahm, Masashi Ito, Shozo Makino, Akinori Ito

    Proceedings of International Society of Music Information Retrieval Conference 31-36 2011年10月24日

  209. Find out what a user doing before the first utterance: discrimination of user's internal state using non-verbal information 査読有り

    Yuya Chiba, Akinori Ito

    Proceedings of Asian-Pacific Signal and Information Processing Association Annual Summit and Conference 2011年10月19日

  210. 統計的言語モデルを用いた作詞補助システム

    阿部 ちひろ, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 141-141 2011年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_141  

  211. 雑音環境下での頑健な単語検出

    藤田 一暁, 咸 聖俊, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 184-184 2011年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_184  

  212. 音声合成用コーパス作成方式に関する研究

    加藤 圭造, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 187-187 2011年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_187  

  213. 拡張現実感を用いたバーチャル対話エージェントに関する研究

    三宅 真司, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 77-77 2011年

    出版者・発行元: 電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_77  

  214. Utterance classification for combination of multiple simple dialog systems 査読有り

    Seong Jun Hahm, Akinori Ito, Kentaro Awano, Masashi Ito, Shozo Makino

    Proceedings - 9th IEEE International Symposium on Parallel and Distributed Processing with Applications Workshops, ISPAW 2011 - ICASE 2011, SGH 2011, GSDP 2011 171-176 2011年

    DOI: 10.1109/ISPAW.2011.74  

  215. Bit rate reduction of the MELP coder using Lempel-Ziv segment quantization 査読有り

    Minoru Kohata, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 5240-5243 2011年

    DOI: 10.1109/ICASSP.2011.5947539  

    ISSN:1520-6149

  216. Round-robin duel discriminative language models in one-pass decoding with on-the-fly error correction 査読有り

    Takanobu Oba, Takaaki Hori, Akinori Ito, Atsushi Nakamura

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 5588-5591 2011年

    DOI: 10.1109/ICASSP.2011.5947626  

    ISSN:1520-6149

  217. Evaluation of Abnormal Sound Detection using Multi-stage GMM in Various Environments 査読有り

    Akinori Ito, Akihito Aiba, Masashi Ito, Shozo Makino

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 308-+ 2011年

  218. Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 1465-1468 2011年

    eISSN:1990-9772

  219. Language model expansion using webdata for spoken document retrieval 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2133-2136 2011年

    eISSN:1990-9772

  220. Manipulating vocal signal in mixed music sounds using small amount of side information 査読有り

    Yuto Sasaki, Seong Jun Hahm, Akinori Ito

    Proceedings - 7th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIHMSP 2011 298-301 2011年

    DOI: 10.1109/IIHMSP.2011.21  

  221. Evaluation of abnormal sound detection using multi-stage GMM in various environments 査読有り

    Akinori Ito, Akihito Aiba, Masashi Ito, Shozo Makino

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 301-304 2011年

    eISSN:1990-9772

  222. Toward human-robot interaction design through human-human interaction experiment 査読有り

    Yutaka Hiroi, Akinori Ito

    Lecture Notes in Electrical Engineering 133 LNEE (VOL. 2) 127-130 2011年

    DOI: 10.1007/978-3-642-25992-0_18  

    ISSN:1876-1100

    eISSN:1876-1119

  223. Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 1476-1479 2011年

  224. A system for evaluating singing enthusiasm for karaoke 査読有り

    Ryunosuke Daido, Seong Jun Hahm, Masashi Ito, Shozo Makino, Akinori Ito

    Proceedings of the 12th International Society for Music Information Retrieval Conference, ISMIR 2011 31-36 2011年

  225. Language model expansion using webdata for spoken document retrieval 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 2144-2147 2011年

  226. Find out what a user is doing before the first utterance: Discrimination of user's internal state using non-verbal information 査読有り

    Yuya Chiba, Seongjun Hahm, Akinori Ito

    APSIPA ASC 2011 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2011 906-909 2011年

  227. Multiple description coding using time domain division for MP3 coded sound signal 査読有り

    Ho seok Wey, Akinori Ito, Takuma Okamoto, Yoiti Suzuki

    Journal of Information Hiding and Multimedia Signal Processing 1 (4) 269-285 2010年10月

    ISSN:2073-4212

    eISSN:2073-4239

  228. Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model 査読有り

    Seong Jun Hahm, Yuichi Ohkawa, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEICE Transactions on Information and Systems E93-D (9) 2407-2416 2010年9月

    DOI: 10.1587/transinf.E93.D.2407  

    ISSN:0916-8532

    eISSN:1745-1361

  229. Evaluation of head size of an interactive robot using augmented reality 査読有り

    Yutaka Hiroi, Shuhei Hisano, Akinori Ito

    Proceedings of International Symposium on Robotics and Automation 2010年9月

  230. An HMM‐based segment quantizer and its application to low bit rate speech coding 査読有り

    Motoyuki Suzuki, Masashi Adachi, Minoru Kohata, Akinori Ito, Shozo Makino, Fuji Ren

    Proceedings of International Congress on Acoustics 2010年8月

  231. Multiple description coding for MP3 coded sound signal 査読有り

    Ho-seok Wey, Akinori Ito, Takuma Okamoto, Yoiti Suzuki

    Proceedings of International Congress on Acoustics 2010年8月

  232. Improved reference speaker weighting using aspect model 査読有り

    Seong Jun Hahm, Yuichi Ohkawa, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEICE Transactions on Information and Systems E93-D (7) 1927-1935 2010年7月

    DOI: 10.1587/transinf.E93.D.1927  

    ISSN:0916-8532

    eISSN:1745-1361

  233. Information hiding for G.711 speech based on substitution of least significant bits and estimation of tolerable distortion 査読有り

    Akinori Ito, Shun'Ichiro Abe, Yôiti Suzuki

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences E93-A (7) 1279-1286 2010年7月

    DOI: 10.1587/transfun.E93.A.1279  

    ISSN:0916-8508

    eISSN:1745-1337

  234. 時間冗長性圧縮によるボコーダ型音声符号化の低ビットレート化 査読有り

    木幡 稔, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 93 (5) 588-597 2010年5月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    これまでに筆者らは,連続情報源に含まれる時間的な冗長性を圧縮符号化する方式として,新しいセグメント量子化法であるLempel-Ziv Segment Quantization(LZSQ)を提案した.これは,離散情報源用の圧縮法であるLZ符号化を連続情報源に適用できるように修正したものである.本論文ではLZSQをボコーダ型の低ビット音声符号化方式に適用し,時間冗長性を圧縮することにより,更なるビットレートの削減を試みる.ボコーダ型符号化においては音質を維持するためにはビットレートの下限が2.4kbit/s程度であるといわれているが,LZSQを適用することで,音質を維持しつつ更に低レート化することが可能となる.本論文では,標準化されているボコーダ型音声符号化方式の一つである2.4kbit/sMELP符号化の6個の符号化パラメータにLZSQを適用することにより,MELP符号化と同等の音質を維持しつつ極限までビットレートを削減することを試みた.その結果,総ビットレートを約1.57kbit/sまで低減することができた.

  235. Packet loss concealment for mdct-based audio codec using correlation-based side information 査読有り

    Akinori Ito, Toshiyuki Sakai, Kiyoshi Konno, Shozo Makino, Motoyuki Suzuki

    International Journal of Innovative Computing, Information and Control 6 (3) 1347-1361 2010年3月

    ISSN:1349-4198

  236. Intonation evaluation of english utterances using synthesized speech for computer-assisted language learning 査読有り

    Akinori Ito, Tomoaki Konno, Masashi Ito, Shozo Makino, Motoyuki Suzuki

    International Journal of Innovative Computing, Information and Control 6 (3) 1501-1514 2010年3月

    ISSN:1349-4198

  237. ADPCM 出力とサンプルの絶対値を考慮したG.711 への固定ビットレート情報ハイディング 査読有り

    伊藤彰則, 半田浩規, 鈴木陽一

    電子情報通信学会論文誌(A) J93-A (2) 82-90 2010年2月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:0913-5707

    詳細を見る 詳細を閉じる

    本論文では,G.711符号化音声に対し,固定ビットレートで情報を埋め込むことのできる情報ハイディング法を提案する.従来我々が提案していた「ADPCMに基づくG.711への情報ハイディング法」は,埋め込むことのできる情報量が多く,ホスト音声信号の劣化も少ない方法であるが,ビットレートの厳密な制御ができないという欠点があった.そこで我々は,ADPCMに基づく情報ハイディング法と,青木によって提案された「選択的LSB置換法」とを組み合わせることによって固定ビットレートを実現する.提案法は,まずADPCMに基づく情報ハイディング法によって埋め込む情報量を計算し,目標ビットレートよりも多い場合には埋込情報を削り,足りない場合には選択的LSB置換法によってビットを追加する.埋込情報の削減には2種類の方法を試した.評価実験の結果,埋込ビットレートが4kbit/s以上の場合において提案法は選択的LSB置換法よりも有意に高品質であり,特に埋込ビットレートが8kbit/sの場合の性能向上が大きかった.

  238. Source-filter separation for nonstationary voiced speech based on sinusoidal representation 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    Acoustical Science and Technology 31 (2) 181-184 2010年

    DOI: 10.1250/ast.31.181  

    ISSN:1346-3969

    eISSN:1347-5177

  239. Designing side information of multiple description coding 査読有り

    Akinori Ito, Shozo Makino

    Journal of Information Hiding and Multimedia Signal Processing 1 (1) 10-19 2010年1月

    ISSN:2073-4212

    eISSN:2073-4239

  240. Aspect-model-based reference speaker weighting 査読有り

    Seongjun Hahm, Yuichi Ohkawa, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 4302-4305 2010年

    DOI: 10.1109/ICASSP.2010.5495672  

    ISSN:1520-6149

  241. Document expansion using relevant web documents for spoken document retrieval 査読有り

    Ryo Masumura, Akinori Ito, Yu Uno, Masashi Ito, Shozo Makino

    Proceedings of the 6th International Conference on Natural Language Processing and Knowledge Engineering, NLP-KE 2010 612-619 2010年

    DOI: 10.1109/NLPKE.2010.5587854  

  242. An Effect of Formant Amplitude in Vowel Perception 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4 2494-+ 2010年

  243. Improvement of packet loss concealment for MP3 audio based on switching of concealment method and estimation of MDCT signs 査読有り

    Akinori Ito, Kiyoshi Konno, Masashi Itot, Shozo Makino

    Proceedings - 2010 6th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIHMSP 2010 518-521 2010年

    DOI: 10.1109/IIHMSP.2010.132  

  244. A query-by-humming music information retrieval from audio signals based on multiple F0 candidates 査読有り

    Akinori Ito, Yu Kosugi, Shozo Makino, Masashi Ito

    ICALIP 2010 - 2010 International Conference on Audio, Language and Image Processing, Proceedings 1-5 2010年

    DOI: 10.1109/ICALIP.2010.5685029  

  245. A spoken dialog system based on automatically-generated example database 査読有り

    Akinori Ito, Takahiro Morimoto, Shozo Makino, Masashi Ito

    ICALIP 2010 - 2010 International Conference on Audio, Language and Image Processing, Proceedings 732-736 2010年

    DOI: 10.1109/ICALIP.2010.5685069  

  246. Grammatical error detection from English utterances spoken by Japanese 査読有り

    Takuya Anzai, Seongjun Hahm, Akinori Ito, Masashi Ito, Shozo Makino

    APSIPA ASC 2010 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 482-485 2010年

  247. Speech recognition based on tree-structured clustering and aspect model in multiple noise environments 査読有り

    Seong Jun Hahm, Yuichi Ohkawa, Motoyuki Suzuki, Masashi Ito, Shozo Makino, Akinori Ito

    APSIPA ASC 2010 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 454-457 2010年

  248. Evaluation of head size of an interactive robot using an augmented reality 査読有り

    Yutaka Hiroi, Shuhei Hisano, Akinori Ito

    2010 World Automation Congress, WAC 2010 2010年

  249. An effect of formant amplitude in vowel perception 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    Proceedings of the 11th Annual Conference of the International Speech Communication Association, INTERSPEECH 2010 2490-2493 2010年

  250. Multiple description coding for an MP3 coded sound signal 査読有り

    Ho Seok Wey, Akinori Ito, Takuma Okamoto, Yôiti Suzuki

    20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society 4 3081-3088 2010年

  251. An HMM-based segment quantizer and its application to low bit rate speech coding 査読有り

    Motoyuki Suzuki, Masashi Adachi, Minoru Kohata, Akinori Ito, Shozo Makino, Fuji Ren

    20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society 5 3877-3880 2010年

  252. A speaker adaptation method for non-native speech using learners' native utterances for computer-assisted language learning systems 査読有り

    Yuichi Ohkawa, Motoyuki Suzuki, Hirokazu Ogasawara, Akinori Ito, Shozo Makino

    SPEECH COMMUNICATION 51 (10) 875-882 2009年10月

    DOI: 10.1016/j.specom.2009.05.005  

    ISSN:0167-6393

    eISSN:1872-7182

  253. Multiple Description Coding of Flash Video based on Adaptive Allocation of DCT Coefficients 査読有り

    Akinori Ito, Takuya Kuraishi, Masashi Ito, Shozo Makino

    Proc. 1st Asian-Pacific Signal&Info. Proc. Assoc. Annual Summit & Conf. (APSIPA ASC 2009) 2009年10月

  254. 混合重み再学習を用いた単語モデルによる連続音声認識

    大越真裕美, 鈴木基之, 大河雄一, 伊藤彰則, 牧野正三

    日本音響学会 2009年春季研究発表会講演論文集,1-P-23 2009年3月

  255. Query-by-Humming based Music Information Retrieval System Based on Novel Tonal Feature and Statistical Modeling 査読有り

    Motoyuki Suzuki, Takuto Ichikawa, Akinori Ito, Shozo Makino

    IPSJ Journal 50 (3) 1100-1110 2009年3月

  256. Novel Tonal Feature and Statistical User Modeling for Query-by-Humming

    Suzuki Motoyuki, Ichikawa Takuto, Ito Akinori, Makino Shozo

    Information and Media Technologies 4 (2) 498-508 2009年

    出版者・発行元: Information and Media Technologies 編集運営会議

    DOI: 10.11185/imt.4.498  

    詳細を見る 詳細を閉じる

    This paper describes a query-by-humming (QbH) music information retrieval (MIR) system based on a novel tonal feature and statistical modeling. Most QbH-MIR systems use a pitch extraction method in order to obtain tonal features of an input humming. In these systems, pitch extraction errors inevitably occur and degrade the performance of the system. In the proposed system, a cross-correlation function between two logarithmic frequency spectra is calculated as a tonal feature instead of a difference of two successive pitch frequencies, and probabilistic models are prepared for all tone intervals existing in the database. The similarity scores between an input humming and musical pieces in a database are calculated using the probabilistic models. The advantages of this system are that it can obtain more appropriate tonal features than the pitch-based method, and it is also robust against inaccurate humming by the user thanks to its statistical approach. From experimental results, the top-1 retrieval accuracy given by the proposed method was 86.8%, which was more than 10 points higher than the conventional single pitch method. Moreover, several integration methods were applied to the proposed method with several conditions. The majority decision method showed the highest accuracy, and 5% reduction of retrieval error was obtained.

  257. Dictation of Japanese Speech Based on Kana and Kanji Character String 査読有り

    Ito, Akinori, Kinno, Hiroaki, Katoh, Masaharu, Kosaka, Tetsuo, Kohda, Masaki

    International Journal of Computer Processing Of Languages 22 (01) 75-98 2009年

    出版者・発行元: World Scientific

  258. Fast and Robust Training of a Probabilistic Latent Semantic Analysis Model by the Parallel Learning and Data Segmentation 査読有り

    Kato, Masaharu, Kosaka, Tetsuo, Ito, Akinori, Makino, Shozo

    Journal of Communication and Computer 6 (5) 28-35 2009年

    出版者・発行元: 美國大衛出版公司

  259. Evaluation of Robot-Avatar-based User-Familiarity Improvement for Elderly People 査読有り

    Yutaka Hiroi, Akinori Ito

    Kansei Engineering International 8 (1) 59-66 2009年1月

    DOI: 10.5057/ER080218-1  

  260. Effect of the size factor on psychological threat of a mobile robot moving toward human 査読有り

    Hiroi, Yutaka, Ito, Akinori

    KANSEI Engineering International 8 (1) 51-58 2009年1月

    出版者・発行元: Japan Society of Kansei Engineering

    DOI: 10.5057/ER080206-1  

  261. Bit rate reduction of mixed excitation linear prediction coder by Lempel-Ziv segment quantization 査読有り

    Minora Kohata, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Acoustical Science and Technology 30 (2) 136-138 2009年

    DOI: 10.1250/ast.30.136  

    ISSN:1346-3969 1347-5177

  262. INFORMATION HIDING FOR G.711 SPEECH BASED ON SUBSTITUTION OF LEAST SIGNIFICANT BITS AND ESTIMATION OF TOLERABLE DISTORTION 査読有り

    Akinori Ito, Shun'ichiro Abe, Yoiti Suzuki

    2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1- 8, PROCEEDINGS 1409-+ 2009年

    DOI: 10.1109/ICASSP.2009.4959857  

    ISSN:1520-6149

  263. Detection of abnormal sound using multi-stage GMM for surveillance microphone 査読有り

    Akinori Ito, Akihito Aiba, Masashi Ito, Shozo Makino

    5th International Conference on Information Assurance and Security, IAS 2009 1 733-736 2009年

    DOI: 10.1109/IAS.2009.160  

  264. A band extension of G.711 speech with low computational cost for data hiding application 査読有り

    Akinori Ito, Hironori Handa, Yôiti Suzuki

    IIH-MSP 2009 - 2009 5th International Conference on Intelligent Information Hiding and Multimedia Signal Processing 491-494 2009年

    DOI: 10.1109/IIH-MSP.2009.69  

  265. Data hiding is a better way for transmitting side information for MP3 bitstream 査読有り

    Akinori Ito, Shozo Makino

    IIH-MSP 2009 - 2009 5th International Conference on Intelligent Information Hiding and Multimedia Signal Processing 495-498 2009年

    DOI: 10.1109/IIH-MSP.2009.55  

  266. Relative importance of formant and whole-spectral cues for vowel perception 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 132-+ 2009年

  267. Evaluation of English Intonation based on Combination of Multiple Evaluation Scores 査読有り

    Akinori Ito, Tomoaki Konno, Masashi Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 596-599 2009年

  268. Detailed description of triphone model using SSS-free algorithm 査読有り

    Motoyuki Suzuki, Daisuke Honma, Akinori Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 1403-+ 2009年

  269. Relevant document retrieval using a spoken document 査読有り

    Akinori Ito, Yu Uno, Ryo Masumura, Masashi Ito, Shozo Makino

    2009 9th International Symposium on Communications and Information Technology, ISCIT 2009 1483-1488 2009年

    DOI: 10.1109/ISCIT.2009.5341051  

  270. Multiple description coding for wideband audio signal transmission 査読有り

    Hoseok Wey, Akinori Ito, Yôiti Suzuki

    Proceedings of 2009 IEEE International Conference on Network Infrastructure and Digital Content, IEEE IC-NIDC2009 769-773 2009年

    DOI: 10.1109/ICNIDC.2009.5360882  

  271. Automatic query generation and query relevance measurement for unsupervised language model adaptation of speech recognition 査読有り

    Akinori Ito, Yasutomo Kajiura, Motoyuki Suzuki, Shozo Makino

    Eurasip Journal on Audio, Speech, and Music Processing 2009 2009年

    DOI: 10.1155/2009/140575  

    ISSN:1687-4714

    eISSN:1687-4722

  272. 音素トライフォンの混合重み再学習に基づく孤立単語認識

    大越真裕美, 鈴木基之, 大河雄一, 伊藤彰則, 牧野正三

    日本音響学会 2008年秋季研究発表会講演論文集 123-124 2008年9月

  273. Are Bigger Robots Scary? -The Relationship between Robot Size and Psychological Threat- 査読有り

    Yutaka Hiroi, Akinori Ito

    Proceedings of International Conference on Advanced Intelligent Mechatronics 540-545 2008年7月

  274. 人間共存型ロボットのためのロボットアバタを用いた親しみ感の向上 査読有り

    廣井 富, 伊藤 彰則, 中野 栄二

    日本感性工学会研究論文集 7 (4) 797-805 2008年4月

    出版者・発行元: Japan Society of Kansei Engineering

    DOI: 10.5057/jjske2001.7.797  

    ISSN:1346-1958

    詳細を見る 詳細を閉じる

    Familiarity is one of the most important requirements for human symbiosis robots such as care service robot. Many studies have been made to provide robots with the familiarity by improving their appearance, facial expression and smoothness of the movement. This paper presents a new concept, called a "robot avatar."A robot avatar is a small robot mounted on a main robot and equipped with minimum function to play some gestures according to every scene of the task execution of the main robot. By looking at the avatar, a user feels as if the avatar is controlling the main robot. Therefore a user is informed of the next behavior of the main robot by the avatar. A prototype of the avatar named CHIRIS is designed and installed to an intelligent service robot IRIS developed by the authors. IRIS can execute some simple tasks such as serving beverages by verbal request of the user. Utilizing CHIRIS, some psychological tests about the impression of IRIS during its task execution were carried out using video. Test results showed that CHIRIS is effective to give more familiar impression to the users.

  275. Multiple description coding of an audio stream by optimum recovery transforms 査読有り

    Akinori Ito, Shozo Makino

    Journal of Digital Information Management 6 (2) 189-195 2008年4月

  276. Selection of optimum vocabulary and dialog strategy for noise-robust spoken dialog systems 査読有り

    Akinori Ito, Takanobu Oba, Takashi Konashi, Motoyuki Suzuki, Shozo Makino

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E91D (3) 538-548 2008年3月

    DOI: 10.1093/ietisy/e9l-d.3.538  

    ISSN:0916-8532

  277. 決定木を用いた単語クラスタリングによる英語韻律自動評価の高精度化 査読有り

    伊藤彰則, 今野樹, 鈴木基之, 牧野正三

    電子情報通信学会論文誌D J91-D (2) 358-366 2008年2月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    日本人の発声した英語音声のリズムとイントネーションの正しさを自動評価する手法を開発した.リズムに関しては,学習者音声と教師音声の単語持続時間の比,及び学習者音声と教師音声の単語のパワーパターンの距離を用い,ネイティブ評定者による評定値との相関-0.55を得た,イントネーションに関しては,基本周波数と対数パワーを特徴量とし,学習者音声と教師音声の距離を求めた.これに加えて,音声中における韻律の重要度の違いを表現するため,音声中の単語ごとに重要度係数を導入した韻律スコア算出法を提案した.音声中の単語と係数との最適な対応を求めるため,決定木を用いた単語クラスタリングを行う.イントネーションスコア計算に重要度係数を導入し,ネイティブ評定者による評定値との相関0.45を得た.これらの結果は,いずれも従来手法による相関と比較して有意な改善であった.

  278. 小型ロボットによる音声認識のための内部雑音抑圧法 査読有り

    伊藤彰則, 金山高志, 鈴木基之, 牧野正三

    ヒューマンインタフェース学会誌 10 (1) 1-10 2008年2月

  279. ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(画像符号化,通信・ストリーム技術,一般)

    倉石 卓也, 伊藤 仁, 伊藤 彰則, 牧野 正三

    映像情報メディア学会技術報告 32 35-40 2008年

    出版者・発行元: 一般社団法人 映像情報メディア学会

    DOI: 10.11485/itetr.32.56.0_35  

    詳細を見る 詳細を閉じる

    Multiple Description(MD)符号化はバースト欠落によるパケットロスを隠蔽する効果的な手法の一つである.この手法では入力情報を複数のストリームに分割し,それらの相関関係を冗長情報化して付与する処理を行う.パケットロスが発生した場合,冗長情報を利用してほとんどの入力情報を復元する事が可能である.この報告で我々はビットストリームパターンを考慮した適応的なFlash Video(FLV)のMD符号化を提案する.提案法のパケットロスに対する有効性は実動画像を用いて確かめられ,関連研究の方法と比べて大幅に低い冗長度で同等の品質を得られる事が確認された.

  280. Automatic evaluation system of English prosody based on word importance factor 査読有り

    Suzuki, Motoyuki, Konno, Tatsuki, Ito, Akinori, Makino, Shozo

    Journal of Systemics, Cybernetics and Informatics 6 (4) 83-90 2008年

  281. An unsupervised language model adaptation based on keyword clustering and query availability estimation 査読有り

    Akinori Ito, Yasutomo Kajiura, Shozo Makino, Motoyuki Suzuki

    2008 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING, VOLS 1 AND 2, PROCEEDINGS 1412-1418 2008年

    DOI: 10.1109/ICALIP.2008.4590103  

  282. Packet loss concealment for MDCT-based audio codec using correlation-based side information 査読有り

    Akinori Ito, Kiyoshi Konno, Shozo Makino, Motoyuki Suzuki

    2008 FOURTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, PROCEEDINGS 612-+ 2008年

    DOI: 10.1109/IIH-MSP.2008.103  

  283. Discrimination of Task-Related Words for Vocabulary Design of Spoken Dialog Systems 査読有り

    Akinori Ito, Toyomi Meguro, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 207-+ 2008年

  284. A Fast Speaker Adaptation Method using Aspect Model 査読有り

    Seongjun Hahm, Akinori Ito, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 1221-1224 2008年

  285. Recognition of English Utterances with Grammatical and Lexical Mistakes for Dialogue-based CALL System 査読有り

    Akinori Ito, Ryohei Tsutsui, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 2819-2822 2008年

  286. Intonation Evaluation of English Utterances using Synthesized Speech for Computer-Assisted Language Learning 査読有り

    Tomoaki Konno, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEEE NLP-KE 2008: PROCEEDINGS OF INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND KNOWLEDGE ENGINEERING 202-+ 2008年

    DOI: 10.1109/NLPKE.2008.4906807  

  287. 28.LogPCMおよびADPCMへのMultiple Descriptionスカラー量子化の適用 査読有り

    魏浩石, 西村竜一, 伊藤彰則, 小林まおり, 鈴木陽一

    電子情報通信学会論文誌A J90-A (12) 918-921 2007年12月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:0913-5707

    詳細を見る 詳細を閉じる

    音声通信のように実時間性が要求される通信では,パケットロスの発生は受信側での著しい品質劣化へつながる問題になる.本論文では,このような問題の回避法として情報源を複数の部分情報に分け,どの部分情報から復元してももとの品質よりは低いものの一定の品質が確保でき,すべての部分情報を集めるともとの品質を完全に再現できる"Multiple Description (MD)"符号化技術に基づいた量子化手法を,音声符号化手法へ適用することを試みた.別々の部分情報を複数の経路で伝送することで,パケットロスに頑健にできると考えられる.SN比とケプストラム距離,DMOS値を測定して性能を評価し,有効性を確認した.

  288. 複数パスを有する音素モデル連結のためのパス間接続確率の平滑化法の検討

    本間大輔, 大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    日本音響学会2007年秋季研究発表会講演論文集 135-136 2007年9月

  289. Reduction Method of Side Information for Packet Loss Concealment Based on Spectrum Striping Coding 査読有り

    Motoyuki Suzuki, Toshiyuki Sakai, Akinori Ito, Shozo Makino

    Proceedings of 19th International Congress of Acoustics 2007年9月

  290. Detection and Direction Estimation of Calling Voice 査読有り

    Akinori Ito, Kota Kitadate, Motoyuki Suzuki, Shozo Makino

    Proceedings of 19th International Congress of Acoustics 2007年9月

  291. Packet Loss Concealment of an Audio Stream by Time Domain and Frequency Domain Multiple Description 査読有り

    Akinori Ito, Toshiyuki Sakai, Motoyuki Suzuki, Shozo Makino

    Proceedings of Japan-China Joint Conference on Acoustics 2007年6月

  292. Application of Multiple Description (MD) scalar quantization to speech codec 査読有り

    Ho seok Wey, Ryouichi Nishimura, Akinori Ito, Maori Kobayashi, Yoiti Suzuki

    Proceedings of Japan-China Joint Conference on Acoustics 2007年6月

  293. A new segment quantization using Lempel-Ziv algorithm and its application to quantization of line spectral frequencies 査読有り

    Minoru Kohata, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEEE TRANSACTIONS ON COMMUNICATIONS 55 (4) 661-664 2007年4月

    DOI: 10.1109/TCOMM.2007.894090  

    ISSN:0090-6778

  294. HMnetのパス接続確率を利用した音素認識の検討

    本間大輔, 大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    日本音響学会2007年春季研究発表会講演論文集 53-54 2007年3月

  295. Music information retrieval from a singing voice using lyrics and melody information 査読有り

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito

    Eurasip Journal on Advances in Signal Processing 2007 2007年

    DOI: 10.1155/2007/38727  

    ISSN:1110-8657 1687-0433

  296. Automatic evaluation system of English prosody for Japanese learner's speech 査読有り

    Motoyuki Suzuki, Tatsuki Konno, Akinori Ito, Shozo Makino

    IMSCI '07: INTERNATIONAL MULTI-CONFERENCE ON SOCIETY, CYBERNETICS AND INFORMATICS, VOL 1, PROCEEDINGS 48-53 2007年

  297. Increasing correlation using a few bits for multiple description coding 招待有り 査読有り

    Akinori Ito, Shozo Makino

    2007 THIRD INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL II, PROCEEDINGS 259-262 2007年

    DOI: 10.1109/IIHMSP.2007.4457700  

  298. Music information retrieval from a singing voice using lyrics and melody information 査読有り

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito, Shozo Makino

    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2007年

    DOI: 10.1155/2007/38727  

    ISSN:1687-6180

  299. Pronunciation error detection for computer-assisted language learning system based on error rule clustering using a decision tree 査読有り

    Akinori Ito, Yen-Ling Lim, Motoyuki Suzuki, Shozo Makino

    Acoustical Science and Technology 28 (2) 131-133 2007年

    DOI: 10.1250/ast.28.131  

    ISSN:1346-3969 1347-5177

  300. 発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識 査読有り

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    情報処理学会論文誌 47 (12) 3380-3391 2006年12月

  301. Music Information Retrieval from a Singing Voice Based on Verification of Recognized Hypotheses 査読有り

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito, Shozo Makino

    Proceedings of 11th International Conference on Music Information Retrieval 168-171 2006年10月

  302. 発話速度と言語的特徴の影響を考慮した持続時間モデルを用いた音声認識に関する研究

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    東北大学電気通信研究所 音響工学研究会 344-1 2006年8月

  303. Lempel-Ziv符号化を用いたLSP係数のセグメント量子化 査読有り

    木幡 稔, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会論文誌 D J89-D (7) 1504-1513 2006年7月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    本論文ではLempel-Ziv符号化のアルゴリズムを応用することにより新しいセグメント量子化法(SQ)を提案し,これを音声符号化に用いられるパラメータの一つであるLSP係数の量子化に適用する.提案方式はセグメント量子化器のコードブックを学習するための一手法であり,提案方式によるコードブックを使用することで通常のVQと比較して,より良いレート-ひずみ特性を得ることを目的とする.本論文では,連続情報源に拡張したLempel-Ziv符号化に一般化Lloyd-Max法による再学習を導入することにより,レート-ひずみ特性の改善を試み,更に提案方式を適用したLSP量子化器と他の実用化されているLSPの量子化方式との性能比較を行った.その結果,同一スペクトルひずみを達成するために必要な情報量として,MELP符号化に使用されている多段VQ(25bit/frame)と比較してフレーム当り9ビット,またG.729符号化に使用されているMA予測VQ(18bit/frame)と比較してフレーム当り4ビットの情報量削減を達成することができた.

  304. Evaluation of multiple PLSA adaptation based on separation of topic and style words 招待有り 査読有り

    Akinori Ito, Naoto Kuriyama, Motoyuki Suzuki, Shozo Makino

    Proceedings of 9th Western-Pacific Acoustic Conference 2006年6月

  305. Packet loss concealment of audio stream based on multiple description by spectrum striping 招待有り 査読有り

    Motoyuki Suzuki, Toshiyuki Sakai, Jie Liu, Akinori Ito, Shozo Makino

    Proceedings of 9th Western-Pacific Acoustic Conference 2006年6月

  306. An effective music information retrieval method using three-dimensional continuous DP 査読有り

    SP Heo, M Suzuki, A Ito, S Makino

    IEEE TRANSACTIONS ON MULTIMEDIA 8 (3) 633-639 2006年6月

    DOI: 10.1109/TMM.2006.870717  

    ISSN:1520-9210

  307. 音素持続時間予測モデルを用いたリスコアリングによる自然発話音声認識

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    日本音響学会2006年春季研究発表会講演論文集 1207-1208 2006年3月

  308. Generating search query in unsupervised language model adaptaion using www

    Kajiura, Yasutomo, Suzuki, Motoyuki, Ito, Akinori, Makino, Shozo

    The Journal of the Acoustical Society of America 120 (5) 3043-3044 2006年

    出版者・発行元: ASA

  309. A grammatical error detection method for dialogue-based CALL system

    Kweon Oh-pyo, Ito Akinori, Suzuki Motoyuki, Makino Shozo

    Information and Media Technologies 1 (1) 391-410 2006年

    出版者・発行元: Information and Media Technologies 編集運営会議

    DOI: 10.11185/imt.1.391  

    詳細を見る 詳細を閉じる

    This paper describes a method to detect grammatical errors from a non-native speaker's utterance for a dialogue-based CALL (Computer Assisted Language Learning) system. For conversation exercises, several dialogue-based CALL systems were developed. However, one of the problems in conventional dialogue-based CALL systems is that a learner is usually assigned a passive role. The goal of our system is to allow a learner to compose his/her own sentences freely in a role-playing situation. One of the biggest problems in realizing the proposed system is that the learner's utterance inevitably contains pronunciation, lexical and grammatical errors. In this paper, we focus on the correction of the lexical and grammatical errors. To correct these errors, we propose two methods to detect lexical/grammatical errors in an utterance. The conventional methods are to write a grammar that accepts the errors manually. The proposed methods 1 and 2 use the `error rules' that are independent of the recognition grammar. The method 1 uses only correct system grammar and extends the recognition results using the `error rules'. The method 2 uses a general grammar (which does not consider the relationship between verb, particle and each noun) to recognize the learner's utterance and check acceptance of each N-best result and searches the learner's utterance. The grammar error detection experiment proved that the method 2 performs as well as the conventional method.

  310. Unsupervised language model adaptation based on automatic text collection from WWW 査読有り

    Motoyuki Suzuki, Yasutomo Kajiura, Akinori Ito, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 2202-2205 2006年

  311. A User Simulator based on VoiceXML for evaluation of spoken dialog systems 査読有り

    Akinori Ito, Keisuke Shimada, Motoyuki Suzuki, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 1045-1048 2006年

  312. Multiple description coding of an audio stream by optimum recovery transform 招待有り 査読有り

    Akinori Ito, Shozo Makino

    IIH-MSP: 2006 INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, PROCEEDINGS 19-+ 2006年

    DOI: 10.1109/IIH-MSP.2006.265110  

  313. Automatic detection of English mispronunciation using speaker adaptation and automatic assessment of English Intonation and rhythm 査読有り

    Akinori Ito, Tadao Nagasawa, Hirokazu Ogasawara, Motoyuki Suzuki, Shozo Makino

    Educational Technology Research 29 (1) 13-23 2006年

    出版者・発行元: 日本教育工学会

    DOI: 10.15077/etr.KJ00004963297  

    ISSN:0387-7434

    詳細を見る 詳細を閉じる

    This paper describes evaluation methods of English utterances by Japanese speaker. The proposed methods consist of the following two methods: a pronunciation evaluation method and a prosody evaluation method. The pronunciation evaluation method detects phoneme-level mispronunciations, and the prosody evaluation method treats intonation and rhythm of the speech. The pronunciation evaluation method exploits VFS speaker adaptation technique to improve precision of phoneme labeling. On the adaptation, we developed a new adaptation scheme that uses Japanese utterance to adapt English acoustic models. This method enables speaker adaptation for speakers who are not good at English pronunciation. The prosody evaluation method compares the pitch pattern of native speakers' utterances and that of a learner's one, and returns a score that reflects the utterance's naturalness. Besides intonation, the method compares the rhythm of utterances between native speakers' speech and the learner's one. Evaluation experiments are carried out to compare native speakers' evaluation scores and the system's one against Japanese speakers' utterances, and we obtained significant correlation between the two evaluations.

  314. Pronunciation Error Detection Method Based on Error Rule Clustering Using a Decision Tree 査読有り

    Akinori Ito, Yenling Lim, Motoyuki Suzuki, Shozo Makino

    Proceeding of European Conference on Speech Communication and Technology 173-176 2005年9月

  315. Construction Method of Acoustic Models Dealing with Various Background Noises Based on Combination of HMMs 査読有り

    Motoyuki Suzuki, Yusuke Kato, Akinori Ito, Shozo Makino

    Proceeding of European Conference on Speech Communication and Technology 973-976 2005年9月

  316. Internal Noise Suppression for Speech Recognition by Small Robots 査読有り

    Akinori Ito, Takashi Kanayama, Motoyuki Suzuki, Shozo Makino

    Proceeding of European Conference on Speech Communication and Technology 2685-2688 2005年9月

  317. Lyrics Recognition From A Singing Voice Based On Finite State Automaton For Music Information Retrieval 査読有り

    Toru Hosoya, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceedings of the 6th International Conference on Music Information Retrieval 532-535 2005年9月

  318. A Grammatical Error Detection Method for Dialogue-based CALL system 査読有り

    Oh-Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    自然言語処理 12 (4) 137-156 2005年8月

    出版者・発行元: 言語処理学会

    DOI: 10.5715/jnlp.12.4_137  

    ISSN:1340-7619

  319. Fast optimization of language model weight and insertion penalty from n-best candidates 査読有り

    Akinori Ito, Masaki Kohda, Shozo Makino

    Acoustical Science and Technology 26 (4) 384-387 2005年7月

    DOI: 10.1250/ast.26.384  

    ISSN:1346-3969

  320. A new design concept of robotic interface for the improvement of user familiarity 査読有り

    Y Hiroi, E Nakano, T Takahashi, A Ito, K Kotani, N Takatsu

    ICMIT 2005: CONTROL SYSTEMS AND ROBOTICS, PTS 1 AND 2 6042 (604230) 1-4 2005年

    DOI: 10.1117/12.664685  

    ISSN:0277-786X

  321. Smile and laughter recognition using speech processing and face recognition from conversation video 査読有り

    A Ito, XY Wang, M Suzuki, S Makino

    2005 INTERNATIONAL CONFERENCE ON CYBERWORLDS, PROCEEDINGS 437-444 2005年

    DOI: 10.1109/CW.2005.82  

  322. Noise Adaptive Spoken Dialog System based on Selection of Multiple Dialog Strategies 査読有り

    Akinori Ito, Takanobu Oba, Takashi Konashi, Motoyuki Suzuki, Shozo Makino

    Proceedings of International Conference on Spoken Language Processing 1 193-196 2004年10月

  323. A Japanese dialogue-based CALL system with mispronunciation and grammar error detection 査読有り

    Oh Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    Proceedings of International Conference on Spoken Language Processing 3 1833-1836 2004年10月

  324. Speaker Adaptation Method for CALL Systems Using Bilingual Speakers’ Utterances 査読有り

    Motoyuki Suzuki, Hirokazu Ogasawara, Akinori Ito, Yuichi Ohkawa, Shozo Makino

    Proceedings of International Conference on Spoken Language Processing 4 2929-2932 2004年10月

  325. Comparison of Features for DP-matching based Query-by-humming System 査読有り

    Akinori Ito, Sung-Phil Heo, Motoyuki Suzuki, Shozo Makino

    Proceedings of the 5th International Conference on Music Information Retrieval 297-302 2004年10月

  326. A spoken dialog system based on automatic grammar generation and template-based weighting for autonomous mobile robots 査読有り

    Takashi KONASHI, Motoyuki SUZUKI, Akinori ITO, Shozo MAKINO

    Proceedings of International Conference on Spoken Language Processing 1 189-192 2004年10月

  327. 再学習とモデル選択の反復によるマルチパス音響モデルの最適化

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    日本音響学会2004年秋季研究発表会講演論文集 I 77-78 2004年9月

  328. A dialogue-based CALL system for Japanese conversation 査読有り

    Oh-Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    Proceedings of the 18th International Congress on Acoustics 3 2015-2018 2004年4月

  329. Language modeling using stochastic switching N-gram 査読有り

    NAGANO, Takeshi, SUZUKI, Motoyuki, ITO, Akinori, MAKINO, Shozo

    training 5 (3years) 1991-1993 2004年4月

  330. Language Modeling by an Ergodic HMM based on an N-gram 査読有り

    Takeshi Nagano, Motoyuki Suzuki, Akinori Ito, Shozo Makino, Masaharu Katoh, Masaki Kohda

    Proceedings of the 18th International Congress on Acoustics 5 3701-3704 2004年4月

  331. オールスターモデル選択法による自然発話音声音響モデル学習の検討

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    日本音響学会2004年春季研究発表会講演論文集 I 101-102 2004年3月

  332. SATを用いた二言語混合音響モデルの話者適応

    小笠原洋一, 伊藤彰則, 鈴木基之, 牧野正三, 大河雄一

    日本音響学会2004年春季研究発表会講演論文集 I 179-180 2004年3月

  333. An evaluation method of Japanese pronunciation for Korean native speakers 査読有り

    Oh Pyo Kweon, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Educational Technology Research 27 (1) 1-8 2004年1月

    出版者・発行元: 日本教育工学会

    DOI: 10.15077/etr.KJ00003899214  

    ISSN:0387-7434

    詳細を見る 詳細を閉じる

    This paper describes an analysis of pronunciation problems in Japanese utterances by Korean speakers, and evaluation methods of a CALL (Computer Assisted Language Learning) system for teaching Japanese pronunciation to Korean speakers. To develop a CALL system, the pronunciation problems of Koreans must be understood. Firstly, Japanese utterances by adult Korean speakers were evaluated by Japanese native speakers. Then, the Japanese pronunciation problems of Korean speakers were analyzed. Finally, evaluation methods were developed. Speech recognition technology was used to compare Japanese utterances by a learner with that by a native speaker. With the proposed methods, intelligibility scores which indicate the similarity between the learner's speech and the Japanese native's speech are automatically calculated.

  334. A Patient Care Service Robot System Based on a State Transition Architecture 査読有り

    Yutaka Hiroi, Eiji Nakano, Takayuki Takahashi, Shozo Makino, Akinori Ito, Koji Kotani, Nobuo Takatsu, Tadahiro Ohmi

    Proceedings of the 2nd International Conference on Mechatronics and Information Technology 231-236 2003年12月

  335. 自然発話音声認識のための高精度な音響モデル学習法の検討

    大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    東北大学電気通信研究所 音響工学研究会327-1 2003年11月

  336. Three dimensional continuous DP algorithm for multiple pitch candidates in music information retrieval system 査読有り

    Heo, Sungphil, Suzuki, Motoyuki, Ito, Akinori, Makino, Shozo

    Proceedings of 4th International Symposium on Music Information Retrieval 235-236 2003年10月

    出版者・発行元: Johns Hopkins University

  337. 学習話者の異なる複数言語の音響モデルの話者適応の検討

    小笠原洋一, 鈴木基之, 伊藤彰則, 牧野正三, 大河雄一

    日本音響学会 2003年秋季研究発表会講演論文集 I 109-110 2003年9月

  338. Multiple pitch candidates based music information retrieval method for query-by-humming 査読有り

    Heo, Sung-Phil, Suzuki, M., Ito, A., Makino, S., Chung, HY

    Proc. AMR 189-200 2003年9月

  339. マルチパス音響モデルによる自然発話音声の認識に関する研究

    大河雄一, 吉田明弘, 鈴木基之, 伊藤彰則, 牧野正三

    東北大学電気通信研究所 音響工学研究会 325-1 2003年7月

  340. Analysis of pronunciation errors in Japanese speech uttered by Korean towards development of Japanese CALL system 査読有り

    KWEON, OH

    Proc. of O-COCOSDA 2003 185-192 2003年6月

  341. A Portable spoken dialog system for autonomous robots 査読有り

    Takashi Konashi, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceeding of 1st International Workshop on Language Understanding and Agents for Real-world Interaction 79-84 2003年5月

  342. Construction and evaluation of language models based on stochastic context-free grammar for speech recognition

    Chiori Hori, Masaharu Katoh, Akinori Ito, Masaki Kohda

    Systems and Computers in Japan 33 (13) 48-59 2002年11月30日

    DOI: 10.1002/scj.1172  

    ISSN:0882-1666

  343. 適応学習における話者適応法の比較

    大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    日本音響学会 2002年秋季研究発表会講演論文集 I 113-114 2002年9月

  344. 尤度差に基づくn-gram言語モデル評価のための指標 査読有り

    伊藤 彰則, 好田 正紀

    情報処理学会論文誌 43 (7) 2055-2064 2002年7月

  345. 音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価 査読有り

    堀 智織, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J83-D-II (11) 2407-2417 2000年11月

  346. N-gram出現回数の混合によるタスク適応の性能解析 査読有り

    伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J83-D-II (11) 2418-2427 2000年11月

  347. Language modeling by stochastic dependency grammar for Japanese speech recognition 査読有り

    Akinori Ito, Chiori Hori, Masaharu Katoh, Masaki Kohda

    Proceeding of International Conference on Spoken Language Processing 2000年10月

  348. Free Software Toolkit for Japanese large vocabulary continuous speech recognition 査読有り

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Shigaki Sagayama, Katsunobu Itoh, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    Proceeding of International Conference on Spoken Language Processing 476-479 2000年10月

  349. Overview of Japanese Dictation Toolkit

    Kawaharay, Tatsuya, Lee, Akinobu, Kobayashi, Tetsunori, Takeda, Kazuya, Minematsu, Nobuaki, Sagayama, Shigeki and ETL, Katsunobu Itou, Ito, Akinori, Yamamoto, Mikio, Yamada, Atsushi

    2000年

  350. A new metric for stochastic language model evaluation 査読有り

    Akinori Ito, Masaki Kohda

    Proceeding of European Conference on Speech Communication and Technology 4 1591-1594 1999年9月

  351. 大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討 査読有り

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    情報処理学会論文誌 40 (4) 1365-1373 1999年4月

  352. 状態クラスタリングによるHM-Netの構造決定法の検討 査読有り

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J81-D-II (10) 2239-2248 1998年10月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:0915-1923

    詳細を見る 詳細を閉じる

    隠れマルコフ網(HM-Net)は, 音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり, 高精度かつ頑健な音声認識を実現する音響モデルとして有効であることが示されている[8].HM-Netを生成する方法として, これまで逐次状態分割法(Successive State Splitting:SSS)やその改良[9]〜[11]が提案されているが, これらの手法は学習サンプルを用いて状態分割とパラメータ推定を繰り返す手法であるため, 不特定話者の大量の学習データ(数千〜数万文)を利用する場合には計算量が膨大になるという問題がある.通常, HM-Netは特定話者のデータ(数百文または数千単語)によって構造決定され, 各状態の分布のみが不特定話者の大量データによって再推定される.しかし, 構造決定に用いる学習データが特定話者の限られたデータであると, 大語い連続音声認識などに用いる大規模なHM-Netの構造が得られない, 本論文では大語い連続音声認識のための好精度なHM-Netを作成する手法として, 状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した.同じ学習サンプルセットを用いた場合に, 本手法が従来と同等以上のHM-Netを高速に生成可能であることが音素認識実験により示された.

  353. 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価

    河原, 達也, 李, 晃伸, 小林, 哲則, 武田, 一哉, 峯松, 信明, 伊藤, 克亘, 伊藤, 彰則, 山本, 幹雄, 山田, 篤, 宇津呂, 武仁, 鹿野, 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理 98 (49) 91-96 1998年5月

    出版者・発行元: 一般社団法人情報処理学会

    ISSN:0919-6072

  354. A study on HM-Nets using decision tree-based successive state splitting 査読有り

    Takaaki Hori, Masaharu Katoh, Akinori Ito, Masaki Kohda

    Proceeding of IEEE International Conference on Speech Processing 1 383-387 1998年5月

  355. Common Platform of Japanese Large Vocabulary Continuous Speech Recognizer Assessment -- Proposal and Initial Results -- 査読有り

    T.Kawahara, A.Lee, T.Kobayashi, K.Takeda, N.Minematsu, K.Itou, A.Ito, M.Yamamoto, A.Yamada, T.Utsuro, K.Shikano

    Proc. Oriental-COCOSDA Workshop 117-122 1998年

  356. 音素決定木に基づく逐次状態分割法によるHM-Netの検討 査読有り

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J80-D-II (10) 2645-2654 1997年10月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:0915-1923

    詳細を見る 詳細を閉じる

    限られた学習サンプルを用いて高精度かつ頑健なコンテクスト依存モデルを生成するために重要なことは, パラメータの共有関係をどのように決定するか, 未知コンテクストをどのように扱うかである. 鷹見らによって提案された逐次状態分割法(SSS)[4]は, ゆう度最大化を基準にモデルの状態共有関係を自動的に決定する優れた手法であるが, 未知コンテクストの扱いが十分ではなく, 状態分割時の分布の分割法にも問題がある. 本論文では, 逐次状態分割法のコンテクスト方向の状態分割過程に, 音素決定本に基づくコンテクストクラスの分割法を導入し, 同時に分布の分割法も改良したDT-SSSアルゴリズム(Decision Tree-based Successive State Splitting)を提案する. この手法により, 高精度かつあらゆるコンテクストを表現可能なHM-Netの自動生成が可能となる. 特定話者/不特定話者連続音素認識実験より, 従来のSSSによるHM-Netと同等以上の音素正解率が得られた. 特に未知コンテクストを含む音声における誤りの削減が大きく, 本手法の有効性が示された.

  357. N-gram language model adaptation using small corpus for spoken dialog recognition 査読有り

    Akinori Ito, Hideyuki Saitoh, Masaharu Katoh, Masaki Kohda

    Proceeding of European Conference on Speech Processing 2735-2738 1997年9月

  358. かな・漢字文字列の連鎖統計による言語モデル 査読有り

    伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J79-D-II (12) 2062-2069 1996年12月

  359. The performance prediction on sentence recognition using a finite state word automaton 査読有り

    T Otsuki, A Ito, S Makino, T Ohtomo

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E79D (1) 47-53 1996年1月

    ISSN:0916-8532

  360. Language modeling by string pattern N-gram for Japanese speech recognition 査読有り

    A Ito, M Kohda

    ICSLP 96 - FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, PROCEEDINGS, VOLS 1-4 490-493 1996年

  361. A NEW HMNET CONSTRUCTION ALGORITHM REQUIRING NO CONTEXTUAL FACTORS 査読有り

    M SUZUKI, S MAKINO, A ITO, H ASO, H SHIMODAIRA

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E78D (6) 662-668 1995年6月

    ISSN:0916-8532

  362. 拡張RHA法による連続音声認識のための単語予備選択 査読有り

    伊藤 彰則, 牧野 正三

    電子情報通信学会論文誌(D-II) J78-D-II (3) 400-408 1995年3月

  363. 単語の出現確率を用いた単語認識の性能予測 査読有り

    大槻 恭士, 伊藤 彰則, 牧野 正三, 大友 照彦

    電子情報通信学会論文誌(A) J77-A (2) 274-281 1994年2月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:0913-5707

    詳細を見る 詳細を閉じる

    自然言語では単語ごとに出現確率が異なるため,出現確率が一様な場合に比べて,単語の出現という事象によって得られる情報量が大きい,つまり,認識の際に単語の出現確率を用いることは有効であり,その誤り訂正能力の評価は有用である.本論文では単語認識の際に単語の出現確率を用いた場合の,音素・文字認識率と単語認識率の関係を推定する方法を提案する.従来の単語認識率の評価式を導出する際には,単語の出現確率を全単語で一定と仮定し,無視していた.そこで,単語の出現確率を考慮しながら評価式を導出した.その評価式により推定された値と単語認識のシミュレーションの値とを比較したところ,近似による誤差が大きくなり,音素認識率80%で約10%単語認識率の推定値が低く見積もられた.そこで,近似方法を変え,補正係数の入った評価式を導出した.補正された評価式による推定値とシミュレーションの値との差は,音素認識率80%で約5%以下となり,精度の向上が確かめられ,単語の出現確率を用いたときの単語認識率を精度良く推定することができることが示された.

  364. A continuous speech recognition system using a modified LVQ2 method and a dependency grammar with semantic constraints 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    J. Pattern Recognition and Artificial Intelligence 8 (1) 197-213 1994年1月

    DOI: 10.1142/S0218001494000097  

  365. THE PERFORMANCE PREDICTION METHOD ON SENTENCE RECOGNITION SYSTEM USING A FINITE STATE AUTOMATON 査読有り

    T OTSUKI, A ITO, S MAKINO, T OTOMO

    ICASSP-94 - PROCEEDINGS, VOL 1 397-400 1994年

  366. A Fast Word Pre-Selection Based on Speech Fragments for Continuous Speech Recognition

    Akinori Ito, Shozo Makino

    Proceeding of International Workshop on Speech Processing 107-112 1993年11月

  367. 音素・文字間の遷移情報を用いた単語認識の性能予測 査読有り

    大槻 恭士, 伊藤 彰則, 牧野 正三, 曽根 敏夫

    電子情報通信学会論文誌(D-II) J76-D-Ii (6) 1090-1096 1993年6月

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN:0915-1923

    詳細を見る 詳細を閉じる

    本論文では,音素・文字のセグメンテーションが完全で音素・文字間の遷移の有無を用いた単語認識における,音素・文字認識率と単語認識率の関係を,タスクの近距離単語数を用いて理論的に推定する方法を提案する.単語辞書を用いた場合の単語認識率は,辞書中の近距離単語数を用いた評価式により推定することができる.しかし,従来の単語認識率の評価式では,音素・文字認識率が低くなるにつれて,また,近距離単語数が増加するにつれて,推定精度が急激に劣化する.そこで,本論文では推定精度を高めた新評価式を提案する.また,本論文では遍移情報によって生成可能な系列を単語辞書の項目とみなしているが,その数は長さに対して指数関数的に増加し,近距離単語数を求めるのは困難である.そこで,本論文ではそれを多項式時間で計算するアルゴリズムを提案する.音素の三つ組(trigram)を用いた場合の,日本語重要語約5,000語における音素認識率90%での推定単語認識率は,本方法で約72%,従来法で約66%,シミュレーションでの単語認識率は約78%であり,本方法が従来法よりも良い近似を与えることが明らかになった.

  368. Speech to Text Conversion System Based on Phoneme Recognition 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'ichi Kido

    応用情報学研究年報 18 (1-2) 51-66 1993年3月

  369. A NEW WORD PRESELECTION METHOD BASED ON AN EXTENDED REDUNDANT HASH ADDRESSING FOR CONTINUOUS SPEECH RECOGNITION 査読有り

    A ITO, S MAKINO

    ICASSP-93 : 1993 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5 B299-B302 1993年

  370. Word pre-selection using a redundant hash addressing method for continuous speech recognition 査読有り

    Akinori Ito, Shozo Makino

    Proceeding of the International Conference on Spoken Language Processing 309-312 1992年10月

  371. 機能語予測CYK法による日本語文音声の統語処理 査読有り

    伊藤 彰則, 牧野 正三, 城戸 健一

    電子情報通信学会論文誌(D-II) J74-D-II (9) 1147-1155 1991年9月

    出版者・発行元: 電子情報通信学会情報・システムソサイエティ

    ISSN:0915-1923

  372. A JAPANESE TEXT DICTATION SYSTEM BASED ON PHONEME RECOGNITION AND A DEPENDENCY GRAMMAR 査読有り

    S MAKINO, A ITO, M ENDO, K KIDO

    IEICE TRANSACTIONS ON COMMUNICATIONS ELECTRONICS INFORMATION AND SYSTEMS 74 (7) 1773-1782 1991年7月

    ISSN:0917-1673

  373. Parsing of spoken Japanese sentences using the functional word prediction CYK algorithm 査読有り

    Akinori Ito, Shozo Makino, Ken'iti Kido

    Proc. Korea-Japan Joint Symposium on Acoustics 218-221 1991年7月

  374. A JAPANESE TEXT DICTATION SYSTEM BASED ON PHONEME RECOGNITION AND A DEPENDENCY GRAMMAR 査読有り

    S MAKINO, A ITO, M ENDO, K KIDO

    ICASSP 91, VOLS 1-5 273-276 1991年

  375. A Japanese Text Dictation System Based on Phoneme Recognition Using a Modified LVQ2 Method 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    Proceeding of the International Conference on Spoken Language Processing 241-244 1990年11月

  376. 生態概日周期活動の長期自動記録とその解析システム 査読有り

    磯野 邦夫, 尾田 善治, 伊藤 彰則, 本郷 哲, 宮内 雅夫, 原田 敦, 武蔵 昭一, 塚原 保夫

    応用情報学研究年報 15 (1) 155-166 1990年3月

  377. Linguistic Processing in Japanese Dictation System 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    Preprints of The Third Symposium on Advanced Man-Machine Interface Through Spoken Language 25-1-25-10 1989年12月

  378. Bunsetsu-spotting Based Linguistic Processing for a Japanese Dictation System 査読有り

    Shozo Makino, Akinori Ito, Yoichi Ogawa, Michio Okada, Ken'iti Kido

    Preprints of The Second Symposium on Advanced Man-Machine Interface Through Spoken Language 29-1-29-10 1988年11月

  379. 文節スポッティングに基づく日本語文音声の認識 査読有り

    岡田 美智男, 松尾 広, 伊藤 彰則, 小川 洋一, 牧野 正三, 城戸 健一

    電気学会論文誌 108-C (10) 826-833 1988年10月

    DOI: 10.1541/ieejeiss1987.108.10_826  

  380. 構文駆動型連続DP法による連続音声中からの活用語のスポッティング 査読有り

    岡田 美智男, 伊藤 彰則, 牧野 正三, 城戸 健一

    電子情報通信学会論文誌 D 情報・システム 70 (12) p2479-2490 1987年12月

    出版者・発行元: 電子情報通信学会

    ISSN:0913-5731

︎全件表示 ︎最初の5件までを表示

MISC 351

  1. 人と並んだ状態で人追従可能なロボットシステムに関する基礎的検討

    廣井富, 朝倉大裕, 中田海地, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2020 2020年

    ISSN: 2424-3124

  2. 人追従時における追従対象者と非追従対象者の切り分け手法の実装

    中田海地, 朝倉大裕, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 20th 2019年

  3. 2台のLRFを用いた人追跡手法の提案-鬼ごっこロボットの開発-

    池本瑚幸, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 20th 2019年

  4. テレプレゼンスロボットのための操作者の顔提示機能の開発

    野阪百穂, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2019 2019年

    ISSN: 2424-3124

  5. 人追従時における追従対象者と非追従対象者の切り分けに関する基礎的検討

    中田海地, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2019 2019年

    ISSN: 2424-3124

  6. Preface

    Jeng Shyang Pan, Akinori Ito, Pei Wei Tsai, Lakhmi C. Jain

    Smart Innovation, Systems and Technologies 109 V-VI 2019年

    ISSN: 2190-3018

    eISSN: 2190-3026

  7. デモンストレーションを指向したロボットの原点復帰の提案-「だるまさんが転んだ」を行うロボットの開発-

    中森裕子, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 36th 2018年

  8. 操作者の顔を再現するテレプレゼンスロボットの提案

    野阪百穂, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 19th 2018年

  9. 「だるまさんが転んだ」の鬼役ロボットのためのタッチ機能の開発

    中森裕子, 廣井富, 田中翔吾, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 19th 2018年

  10. RGB-DカメラとLaser Range Finderを用いた障害物回避に関する基礎的検討

    宮内雄大, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 19th 2018年

  11. 正面から接近する歩行者に対するロボットの事前回避手法の開発

    廣井富, 宮内雄大, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2018 2018年

    ISSN: 2424-3124

  12. OpenPoseを用いた人の振り返り検出手法の開発-「だるまさんが転んだ」を行うロボットの開発-

    廣井富, 小田垣成伸, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2018 2018年

    ISSN: 2424-3124

  13. ポスター講演 読み上げ音声を利用したニューラルネットワークに基づく歌唱者非依存歌声変換の検討 (音声)

    小池 治憲, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (414) 17-22 2017年1月21日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  14. OpenPoseとLRFを用いた群衆回避手法の試み

    森下康平, 廣井富, 宮内雄大, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 18th 2017年

  15. RGB-Dカメラを用いた床面上の小物体回避に関する基礎的検討

    宮内雄大, 廣井富, 今西天希, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 18th 2017年

  16. LRFとビジョンの併用による群衆通り抜け時における人追跡手法の開発

    宮内雄大, 廣井富, 西口敏司, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2017 2017年

    ISSN: 2424-3124

  17. LRFを用いた「だるまさんが転んだ」における「幅判定手法」の効果

    中森裕子, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2017 2017年

    ISSN: 2424-3124

  18. ポスター講演 日本語テキスト音声合成のためのアクセント辞典に基づくアクセント結合規則の改良 (音声) -- (第18回音声言語シンポジウム)

    青山 紘人, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 31-36 2016年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  19. ポスター講演 Kaldiの音声認識エンジンをJulius互換にするためのインタフェースの開発 (音声) -- (第18回音声言語シンポジウム)

    山田 裕介, 能勢 隆, 千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 49-51 2016年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  20. ポスター講演 DNN音声合成における差分特徴量のモデル化を利用したF0制御 (音声) -- (第18回音声言語シンポジウム)

    山田 修平, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 37-42 2016年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  21. WOZシステムとの対話におけるユーザの対話意欲の段階識別と特徴量の分析 (第7回対話システムシンポジウム)

    千葉 祐弥, 伊藤 彰則

    言語・音声理解と対話処理研究会 78 7-12 2016年10月5日

    出版者・発行元: 人工知能学会

    ISSN: 0918-5682

  22. Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (ライフインテリジェンスとオフィス情報システム)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (220) 67-72 2016年9月15日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  23. Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (メディア工学)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    映像情報メディア学会技術報告 = ITE technical report 40 (31) 67-72 2016年9月

    出版者・発行元: 映像情報メディア学会

    ISSN: 1342-6893

  24. 顔特徴量を用いたテキストからのフォトリアリスティック顔動画像生成の検討 (情報理論)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (33) 43-48 2016年5月19日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  25. 円形回避領域を用いた群衆回避手法の提案

    森下康平, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 34th 2016年

  26. RGB-Dセンサを用いた指差し認識に関する研究-位置誤差に関する一考察-

    津田剛志, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 34th 2016年

  27. 複数台の道案内ロボットのための人位置情報の引き継ぎ手法の提案

    田中佑季, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 34th 2016年

  28. 複数台の手すりを移動する道案内ロボットによる人位置情報の引き継ぎ手法の実装

    田中佑季, 廣井富, 伊藤彰則

    日本感性工学会大会予稿集(CD-ROM) 18th 2016年

  29. 子どもと外遊びを行うテレプレゼンスロボットの提案

    廣井富, 中森裕子, 森下康平, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 17th 2016年

  30. 移動ロボット接近時における動作予告を用いた恐怖感低減に関する検討

    廣井富, 前田彰大, 田中佑季, 松丸隆文, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2016 2016年

    ISSN: 2424-3124

  31. 拡張現実感を用いた恐怖感低減手法に関する検討

    廣井富, 前田彰大, 田中佑季, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2016 2016年

    ISSN: 2424-3124

  32. ユーザの対話意欲推定のための人対人対話データの分析とWOZシステムの検討 (音声) -- (第17回音声言語シンポジウム)

    千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (346) 117-122 2015年12月2日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  33. HMM音声合成におけるモデル学習の高速化の検討 (音声)

    山田 修平, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (253) 27-32 2015年10月15日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  34. ビットエラー耐性ベクトル量子化を用いたMultiple Descriptionベクトル量子化 (ライフインテリジェンスとオフィス情報システム)

    伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (219) 33-38 2015年9月10日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  35. ビットエラー耐性ベクトル量子化を用いたMultiple Descriptionベクトル量子化 (メディア工学)

    伊藤 彰則

    映像情報メディア学会技術報告 = ITE technical report 39 (32) 33-38 2015年9月

    出版者・発行元: 映像情報メディア学会

    ISSN: 1342-6893

  36. 地域情報の音声認識のための固有名詞省略表現の自動生成 (音声)

    志賀 健太, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (184) 7-12 2015年8月21日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  37. HMM音声合成におけるアクセントラベリング基準が合成音声に与える影響の分析

    高橋 遼太, 能勢 隆, 伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (1) 1-6 2015年5月18日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本論文では,従来の HMM 音声合成において曖昧であったアクセントラベリング基準について検討を行い,合成音声への影響を調べる.具体的には,アクセント型の表現およびアクセント句境界の基準について検討する.アクセント型については,尾高型が 0 型とモーラ長型の 2 通りの表現があることに着目し,それらを用いた場合に合成音声の F0 がどのような影響を受けるかについて客観評価を行う.また,2 段階クラスタリングを用いる効果についても検証する.アクセント句境界については,アクセント句によっては 0 型と 1 型の 2 つのアクセント句で表現する場合と,それらを結合し 1 つのアクセント句として表現する場合があり,これらの違いが合成音声に与える影響を調べる.またこれらの評価において,日本語アクセントの高低の誤りを客観的指標として導入し,この指標の有効性について分析を行う.

  38. 日本人のための音声対話による英会話学習システム

    伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (12) 1-6 2015年5月18日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    筆者のグループがこれまで研究してきた,音声対話を利用した英会話のための CALL システムに関する技術について述べる.音声認識技術を利用した現状の CALL システムは,発音やイントネーションなど,1 つの発話に含まれる要素を採点するものが多い.それも重要ではあるが,英会話学習には 「実際に使われる表現を何度も繰り返して練習する」 ということも必要である.この考えに基づき,筆者のグループではこれまで 「対話に基づく CALL システム」 について研究してきた.本稿では,対話音声からの韻律評価,文法誤り検出および応答タイミング制御練習のためのシステムについて述べる.

  39. シナリオ対話における感情音声合成を用いた対話システムの評価と感情付与方法の検討

    加瀬 嵩人, 能勢 隆, 千葉 祐弥, 伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (9) 1-7 2015年5月18日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    近年,非タスク指向型の音声対話システムへの需要が拡大しており,様々な研究がされている.それらほとんどの研究は言語的な観点から適切な応答の生成を目指したものである.一方で人間同士の会話においては,感情表現や発話様式などのパラ言語情報を効果的に利用することにより,対話を円滑に進めることができると考えられる.そこで我々はシステムの応答の内容ではなく,応答の仕方に着目し,感情音声合成を対話システムに用いることを試みる.本研究ではまず,適切な感情付与を人手により与えた場合に実際に対話システムの質が向上するかを複数のシナリオを作成して主観基準により評価する.次に,感情付与を自動化するために,システム発話に応じた付与とユーザ発話に協調した付与の 2 つの手法について検討を行う.評価結果から,感情を自動付与することで対話におけるユーザの主観評価スコアが向上すること,またユーザ発話に協調した感情付与がより効果的であることを示す.

  40. ユーザの対話意欲自動推定を目標とした対話データの分析と音声画像特徴量の検討

    千葉 祐弥, 能勢 隆, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2015 (10) 1-6 2015年2月20日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    対話型システムがユーザに適応して話題の提供や情報推薦を行うためには,ユーザの情報を効率的に獲得できることが望ましい.本研究では,ユーザに対して積極的に質問するインタビュー型の音声対話システムを想定する.このようなシステムとの対話では,ユーザが話したいと思う話題に関してはより詳細な情報が得られる可能性がある一方,ユーザが話したくない話題に関しては有益な情報が得られない可能性が高いと考えられるため,システムはユーザの対話意欲を考慮して質問や話題の選択を行う必要がある.本稿では,ユーザの対話意欲を自動推定するための初期検討として,人間同士のインタビュー対話の分析とその自動識別を行った.分析から,対話者自身が自分の対話意欲の高低を自覚できている場合,70~80% 程度の精度で第三者にあたる評価者が対話意欲を判断できることが示唆された.また,評価者のアンケートに挙げられたマルチモーダル情報を利用することで,人間と同程度の精度で自動識別できることが示された.

  41. Waveletを用いた特徴量抽出法とその高精度化手法の評価

    松井 清彰, 能勢 隆, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2015 (5) 1-6 2015年2月20日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    音声認識の普及のために,より安価な音声認識システムの実現が必要である.音声認識の低演算量化に関しては様々な先行研究が行われているが,特徴量抽出処理に関しては研究が不十分である.そのため我々は,Wavelet 変換を用いた新しい低演算量特徴量抽出法およびその高精度化手法について提案してきた.本論文では,Haar Wavelet 及び Daubechies Wavelet の 2 種類の Wavelet を用いて特徴量抽出を行い,その性能を MFCC と比較した.その結果,高精度化手法を用いることで,若干の認識率の向上が見られた.また,フレーム間の動的特徴量である Δ 特徴量及び MFCC と同様に,DCT 出力の高次削減によって,さらに認識率を向上させることができた.一方,計算時間に関しては,最もシンプルな Wavelet を用いることで,MFCC の 5 倍以上の計算速度を確保できることが分かった.

  42. 英会話学習システムの複数回使用時における学習者の交替潜時の変化に関する検討

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2015 2015年

    ISSN: 1880-7658

  43. 英会話学習システムにおける応答タイミング練習方法の有効性の検証

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    情報処理学会研究報告(Web) 2015 (SLP-105) 2015年

  44. 空き缶を拾うロボット-物体の傾き推定に関する一手法-

    二上啓大, 廣井富, 西口敏司, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 33rd 2015年

  45. 荷物の運搬支援のための台車の開発-台車の自走を可能にする着脱式駆動ユニット-

    坂井奎亮, 廣井富, 伊藤克明, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN: 2424-3124

  46. ロボットとの「だるまさんがころんだ」の提案

    廣井富, 坂井奎亮, 立田裕記, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN: 2424-3124

  47. 拡張現実感を用いた生活支援ロボットの恐怖感低減手法の評価-ロボットサイズに関する実験-

    廣井富, 森奨平, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN: 2424-3124

  48. 人の少し前を移動するコミュニケーションロボットの評価-手すり上を移動するコミュニケーションロボットの開発-

    田中佑季, 廣井富, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN: 2424-3124

  49. 拡張現実感を用いた生活支援ロボットの恐怖感低減手法の評価-ロボットの色に関する実験-

    廣井富, 森奨平, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN: 2424-3124

  50. 会員数から見る日本音響学会の現在と未来

    伊藤 彰則

    日本音響学会誌 71 (1) 5-6 2014年12月25日

    出版者・発行元: 一般社団法人日本音響学会

    ISSN: 0369-4232

  51. 自己組織化マップに基づくビットエラー耐性のある量子化法 (応用音響)

    伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (315) 19-24 2014年11月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    ディジタル通信においては,通信路におけるビットエラーが不可避である.通常のパケット通信ではパケット内でビットエラーが発生した場合にはパケットごと廃棄するが,音声や画像などのマルチメディア通信ではビットエラーが致命的でない場合があり得る.そこで,ビットエラーを訂正しないマルチメディア通信を想定し,ビットエラーがメディアデータ品質にどう影響するか考察した.その際,ベクトル量子化はスカラー量子化に比べてビットエラーの影響を受けやすいことから,ビットエラーの影響を受けにくいベクトル量子化法を考案した.提案法は自己組織化マップ(Self-Organizing Map, SOM)に基づき,符号間のハミング距離と符号に対応するセントロイド間距離の相関が高くなるようにコードブックを設計する.シミュレーション実験の結果から,提案法は通常のk-means法によるコードブックよりもビットエラーによる品質劣化が少ないことが明らかとなった.

  52. 日本人による英語歌唱音声の発音評価手法の検討

    吉田一道, 能勢隆, 伊藤彰則

    研究報告音楽情報科学(MUS) 2014 (9) 1-6 2014年11月13日

    詳細を見る 詳細を閉じる

    我々は日本人による英語歌唱音声の英語発音の自動評価を目指している.本研究では,日本人による英語歌詞朗読音声,歌唱音声のデータベースを構築し,英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った.また,英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し,歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された.さらに,HMM による英語歌唱の自動発音評価手法について検討し,日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った.その結果,発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により,更に検出精度を向上させられる可能性がある事を論じた.

  53. 日本人による英語歌唱音声の発音評価手法の検討

    吉田一道, 能勢隆, 伊藤彰則

    研究報告デジタルコンテンツクリエーション(DCC) 2014 (9) 1-6 2014年11月13日

    詳細を見る 詳細を閉じる

    我々は日本人による英語歌唱音声の英語発音の自動評価を目指している.本研究では,日本人による英語歌詞朗読音声,歌唱音声のデータベースを構築し,英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った.また,英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し,歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された.さらに,HMM による英語歌唱の自動発音評価手法について検討し,日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った.その結果,発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により,更に検出精度を向上させられる可能性がある事を論じた.

  54. Kinectによる顔特徴量を利用した合成音声の感情表現・発話様式の直観的制御の検討 (音声) -- (オーガナイズドセッション「文脈や状況に合った発声を実現する音声合成技術及び周辺技術」)

    畢 煜, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (303) 25-30 2014年11月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,テキスト音声合成においてユーザが容易に合成音声の感情表現・発話様式(スタイル)を変更できる手法として,Kinectによる顔特徴量を利用した重回帰隠れマルコフモデル(HSMM)に基づくスタイル制御法を提案する.提案法では,学習データに含まれるスタイルとその表出度合をユーザの顔特徴量であるAnimation Unit(AU)を説明変数とした重回帰により表現する.具体的にはHSMMの各分布の平均パラメータがAUパラメータによる重回帰で表されると仮定する.この際,元のAUパラメータ間の相関が問題となるため,主成分分析により直交化および次元削減を行う.合成時には顔の表情を所望のスタイルに応じて変化させることで,それに応じた合成音声を生成することができる.本稿では,適切なAUパラメータの次元数やユーザの違いによる性能の違いについて評価を行った結果を報告する.

  55. ユーザの対話意欲を考慮したユーザプロファイリング対話システムのためのインタビュー対話の分析 (ヒューマンコミュニケーション基礎)

    千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (273) 43-48 2014年10月23日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    対話型システムがユーザに適応して話題の提供や情報推薦を行うためには,ユーザの情報を効率的に獲得できることが望ましい.本研究では,ユーザに対して積極的に質問するインタビュー型の音声対話システムを想定する.このようなシステムとの対話では,ユーザが話したいと思う話題に関してはより詳細な情報が得られる可能性がある一方,ユーザが話したくない話題に関しては有益な情報が得られない可能性が高いと考えられるため,システムはユーザの対話意欲を考慮して質問や話題の選択を行う必要がある.本稿では,ユーザの対話意欲を自動推定するための初期検討として,人間同士のインタビュー対話の分析を行った.分析から,同じ話題が継続する程度の比較的長い対話については,対話者自身が自分の対話意欲の高低を自覚できている場合,70〜80%程度の精度で第三者にあたる評価者が対話意欲を判断できること,対話データを質問応答レベルに細分化すると判断は難しくなるが評価者の判定には相関が見られることが示された.また,対話意欲の判断に関しては音声情報,表情,ジェスチャ,視線といった様々なマルチモーダル情報が関与していることが示された.

  56. コンピュータが声を聴く : 機械による音声の認識 (特集 きく)

    伊藤 彰則

    高翔 : 自動車技術会関東支部報 (62) 16-19 2014年7月

    出版者・発行元: 自動車技術会関東支部

  57. 音声言語情報処理研究会の20年―歴代主査による研究レビュー―

    新田 恒雄, 小林 哲則, 中村 哲, 武田 一哉, 河原 達也, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2014 (5) 1-6 2014年1月24日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本稿では,20 年間の音声言語情報処理研究会のレビューを通して,音声言語研究のこれまでの動向を俯瞰する.最初に全体のファクトについて述べ,次に主査ごとの任期における研究動向をレビューする.最後に,今後の研究会活動への提言を述べて結びとする.This report reviews researches presented in 20-year of SlG-SLP meetings and overlooks the trends of spoken language processing research. First, the facts of papers presented in SIG-SLP are described. Then we present chair-by-chair trends of spoken language research, and finally we make suggestions to promote spoken language research of the next decade.

  58. パケットロスに頑健なVoIPのためのパケット欠落隠蔽法における遅延と品質の主観評価

    岡本 雅仁, 伊藤 彰則, 長野 雄

    日本音響学会研究発表会講演論文集 日本音響学会 編 389-392 2014年

    出版者・発行元: 日本音響学会

    ISSN: 1880-7658

  59. 複素分析窓を用いた正弦波モデルに基づく混合音声の分析

    伊藤 仁, 伊藤 彰則

    日本音響学会研究発表会講演論文集 日本音響学会 編 319-322 2014年

    出版者・発行元: 日本音響学会

    ISSN: 1880-7658

  60. 歌声分析のエンターテイメント応用 : 音楽検索からカラオケまで

    伊藤 彰則

    日本音響学会研究発表会講演論文集 日本音響学会 編 1033-1036 2014年

    出版者・発行元: 日本音響学会

    ISSN: 1880-7658

  61. LRFによる人追従を考慮した障害物回避手法の提案

    坂井奎亮, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 32nd 2014年

  62. 手すり上を移動するコミュニケーションロボットの開発-伸びる手を用いた道案内の評価-

    藤原祐磨, 廣井富, 鈴木直人, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 32nd 2014年

  63. 英会話学習システムにおけるCGキャラクタの効果と学習者の発話タイミング制御のための付加表現に関する検討

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

    ISSN: 1880-7658

  64. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

    ISSN: 1880-7658

  65. 指差しと音声対話併用による床面上の物体回収手法の提案

    二上啓大, 廣井富, 黒田尚孝, 鈴木直人, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN: 2424-3124

  66. LRFを用いた人追従時の移動軌跡の記録と軌道追従に関する基礎的検討

    坂井奎亮, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN: 2424-3124

  67. 手すり上を移動するコミュニケーションロボットの開発-伸びる手を用いた道案内の提案-

    藤原祐磨, 廣井富, 川崎成人, 黒田尚孝, 鈴木直人, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN: 2424-3124

  68. 日常生活支援移動ロボットASAHI2013の開発

    廣井富, 坂井奎亮, 二上啓大, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN: 2424-3124

  69. 音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析(音声対話,第15回音声言語シンポジウム)

    戸塚 典子, 伊藤 彰則

    電子情報通信学会技術研究報告. SP, 音声 113 (366) 59-64 2013年12月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると,ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある.我々は,そのような動作が発生した際に迅速に修正する手法として,ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し,これらをロボットの制御に応用することを提案する.本研究では,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数(FO),インテンシティに変化が表れるかどうか分析を行った.

  70. 音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析

    戸塚典子, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2013 (10) 1-6 2013年12月12日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると,ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある.我々は,そのような動作が発生した際に迅速に修正する手法として,ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し,これらをロボットの制御に応用することを提案する.本研究では,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数 (F0),インテンシティに変化が表れるかどうか分析を行った.

  71. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2013 (9) 1-6 2013年12月12日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    英会話練習をする際は対話相手が必要であり,相手との会話がテンポ良く行えるようになる練習が求められる.CALL (Computer-Assited Language Learning) システムにおいて,学習者の応答のタイミングを向上させるような枠組みは無いのが現状である.英会話練習の際には発話内容を想起し,それを英語で表現する 2 重の認知的負荷がかかるため,交代潜時が長くなりがちであるが,対話の最初から意識的に交代潜時を短くしていくためには学習者に対して明示的な方法を用いるべきである.そこで本研究では対話相手として AR (Augmented Reality) キャラクタを設定し,タイムプレッシャー表現をかけたときに応答タイミングの練習として有効であるかどうかを実験により検証することを試みた.実験参加者にはタイムプレッシャーの有無で 2 通りの対話を行い,最後に主観評価のアンケートを行った.本稿では以上の結果と主観評価を踏まえた考察を報告する.

  72. 局所区間のマルチモーダル情報を用いたユーザ状態の推定に関する検討 (音声)

    千葉 祐弥, 伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (220) 27-32 2013年9月18日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    従来の音声対話システムの研究では,ユーザ発話の音声認識結果を処理することによって応答を決定するという対話システムの性質上,言語的情報の処理に重点が置かれることが多かった.しかしながら,実環境下においては,そもそも入力が観測できないという状況が度々起こるため,言語的情報のみに依存した対話制御では不十分である.このような状況でユーザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた「発話を行う前のユーザ状態」を考慮する必要がある.我々は,発話前のユーザ状態を 2 種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダルな情報を用いることで対象とするユーザの状態をある程度推定できることが示唆されている.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,ユーザの状態を推定する手法について検討を行う.ここでは,新たにマルチモーダルな特徴系列をクラスタリングして Bag-of-Words 的に扱う方法を提案する.提案手法では,2 つのユーザ状態を 70% 以上の精度で識別できることが確認できた.

  73. 複素時間窓を利用した混合音声の分析手法の検討

    伊藤 仁, 伊藤 彰則

    聴覚研究会資料 = Proceedings of the auditory research meeting 43 (6) 473-478 2013年8月9日

    出版者・発行元: 日本音響学会

    ISSN: 1346-1109

  74. 複素時間窓を利用した混合音声の分析手法の検討 (応用音響)

    伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (177) 1-6 2013年8月9日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    有声音声や楽器音などの音響特性を,振幅と周波数が滑らかに時間変化する正弦波の和として近似する正弦波モデルは,音声の分析や合成など幅広い分野への応用が期待されている.一般に音声信号は基本周波数や声道伝達特性が時間変化する非定常信号であり,この様な信号を高い精度で再現する正弦波パラメータの推定は容易ではない.本稿では理論的な検討により,このパラメータ推定の障害を個々の正弦波成分のスペクトル歪みと,周波数軸上で近接する成分間の干渉の二つに分類した.このうち前者に対しては局所変化率変換を,後者に対しては複素窓関数を用いることで,非定常信号の正弦波パラメータを推定する新たな音響分析手法を提案した.音声信号や楽器音を入力とした性能評価実験の結果は,提案手法の有効性を支持するものであった.また,これらの混合音の分析結果から,複数の音響信号が混在する場合の正弦波パラメータ推定において提案手法が重要な基礎となる可能性が示唆された.

  75. 断片的な環境測定に基づく雑音除去の検討 (音声)

    町田 晃平, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (161) 1-6 2013年7月25日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    実環境における遠隔発話音声認識において,環境雑音の存在は音声認識の性能を著しく劣化させる.これまで,環境雑音に対して複数マイクロホンを用いた手法が提案されてきたが,マイクロホンの同期・常時観測を前提としており,大きなコストを要した.そこで,本稿ではそのような前提を必要としない非同期・間欠観測に基づく雑音下音声認識を提案する.本手法では,部屋の中の様々な場所に設置されたマイクロホンが間欠的に音の観測を行い,観測した音をGMMによりモデル化する.入力音声に対しては,あらかじめモデル化しておいた各雑音クラスに対し,雑音除去と音声認識を並列に行う.そして,各認識結果を統合することで最終的な認識結果を出力する.実験では,モデル化された各雑音クラスを個別に適用した場合でそれぞれの認識率を比較したところ,適用する雑音クラスによって認識率に差がみられた.また,付加された雑音が変わると最適な雑音クラスも変わることを明らかにした.さらに,認識結果を統合することにより,通常のスペクトル減算法と比べて2〜5 %の認識率の向上が得られた.

  76. 音声操作ロボットの動作とユーザ発話の音響的特徴との関係の分析 (音声)

    戸塚 典子, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (161) 57-62 2013年7月25日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声操作インタフェースが移動機構を持つロボットなどに搭載されると,ユーザが音声によってロボットをリアルタイムで動作させるという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図しない動作をする可能性がある.我々は,そのような動作を迅速に修正するために,ユーザの意図しないロボット動作が発生した際のユーザ発話の音響的特徴に着目し,これらをロボットの制御に応用することを提案する.そこで,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数(F0),インテンシティ,発話間隔にどのような変化が出るのか比較を行った.その結果,ロボットがユーザの意図しない動作をした際,ユーザ発話は発話速度が速く,発話間隔が短くなるという傾向が見られたが,F0 とインテンシティに関しては大きな変化が見られないことが明らかとなった.

  77. 質問応答データベースに基づくマルチタスク音声対話システムのタスク作成実験 (音声)

    三宅 真司, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (161) 31-36 2013年7月25日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    スマートホームや家庭内ロボットなどによる生活支援のための音声対話システムを作成している.このシステムは,発話用例データベースと応答候補文を列挙するだけで対話システムが作成できるため,対話システム開発に熟練していなくても作成可能であり,また各サブシステムを独立に開発して最後に合わせることで複数のタスクの併用が可能である.本稿では,実際に音声対話タスクを作成したことがない未経験者にタスクを記述させる実験を行い,タスク記述経験者の作成したタスクと比較実験を行った.その結果,作成したタスクの規模は経験者と未経験者でほぼ同じであり,実際に対話を行った場合のユーザの印象評価でも差は見られなかった.しかし,タスク達成率やユーザ発話のタスク識別率においては差がみられた.

  78. グロウル・スクリーム歌唱音声の音響的特徴と聴覚印象の考察 (音声)

    加藤 圭造, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (422) 43-48 2013年1月30日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    エクストリームメタルで頻繁に用いられるグロウル・スクリームといった歌唱法は、エクストリームメタルだけに留まらず広く用いられており、現代の音楽シーンに必須の歌唱法の一つである。本研究ではこれらの歌唱音声が持つ音響的特徴量と聴覚印象の関連を考察することで、これらの歌唱音声に必要な音響的特徴がどの様なものであるかを明らかにすることを試みる。

  79. 音声信号への口唇画像情報ハイディングによるマルチモーダル情報処理の検討 (マルチメディア情報ハイディング・エンリッチメント)

    阿部 洋平, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (420) 1-5 2013年1月29日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    人間は発話の際に口を動かすため、口唇動作と発話の間には密接な関係がある。我々は音声信号のみを伝送・保存する環境においても画像情報を用いたマルチモーダル情報処理を実現するため、口唇画像から抽出した特徴量を音声信号に埋め込むことを提案する。本稿では提案手法の概要を示すとともに、マルチモーダルVADへの応用を検討する。SVMを用いた発話検出実験の結果、雑音環境において画像情報を組み合わせることで音響情報のみを用いたVADよりも高い精度が得られた。また、データの埋め込みによる音質および精度への影響の調査実験を行い、大きな影響は出ないことを確認した。

  80. 対話中のユーザ状態逐次推定のための多段階識別手法に関する検討

    千葉祐弥, 伊藤仁, 伊藤彰則

    研究報告ヒューマンコンピュータインタラクション(HCI) 2013 (21) 1-6 2013年1月25日

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話の音声認識結果を基準として処理を行うため,ユーザの入力を待機している間にユーザの状態を推定することはできなかった.しかしながら,実環境下においては,ユーザがシステムのプロンプトに戸惑ってしまうなどで,入力を行うことができないという状況が度々起こる.こういったユーザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた 「発話を行う前のユーザ状態」 を考慮する必要がある.我々は,発話前のユーザ状態を 2 種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダル情報を用いることで対象とするユーザの状態がある程度推定できることを結論づけた.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,逐次的にユーザの状態を推定する手法について検討を行う.

  81. 対話中のユーザ状態逐次推定のための多段階識別手法に関する検討

    千葉祐弥, 伊藤仁, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2013 (21) 1-6 2013年1月25日

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話の音声認識結果を基準として処理を行うため,ユーザの入力を待機している間にユーザの状態を推定することはできなかった.しかしながら,実環境下においては,ユーザがシステムのプロンプトに戸惑ってしまうなどで,入力を行うことができないという状況が度々起こる.こういったユーザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた 「発話を行う前のユーザ状態」 を考慮する必要がある.我々は,発話前のユーザ状態を 2 種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダル情報を用いることで対象とするユーザの状態がある程度推定できることを結論づけた.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,逐次的にユーザの状態を推定する手法について検討を行う.

  82. 手すりを移動するコミュニケーションロボット-道案内方法の比較-

    廣井富, 黒田尚孝, 藤原祐磨, 戸塚典子, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 31st 2013年

  83. ロボットアバタを用いた指差し行為の実装-人間による指差し認識の調査-

    黒田尚孝, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 31st 2013年

  84. ARキャラクタを用いた音声対話による英会話学習システムの検討-タイムプレッシャー導入の効果-

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 伊藤彰則

    日本バーチャルリアリティ学会大会論文集(CD-ROM) 18th 2013年

    ISSN: 1349-5062

  85. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 伊藤彰則

    電子情報通信学会技術研究報告 113 (366(SP2013 82-95)) 2013年

    ISSN: 0913-5685

  86. 対話ターン中のユーザ状態の推定に有用なモダリティの分析 (音声・第14回音声言語シンポジウム)

    千葉 祐弥, 伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (369) 35-40 2012年12月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話を基準として処理を決定しているため,入力を待機している間にユーザの状態を推定することはできない.しかしながら,実環境下においてはユーザがシステムのプロンプトに戸惑ってしまい,入力をすることができない状況が度々起こる.このような場合,一定時間おきに同一内容のプロンプトを提示することが一般的であるが,この補助は入力内容を考えているユーザにとっては非常にわずらわしいものである.これらのユーザに対して適切な応答を行うためには,発話を行う前のユーザ状態を推定できる必要がある.以前行なっていた検討では,様々な影響を切り分けた分析を行わずに自動推定を試みていたため,どの情報がユーザの状態の推定に必要なのかが不明瞭であった.そこで,本稿ではあらためてデータの収集と被験者による評価実験を行い,より詳しい分析を行った.

  87. トピック関連語推定とSTDによる未知語推定の評価 (音声・第14回音声言語シンポジウム)

    佐藤 壮一, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (369) 143-147 2012年12月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,音声認識結果から関連する単語を推定するトピック関連語推定と,発話中にある単語が含まれているかどうかを見る検索語検出(SpokenTermDetection:STD)を用いて,音声認識における未知語を推定した.トピック関連語推定のみを用いた場合,STDのみを用いた場合,両方を用いた場合について,それぞれ比較し検討を行った.その結果,両方を用いた場合に推定語数が多い状況で,トピック関連語推定のみの場合に推定語数が少ない状況で最も良い再現率を得られることがわかった.また,トピック関連語推定の再現率が高い状態でSTDを利用することで,トピック関連語推定のみの場合よりも高い適合率を得ることができることもわかった.

  88. 対話ターン中のユーザ状態の推定に有用なモダリティの分析

    千葉祐弥, 伊藤仁, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2012 (7) 1-6 2012年12月13日

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話を基準として処理を決定しているため,入力を待機している間にユーザの状態を推定することはできない.しかしながら,実環境下においてはユーザがシステムのプロンプトに戸惑ってしまい,入力をすることができない状況が度々起こる.このような場合,一定時間おきに同一内容のプロンプトを提示することが一般的であるが,この補助は入力内容を考えているユーザにとっては非常にわずらわしいものである.これらのユーザに対して適切な応答を行うためには,発話を行う前のユーザ状態を推定できる必要がある.以前行なっていた検討では,様々な影響を切り分けた分析を行わずに自動推定を試みていたため,どの情報がユーザの状態の推定に必要なのかが不明瞭であった.そこで,本稿ではあらためてデータの収集と被験者による評価実験を行い,より詳しい分析を行った.

  89. 補助情報による音響信号の価値創造

    伊藤 彰則

    電子情報通信学会技術研究報告. EA, 応用音響 112 (292) 87-92 2012年11月9日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    補助情報を使って音響信号に様々な機能や付加価値を加える方法について,筆者の研究内容を中心に述べる.従来の多くの音響信号処理では,信号中で失われてしまった情報の推定がテーマとなっているが,このようなタスクに補助情報を導入することで,高品質な信号操作が容易に可能となる.本稿では,まず最初に補助情報を用いた信号推定の原理について概略を述べる.次に具体的な応用として,オーディオ信号のパケットロス隠蔽,混合音楽信号の操作,電話音声の帯域拡張の3つのテーマについて述べる.

  90. 災害に役立っ情報通信サービス(ポストIPネットワーキング,新世代ネットワーク,ネットワークモデル,インターネットトラピック,TCP/IP,マルチメディア通信,ネットワーク管理,リソース管理,プライベートネットワーク,NW安全性及び一般)

    庄司 貞雄, 青木 孝文, 伊藤 彰則, 大町 真一郎, 伊藤 康一

    電子情報通信学会技術研究報告. NS, ネットワークシステム 112 (208) 71-72 2012年9月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    大規模災害時などにおいて移動通信ネットワークで輻輳が発生する場合に,ネットワークを動的に制御することによって輻輳を回避する技術研究が行なわれている.この際に,災害時の安全確保や情報の共有に役立つサービスのあり方と,必要となる実現技術について研究を進めている.

  91. 非言語情報を用いたHMMによるユーザ発話前内部状態の推定

    千葉 祐弥, 伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111 (430) 7-12 2012年2月2日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,音声対話システムにおけるユーザの発話前内部状態を推定する手法について述べる.実環境におけるシステム主導型対話システムのプロンプトは,たびたびユーザを混乱させる.一般的な対話システムは入力に時間か掛かっているユーザに対してより詳細な内容の情報を提示するなどの補助を行うが,これらの補助はプロンプトに対する入力を考えているユーザにとってはわずらわしいものとなる.適切な応対を行うためには,システムは発話前のユーザ内部状態を考慮できなくてはならない.従来のユーザモデル研究は発話の言語的な情報に注目してきた.このアプローチの問題の一つはユーザの内部状態が人力発話の終了まで待たないと推定できないことである.したがって,本研究ではユーザ発話が起こる前のフィラーや無音区間,頭部運動などのユーザの非言語的な情報に着目する.本稿では,これまで検討してきた固定長の特徴量を時系列特徴として構築し直し,隠れマルコフモデルによってユーザモデルの推定を行う.被験者に対してopenな識別実験を行ったところ,79.6%の識別精度を得た.

  92. アマチュア歌唱エンタテインメントのための熱唱度評価システムSEES

    大道 竜之介, 伊藤 仁, 牧野 正三, 伊藤 彰則

    研究報告音楽情報科学(MUS) 2012 (2) 1-7 2012年1月27日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本研究の目標は,歌唱の熱唱度を自動的に評価するシステムを開発することである.カラオケの採点システムに代表されるように,歌唱音声の自動評価によってアマチュア歌唱エンタテインメントに付加価値をもたらそうとする研究が盛んに行われてきた.しかしほとんどの研究において,その評価しようとする側面は歌唱のうまさである.本研究では歌唱のうまさではなく熱唱度に着目し,その知覚に関する基本的な特性を明らかにするとともに,自動評価システムの開発を目指す.またこれを用いた新しい形態のアマチュア歌唱エンタテインメントを提案する.The goal of our research is to develop a system for evaluating singing enthusiasm. As evaluation systems for karaoke represent, many researchers have worked on automatic evaluation methods of singing voice to make additional value on amateur singing entertainment. However most of the researches try to evaluate only singing skill. In our research, the point of interest is not singing skill but singing enthusiasm. We describe in this paper our attempt to develop an automatic evaluation system of singing enthusiasm through analyses of principles on human perception of it. Moreover we propose a new style of amateur singing entertainment with our system.

  93. グロウル及びスクリーム歌唱の合成に向けた音響的特徴の分析

    加藤 圭造, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2012 (14) 1-6 2012年1月27日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.In this study, we analized acoustic feauture of growl and scream singing voices used in extream metal music, such as death metal, metal core, and so on. We observed sub-harmonics and macro pulse structures those are reported as accoustic features of rough voice. We also measured jitter, shimmer, and HNR values.

  94. patissier-アマチュア作詞家のための作詞補助システム-

    阿部 ちひろ, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2012 (17) 1-6 2012年1月27日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本稿では,音節数や韻,単語のアクセントに着目した作詞支援システム 「patissier」 を提案する.システムは Ngram 言語モデルをもとに,ユーザの指定した条件を満たす歌詞候補文を生成し,提示する.ユーザはシステムを辞書のように用い,提示文から主体的に言葉を選び作詞を進めることができる.主観評価実験では,被験者がシステムを用いて作詞を行い,システムが実際の作詞においてどのように使われるのかを調査した.システムの使用ログと被験者アンケートから,ユーザはシステムに自身が持つ歌詞のイメージに合うような候補の提示を求めていることがわかった.また,提示された単語は直接用いられるよりも,歌詞のストーリーを組み立てる手がかりとして用いられることが多いという傾向が明らかになった.In this paper, we propose a lyrics writing support system focused on the number of syllables, rhyme and word accent. The system generates candidate sentences that satisfy user-specified conditions based on Ngram, and presents them. Users can use the system like a dictionary, and write lyrics be choosing presented sentences. In our subjective evaluations, we have investigated how the system is utilized for writing lyrics actually. The log of using the system and the questionnaires showed that users want the system to present words suitable for their images, and they used the presented words as keywords of a lyrics rather than as they are.

  95. 手すりを移動するコミュニケーションロボット-全体コンセプト-

    廣井富, 内田裕二, 西村駿宏, 中山貴之, 黒田尚孝, 三宅真司, 戸塚典子, 伊藤彰則

    ヒューマンインタフェースシンポジウム論文集(CD-ROM) 2012 2012年

    ISSN: 1345-0794

  96. ロボットアバタを用いた指差し行為の実現-ロボットアバタへの実装-

    黒田尚孝, 廣井富, 三宅真司, 伊藤彰則

    日本感性工学会大会予稿集(CD-ROM) 14th 2012年

  97. ロボットアバタを用いた指差し行為の移動ロボットへの実装

    黒田尚孝, 廣井富, 三宅真司, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 30th 2012年

  98. 質問応答データベースを用いた聞き返し発話の検出に関する検討

    三宅真司, 廣井富, 伊藤彰則

    情報処理学会研究報告(CD-ROM) 2012 (2) 2012年

    ISSN: 2186-2583

  99. ロボットの動作によって人間の発話開始時間を制御できるか?

    中山貴之, 廣井富, 黒田尚孝, 三宅真司, 伊藤彰則

    情報処理学会研究報告(CD-ROM) 2012 (2) 2012年

    ISSN: 2186-2583

  100. 日常生活支援移動ロボットASAHIの開発-全体構想とハードウェア構成-

    廣井富, 黒田尚孝, 内藤圭祐, 高田晶太, 松井一馬, 井上駿, 林和孝, 中山貴之, 松中翔平, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2012 2012年

    ISSN: 2424-3124

  101. 一つのLRFを用いた人追跡に関する一考察

    松中翔平, 廣井富, 内藤圭祐, 井上駿, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2012 2012年

    ISSN: 2424-3124

  102. ロボットアバタを用いた指差し行為の実現-基本コンセプトと予備実験-

    黒田尚孝, 廣井富, 松井一馬, 三宅真司, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2012 2012年

    ISSN: 2424-3124

  103. 付加情報を用いたボーカル音声操作システムにおける伴奏情報の適用方法の検討 (マルチメディア情報ハイディング・エンリッチメント)

    佐々木 勇翔, 咸 聖俊, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 111 (287) 47-52 2011年11月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    ストリーミング配信されている楽曲信号に対し,付加情報を与える事でボーカルパートの音量のみを操作可能にするシステムを検討している.付加情報としてミックス前の信号から抽出した基本周波数,及び伴奏信号の情報を用いた.伴奏信号の考慮方法が異なる三種の櫛形フィルタをそれぞれ実装し,その情報量と操作精度の評価を行った.また,混合音中のターゲット信号の強調処理について,これらのフィルタで操作を行った場合と既存の音声符号化方式を用いた場合の情報効率の比較を行った.

  104. 東日本大震災 危機発生時の対応について考える:12.東日本大震災時の東北大学工学研究科の対応

    伊藤 彰則, 馬場 博子, 安斎 浩一

    情報処理 52 (9) 1084-1085 2011年8月15日

    詳細を見る 詳細を閉じる

    東北大学工学研究科(青葉山キャンパス)には,工学部・工学研究科の広報活動と情報システム運用を担うため,研究科長直属の組織として情報広報室が設置されている.今回のような広域災害の場合,震災後に学生・教職員の安否に関する情報収集,大学の現状や今後の予定などを伝える情報発信がきわめて重要であり,これらの両方をリアルタイムに行う必要がある.本稿の目的は,震災直後の数日に何が起こったのか,それに対して工学部・工学研究科の情報収集・発信体制がどうだったのかを振り返り,今後の災害時情報収集・発信体制の改善への手がかりとすることである.

  105. 統計的言語モデルを用いた作詞補助システム

    阿部 ちひろ, 伊藤 彰則

    研究報告音楽情報科学(MUS) 2011 (9) 1-6 2011年7月20日

    詳細を見る 詳細を閉じる

    本稿では,音節数と韻に着目した作詞支援システムを提案する.システムは Ngram 言語モデルをもとに,ユーザの指定した音節数と韻の条件を満たす歌詞候補文を生成し,提示する.ユーザはシステムを辞書のように用い,提示文から主体的に言葉を選び作詞を進めることができる.我々は GUI を備えた作詞補助システムを実装し,提示文とシステムの主観評価実験を行った.In this paper, we propose a lyrics writing support system focused on the number of syllables and rhyme. The system generates candidate sentences that satisfy user-specified conditions based on Ngram, and presents them. A user can use the system like a dictionary, and write lyrics be choosing presented words. We have implemented a system with GUI, and subjective evaluations of the statements and proposed system were conducted.

  106. 音声対話システムのための非言語情報を用いた発話前状態の推定

    千葉 祐弥, 咸 聖俊, 伊藤 彰則

    電子情報通信学会技術研究報告. SP, 音声 111 (153) 23-28 2011年7月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    対話型のインターフェースでは,多様なユーザの挙動にも柔軟に応対できることが望まれる.音声対話システムはハンズフリーで操作でき,訓練も必要ない反面,そういった要求の重要性はさらに大きいものと思われる.これまで,入力された言語情報から適応的に応対を生成する研究は盛んに行われてきたが,ユーザが発話を行う前の情報からシステムの対話制御を決定する研究はあまりなされていない.本研究では,対話中のユーザの非言語情報に注目し,ユーザの発話が行われる前に対話補助を行うことのできる対話システムの構築を目指す.ここでは,特に音声の時間的な情報及び,ユーザの顔向きをYaw,Roll,Pitchの3回転方向の動きに分けて分析を行い,SVMによる識別実験を行った.

  107. 移動ロボット減速時におけるロボットアバタを用いた動作予告法の実装と評価

    中山貴之, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 29th 2011年

  108. 10日間で作るロボット音声対話システム

    三宅真司, 廣井富, 伊藤彰則

    ヒューマンインタフェースシンポジウム論文集(CD-ROM) 2011 2011年

    ISSN: 1345-0794

  109. ロボットの主観評価における身体と拡張現実感

    廣井富, 伊藤彰則

    電子情報通信学会技術研究報告 110 (459(HCS2010 56-69)) 2011年

    ISSN: 0913-5685

  110. ロボットアバタを用いた日常生活支援ロボットの親しみ感の向上-非ヒューマノイド型ロボットへの適用-

    廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2011 2011年

    ISSN: 2424-3124

  111. 日常生活支援移動ロボットGoyaneの開発-高さ変更可能な機構の提案-

    廣井富, 篠原達也, 兼次一喜, 岩本昂, 中山貴之, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2011 2011年

    ISSN: 2424-3124

  112. 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討 (音声)

    増村 亮, 咸 聖俊, 伊藤 彰則

    電子情報通信学会技術研究報告 110 (357) 109-114 2010年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  113. 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討

    増村 亮, 咸聖俊, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2010 (20) 1-6 2010年12月13日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    音声ドキュメントのアドホック検索に対する需要が近年増加している.音声認識を利用して音声ドキュメントをテキストへ変換することで既存のテキスト検索の技術が利用可能であるが,音声認識誤りにより,検索性能が大きく劣化することが知られている.この問題を解決するために,以前我々は認識誤りによって欠落してしまった単語を対象音声に関連する Web 文書を利用して補間する方法を提案した.本稿では新たに情報検索モデルとして近年注目されている確率的言語モデルに焦点を当てる.Web を利用した補間のアイデアを確率的言語モデルを利用する枠組みに組み込むために,我々は Web 検索ヒット数を用いた新たなスムージング方法,および Web 関連文書を用いた混合モデル化による文書モデル拡張手法を提案する.In recent years, there has been more and more demands for ad hoc retrieval of spoken documents. We can use existing text retrieval method by trascribing the spoken document into text using a Large Vocabulary Continuous Speech Recognizer (LVCSR). However, it is well known that the retrieval performance deteriorates severely by recognition errors. To solve this problem, we previously proposed a method which interpolate lacked words using relevant Web documents to the target spoken document. In this paper, we newly focus on probabilistic language model which is attracted attention as a information retrieval model. To introduce Web-based interpolation idea into language modeling approach, we propose new smoothing method using Web hit counts and mixture modeling method using relevant Web documents.

  114. 監視マイクロホンのための多段GMMを用いた異常音検出手法

    伊藤 彰則, 相場 亮人, 伊藤 仁, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 110 (220) 1-6 2010年10月1日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    筆者らは,マイクロホンで観測した環境音中から異常な音を自動検出する手法として,複数のGMMを併用することで出現頻度の少ない正常音を学習する「多段GMM」をこれまで提案してきた.本稿では,多段GMMを用いたときの異常音検出性能と,監視環境での背景音の関係について検討した.その結果,高騒音下では検出性能が低下し,検出性能は背景音と異常音のSN比に依存することが明らかとなった.また,提案法では複数のしきい値やGMM混合数などのパラメータが必要であるため,観測データから最適なパラメータを推定する手法について検討した.Ptile法による閾値決定とBICによる混合数決定が有効であったが,パラメータを自動推定した場合には20%程度の性能低下が見られた.

  115. 局所変化率変換と時間軸変換に基づく有声音声の正弦波モデル

    伊藤 仁, 伊藤 彰則

    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 93 (9) 1745-1754 2010年9月1日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 1880-4535

    詳細を見る 詳細を閉じる

    音声信号を振幅と周波数が時間変化する正弦波成分の和として近似する正弦波モデルでは,非定常部でのパラメータ推定精度が問題となる.本論文では,音声信号の時間軸を第1調波成分の位相軸に置き換える時間軸変換と,正弦波成分の振幅と周波数の非定常性を単純な時変関数で近似する局所変化率変換に基づく正弦波パラメータ推定法を提案する.成人男女75名が発話した900個の単語音声を用いた性能評価実験により,提案法の推定精度を二つの既存手法と比較した.各手法の推定精度は,パラメータから再合成した信号に基づいて入力対残差パワー比(S/R)として定量化した.提案法の平均S/Rは28.4dBで,時間軸変換を行わずパワースペクトルの局所ピークを用いるPeak-picking法(14.4dB)や,正弦波成分の振幅の非定常性を考慮しないIF-attractor法(23.4dB)より高かった.この推定精度の差は,特に入力音声の非定常性が高い場合に大きくなった.これらの結果から,非定常部を含む有声音声の正弦波パラメータの高精度推定において,時間軸変換と局所変化率変換を統合した提案法の有効性が確認された.

  116. 教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現

    増村 亮, 咸 聖俊, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2010 (18) 1-6 2010年7月15日

    出版者・発行元: 情報処理学会

    ISSN: 1884-0930

    詳細を見る 詳細を閉じる

    我々は,Web 上の言語データを利用した言語モデル教師なし適応の高精度化を目指している.教師なし適応の場合,音声認識結果から話題に関連した検索クエリを作成することで Web 上から言語データをダウンロードする方法が一般的である.しかし,間接的な検索クエリを使用して未知語を含む言語データをダウンロードすることは非常に困難であった.そこで我々は,ある単語が出現する際の文脈を利用できるように,単語をクエリとして Web からダウンロードできる言語データを事前に単語と対応付ける方法を提案する.我々は形態素解析器が持つ全ての名詞に対して,事前に単語のトピックを表現した.この枠組みを利用して教師なしで適応実験を行い,本手法の有効性を確認した.We are developing a method of Web-based unsupervised language model adapatation. In the previous Web-based LM adaptation, search queries are composed from the automatic transcription of the input speech. However, it is difficult to gather documents that contain OOV words because the search queries do not contain any OOV words. For selecting relevant keywords from the transcription, we propose a method that associate each noun in the vocabulary with Web documents downloaded by that word. The downloaded documents are used to estimate the topic of the transcription. From the unsupervised LM adaptation method, we confirmed the effectiveness of the proposed method.

  117. Quinphone HM-Net を用いた単語グラフ統合に基づく講演音声認識

    加藤 正治, 小坂 哲夫, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 110 (81) 37-42 2010年6月10日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    書き言葉においては高い認識精度が達成されているが,話し言葉では言い淀み,フィラー,不明瞭な発声などなどさまざまな問題があり,未だ十分な性能は達成されていない.特に調音結合など音響的な変動が大きく問題となっている.この問題を解決するためにtriphoneやquinphoneなど環境依存モデルが提案されている.しかし,話し言葉においてはこの調音結合の程度も変動する.このため本研究では単語グラフ統合を用い,多くの音響モデルで作成した単語グラフを統合することにより認識性能の向上を図った.

  118. 歌唱の「熱唱度」評価の検討

    大道 竜之介, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音楽情報科学(MUS) 2010 (10) 1-6 2010年5月20日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    歌唱音声の新たな評価指標として 「熱唱度」 の導入を提案する.聴取実験の結果から,歌唱音声中のビブラートおよび呼吸音が,熱唱の知覚に関与することがわかった.本稿では, 歌唱音声におけるビブラート,有声呼吸音,声門破裂の 3 つの特徴を挙げ,これらを定量化する音響特徴量について検討する.34 名の歌唱音声に対する聴取実験から得た,熱唱度の聴取実験スコアと,複数の音響特徴量との重回帰分析を行い,それらの間に重相関係数 0.45 を得た.We propose introducing "enthusiasm" as a novel index of singing voice. The result of the listening experiment by human subjects suggests that both vibrato and breath sounds in singing voice concern human perception of enthusiasm. This paper describes our experiments to quantify 3 features in singing voice; vibrato, voiced breath sounds and glottal plosion. As a result of the multiple linear regression analysis between perceived enthusiasm score evaluated by the listening experiment with singing voice recordings of 34 people and some quantified acoustic features, we reached multiple correlation coefficient of 0.45.

  119. 生活支援ロボットの実用化を目指して

    廣井富, 伊藤彰則

    電子情報通信学会技術研究報告 109 (457(HCS2009 64-88)) 2010年

    ISSN: 0913-5685

  120. 拡張現実感を用いた日常生活支援移動ロボットへの位置の指示方法の提案

    去来川勇樹, 廣井富, 榊洋祐, 二神龍平, 中山貴之, 伊藤彰則

    バイオメカニズム学術講演会予稿集 31st 2010年

  121. 日常生活支援移動ロボットGoyaneの開発

    廣井富, 後藤基允, 山本祐三, 山根佑介, 稲田遥一, 大原達哉, 木村昭太, 久野修平, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2010 2010年

    ISSN: 2424-3124

  122. 日常生活支援移動ロボットのためのロボットアバタを用いた動作予告法の比較

    廣井富, 大原達哉, 木村昭太, 久野修平, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2010 2010年

    ISSN: 2424-3124

  123. 音声認識における言語モデル

    伊藤彰則

    日本音響学会誌 66 (1) 32-35 2010年1月

    DOI: 10.20697/jasj.66.1_32  

  124. マルチタスク型音声対話システムの対話制御のための発話識別 (言語理解とコミュニケーション)

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 109 (355) 37-42 2009年12月21日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

  125. WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価 (言語理解とコミュニケーション)

    増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 109 (355) 183-188 2009年12月21日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

  126. WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価

    増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三

    音声言語情報処理(SLP) 2009 (32) 1-6 2009年12月14日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識の高精度化のために,WWW 上から認識対象のトピックに関連したテキストを収集し,言語モデル適応を行う.我々は,認識対象の音声認識結果から全自動で検索クエリを生成する教師なしの方法に焦点を当てる.本稿では,WWW を利用して単語の関連性を表す特徴ベクトルを抽出することで,適切にトピック関連語およびサブトピックを推定する方法を提案した.そして,音声認識実験を行うことで提案法の有効性を確認した.To improve the accuracy of an LVCSR system, we gather topic-related documents from WWW, and adapt the language model. We focus on an unsupervised method that automatically generate search queries from an automatic transcription by a speech recognizer. In this paper, we proposed a new method to estimate topic-related word and sub-topic by extracting feature vectors from WWW, which express relevance between the words. We carried out a speech recognition experiment. The experimental result showed effectiveness of the proposed method.

  127. マルチタスク型音声対話システムの対話制御のための発話識別

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    音声言語情報処理(SLP) 2009 (7) 1-6 2009年12月14日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では容易に設計できるマルチタスク型音声対話システムを目的とし,そのシステムにおける対話制御と対話制御に必要な発話識別の方法を検討した.システム内では,確認応答型システムと一問一答型システムをサブシステムとして用いた.対話制御は発話識別部分と個々のサブシステムの対話制御部分で構成される.発話識別は話者の最初の発話に対する識別と,2 回目の発話に対する識別の 2 種類がある.音声認識結果とテキスト入力で識別実験を行ったところ,最初の発話に対する識別ではテキスト入力で 80% 以上の識別率が得られた.また 2 回目の発話に対する識別では音声入力で 100% 近くの識別率が得られた.We studied dialog control and a method of utterance discrimination for a multi-task spoken dialog system that combines multiple dialog systems. Framebased and example-based systems are used as subsystems for combination. Dialog control is composed of utterance discrimination and dialog controls which are used by each subsystem. The utterance discrimination was applied to both of first utterance and second utterance. We conducted a discrimination experiment. As a result, we obtained more than 80% accuracy in first discrimination and near 100% accuracy in second discrimination.

  128. 時間冗長性圧縮によるボコーダ型音声符号化の低ビット化

    木幡 稔, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 109 (308) 7-12 2009年11月19日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    これまでに筆者らは,連続情報源に含まれる時間的な冗長性を圧縮符号化する方式として,新しいセグメント量子化法であるLempel-Ziv Segment Quantization(LZSQ)を提案した.これは,離散情報源用の圧縮法であるLZ符号化を連続情報源に適用できるように修正したものである.本稿ではLZSQをボコーダ型の低ビット音声符号化方式に適用し,時間冗長性を圧縮することにより,さらなるビットレートの削減を試みる.標準化されているボコーダ型音声符号化方式の1つである2.4kb/sMELP符号化の6個の符号化パラメータにLZSQを適用し,MELP符号化と同等の音質を維持しつつ極限までビットレートを削減することを試みた.その結果,総ビットレートを約1.57kbit/sまで低減することができた.

  129. この曲、何だっけ? 歌で音楽を探す「歌声検索」

    伊藤彰則, 鈴木基之, 牧野正三

    DTM Magazine 16 (11) 100-101 2009年11月

    出版者・発行元: 寺島情報企画

  130. An algorithm for fast calculation of back-off n-gram probabilities with unigram rescaling

    Kato, M., Kosaka, T., Ito, A., Makino, S.

    IAENG International Journal of Computer Science 36 (4) 2009年11月1日

    ISSN: 1819-656X

  131. RE-005 局所変化率変換に基づく有声音声の正弦波モデル(自然言語・音声・音楽,査読付き論文)

    伊藤 仁, 伊藤 彰則

    情報科学技術フォーラム講演論文集 8 (2) 43-48 2009年8月20日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  132. 多段GMMおよびセグメントモデルを用いた異常音検出の検討

    相場 亮人, 伊藤 仁, 伊藤 彰則

    聴覚研究会資料 39 (5) 401-405 2009年8月3日

    出版者・発行元: 日本音響学会聴覚研究委員会

    ISSN: 1346-1109

  133. MP3パケットロス隠蔽における音質の客観評価に関する検討

    今野 清志, 伊藤 仁, 伊藤 彰則

    聴覚研究会資料 39 (5) 367-372 2009年8月3日

    出版者・発行元: 日本音響学会聴覚研究委員会

    ISSN: 1346-1109

  134. MP3パケットロス隠蔽における音質の客観評価に関する検討

    今野 清志, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. EA, 応用音響 109 (166) 37-42 2009年7月27日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,パケットロス隠蔽を適用したMP3音楽に対して有効な客観評価法について検討を行う.広帯域音楽信号の音質を客観的に評価する従来法としてはITU-R BS.1387で勧告されているPEAQがある.しかしながら,PEAQは主な劣化要因としてオーディオ圧縮コーデックによる劣化を対象にしており,パケットロス隠蔽音楽に対する評価性能は十分でない.そこで,PEAQにおける部分評価値であるMOVに対して重回帰分析を行い,パケットロス隠蔽音楽の音質予測に対して重要な要素を検討した.さらに,局所的に急激な劣化が発生した場合の音質への影響を反映するために,サブバンド毎のSNRの分散を評価指標に含めることで予測精度が向上した.これらの評価項目についてCross-Validationを行った結果,平均で約0.84の相関係数を得た.

  135. 多段GMMおよびセグメントモデルを用いた異常音検出の検討

    相場 亮人, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. EA, 応用音響 109 (166) 71-75 2009年7月27日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本研究では,監視マイクロフォンのための異常音検出システムを提案する.提案システムは実際に監視場所で発生した日常音を学習したモデルを用いて,学習されていない音を異常音として検出する.これによって,検出対象を特定のイベントに限定しない,あらゆる異常に対応可能なシステムとなる.ここでは実環境の音を用いて実験を行い,提案システムの検出性能を評価した.発生率が小さい日常音をモデル化するために多段GMMの手法を用いると,システムの検出性能を向上させることができた.さらに,セグメント特徴量を用いて音響特徴量の動的変化を考慮することを検討した.

  136. 新博士によるパネルディスカッションIII 「私のための研究・価値を生み出す研究」

    伊藤 彰則, 安藤 大地, ルルー・ジョナトン, 中野 倫靖, 吉井 和佳

    研究報告音楽情報科学(MUS) 2009 (7) 1-5 2009年7月22日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    「新博士によるパネルディスカッション」は,最近博士号を取得した若い研究者の皆さんを集め,これまでの研究の紹介をしてもらうと同時に,音楽情報処理研究について若い視点からの議論を交す試みであり,今回で3回目になる.今年は,4名のパネリストに研究を熱く語っていただく.This event, "Panel Discussion Featuring Newly Honored Doctors" is to introduce young scholars' research, and to discuss various issues on music information science from young researchers' point of view. This year, we have four young researchers as panelists.

  137. 複数の音声対話システム併用のための発話識別

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告自然言語処理(NL) 2009 (15) 1-6 2009年5月14日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では複数の音声対話システムを併用することを目的とし,そのために必要な発話識別の方法を検討した.併用するシステムとして,確認応答型システムと一問一答型システムを用いた.識別の特徴量として発話の各タスクらしさを表すスコアと音声認識結果の尤度を用いた.発話識別は特徴量の大小比較とニューラルネットで行った.音声認識結果が1-best時とN-best時の両方で識別実験を行ったところ,80%以上の正解率を得るとともにN-best時の方が正解率が向上することが分かった.We studied a method of utterance discrimination for a spoken dialog system that combines multiple dialog systems. Frame-based and example-based systems are used as systems for combination. We used similarities to tasks and likelihood obtained by a speech recognizer as features for the discrimination. A discrimination function is composed by a neural network. We conducted a discrimination experiment using 1-best and n-best recognition results of the speech recognizer. As a result, we obtained more than 80% accuracy, and the result by the n-best candidates was better than that by the 1-best candidate.

  138. 複数の音声対話システム併用のための発話識別

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音声言語情報処理(SLP) 2009 (15) 1-6 2009年5月14日

    出版者・発行元: 情報処理学会

    ISSN: 1884-0930

    詳細を見る 詳細を閉じる

    本稿では複数の音声対話システムを併用することを目的とし,そのために必要な発話識別の方法を検討した.併用するシステムとして,確認応答型システムと一問一答型システムを用いた.識別の特徴量として発話の各タスクらしさを表すスコアと音声認識結果の尤度を用いた.発話識別は特徴量の大小比較とニューラルネットで行った.音声認識結果が1-best時とN-best時の両方で識別実験を行ったところ,80%以上の正解率を得るとともにN-best時の方が正解率が向上することが分かった.We studied a method of utterance discrimination for a spoken dialog system that combines multiple dialog systems. Frame-based and example-based systems are used as systems for combination. We used similarities to tasks and likelihood obtained by a speech recognizer as features for the discrimination. A discrimination function is composed by a neural network. We conducted a discrimination experiment using 1-best and n-best recognition results of the speech recognizer. As a result, we obtained more than 80% accuracy, and the result by the n-best candidates was better than that by the 1-best candidate.

  139. WWW を利用した言語モデル適応のための検索クエリ構成の検討

    増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音声言語情報処理(SLP) 2009 (10) 1-8 2009年5月14日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において,高精度な認識を実現する有効な手段として,認識対象にマッチしたテキストを収集し,認識対象に適応した言語モデルを作成する方法がある.この言語モデル適応のために,WWW (World Wide Web) から自動的に認識対象にマッチしたテキストの収集を行う.WWW からテキストを得るには,検索のためのクエリを構成する必要がある.本研究では,認識対象の未知語を獲得するような検索クエリの自動構成方法について検討を行った.To improve the accuracy of an LVCSR system, it is effective to gather text data related to the topic of the input speech and adapts the language model using the text data. To create an adapted language model, we collect topicrelated text automatically from the WWW(World Wide Web). Search query is necessary for retrieving topic-related text from the WWW. In this paper, we investigate automatic composition of a search query to acquire out-of-vocabulary words of the input speech.

  140. 複数 F0 候補データベースによる歌声楽曲検索の検討

    小杉 優, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音楽情報科学(MUS) 2009 (6) 1-6 2009年5月14日

    出版者・発行元: 情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では,複数 F0 候補を持つデータベースを用いた歌声楽曲検索について検討する.ここでは,CD 等の音響信号から自動的にメロディーラインの基本周波数 (F0) 候補を複数選択し,データベースとして保持する.上記データベースに対し,楽曲検索を行う手法について検討した.その結果,F0 候補を複数個使用することによって,単独 F0 を用いた場合の 1 位正解率を,29.2% から 41.7%,10 位以内正解率を 58.3% から 70.8% まで改善することができ,F0 候補を複数個持つことの優位性が確かめられた.In this paper, we propose a melody-based music information retrieval that uses a database with multiple F0 candidates. This database contains multiple F0 candidates of melody lines extracted from acoustic signals such as CDs, automatically. We conducted an experiment of music retrieval using the proposed database. The experimental result showed that the retrieval accurary of the top candidate was improved from 29.2% to 41.7%, and that of the top 10 candidates was improved from 58.3% to 70.8%. This result proved the effectiveness of the proposed method.

  141. ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化

    倉石 卓也, 伊藤 仁, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 71 275-276 2009年3月10日

  142. ハミング楽曲検索のための音響信号からのデータベース生成の検討

    小杉 優, 伊藤 仁, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 71 237-238 2009年3月10日

  143. DS-3-8 ADPCMを利用した情報ハイディングのビットレート制御(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)

    半田 浩規, 伊藤 彰則, 鈴木 陽一

    電子情報通信学会総合大会講演論文集 2009 (2) "S-33"-"S-34" 2009年3月4日

    出版者・発行元: 一般社団法人電子情報通信学会

  144. 日常生活支援型移動ロボットのためのロボットアバタを用いた動作予告の実装

    廣井富, 後藤基允, 山本祐三, 大原達哉, 木村昭太, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 27th 2009年

  145. Novel tonal feature and statistical user modeling for query-by-humming

    Motoyuki Suzuki, Takuto Ichikawa, Akinori Ito, Shozo Makino

    Journal of Information Processing 17 95-105 2009年

    出版者・発行元: Information Processing Society of Japan

    DOI: 10.2197/ipsjjip.17.95  

    ISSN: 1882-6652 0387-5806

  146. Evaluation of English Intonation based on Combination of Multiple Evaluation Scores

    Akinori Ito, Tomoaki Konno, Masashi Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 596-599 2009年

  147. Relative importance of formant and whole-spectral cues for vowel perception

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 132-+ 2009年

  148. Detailed description of triphone model using SSS-free algorithm

    Motoyuki Suzuki, Daisuke Honma, Akinori Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 1403-+ 2009年

  149. Multiple description coding of flash video based on adaptive allocation of DCT coefficients 査読有り

    Akinori Ito, Takuya Kuraishi, Masashi Ito, Shozo Makino

    APSIPA ASC 2009 - Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference 453-456 2009年

  150. PLSA言語モデル適応におけるアニーリングスケジュールの評価

    加藤正治, 小坂 哲夫, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (123) 49-53 2008年12月2日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    潜在的意味解析 (PLSA) の学習においてアニーリングを行うことは局所最適解に陥ることを防ぐ意味で重要である.本報告では,アニーリングスケジュールを連続関数で定義することで明確化し網羅的な比較検討をする.提案法を 「日本語話し言葉コーパス (CSJ) 」 の講演音声で評価しところ,増加関数に基づくアニーリングスケジュールで作成した言語モデルは, 28.7% のパープレキシテイ削減と 5.3% の単語誤り率の改善を得た.Probabilistic Latent Semantic Analysis (PLSA) is a powerful statistical laguage model. However the PLSA has the local maxima problem. To overcame this problem, the EM annealing algorithm has been proposed. In this paper, we designed annealing schedule /3 with some continuous functions. As a result, we found that increas ing functions and square root functions are the best for annealing schedule. In the experiment, we obtain 28.7% perplexity reduction and 5.3% word error rate reduction.

  151. 質問応答データベースの自動作成に基づく音声対話システムの評価

    森本 高弘, 伊藤 仁, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108 (337) 267-272 2008年12月2日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    一問一答形式の音声対話システムにおいて質問応答データベースを用いた用例ベースの応答生成は様々な発話に頑強だが,新たなシステム設計はコストが大きい.本研究ではコスト削減のため,用例の種類ごとに用意されたテンプレートを用いて質問応答データベースを自動作成する方法について検討,評価を行う.結果,人手で作成した質問応答データベースを用いた場合と自動作成した質問応答データベースを用いた場合でとほぼ同様の性能を示すができた.また,F値を用いたスコアリング方法を提案し,従来法を用いた場合よりも応答正解率が改善した.

  152. PLSA言語モデル適応におけるアニーリングスケジュールの評価

    加藤 正治, 小坂 哲夫, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108 (337) 49-53 2008年12月2日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    潜在的意味解析(PLSA)の学習においてアニーリングを行うことは局所最適解に陥ることを防ぐ意味で重要である.本報告では,アニーリングスケジュールを連続関数で定義することで明確化し網羅的な比較検討をする.提案法を「日本語話し言葉コーパス(CSJ)」の講演音声で評価しところ,増加関数に基づくアニーリングスケジュールで作成した言語モデルは,28.7%のパープレキシティ削減と5.3%の単語誤り率の改善を得た。

  153. 質問応答データベースの自動作成に基づく音声対話システムの評価

    森本 高弘, 伊藤仁, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (123) 267-272 2008年12月2日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    一問一答形式の音声対話システムにおいて質問応答データベースを用いた用例ベースの応答生成は様々な発話に頑強だが,新たなシステム設計はコストが大きい本研究ではコスト削減のため,用例の種類ごとに用意されたテンプレートを用いて質問応答データベースを自動作成する方法について検討,評価を行う結果,人手で作成した質問応答データベースを用いた場合と自動作成した質問応答データベースを用いた場合でとほぼ同様の性能を示すができた.また, F 値を用いたスコアリング方法を提案し,従来法を用いた場合よりも応答正解率が改善した.A question-and-answer style spoken dialog system based on example-based answer generation is known to be robust against variation of user utterances. However, it is costly to create QA database for a new task. In this paper, we proposed a method to reduce cost of preparing the database by generating the database automatically from templates. As a result, we obtained almost same performance using the automatically generated QA database compared with the manually prepared database. In addition, we propose a new scoring method to choose an answer based on F-measure,which improved the accuracy of answer selection.

  154. Multiple description coding of an audio stream by optimum recovery transforms

    Ito, A., Makino, S.

    Journal of Digital Information Management 6 (2) 189-195 2008年12月1日

    ISSN: 0972-7272

  155. I-021 動き情報を用いたビットストリームパターン推定によるFlash VideoのMultiple Description符号化(グラフィクス・画像,一般論文)

    倉石 卓也, 伊藤 仁, 伊藤 彰則, 牧野 正三, 鈴木 基之

    情報科学技術フォーラム講演論文集 7 (3) 241-242 2008年8月20日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  156. 正弦波モデルに基づく高品質音声変調の検討

    伊藤 仁, 小原 桂二, 伊藤 彰則

    聴覚研究会資料 38 (5) 513-518 2008年8月4日

    出版者・発行元: 日本音響学会聴覚研究委員会

    ISSN: 1346-1109

  157. 正弦波モデルに基づく高品質音声変調の検討

    伊藤 仁, 小原 桂二, 伊藤 彰則, 矢野 雅文

    電子情報通信学会技術研究報告. EA, 応用音響 108 (179) 41-46 2008年7月28日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    有声音声は音源信号と声道フィルタの畳み込みとして表現できるが、音声の非定常部においては特に声道フィルタの位相特性を正確に推定することが困難である。この問題に対応するために、正弦波モデルに基づいて基本周波数と声道フィルタの振幅・位相特性を推定する音響分析手法を提案する。この手法は、正弦波パラメータの推定、基本周波数の推定、声道フィルタ特性の補間という3段階の処理で構成され、各段階における分析精度を調べるために3つの心理物理実験を行った。実験IとIIの結果から、提案手法は入力音声の正弦波パラメータと基本周波数を知覚的に十分な精度で推定できることが分かった。また実験IIIの結果から、入力音声の調波構造の谷に対応する周波数において位相特性の知覚的な補間精度が十分ではないことが明らかになった。従って、提案手法により推定されたパラメータは、高品質の話速変換には応用可能だがピッチ変換への応用は困難であると結論付けられる。

  158. 合成音声と評価スコア統合に基づく英語のイントネーション評価

    今野 智明, 伊藤 仁, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 108 (142) 37-42 2008年7月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本報告では,CALLシステムにおける合成音声を用いた英語のイントネーション評価システムについて述べる.学習者発話のイントネーションを評価するためには,その教師となる母語話者の発話を用いる必要がある.しかしながら,システムで使う全ての文に対してその母語話者音声を収集するのはコストがかかってしまう.そこで,その教師音声としてTTSシステムによって生成された合成音声を用いることにした.イントネーション評価システムでは,学習者発話とそれに対応する複数の教師発話との間でそれぞれ評価スコアを求めるが,それら複数のスコアを統合する方法について検討した.また,リズムを表すような特徴量をイントネーション特徴量に統合してイントネーションを評価することについて検討を行った.その結果として,人間による評定値とシステムによるスコアとの相関の改善が得られた.さらに,システム性能を高めるため,評価対象発話を各種条件で制限して,どのような発話には精度良く評価できるかということについて分析した.

  159. 統計的言語モデル : 何が問題なのか?

    伊藤 彰則

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (68) 43-46 2008年7月11日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    統計的言語モデルは,連続音声認識のための言語モデルとして広く用いられている.特に back-off n-gram は連続音声認識の言語モデルの標準といっても良い一方,n-gram を超える言語モデルは多数提案されてきたが,n-gram (特に trigram) を大きく凌ぐ言語モデルはまだ発見されていない.本稿では,n-gram が持つ問題点,それに対するいくつかの提案について述べ,現在の統計的言語モデルに足りないもの,それを補うかもしれないものについて議論する.Statistical language models are widely used as language models for large vocabulary continuous speech recognition. Above all, a back-off n-gram is a de facto standard as a language model for speech recognition. Number of models have been proposed so far for overcoming the back-off n-gram, but none of them has achieved large improvement over the back-off trigram. In this paper, various language models are briefly reviewed, and I give some suggestions what is needed for current language models, and discuss possibilities of improving language models.

  160. Multiple Description符号化を用いたFlash Videoストリーミングのパケットロス補償に関する検討

    倉石 卓也, 鈴木 基之, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 70 (0) 107-108 2008年3月13日

  161. DS-4-3 ADPCMを規範に用いたlogPCMへの下位ビット置換法の提案(DS-4. マルチメディア情報ハイディング,シンポジウムセッション)

    阿部 俊一郎, 伊藤 彰則, 鈴木 陽一

    電子情報通信学会総合大会講演論文集 2008 (2) "S-23"-"S-24" 2008年3月5日

    出版者・発行元: 一般社団法人電子情報通信学会

  162. 複数の音程特徴量によるハミング入力楽曲検索システムの高精度化

    市川 拓人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音楽情報科学(MUS) 2008 (12) 7-12 2008年2月8日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では,基本周波数(F0)の抽出を行わないハミング入力楽曲検索システムについて検討する.F0の抽出は,どれほど高精度なものでも抽出誤りを避けることが完全にはできず,検索精度を低下させる原因となっている.また,F0の抽出は適切に抽出されても,歌唱者の音高自体が誤っていることで,検索性能が低下するという問題も存在する.これらの問題に対し我々は以前,2つの対数周波数領域パワースペクトルの相互相関関数を音程特徴量として提案し,F0の代わりに音程特徴量,さらには音程特徴量の確率モデルを用いたハミング検索システムを構築した.検索実験の結果,提案手法を用いることで検索システムが高精度化することが確かめられた.本稿では前述の相互相関関数のピーク音程を音程特徴量として抽出し,検索システムの性能をさらに向上させることを検討する.また,以前に提案した音程特徴量,今回提案する音程特徴量それぞれを用いた時の検索結果を統合することで,それぞれの検索誤りを補正することを検討する.そして実際に検索実験により提案手法を導入した検索システムは,F0を用いた時の検索精度を13.2%回る結果となった.This paper describes a query-by-humming (QbH) music information retrieval (MIR) system without F0 extraction. In F0 extraction based system, F0 extraction errors inevitably occur that degrades performance of the system. Furthermore, errors in pitch of sung data degrade performance of the system, too. To improve these problems, we have propose an MIR system that used a musical interval feature and probabilistic models. The performance of the proposed system exceeded the system based F0 extraction. In this paper, we use peak interval of the cross-correlation function as a tonal feature to improve performance of the system. In addition, we integrated multiple retrieval result to obtain better recognition result. From an experimented result, the top retrieval accuracy given by the proposed method have exceeded the system based F0 extraction by 13.2%.

  163. 正弦波モデルに基づく高品質音声変調の検討

    伊藤仁, 小原桂二, 伊藤彰則, 矢野雅文

    信学技報 EA2008-52 (15067) 2008年

  164. 正弦波モデルに基づく非定常音声の分析と変調

    伊藤仁, 小原桂二, 伊藤彰則, 矢野雅文

    日本音響学会秋季研究発表会講演論文集 3-4-5. 2008年

  165. Are Bigger Robots Scary? - The Relationship Between Robot Size and Psychological Threat -

    Yutaka Hiroi, Akinori Ito

    2008 IEEE/ASME INTERNATIONAL CONFERENCE ON ADVANCED INTELLIGENT MECHATRONICS, VOLS 1-3 546-551 2008年

    DOI: 10.1109/AIM.2008.4601719  

    ISSN: 2159-6255

  166. A Fast Speaker Adaptation Method using Aspect Model

    Seongjun Hahm, Akinori Ito, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 1221-1224 2008年

  167. Recognition of English Utterances with Grammatical and Lexical Mistakes for Dialogue-based CALL System

    Akinori Ito, Ryohei Tsutsui, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 2819-2822 2008年

  168. Discrimination of Task-Related Words for Vocabulary Design of Spoken Dialog Systems

    Akinori Ito, Toyomi Meguro, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 207-+ 2008年

  169. Automatic Clustering of Part-of-speech for Vocabulary Divided PLSA Language Model

    Motoyuki Suzuki, Naoto Kuriyama, Akinori Ito, Shozo Makino

    IEEE NLP-KE 2008: PROCEEDINGS OF INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND KNOWLEDGE ENGINEERING 289-+ 2008年

    DOI: 10.1109/NLPKE.2008.4906747  

  170. 音声対話システムにおけるタスク外発話処理の高度化に関する研究

    目黒 豊美, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 283-287 2007年12月21日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    音声対話システムにおいて,従来のように記述文法で受理できる文章か受理できない文章かという識別だけでは,柔軟な対応をするためには不十分である.そこで,本研究では、意味的にタスクに沿っている文章かそうでない文章か識別することを目的とする.まず,記述文法を用いた音声認識と大語彙連続音声認識のスコアを用いて,受理可能な文と,受理不可能な文の識別を行ない,正解率 98%という高い確率で識別することを確認した.続いて,受理不可能な文がタスク内の発話かタスク外の発話かを識別するため,受理可能文と比較し,単語の意味的距離を調べ,意味が似ていればタスク内,意味が似ていなければタスク外とする手法を検討した.複数の単語類似度を比較し,平均して 90%程度の正解率を得ることができた.しかし,コーパス等に収録されていない単語については値を与えることができないなど,課題が残った.In a small task, to be able to do more flexible processing, the utterance that relates to the task is recognized by the written grammar and the utterance that did not relate to the task is recognized by a large vocabulary speech recognition. Then, the technique for identifying sentences that do not relate to sentences that relate to the task by using semantic distance between words of the noun is examined in this paper.

  171. Aspect モデルを用いた話者と環境適応音声認識システムの検討

    咸聖俊, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 115-118 2007年12月20日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    適応アルゴリズムで重要な点の1つとして,少ない適応データを利用して多くのパラメタを推定することがある.話者適応では,少量の発話を話者独立システムに組み込んで,その性能を話者依存システムに近づけることを目指す.本研究では,aspect model に基づく音響モデルを用いて話者適応を行うことを目指す.言語モデルに用いられる PLSA と類似の方法を音響モデルについて定式化し,これを用いて話者適応を行った.提案法を代表的な話者適応方法である MAP 推定法と MLLR 法と比較検討し,孤立単語認識での結果を比較分析する.One of the key issues for adaptation algorithms is to modify a large number of parameters with only a small amount of adaptation data. Speaker adaptation techniques try to obtain near speaker dependent (SD) performance with only small amounts of specific data and are often based on initial speaker independent (SI) recognition systems. In this paper, we introduce an aspect model into an acoustic model for rapid speaker and environment adaptation. A formulation of probabilistic latent semantic analysis (PLSA) is extended to continuous density HMM. We carried out isolated word recognition experiment, and the results was compared to that of MAP and MLLR.

  172. 生成したテキストの Ngram を用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化

    筒井 良平, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 125-130 2007年12月20日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    英語学習者がコンピュータを利用して対話練習をできるようなシステムを構築するには,学習者の音声を発話した通りに認識することが必要である.そこで,ここでは,対話時の日本人英語を高精度に認識する方法を検討する.まず,音響モデルに関して検討を行い,よく用いられる3状態 HMM よりも4状態 HMM や5状態 HMM の方が性能がよくなることがわかった.さらに,自動生成したテキストから学習した Ngram を言語モデルとして用いて音声認識を行うことで,オートマトンを用いた方法に比べ認識性能が向上した.また,正解文との距離を用いてスコアの再計算を行う手法を提案し,これによって認識率が改善した.Our goal is to develop a voice interactive CALL system which enables langage learners to practice words, phrases, and grammars interactively. In order to develop such a system, it is necessary to recognize learner's utterances correctly. We found that 4 or 5 states HMM works better than 3 states HMM in the case of recognition of English spoken by Japanese native speakers. Ngram language model trained from generated text achieves heigher speech recognition accuracy than FSA(Finite States Automata) language model.

  173. パス数削減や平滑化法を用いた SSS-free による音素認識の高精度化

    本間 大輔, 大河雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 131-135 2007年12月20日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    SSS-free で構築された HMnet に基づく音響モデルの各パスは,音素環境,話速等の何らかの環境を表している.しかし SSS-free は構築後の各パスがどの環境に対応したモデルかが分からないという問題点があるため,認識実験に用いる場合には何らかの工夫が必要となる.そこで学習データにおけるパスの接続からパス間に接続確率を与え実験を行ったところ,接続確率の学習データへの特化が原因で認識率にあまり改善が見られなかった.そこで本報告では,クラス N-gram による接続確率の平滑化法,SSS-mix によるパス数削減法を提案した.特定話者における音素認識実験において,提案した両手法は接続確率分布の特化をある程度防ぐことができ,従来法よりも良い結果を出すことができた.When carrying out phoneme recognition with SSS-free HMnet's path connection probability, as probability is specialization for training data, phoneme accuracy don't improve. In this paper, We propose smoorhing method and cutting number of paths Method. In phoneme recognition for specific speaker, as a result both of methods prevent connection probability's specialization, phoneme accuracy improve better than conventonal method.

  174. パス数削減や平滑化法を用いた SSS-free による音素認識の高精度化

    本間 大輔, 大河 雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 131-135 2007年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    SSS-freeで構築されたHMnetに基づく音響モデルの各パスは,音素環境,話速等の何らかの環境を表している.しかしSSS-freeは構築後の各パスがどの環境に対応したモデルかが分からないという問題点があるため,認識実験に用いる場合には何らかの工夫が必要となる.そこで学習データにおけるパスの接続からパス間に接続確率を与え実験を行ったところ,接続確率の学習データへの特化が原因で認識率にあまり改善が見られなかった,そこで本報告では,クラスN-gramによる接続確率の平滑化法,SSS-mixによるパス数削減法を提案した.特定話者における音素認識実験において,提案した両手法は接続確率分布の特化をある程度防ぐことができ,従来法よりも良い結果を出すことができた.

  175. Aspect モデルを用いた話者と環境適応音声認識システムの検討

    咸 聖俊, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 115-118 2007年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    適応アルゴリズムで重要な点の1つとして,少ない適応データを利用して多くのパラメタを推定することがある.話者適応では, 少量の発話を話者独立システムに組み込んで,その性能を話者依存システムに近づけることを目指す.本研究では,aspect modelに基づく音響モデルを用いて話者適応を行うことを目指す.言語モデルに用いられるPLSAと類似の方法を音響モデルについて定式化し,これを用いて話者適応を行った.提案法を代表的な話者適応方法であるMAP推定法とMLLR法と比較検討し,孤立単語認識での結果を比較分析する.

  176. 音声対話システムにおけるタスク外発話処理の高度化に関する研究

    目黒 豊美, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 283-287 2007年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声対話システムにおいて,従来のように記述文法で受理できる文章か受理できない文章かという識別だけでは,柔軟な対応をするためには不十分である.そこで,本研究では、意味的にタスクに沿っている文章かそうでない文章か識別することを目的とする.まず,記述文法を用いた音声認識と大語彙連続音声認識のスコアを用いて,受理可能な文と,受理不可能な文の識別を行ない,正解率98%という高い確率で識別することを確認した.続いて,受理不可能な文がタスク内の発話かタスク外の発話かを識別するため,受理可能文と比較し,単語の意味的距離を調べ,意味が似ていればタスク内,意味が似ていなければタスク外とする手法を検討した.複数の単語類似度を比較し,平均して90%程度の正解率を得ることができた.しかし,コーパス等に収録されていない単語については値を与えることができないなど,課題が残った.

  177. 生成したテキストの Ngram を用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化

    筒井 良平, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 125-130 2007年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    英語学習者がコンピュータを利用して対話練習をできるようなシステムを構築するには,学習者の音声を発話した通りに認識することが必要である.そこで,ここでは,対話時の日本人英語を高精度に認識する方法を検討する.まず,音響モデルに関して検討を行い,よく用いられる3状態HMMよりも4状態HMMや5状態HMMの方が性能がよくなることがわかった.さらに,自動生成したテキストから学習したNgramを言語モデルとして用いて音声認識を行うことで,オートマトンを用いた方法に比べ認識性能が向上した.また,正解文との距離を用いてスコアの再計算を行う手法を提案し,これによって認識率が改善した.

  178. 「おかしな言語」の楽しみ(ちょっとしたエッセイ,コーヒーブレーク)

    伊藤 彰則

    日本音響学会誌 63 (11) 696-696 2007年11月1日

    出版者・発行元: 一般社団法人日本音響学会

    ISSN: 0369-4232

  179. 1〜2ビットで相関を増やすには?

    伊藤 彰則, 牧野 正三

    聴覚研究会資料 37 (7) 509-514 2007年8月9日

    出版者・発行元: 日本音響学会聴覚研究委員会

    ISSN: 1346-1109

  180. 1-2ビットで相関を増やすには?

    伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. EA, 応用音響 107 (186) 1-6 2007年8月2日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,2つの値に1〜2ビットの情報を付加することにより,2つの値の相関を高める方法について検討する.1ビットを用いる方法については,「1ビット量子化」「符号訂正」「差の1ビット量子化」の3つの方法を検討する.また,2ビットを用いる場合は,「2ビット量子化」「符号訂正+差の1ビット量子化」「差の2ビット量子化」などの方法を検討する.理論的な検討およびシミュレーション実験により,元の値の相関が低い場合には量子化に基づく方法がよく,元の値の相関が高い場合には「差の量子化」に基づく方法の性能がよいことが示唆された.また,PCM符号化された音楽信号のMD符号化に本手法を適用し,その性能を評価した.

  181. 音程特徴量の確率分布を考慮したハミング入力楽曲検索システム

    市川 拓人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音楽情報科学(MUS) 2007 (81) 33-38 2007年8月1日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では,ピッチ抽出を行わないハミング入力楽曲検索システムについて検討する.ピッチ抽出は,どれほど高精度なものでもピッチ抽出誤りを避けることができず,検索精度を低下させる原因となっている.本システムでは,従来用いられているデルタピッチの代わりに,2つの対数周波数領域パワースペクトルの相互相関関数を音程特徴量として用い,さらに楽曲中に存在しているであろう全音程の確率モデルを用意しておく.連続する2つの音符が観測された時,この特徴量と確率モデルを用いて,全音程についての尤度を計算する.このシステムの利点は,統計的なモデル化を行うことにより,ピッチ抽出誤りのような致命的な誤りを起こしにくいということである.そして実際に検索実験を行ったところ,ピッチによる検索精度を最大4.9%上回る結果となった.This paper describes a query-by-humming (QbH) music information retrieval (MIR) system without pitch extraction. In pitch extraction based system, pitch extraction errors inevitably occur that degrades performance of the system. In this system, a cross-correlation function between two logarithmic frequency spectra is extracted as a tonal feature instead of deltaPitch, and probabilistic models are prepared for all tone intervals assumed to exist in the music. When two signals corresponding to two contiguous notes are given, likelihoods are calculated for all possibility of tone intervals. The advantage of this system is that it is hard to occur a fatal error such as a pitch extraction error because extracted features are modeled stochastically. From a experimented result, the top retrieval accuracy given by the proposed method have exceeded the system based pitch extraction by 4.9 %.

  182. 雑音環境下における呼びかけ音声の検出と到来方向の同定

    鈴木 基之, 北舘 航太, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (116) 67-72 2007年6月21日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声などを含む雑音環境下において,特定の「呼びかけ語」が話された時にそれを検出し,同時にその到来方向を推定するシステムを提案する。様々な方向に対し,遅延和アレイを用いて到来する音信号を抽出し,連続DPとFrame Relation Matrixを組み合わせて呼びかけ語の検出を行う。その後それぞれの方向における音のパワーと呼びかけ語の検出スコアを考慮して到来方向の推定を行う。複数のスピーカーを用い,3モーラの呼びかけ語と音楽や朗読音声などの雑音を0〜20dBで同時に再生させた条件において,再現率95%,適合率96%程度の精度で呼びかけ語の検出と方向同定を行うことができた。

  183. 情報量基準を用いた語彙分割PLSA言語モデルの評価

    栗山 直人, 鈴木 基之, 伊藤 彰則

    音声ドキュメント処理ワークショップ講演論文集 1 103-108 2007年2月26日

    出版者・発行元: [豊橋技術科学大学メディア科学リサーチセンター]

  184. WWWを用いた言語モデルの教師なし反復適応法

    梶浦 泰智, 鈴木 基之, 伊藤 彰則

    音声ドキュメント処理ワークショップ講演論文集 1 109-114 2007年2月26日

    出版者・発行元: [豊橋技術科学大学メディア科学リサーチセンター]

  185. ディスジョイントパスルーティングによる高秘話 高音質音響通信システム

    榎本敦之, 北村 強, 岩田 淳, 谷 英明, 阿部 俊一郎, 西村 竜一, 鈴木 陽一, 坂井 俊之, 伊藤 彰則, 牧野 正三

    2007信学総大, Mar. 82-82 2007年

    出版者・発行元: 一般社団法人電子情報通信学会

  186. 音声符号化へのMD量子化の適用に関する基礎的検討

    WEY H., 西村竜一, 伊藤彰則, 小林まおり, 鈴木陽一

    日本音響学会研究発表会講演論文集(CD-ROM) 2007 2007年

    ISSN: 1880-7658

  187. Automatic evaluation system of English prosody for Japanese learner's speech

    Motoyuki Suzuki, Tatsuki Konno, Akinori Ito, Shozo Makino

    IMSCI '07: INTERNATIONAL MULTI-CONFERENCE ON SOCIETY, CYBERNETICS AND INFORMATICS, VOL 1, PROCEEDINGS 1 48-53 2007年

  188. Analysis of cell wall polysaccharides during storage of a local melon accession 'Wasada-uri' compared to the melon cultivar 'Prince'

    T. Nishizawa, A. Ito

    Journal of Horticultural Science and Biotechnology 82 (2) 227-234 2007年

    出版者・発行元: Headley Brothers Ltd

    DOI: 10.1080/14620316.2007.11512224  

    ISSN: 1462-0316

  189. 情報量基準で語彙分割した PLSA 言語モデルによる話題・文型適応

    栗山 直人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2006 (136) 233-238 2006年12月22日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    PLSA は言語モデルの文脈適応に一般的に用いられる手法である。この PLSA の新しい利用方法を提案する。PLSA 言語モデルの語彙を「話題語」「文型語」「汎用語」の3クラスに分割し、話題語 PLSA モデルと文型語 PLSA モデルを別々に学習・適応した後に3つのモデルを統合する。また新聞記事と CSJ 間での品詞分類の出現パターン変化に基づいた、語彙分割基準の自動生成を提案する。評価実験では話題と文型の特徴が学習データで共起していないテキストについて、従来の PLSA 言語モデルと比べ15.48%の perplexity 削減が得られた。PLSA (Probabilistic Latent Semantic Analysis) is one of promising language model adaptation methods. We propose a new way to combine PLSA and N-gram models by separating the vocabulary into three classes -'topic'-related, 'style'-related and 'general'-related words. This method trains topic vocabulary PLSA model, style vocabulary PLSA model, and general vocabulary unigram model independently, and combines the three models. And we propose an automatic composing method of vocabulary divide criterion, using pattern of word-Class occurrence between newspaper and CSJ. The experimental result showed that the proposed method achieves 15.48% perplexity reduction than conventional PLSA model, about testset of which topic and style feature are not happen together in the training data.

  190. WWW を利用した言語モデル教師なしタスク適応における有効探索クエリ決定法

    梶浦 泰智, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2006 (136) 131-135 2006年12月21日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において高精度な認識を実現する有効な手段として、認識対象にマッチしたテキストを収集し、認識対象に対応した言語モデルを作成する方法があるが、このテキスト収集作業は非常にコストの高い作業である。この問題を解決する手法として、我々は WWW(World Wide Web)から自動で対象マッチしたテキストを収集する方法が提案してきた[1]。このような手法において、検索クエリは認識結果文から構成するのが一般的であるが、認識結果中には誤認識単語など検索に悪影響を及ぼす単語が存在している。本研究ではこれらの問題を改善するため、有効な検索クエリを決定する方法を提案する。我々が提案した手法により、5000ページ収集時の単語正解精度で人手による検索クエリ決定とほぼ同等の結果が得られた。To improve the accuracy of an LVCSR system, it is effective to gather text data related to the topic of the input speech and adapts the language model using the text data. However, collecting topic-related text manually requires much effort. To automate the text collection, we have proposed a method to create an adapts language model by collecting topic-related text from World Wide Web. In this paper, we propose the method of deciding available search query using similarities between words and calculating query's availability using small WWW texts. This method reachs same performance as selected query by human.

  191. 情報量基準で語彙分割したPLSA言語モデルによる話題・文型適応

    栗山 直人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (444) 55-60 2006年12月15日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    PLSAは言語モデルの文脈適応に一般的に用いられる手法である.このPLSAの新しい利用方法を提案する.PLSA言語モデルの語彙を「話題語」「文型語」「汎用語」の3クラスに分割し,話題語PLSAモデルと文型語PLSAモデルを別々に学習・適応した後に3つのモデルを統合する.また新聞記事とCSJ間での品詞分類の出現パターン変化に基づいた,語彙分割基準の自動生成を提案する.評価実験では話題と文型の特徴が学習データで共起していないテキストについて,従来のPLSA言語モデルと比べ15.48%のperplexity削減が得られた.

  192. WWWを利用した言語モデル教師なしタスク適応における有効検索クエリ決定法

    梶浦 泰智, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (443) 131-135 2006年12月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において高精度な認識を実現する有効な手段として,認識対象にマッチしたテキストを収集し,認識対象に適応した言語モデルを作成する方法があるが,このテキスト収集作業は非常にコストの高い作業である.この問題を解決する手法として,我々はWWW(World Wide Web)から自動で対象マッチしたテキストを収集する方法が提案してきた[1].このような手法において,検索クエリは認識結果文から構成するのが一般的であるが,認識結果中には誤認識単語など検索に悪影響を及ぼす単語が存在している.本研究ではこれらの問題を改善するため,有効な検索クエリを決定する方法を提案する.我々が提案した手法により,5000ページ収集時の単語正解精度で人手による検索クエリ決定とほぼ同等の結果が得られた.

  193. Music information retrieval from a singing voice based on verification of recognized hypotheses

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito, Shozo Makino

    ISMIR 2006 - 7th International Conference on Music Information Retrieval 168-171 2006年12月1日

  194. 多様な発音変形を考慮した音素環境依存 HMnet の構築

    鈴木 基之, 坂本 創, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (123) 37-41 2006年6月16日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    現在の音声認識システムでは,音響モデルとしてtriphoneのような音素環境依存HMMがよく用いられている。これはひとつの音素を前後の音素環境ごとに別々にモデル化することで調音結合による音響的な変形をうまく吸収している。しかし音声は前後の音素環境以外の様々な要因によっても変形しているため,音素環境依存HMMでは十分にモデル化できるとはいえない。そこで本報告では,音素環境依存HMMの構築アルゴリズムのひとつであるSSSと,様々な音素の変形要因を考慮することができるSSS-freeを組み合わせ,コンパクトで高い認識性能を持つHMnet構築法を提案する。この方法では,状態分割ごとにどちらのアルゴリズムで分割すべきかを尤度をもとに判定する。簡単な音素認識実験を行った結果,SSSやSSS-freeによるHMnetに比べて音素正解精度で1%あまり向上した。

  195. Web テキストを利用した言語モデル教師なし適応

    梶浦 泰智, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (123) 43-47 2006年6月16日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において高精度な認識を実現する有効な手段として,認識対象にマッチしたテキストを収集し,そこから認識対象に適応した言語モデルを作成する方法があるが,このテキスト収集作業は人手で行うには非常にコストの高い作業である.この問題を解決する手法として,我々はこれまでWWW(World Wide Web)から自動で対象マッチしたテキストを収集し,適応言語モデルを作成する方法を提案してきた[1].今回我々は,この手法をさらに改善する方法を提案する.一つは複数の単語を用いた検索クエリ構成法であり,この方法によって1000ページのWebテキスト収集時の単語正解精度が従来法より2.2ポイント改善した.さらに検索クエリに認識誤り単語が選択されることを回避する方法を提案した.この方法によって,検索クエリ候補に存在する認識誤り単語を4%にまで減少させた.

  196. 「人はなぜコンピューターを人間として扱うか『メディアの等式』の心理学」, バイロン・リーブズ, クリフォード・ナス著, 細馬宏通訳, 翔泳社, 2001年(私のすすめるこの一冊,コーヒーブレーク)

    伊藤 彰則

    日本音響学会誌 62 (6) 473-474 2006年6月1日

    出版者・発行元: 一般社団法人日本音響学会

    ISSN: 0369-4232

  197. A-19-15 手の回転に頑健な指文字認識のための特徴ベクトルの補間法(A-19.福祉情報工学,一般講演)

    大里 宗之, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会総合大会講演論文集 2006 333-333 2006年3月8日

    出版者・発行元: 一般社団法人電子情報通信学会

  198. PLSA言語モデルの学習最適化と語彙分割に関する検討

    栗山 直人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2006 (12) 37-42 2006年2月4日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    PLSAは,文章の特徴「話題」を反映した言語モデルを構築する手法である.このPLSA言語モデルの拡張を提案する.前半ではPLSA言語モデルの学習について,既存の複数の方法を比較し,EMアルゴリズムのアニーリングスケジュール最適化についての検討を行う.後半ではPLSA言語モデルを内容語モデルと機能語モデルに分割し,話題(トピック)と話し方(スタイル)を,別々に学習・適応することで従来のPLSA言語モデルよりもより柔軟な言語モデル適応を試みる.その結果学習最適化についてはβを1.0 から特定の値に向けて減少させるアニーリングスケジュールが最適という結果が得られた.内容語・機能語に分割したモデルについてはtrigramに対するPerplexityが従来のPLSA言語モデルの83.90% から82.23% へ改善した.PLSA is a method of composing language model which can reflect the global charactetistics of linguistic context as "topic". We propose more extention of PLSA language model. First, we compare the conventional learning methods of PLSA language model, and examine the optimization of EM annealing schedule. As a result, we found that the best method is to reduce β from 1.0 to some special value. Next, we compose a PLSA language model whose vocabulary set is divided, into content words and function words. Then training and adaptation to topic or style are performed separately. In the experiment, we acheived 82.23% perplexity reduction against conventional way 83.90%.

  199. 2項 音響工学研究会(3節 工学研究会,第5章 国際会議・シンポジウム等)

    鈴木 陽一, 坂本 修一, 伊藤 彰則

    東北大学電気通信研究所研究活動報告 13 278-278 2006年1月1日

  200. ロボットアバタを用いたユーザ親和性向上手法の高齢者による評価

    廣井富, 伊藤彰則, 高津宣夫, 中野栄二

    情報科学技術フォーラム FIT 2006 2006年

  201. Unsupervised language model adaptation based on automatic text collection from WWW

    Motoyuki Suzuki, Yasutomo Kajiura, Akinori Ito, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 5 2202-2205 2006年

  202. A User Simulator based on VoiceXML for evaluation of spoken dialog systems

    Akinori Ito, Keisuke Shimada, Motoyuki Suzuki, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 2 1045-1048 2006年

  203. Lyrics recognition from a singing voice based on finite state automaton for music information retrieval

    Toru Hosoya, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    ISMIR 2005 - 6th International Conference on Music Information Retrieval 532-535 2005年12月1日

  204. Construction method of acoustic models dealing with various background noises based on combination of HMMs

    Motoyuki Suzuki, Yusuke Kato, Akinori Ito, Shozo Makino

    9th European Conference on Speech Communication and Technology 973-976 2005年12月1日

  205. Pronunciation error detection method based on error rule clustering using a decision tree

    Akinori Ito, Yen Ling Lim, Motoyuki Suzuki, Shozo Makino

    9th European Conference on Speech Communication and Technology 173-176 2005年12月1日

  206. Internal noise suppression for speech recognition by small robots

    Akinori Ito, Takashi Kanayama, Motoyuki Suzuki, Shozo Makino

    9th European Conference on Speech Communication and Technology 2685-2688 2005年12月1日

  207. カラーグローブを用いた指文字認識における特徴量の統合法

    大里 宗之, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 105 (375) 73-78 2005年10月28日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    聴覚障害者と健聴者の間のコミュニケーション支援を目的とした指文字認識の実現へ向けて, カメラで撮影された画像の色情報を利用する従来研究で用いられている特徴量と, 指文字の認識に有効と思われる特徴量について述べ, 比較実験により認識に有効な特徴量を検討する.各特徴量での認識において生じる誤りを, 複数の特徴量を利用して訂正すれば, 認識精度が向上すると考えられる.そこで, それら特徴量の統合方法について比較実験を行った結果, ベクトルの合成による統合と事後確率による統合の融合により, 各特徴量での認識に比べて8%正解率が向上したので, これを報告する.

  208. SN比に頑健なマルチミクスチャーHMMの性能評価(耐雑音, 音源分離, ロボット)

    鈴木 基之, 加藤 裕介, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 105 (133) 25-30 2005年6月17日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声認識システムの実用化に向けて, 雑音対策は大きな課題のひとつである。様々な雑音環境下でも高精度な認識を可能とするため, 雑音重畳マルチミクスチャーモデルを提案した。このモデルは, 単一の雑音を重畳させた音声を用いて学習したHMMを複数集め, 対応する状態の出力分布を混合分布としてひとつにまとめることで構築される。本報告では, 様々なSN比に対しても同様に対処することで, 複数雑音, 複数SN比に対応した雑音重畳マルチミクスチャーモデルを構築し, その性能を評価した。その結果, 既知, 未知いずれのSN比においても, マルチコンディションモデルに比べて高い認識性能を示した。また, このモデルに対して分布数の削減を行ったところ, 分布数を25%程度まで削減しても, 認識率は1ポイント程度の低下にとどまっていることがわかった。

  209. 動作雑音推定に基づく小型ロボットの内部雑音対策の検討(耐雑音, 音源分離, ロボット)

    伊藤 彰則, 金山 高志, 鈴木 基之, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 105 (133) 43-48 2005年6月17日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    小型ロボットで音声認識を行う場合、ロボット自身が発生する雑音のため、高精度な認識を行うことは難しい。本稿では、小型ロボットが発生させる雑音を抑圧するための方法を二つ提案する。提案法は、スペクトル減算法(SS)に基づく方法である。通常のSS法と提案法の大きな違いは、提案法においてはロボットの動作に依存した雑音のスペクトルを推定し、それを雑音スペクトルとして用いる点である。一つ目の方法(動作依存SS法、MDSS)は、ロボットが行なうすべての動作について、あらかじめ雑音スペクトルを用意しておく方法である。もう一つの方法(ニューラルネット推定SS法, NPSS)は、ロボットの全ての関節の角速度のデータから、ニューラルネットワークを用いて雑音のスペクトルを推定する方法である。通常のSS法と提案法の比較実験の結果から、提案法はロボットの内部雑音に対して通常のSS法よりも良い性能を与えることが確かめられた。また、ロボットの動作における雑音が定常である場合にはMDSS法が有効であり、一方NPSS法は動作に伴なう雑音が非定常である場合においても有効であった。

  210. SSS-free を併用した音素環境依存HMnet学習法の検討

    坂本 創, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 31-32 2005年3月8日

    出版者・発行元: 日本音響学会

    ISSN: 1340-3168

  211. 対話システム評価のための擬似対話エージェントの構築

    島田 啓佑, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 69-70 2005年3月8日

    ISSN: 1340-3168

  212. 複数の雑音重畳モデルを合成した複数の雑音及びSN比に頑健な音響モデルの検討

    加藤 裕介, 伊藤 彰則, 鈴木 基之, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 83-84 2005年3月8日

    ISSN: 1340-3168

  213. KL展開を用いたオーディオ信号の次元圧縮に関する検討

    原田 昌治, 伊藤 彰則, 鈴木 基之, 木幡 稔, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 199-200 2005年3月8日

    ISSN: 1340-3168

  214. 自然対話映像における表情認識を利用した笑い認識に関する研究

    王 欣悦, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 217-218 2005年3月8日

    ISSN: 1340-3168

  215. 対話型CALLシステムのための文法誤り検出法

    權 五杓, 伊藤 彰則, 鈴木 基之, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 303-304 2005年3月8日

    ISSN: 1340-3168

  216. 楽曲検索のための有限状態文法を用いた歌詞認識に関する検討

    細谷 徹, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 603-604 2005年3月8日

    ISSN: 1340-3168

  217. 内部雑音合成に基づく小型ロボットにおける内部雑音対策

    金山 高志, 伊藤 彰則, 鈴木 基之, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 659-660 2005年3月8日

    ISSN: 1340-3168

  218. 色情報を利用した指文字認識のための特徴量に関する検討

    大里宗之, 鈴木 基之, 伊藤 彰則, 牧野 正三

    信学総大, 2005 342-342 2005年

    出版者・発行元: 一般社団法人電子情報通信学会

  219. 自律移動ロボットのためのフレームベース音声対話システム

    牧野 正三, 小梨 貴史, 伊藤 彰則, 鈴木 基之

    情報処理学会研究報告自然言語処理(NL) 2004 (108) 141-146 2004年11月5日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    我々は自律移動型ロボットと人間とのインターフェイスとしての音声対話システムを開発している.従来の音声対話システムは,文法記述や対話の流れの記述が必要であり,開発は容易ではなかった.本報告で提案する対話システムは,意味フレームに基づいて認識のための文法を自動的に生成する.システムは唯一対話タスクのための意味フレームの記述を要求するだけなので,別タスク向けのシステムを開発するのも極めて容易である.また文節クラスに基づく文重み付けを提案し,実験によってその有効性を確認した.平均2.44発話でタスクを達成できた.We have been developing a spoken dialog system. Conventional spoken dialog systems need grammar descriptions and scripts of a dialog, that are difficult to develop. The system proposed in this paper is based on semantic frames, and the system generates the recognition grammar from the frames automatically. As the system requires only a frame-based description for a task of dialog, the system can be easily applied to different kinds of tasks. Moreover, the recognition accuracy is improved by sentence weighting based on phrase class template. We evaluated the system by experiments. The system reached the goal with 2.44 user's utterances in average.

  220. 自律移動ロボットのためのフレームベース音声対話システム

    牧野 正三, 小梨 貴史, 伊藤 彰則, 鈴木 基之

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 104 (417) 65-70 2004年10月29日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    我々は自律移動型ロボットと人間とのインターフェイスとしての音声対話システムを開発している.従来の音声対話システムは,文法記述や対話の流れの記述が必要であり,開発は容易ではなかった.本報告で提案する対話システムは,意味フレームに基づいて認識のための文法を自動的に生成する.システムは唯一対話タスクのための意味フレームの記述を要求するだけなので,別タスク向けのシステムを開発するのも極めて容易である.また文節クラスに基づく文重み付けを提案し,実験によってその有効性を確認した.平均2.44発話でタスクを達成できた.

  221. I-069 Smile and Laugh Recognition from Natural Conversation Video

    Xinyue Wang, Suzuki Motoyuki, Ito Akinori, Makino Shozo

    情報科学技術フォーラム一般講演論文集 3 (3) 163-164 2004年8月20日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  222. G-014 鼻歌入力による音楽検索のための特徴量の比較(G.音声・音楽)

    伊藤 彰則, 許 盛弼, 鈴木 基之, 牧野 正三

    情報科学技術フォーラム一般講演論文集 3 (2) 373-374 2004年8月20日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  223. I-009 全方位ステレオによる環境マップ生成に関する検討(I.画像認識・メディア理解)

    後藤 望, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報科学技術フォーラム一般講演論文集 3 (3) 19-20 2004年8月20日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  224. 複数の雑音重畳モデルの合成による 複数雑音環境に頑健な音響モデルの検討

    加藤裕介, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2004 (57) 1-6 2004年5月27日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    複数雑音環境に頑健なモデルの作成法として,単一の雑音を重畳させた音声で学習したHMMを複数組み合わせる方法を提案する.複数のHMMを組み合わせる方法として,それぞれをマルチパスでつなぐ方法,またそれぞれのHMMを各状態別に分布を混合分布として統合する方法について検討する.提案した2つのモデルでは,従来法と同等かそれよりも良い認識精度が得られた.また複数のHMMを組み合わせるためモデル自体の規模は大きくなる.そこでモデルの規模を小さくするためモデル内の分布を分布間距離などを用いて統合することについても検討する.This paper describes methods to compose an HMM robust under multiple noise conditions. The methods are based on combination of several HMMs trained under different noise conditions. We propose two combination methods. The first one combines multiple HMMs into a multi-path HMM. The second one combines comsponding states of each HMM into one state by mixing the output probability distributions onto one mixture distribution. The recognition experiment revealed that HMMs composed by the proposed methods shows similar or better results than conventional multi-condition model. One drawback of the model composed by tha proposed methods is that it has large number of distributions. To reduce the number of distributions, we examined several methods to unify distributions.

  225. 複数の雑音重畳モデルの合成による複数雑音環境に頑健な音響モデルの検討

    加藤 裕介, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 104 (86) 1-6 2004年5月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    複数雑音環境に頑健なモデルの作成法として,単一の雑音を重畳させた音声で学習したHMMを複数組み合わせる方法を提案する.複数のHMMを組み合わせる方法として,それぞれをマルチパスでつなぐ方法,またそれぞれのHMMを各状態別に分布を混合分布として統合する方法について検討する.提案した2つのモデルでは,従来法と同等かそれよりも良い認識精度が得られた.また複数のHMMを組み合わせるためモデル自体の規模は大きくなる.そこでモデルの規模を小さくするためモデル内の分布を分布間距離などを用いて統合することについても検討する.

  226. 音声認識に関する最近の話題

    伊藤彰則

    情報・システムソサイエティ誌 9 (1) 14-21 2004年5月1日

    出版者・発行元: 電子情報通信学会

  227. 対話型CALLシステムに関する検討

    權 五杓, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 103 (633) 19-24 2004年1月23日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    近年の音声認識技術の発展により,新しい概念に基づく外国語教育システム開発の期待が高まってきてあり,様々なシステムが提案されている.しかし,従来のほとんどのシステムは,発音とリスニングの練習システムであり,システムが見せる文章を,学習者が発声するか聞きとるものでする.学習者の目的がコミュニケーション能力を向上させることである場合,ミニマルペアなどの発音とリスニング練習だけでは十分ではない.例えば,実際の外国語クラスで行われる言語教育方法では教師と学習者が対話しながら,自然に発音イントネーションや文法を学習している.提案するシステムは,外国語クラスで行われる言語教育方法と似ている対話型CALLシステムである.学習者が対話練習を行うとき,学習者が自分で能動的に様々な文章を作成し,作成した文章によって対話の流れが変化することが可能なシステムである.さらにシステムは学習者が発声した文章の発音や文法の誤りを検出しfeedbackすることで学習者のコミュニケーション能力を向上することが可能だと考えられる.

  228. Noise adaptive spoken dialog system based on selection of multiple dialog strategies

    Akinori Ito, Takanobu Oba, Takashi Konashi, Motoyuki Suzuki, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 193-196 2004年1月1日

  229. A Japanese dialogue-based CALL system with mispronunciation and grammar error detection

    Oh Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 1833-1836 2004年1月1日

  230. A spoken dialog system based on automatic grammar generation and template-based weighting for autonomous mobile robots

    Takashi Konashi, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 189-192 2004年1月1日

  231. Speaker adaptation method for call systems using bilingual speakers' utterances

    Motoyuki Suzuki, Hirokazu Ogasawara, Akinori Ito, Yuichi Ohkawa, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 2929-2932 2004年1月1日

  232. Error tolerant melody matching method in music information retrieval

    SP Heo, M Suzuki, A Ito, S Makino, HY Chung

    ADAPTIVE MULTIMEDIA RETRIEVAL 3094 212-227 2004年

    ISSN: 0302-9743

  233. 様々な雑音環境での音声対話における文法と認識精度の関係の分析 (第5回音声言語シンポジウム)

    大庭 隆伸, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 103 (517) 133-138 2003年12月18日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声認識において,雑音下での認識精度の改善は重要な課題の一つとなっている.そのために,音響モデルや雑音除去法の改善など様々な研究が行われているが,本稿では,対話の立場からの精度改善を試みる.具体的には,音声認識にとって不利な雑音環境になるのにあわせ,認識対象とする語彙・侯補数を削減した文法に変更し音声認識を行う.これにより,雑音の影響が小さい場合には,ユーザの自由な発話を認識できる枠組みを残しつつ,雑音下でも一定の認識精度を維持して対話を行うことが可能となる.これを実現するためには,まず,語彙・侯補数を削減した際に,認識側で認識対象としていない語彙や文法を含むユーザ発話が増加してしまうが,そのための対策が必要となる.また,認識文法を環境にあわせて変更させるには,ある雑音下で対話を行った場合に,認識精度がどの程度になるかを推定する必要があり,これをどのように実現するかが課題となる.前者については,システムの質問提示方法を工夫することにより対策を行い,後者については,雑音・文法と認識精度の関係をニューラルネット学習により推定可能か検討する.

  234. バイリンガル話者音声に基づく二言語混合音響モデルの話者適応法の検討 (第5回音声言語シンポジウム)

    小笠原 洋一, 大河 雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 103 (517) 85-90 2003年12月18日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,外国語発音学習システムに用いる二言語混合音響モデルの話者適応法について検討する.学習者は外国語を発音する際,母国語の適当な音素に置換して発音する傾向にあることから,認識の際には学習対象と母国語の二言語混合の音響モデルを用いる.音響モデルの精度向上のために話者適応が行われるが,通常,ある言語の音響モデルの話者適応を行うにはその言語の発声データを用いる必要がある.しかし,外国語発音学習システムにおいては学習する言語の正しい発声を得ることができない.そこで,本研究では学習者の母国語の発音データを用いた二言語混合音響モデルの話者適応方法を提案した.本報告ではさらに認識率の向上を目指し,二言語のバイリンガル話者の発声データを利用した話者適応方法を検討し,その評価を行った.評価実験の結果,従来の話者適応方法よりも高い性能が得られた.

  235. バイリンガル話者音声に基づく 二言語混合音響モデルの話者適応法の検討

    小笠原 洋一, 大河雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (124) 85-90 2003年12月18日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では,外国語発音学習システムに用いる二言語混合音響モデルの話者適応法について検討する.学習者は外国後を発音する際,母国語の適当な音素に置換して発音する傾向にあることから,認識の際には学習対象と母国語の二言語混合の音響モデルを用いる.音響モデルの精度向上のために話者適応が行われるが.通常,ある言語の音響モデルの話者適応を行うにはその言語の発音データを用いる必要がある。しかし,外国語発音学習システムにおいては学習する言語の正しい発音を得ることができない.そこで,本研究では学習者の母国語の発音データを用いた二言語混合音響モデルの話者適応方法を提案した.本報告ではさらに認識率の向上を目指し,二言語のバイリンガル話者の発音データを利用した話者適応方法を検討し,その評価を行った.評価実験の結果,従来の話者適応方法よりも高い性能が得られた.In this paper, we investigate a method of speaker adaptation of bilingual phone models to improve precision of non-native speech recognition system. Non-native speakers tend to substitute native-language's phones for non-native phones, therefore the recognition system must use bilingual phone models consist of all phones in non-native and native languages. Speaker adaptation, generally, use utterance of the same language as the phone model. However, non-native speaker can't speak well to use speaker adaptation. In order to adapt bilingual phone models, we propose a speaker adaptation method of bilingual phone models using native speaker's utterance. To improve bilingual phone models, we propose a method using bilingual speakers' speech. Experiments showed that the bilingual phone models adapted by the proposed method outperformed the models adapted by conventional methods.

  236. 様々な雑音環境での音声対話における文法と認識精度の関係の分析

    大庭 隆伸, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (124) 133-138 2003年12月18日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    音声認識において,雑音下での認識精度の改善は重要な課題の一つとなっている.そのために,音響モデルや雑音除去法の改善など様々な研究が行われているが,本稿では,対話の立場からの制度改善を試みる.具体的には,音声認識にとって不利な雑音環境になるのにあわせ,認識対象とする語彙・候補数を削除した文法に変更し音声認識を行う.これにより,雑音の影響が小さい場合には,ユーザの自由な発話を認識できる枠組みを残しつつ,雑音下でも一定の認識精度を維持して対話を行うことが可能となる.これを実現するためには,まず,語彙・候補数を削減した際に,認識側で認識対象としていない語彙や文法を含むユーザ発話が増加してしまうが,そのための対策が必要となる.また,認識文法を環境にあわせて変更させるには,ある雑音下で対話を行った場合に,認識精度がどの程度になるかを推定する必要があり,これをどのように実現するかが課題となる.前者については,システムの質問提示方法を工夫することにより対策を行い,後者については,雑音・文法と認識精度の関係をニューラルネット学習により推定可能か検討する.Speech recognition under noisy environment is one of the hottest topic in the speech recognition research. Noise-tolerant acoustic models or noise reduction techniques are often used to improve the recognition accuracy. In this paper, we propose a method to improve accuracy of spoken dialog system from a dialog strategy point of view. In the proposed method, the dialog system automatically changes its dialog strategy according to the estimated recognition accuracy in noisy environment in order to keep the performance of the system constant. In a noise-free environment, the system accepts any utterance from a user. On the other hand, the system restricts its grammar and vocabulary in a noisy environment. To realize this strategy, we investigated a method to avoid user's out of grammar utterances through an instruction given by the system to a user. Furthermore, we developed a method to estimate recognition from features extracted from noise signal.

  237. ジェスチャ認識システムに向けた顔検出法の検討

    小野寺 美枝子, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 103 (453) 25-30 2003年11月21日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,ジェスチャ認識システムに人の正面向きの顔検出を組み合わせることを想定し,ジェスチャ認識のための顔検出法を検討する.ジェスチャ認識において,対象人物とカメラとが離れていると,画像中に写る顔は小さく,その部品(目・ロ等)や輪郭がはっきりしないことが考えられる.そこで,HMM(隠れマルコフモデル:Hidden Markov Model)を用いて,小さい顔も検出可能な顔検出法を検討する.HMMとは時系列信号の確率モデルであり,これを用いることで空間的伸縮の吸収が可能になると考えられる.このとき,どのような特徴ベクトルとHMMトポロジーを用いれば小さい顔の検出が可能となるかを検討した.また,検出する顔の大きさの違いに対してそれらがどのように影響するか考察した.

  238. 連続音声認識コンソーシアム2002年度版ソフトウェアの概要

    河原 達也, 住吉 貴志, 李晃伸, 坂野秀樹, 武田 一哉, 三村正人, 伊藤 克亘, 伊藤彰則, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (104) 1-6 2003年10月17日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで活動を行なっている。本稿では、2002年度(2002年10月-2003年9月)において開発されたソフトウエアの概要を述べる。大語藁彙連続音声認識エンジンJuliusの機能拡張・安定性向上とWindowsSAPI対応を行なうとともに、多様な入力環境に対応した音響モデル、及び幅広いカバレージを実現する言語も出るの整備などを行なった。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the third year (Oct. 2002 - Sep. 2003) is given in this report. The LVCSR (large vocabulary continuous speech recognition) engine Julius has been improved both in functionality and stability, and ported to Windows in compliance with SAPI (Speech API). A variety of acoustic and language models are set up to realize wider coverage of input speech. The software package is currently available by contacting the address below.

  239. HSn - gramの学習法の検討

    長野 雄, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (104) 35-40 2003年10月17日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    N-gramをHMMに拡張した言語モデルにHSn-gramがある.HSn-gramは,N-gramを決定性有限状態オートマトンとみなし,各状態を複数の状態に分割することで非決定性有限状態オートマトンに拡張したものである.HSn-gramの問題点として,状態数の増加に伴って状態遷移の数が膨大になり,モデルの推定が困難になることがあげられる.本稿ではこの問題点に対処するために,HSn-gram以外のモデルで学習を行い,ある程度パラメータ数を削減した後にHSn-gramの学習を行った.その結果,通常HSn-gramを学習するよりも約5%低いパープレキシティを得ることができた.HSn-gram is a language model which extends an N-gram to Ergodic HMM. HSn-gram regards an N-gram as deterministic finite-state automata, and it extends the FSA into a non-deterministic finite-state automata by dividing each state into two or more states. A problem of learning HSn-gram is that estimation of the model is difficult, because the number of state and the number of state transition becomes large. In this paper, we propose a learning method of an HSn-gram that uses a set of parameters obtained from SSn-gram (the other HMM-based language model) as an initial parameter set. This method reduces the number of parameters, in order to cope with this problem. Consequently, the perplexity is reduced by 5% comparing to that normally learned HSn-gram.

  240. 雑音マルチパスモデルによる非定常雑音下音声認識の検討

    伊藤 彰則, 喜嶋 朋令, 鈴木 基之, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 103 (93) 1-6 2003年5月29日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    異なる雑音を重畳した音声で学習したHMMを並列に接続したHMM(雑音マルチパスHMM)を用いて,非定常雑音に頑健な音響モデルを作成する方法について検討する.マルチパス音響モデルは既存のHMMを並列に接続したトポロジを持つHMMである.デコーディングの際には複数の経路のうち最尤の経路を選択して認識を行うため,発話中に環境が変化した場合でも頑健な認識が可能である.本稿ではこれを非定常雑音の認識に応用することについて検討を行った.実験には白色雑音をベースとした非定常雑音を用い,複数のSN比での白色雑音付加音声で学習した雑音マルチパスHMMを用いて認識を行った.その結果,定常雑音に対しては雑音マルチパスHMMの性能はマッチドモデルと同等であり,非定常雑音に対しては単一のHMMよりも高い性能が得られた.

  241. デコーダパラメータ設定の有意性の検証

    伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 147-148 2003年3月18日

    ISSN: 1340-3168

  242. 持続時間制御機能を持ったマルチパスHMM

    大河 雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 1-2 2003年3月18日

    ISSN: 1340-3168

  243. 韓国人が発声した日本語の評価と分析

    權 五杓, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 361-362 2003年3月18日

    ISSN: 1340-3168

  244. 複数の音高値候補を用いた楽曲検索システムの性能評価

    許 盛弼, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 847-848 2003年3月18日

    ISSN: 1340-3168

  245. 複数の音高候補値を用いた楽曲検索システムの構築

    許盛弼, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音楽情報科学(MUS) 2003 (16) 85-90 2003年2月21日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本報告では,ハミング入力による楽曲検索システムの構築を行ったので報告する.システムでは音長や音高を特徴量として,ハミングと楽曲とのマッチングを連続DPによって行う.このうち音高については,従来の方法ではピッチ抽出を行うことで1つの音高を決めていたが,本システムではピッチ抽出の誤りを考慮してピッチ抽出の際の複数の音高候補値と信頼度を用いる.複数の音高候補値をことで,用いない場合と比べて検索性能が向上した.また,実験で同様のシステムとの検索性能の比較を行った結果,提案するシステムは同様の楽曲検索システムと比べよい検索性能を示した.Users do not sing accurately, especially if they are inexperienced or an accompanied; even skilled musicians have difficultly in maintaining the correct pitch of a song. Moreover errors may occur when a musical retrieval system extracts pitch from humming. Consider of these problems, we propose to extract multiple pitch candidates. This method has shown that multiple pitch candidates are important features in determining melodic similarity, but it is also clear that reliability information which obtained from power is important as well. In the experiment, we compared to search efficiency of the similar system. Proposed method showed good retrieval result compared with the similar system.

  246. 音声認識を利用した韓国人のための日本語発音学習システム

    權 五杓, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (618) 19-24 2003年1月23日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本研究では,音声認識技術を利用した韓国人向け日本語発音学習システムに関する検討を行なった.まず,韓国語話者が日本語のどの音素を,どのような音素環境で,どのように誤るかなどの分析を行なった.この分析結果を基にして,韓国語話者のための日本語発音教育システムを構築した.構築した発音教育システムは韓国語話者が発声した入力音声について間違った場合にはどのぐらい間違ったか,正しい場合にはどのぐらい正しいかを自動的に評価する.また,学習者が間違って発声したと評価された場合にはどう直せばいいかも教示している.

  247. 3116 人間の手助けとなる機能を有するロボット IRIS の開発

    廣井 富, 庄司 道彦, 鄭 聖熹, 工藤 雅, 高橋 亮介, 小梨 貴史, 田嶋 誠, 大庭 隆伸, 陳 キュウ, 中野 栄二, 高橋 隆行, 牧野 正三, 伊藤 彰則, 大見 忠弘, 小谷 光司, 高津 宣夫, 鈴木 基之

    年次大会講演論文集 2003 (0) 231-232 2003年

    出版者・発行元: 一般社団法人 日本機械学会

    DOI: 10.1299/jsmemecjo.2003.5.0_231  

    詳細を見る 詳細を閉じる

    An intelligent service robot named IRIS (Interactive, Robust and Intelligent Patient Care System) has been developed with the aim to be used mainly in a sickroom of hospital. IRIS is composed of the speaker direction identification system, the dialog system with the patient, the face recognition system, the safety manipulator and the omni-directional vehicle (ODV). It is able to recognize the patient's face, to dialogue with someone, and to execute some simple tasks such as serving a drink safely by request. The hardware system of IRIS is mainly presented in this paper.

  248. An optimized multi-duration HMM for spontaneous speech recognition

    Yuichi Ohkawa, Akihiro Yoshida, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    EUROSPEECH 2003 - 8th European Conference on Speech Communication and Technology 485-488 2003年1月1日

  249. かな・漢字文字列を単位とした言語モデルの検討

    金野弘明, 加藤正治, 小坂 哲夫, 好田 正紀, 伊藤 彰則

    情報処理学会研究報告音声言語情報処理(SLP) 2002 (121) 165-170 2002年12月16日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本研究では、形態素解析された単語を単位とせず、文字単位でN-gram言語モデルを作成した。また、文字単位は言語制約が弱くなるため、評価基準に基づいて文字列を選択し、文字と文字列によるN-gram言語モデルも作成した。文字列の選択基準としては、高頻度の文字列を選択する方法、出現頻度を考慮した相互情報量の値の高いものを文字列を選択する方法、の2つを試みた。毎日新聞テキストコーパスJNASの音声データベースを用いて、パープレキシティおよび連続音声認識実験における文字誤り率(CER)を評価した。選択基準としては、相互情報量の方が性能は向上した。単語単位のものと比較してみると性能の改善は見られなかったが、文字単位よりも文字列単位の方が性能が向上した。また、語彙サイズを比較すると、文字、文字列単位は単語単位のものよりも50%減少している。This paper describes a character-based n-gram model. The proposed model is based on Kanji and Kana character instead of word or morpheme determined by morphemic analysis. To exploit stronger constraint, charachter strings are used in addition to single characters as basic units of the model. We examined two methods to choose character strings. One method is based on frequency in the training corpus, and the other is based on mutual information as well as the frequency. We carried out experiments to compare perplexities and character error rates (CER) between the proposed model and conventional (word or character based) n-gram model. The results showed that the mutual information based method gave the better performance. Although the proposed model was not superior to the word-based model, it was better than the character-based one. The vocabulary size of the proposed model was about 50% smaller than that of word-based model.

  250. かな・漢字文字列を単位とした言語モデルの検討

    金野 弘明, 加藤 正治, 小坂 哲夫, 好田 正紀, 伊藤 彰則

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 102 (528) 1-6 2002年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本研究では、形態素解析された単語を単位とせず、文字単位でN-gram言語モデルを作成した。また、文字単位は言語制約が弱くなるため、評価基準に基づいて文字列を選択し、文字と文字列によるN-gram言語モデルを作成した。文字列の選択基準としては、高頻度の文字列を選択する方法、出現頻度を考慮した相互情報量の値の高いものを文字列と選択する方法、の2つを試みた。毎日新聞テキストコーパスとJNASの音声データベースを用いて、パープレキシティおよび連続音声認識実験における文字誤り率(CER)を評価した。選択基準としては、相互情報量の方が性能は向上した。単語単位のものと比較してみると性能の改善は見られなかったが、文字単位よりも文字列単位の方が性能が向上した。また、語彙サイズを比較すると、文字、文字列単位は単語単位のものよりも50%減少している。

  251. 連続音声認識コンソーシアム2001年度版ソフトウエアの概要

    河原 達也, 住吉 貴志, 李晃伸, 坂野秀樹, 武田 一哉, 三村正人, 山田 武志, 西浦 敬信, 伊藤 克亘, 伊藤彰則, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 2002 (98) 13-18 2002年10月25日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで活動を行っている。本稿では、2001年度(2001年10月-2002年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジンJuliusのWindowsSAPI対応を行うとともに、多様な話者層や入力環境に対応した音響モデルの整備などを行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC)was founded under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project.An overview of the software developed in the second year (Oct.2001 -Sep. 2002)is given in this report.The LVCSR (large vocabulary continuous speech recognition) engine Julius is ported to Windows and compliance with SAPI (Speech API).A variety of acoustic models are set up to cover wider user generations and speech-input environments. The software is currently available by contacting the address below.

  252. LZ符号化を利用した音声符号化

    木幡 稔, 三ッ屋 郁哉, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (335) 7-12 2002年9月17日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声符号化に用いられるパラメータには時間的な冗長性が多く含まれている.これらの時間的冗長性を除去することにより,さらに低ビットでの音声符号化が可能であると予測される.本稿では,ユニバーサル符号化の1つであるLZ符号化を利用することにより,音声符号化パラメータを効率的に圧縮符号化する方法を提案する.まず,提案方式を線形予測係数に適用することを試みた結果,Split-VQや多段VQまたMA予測VQといった汎用的な量子化法に比べ,歪み/符号化速度の観点から大幅な性能改善が得られた.さらに,F0とゲインから成る音源情報にも提案方法を適用し,1.9kbit/sの符号化システムを構築し,2.4kbit/sのFS-MELPとの比較を行った結果,ほぼ同等の主観評価結果を得ることができた.

  253. 複数マイクロホンを用いた簡易な呼びかけ音方向同定システム

    田嶋 誠, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (335) 19-24 2002年9月17日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    自律移動ロボットのための呼びかけ音方向同定システムを作成した.我々が検討しているロボットは,ユーザの呼びかけによって起動し,画像処理によって顔認識を行い,呼びかけをした人を同定するが,画像処理を行うにはカメラの視野角に呼びかけをした人が入るようにしなければならない.そのために,本研究では呼びかけ音を認識し,到来方向を45度の範囲に絞り込む事を目的とする.また,ロボット搭載ということを考慮すると,ハードウェアの制約の中で少ない計算資源によって実時間処理を実現しなければならない.本研究では,少ない計算資源での実時間処理を前提として,複数の指向性マイクロホンを用いた簡易的な呼びかけ音の方向同定システムを構築した.また,システムの評価は複数のしきい値での再現率と適合率により行い,話者,キーワードのモーラ長,SN比という条件から,最も評価に影響するものがモーラ長であるという事を示した.さらに,モーラ長ごとに分析した結果,モーラ長ごとの適切なしきい値の設定がシステムの精度を向上させる可能性があることを確認した.最終的に,さまざまな話者・SN比のデータに対して,再現率・適合率共に80%以上という結果が得られた.

  254. I-41 2次元ワープ法を用いた動画像中の動きベクトルの抽出(ステレオ・オプティカルフロー,I.画像認識・メディア理解)

    斎藤 敦子, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報科学技術フォーラム一般講演論文集 2002 (3) 81-82 2002年9月13日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  255. I-43 領域分割を用いたDPマッチングによるステレオ画像からの対応点検出(ステレオ・オプティカルフロー,I.画像認識・メディア理解)

    倉本 健介, 伊藤 彰則, 鈴木 基之, 牧野 正三

    情報科学技術フォーラム一般講演論文集 2002 (3) 85-86 2002年9月13日

    出版者・発行元: FIT(電子情報通信学会・情報処理学会)運営委員会

  256. 日本語音声による話者適応を用いた英語韻律学習システム

    伊藤 彰則, 長沢 忠郎, 鈴木 基之, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (159) 19-24 2002年6月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    音声認識技術を用いた,日本語を母語とする話者のための英語学習システムについて述べる.本システムは,発音誤りを考慮した自動ラベリングによる発音評価システムと,イントネーションおよびリズムを評価する韻律評価システムからなる.発音評価システムでは,ラベリング精度の向上のため,VFS法による話者適応を用いた.この際,英語用の音響モデルを適応させるために,日本語の音声を用いる手法を提案する.これによって,英語の発音に慣れていない話者についても話者適応を行なうことができる.また,韻律評価システムでは,発話のピッチおよび持続時間に基づいて学習者の発話を評価する.評価実験として,英語を母語とする話者とシステムがそれぞれ日本語話者の英語を評価し,その評価値の相関を調べた.その結果,システムの評価と英語母語話者の評価との間に相関が見られ,本システムが有効である可能性が示唆された.

  257. 最大エントロピー法によるトリガー言語モデルの評価

    岸本 将伸, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2002 (1) 157-158 2002年3月18日

    ISSN: 1340-3168

  258. かな・漢字文字列を単位とした音声認識の検討

    金野 弘明, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2002 (1) 155-156 2002年3月18日

    ISSN: 1340-3168

  259. 対話音声認識におけるMLLR適応の評価

    加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2002 (1) 135-136 2002年3月18日

    ISSN: 1340-3168

  260. Erratum: Language modeling by stochastic dependency grammar for Japanese speech recognition (Systems and Computers in Japan (November 15, 2001) 32:12 (10-15))

    Ito, A., Hori, C., Katoh, M., Kohda, M.

    Systems and Computers in Japan 33 (3) 74-74 2002年3月1日

    DOI: 10.1002/scj.1115  

    ISSN: 0882-1666

  261. Continuous speech recognition consortium -An open repository for CSR tools and models

    Akinobu Lee, Tatsuya Kawahara, Kazuya Takeda, Masato Mimura, Atsushi Yamada, Akinori Ito, Katsunobu Itou, Kiyohiro Shikano

    Proceedings of the 3rd International Conference on Language Resources and Evaluation, LREC 2002 1438-1441 2002年1月1日

  262. Piecewise linear two-dimensional warping

    Akinori Ito, Chiori Hori, Masaharu Katoh, Masaki Kohda

    Systems and Computers in Japan 32 (12) 1-9 2001年11月15日

    DOI: 10.1002/scj.1072  

    ISSN: 0882-1666

  263. 連続音声認識コンソーシアム2000年度版ソフトウエアの概要と評価

    河原 達也, 住吉 貴志, 李晃伸, 武田 一哉, 三村正人, 伊藤彰則, 伊藤 克亘, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 2001 (100) 37-42 2001年10月19日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.

  264. 声道長正規化による大語彙連続音声認識の性能改善の検討

    藤田 大祐, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2001 (2) 3-4 2001年10月1日

    ISSN: 1340-3168

  265. 単語およびクラス n-gram 作成のための統計的言語モデルツールキット

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2001 (1) 77-78 2001年3月1日

    ISSN: 1340-3168

  266. 日本語ディクテーション基本ソフトウェア 99年度版

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 嵯峨山茂樹, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌 57 (3) 210-214 2001年3月1日

    出版者・発行元: 日本音響学会

    DOI: 10.20697/jasj.57.3_210  

    ISSN: 0369-4232

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデル及び日本語形態素解析・読み付与ツール等から構成される。99年度版では更なる高精度化・高速化そして大語彙化がなされた。本稿ではその仕様を述べると共に, 20, 000語彙及び60, 000語彙のディクテーションタスクにおける要素技術の評価を報告する。本ツールキットは, 無償で一般に公開されている。

  267. New state clustering of hidden markov network with Korean phonological rules for speech recognition

    SJ Oh, HY Chung, CJ Hwang, BK Kim, A Ito

    2001 IEEE FOURTH WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING 39-44 2001年

  268. 単語グラフ生成における パラメータ最適化の検討

    加藤正治, 斎院 俊典, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 2000 (119) 107-112 2000年12月21日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本報告では,マルチパスサーチに基づく音声認識における,単語グラフ生成のためのパラメータ推定法について検討する.種々の条件を単語グラフを利用して,仮想的に表現することで,言語重み・挿入ナルテイ,ビーム幅などのパラメータを効率よく推定することができる.ビーム幅を固定した場合,第1パスと同じ条件で単語グラフをリスコアすることで1,2回の繰り返し操作で最適な言語重み・挿入ペナルティを求められる.ビーム幅を含めた最適化では,あらかじめ,大きなサイズのグラフを用意することでパラメータを最適化する.提案法を新聞記事読み上げ音声に適応したところ,開発用650文で作成したパラメータは,評価用100文で作成したものよりも良好な良好が得られた.Language model weight and insertion penalty greatly affects the recognition preformance of LVCSR system. In the multi-pass LCVSR system that uses word graphas an intermediate data structure, theses decorder parameter should be optimized in order to generate a good word graph. We proposed the rescoring based method that uses bigram LM insted of generating many word graphs for each parameter setting. As the rescoring is much faster than the re-generation of a word graph, the optimization time of the proposed method is much shorter. In this paper, we tested proposed method on Japanese News Article Sentences (ASJ-JNAS). When obtaied enough development data, the recognition performance is improved.

  269. 単語およびクラス n-gram 作成のためのツールキット

    伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 100 (521) 67-72 2000年12月15日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    単語n-gramとクラスn-gramが作成可能なツールキットを作成した.このツールキットは, CMU-Cambridge SLM Toolkitとコマンドレベルで互換性があり, ARPA言語モデルを作成することができる.また, n-gram出現回数の混合による言語モデルや, 線形結合による言語モデルの組み合わせをサポートしている.言語モデルの組み合わせはAPIレベルでサポートされているので, 本ツールキットのライブラリを利用すれば, 組み合わせ言語モデルを使ったシステムを手軽に作ることができる.本ツールを使った実験として, 毎日新聞6年分を用いた言語モデルの評価実験を行った.単語モデルと品詞モデルのさまざまな組み合わせを比較した結果, 単語trigramに品詞trigramを組み合わせることで, パープレキシティが若干改善できることがわかった.

  270. 単語グラフ生成におけるパラメータ最適化の検討

    加藤 正治, 斎院 俊典, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 100 (520) 107-112 2000年12月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本報告では, マルチパスサーチに基づく音声認識における, 単語グラフ生成のためのパラメータ推定法について検討する.種々の条件を単語グラフを利用して, 仮想的に表現することで, 言語重み・挿入ナルティ, ビーム幅などのパラメータを効率よく推定することができる.ビーム幅を固定した場合, 第1パスと同じ条件で単語グラフをリスコアすることで1, 2回の繰り返し操作で最適な言語重み・挿入ペナルティを求められる.ビーム幅を含めた最適化では, あらかじめ, 大きなサイズのグラフを用意することでパラメータを最適化する.提案法を新聞記事読み上げ音声に適応したところ, 開発用650文で作成したパラメータは, 評価用100文で作成したものよりも良好な良好が得られた.

  271. Changes in fruit quality as influenced by shading of netted melon plants (Cucumis melo L. 'Andesu' and 'Luster')

    Nishizawa, T., Ito, A., Motomura, Y., Ito, M., Togashi, M.

    Journal of the Japanese Society for Horticultural Science 69 (5) 563-569 2000年10月26日

    DOI: 10.2503/jjshs.69.563  

    ISSN: 1882-3351

  272. 単語グラフ生成におけるパラメータ最適化の検討

    加藤 正治, 斎院 俊典, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (2) 33-34 2000年9月1日

    ISSN: 1340-3168

  273. ページャ兼テキストベースWWWブラウザ“w3m”

    伊藤彰則

    bit 32 (9) 28-33 2000年9月

    出版者・発行元: 共立出版

    ISSN: 0385-6984

  274. 話者照合におけるMLLRベースの話者モデル作成の検討

    加藤 正治, 加納 淳也, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 100 (137) 25-32 2000年6月16日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本論文では, テキスト指定型の話者照合について検討する.主張話者モデルの作成は, 音声認識で用いられる最尤線形回帰(MLLR)ベースの話者適応を利用する.回帰クラスを増やす方法として木構造クラスタリングを利用する.クラスは学習データ量に基づき自動選択される.選択基準にはフレームしきい値の他にMDL基準に基づく方法についても検討する.さらに, より詳細な適応としてMAP法を併用する場合について調査した.また, MLLR法の発展であるSAT法の適用についても報告する.話者照合実験により, MLLR適応MDL基準にMAP法を併用することによる性能改善が顕著に現れた.また, SATコンパクトモデルは, 発生時期差のある場合に有効である.

  275. N-gram に基づくエルゴディックHMMによる言語モデル

    伊藤 彰則, 斎藤 秀樹, 加藤 正治, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 100 (137) 67-74 2000年6月16日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    N-gramをHMMに拡張した言語モデルについて検討する.このモデルは, N-gramを決定性有限オートマトンとみなし, 各状態を複数の状態に分割することで, これを非決定性有限オートマトンに拡張するものである.拡張されたモデルは, 一種のエルゴディックHMMになる.これを本稿ではHS-ngramと呼ぶ.BigramおよびTrigramからエルゴディックHMMを生成する実験を行い, 提案モデルが元のN-gramよりも低いパープレキシティを与えることを確認した.また, 連続音声認識結果のリスコアリンダ実験により, trigramとHS-trigramの比較を行った.その結果, HS-trigramはtrigramよりも若干良い結果となった.

  276. 単語グラフ生成の言語重み・挿入ペナルティ最適化の検討

    斎院 俊典, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 100 (137) 75-82 2000年6月16日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において, 単語グラフ生成のパラメータの良否はシステムの性能に大きく影響する.本報告では, 初期単語グラフのbigramによるリスコアリングに基づく, 単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討する.本手法は, 第一パスWERが最小になるようなパラメータ設定法であり, 第二パスWERの改善に繋がるが検討項目となる.従来の処理量の大きな単語グラフ生成を繰り返したパラメータ設定に比べて, 処理量の小さなリスコアリングを利用することで短時間でパラメータの最適化ができる.新聞記事読み上げ文に対する認識実験の結果, 本手法によって得られたパラメータは多くの場合で第二パスWERの改善に繋がっており, さらには従来のパラメータ設定による認識結果に比較し同等かそれ以上の性能を示すことに成功した.

  277. 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価

    河原 達也, 李 晃伸, 小林 哲則, 武田 一哉, 峯松 信明, 嵯峨山 茂樹, 伊藤 克亘, 伊藤 彰則, 山本 幹雄, 山田 篤, 宇都呂 武仁, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理 2000 (54) 9-16 2000年6月2日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は、大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは、標準的な認識エンジン・日本語音響モデル・日本語言語モデル及び日本語形態素解析・読み付与ツール等から構成される。99年度版ではさらなる高精度化・高速化そして大語彙化がなされた。本稿ではその仕様を述べるとともに、20000語彙及び60000語彙のディクテーションタスクにおける要素技術の評価を報告する。本ツールキットは、無償で一般に公開されている。

  278. Trigramに基づくErgodic HMMによる言語モデルの検討

    斎藤 秀樹, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 51-52 2000年3月1日

    ISSN: 1340-3168

  279. 単語グラフ生成の言語重み・挿入ペナルティ最適化の検討

    斎院 俊典, 岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 47-48 2000年3月1日

    ISSN: 1340-3168

  280. 品詞と高頻度単語のN-gramを使用したタスク適応の検討

    小笠原 教充, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 75-76 2000年3月1日

    ISSN: 1340-3168

  281. MLLR適応におけるMDL基準に基づく回帰クラスタ設定の検討

    加納 淳也, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 103-104 2000年3月1日

    ISSN: 1340-3168

  282. Language modeling by stochastic dependency grammar for Japanese speech recognition

    Akinori Ito, Chiori Hori, Masaharu Kotow, Masaki Kohda

    6th International Conference on Spoken Language Processing, ICSLP 2000 2000年1月1日

  283. IPA Japanese dictation free software project

    Katsunobu Itou, Kiyohiro Shikano, Tatsuya Kawahara, Kazuya Takeda, Atsushi Yamada, Akinori Ito, Takehito Utsuro, Tetsunori Kobayashi, Nobuaki Minematsu, Mikio Yamamoto, Shigeki Sagayama, Akinobu Lee

    2nd International Conference on Language Resources and Evaluation, LREC 2000 2000年1月1日

  284. Free software toolkit for Japanese large vocabulary continuous speech recognition

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Shigeki Sagayama, Katsunobu Itou, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    6th International Conference on Spoken Language Processing, ICSLP 2000 2000年1月1日

  285. 音素グラフに基づく仮説制限法を用いた大語彙連続音声認識の検討

    岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 99 (524) 67-72 1999年12月21日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本報告では,大語臭連続音声認識のための高速な手法一音素グラフに基づく仮説制限法一について検討する.提案法は,認識の前処理として音素グラフを生成し,この音素グラフに含まれる情報を利用して,効率的に探索手法を狭める手法であり,5000語の語粟タスクにおいて誤り率を増加させることなく処理時間の約70%が削減可能であると報告してきた.本報告では,音素グラフ生成の際に,FastMatcllモデルを用いて1音素先読みを行うことで,音素グラフ生成自体の処理量削減をはかる,さらに,言語モデルにおける学習データの違いによる認識結果の違いについても検討する6語粟サイズ20000の新聞記事読み上げ文音声で評価し,音素グラフに基づく仮説制限法の導入は,単語誤り率をほとんど増加させることなく処理時間の約60%を削減できることを示す.

  286. 音素グラフに基づく仮説制限法を用いた 大語彙連続音声認識の検討

    岡 直生, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (108) 199-204 1999年12月20日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本報告では,大語彙連続音声認識のための高速な手法?音素グラフに基づく仮説制限法?について検討する.提案法は,認識の前処理として音素グラフを生成し,この音素グラフに含まれる情報を利用して,効率的に探索手法を狭める手法であり,5000語の語彙タスクにおいて誤り率を増加させることなく処理時間の約70%が削減可能であると報告してきた.本報告では,音素グラフ生成の際に,Fast Matchモデルを用いて1音素先読みを行うことで,音素グラフ生成自体の処理量削減をはかる.さらに,言語モデルにおける学習データの違いによる認識結果の違いについても検討する.語彙サイズ20000の新聞記事読み上げ文音声で評価し,音素グラフに基づく仮説制限法の導入は,単語誤り率をほとんど増加させることなく処理時間の約60%を削減できることを示す.In this paper, we study about fast search strategies for large vocabulary continuous speech recognition (LVCSR). Many fast search strategies have been proposed until. In [2], we proposed a new search strategy with a phoneme graph based hypothesis retriction, which efficiently reduces the search space. For 5000-word task, exprimental results showed that the method can reduce 70 % of the elapsed time without any error increasing. For further faster search, we incorporated 1-phoneme look-ahead technique into phoneme graph generation. We evaluate the proposed method with 20000-word Japanese newspaper task. Expremental results show that the method can reduce about 60 % of the elapsad time without error rate increasing.

  287. 話者照合における話者モデルのMLLR適応の検討

    加納 淳也, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (108) 55-60 1999年12月20日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本報告では,学習データ量に応じた回帰クラスタ設定にMDL基準を用いる方法を提案する.話者モデルは,隠れマルコフモデル(HMM : Hidden Markov Model)で表し,主張話者モデルをMLLR適応により作成する.回帰クラスを設定するために,音響的な距離を基準にtop-down clusteringで作成した木構造を用いる,木構造を用いた回帰クラスタの自動設定には,次の3通りを実験する.MDL基準を用いる場合,フレーム数を用いる場合,回帰クラスタを固定する場合.発声内容指定型話者照合で実験した結果,MDL基準を用いる方法は,クラスタ分割を抑制し,学習データ量に応じた最適なクラスタ数を選択できる可能性が得られた.In this paper, we propose a method to make automatically the regression cluster corresponding to the amount of adaptation data by MDL criterion. Claimant speaker models are made by MLLR adaptation. To increase the number of regression clusters, we use a tree structure. It is made with top-down clustering based on acoustic distance. The MDL criterion is compared with the frame threshold criterion and fixed regression clusters criterion. In the experiment on the text-prompted speaker verification, MDL criterion becomes the repression of cluster division, and the most suitable number of cluster corresponding to the amount of adaptation data is chosen.

  288. 話者照合における話者モデルのMLLR適応の検討

    加納 淳也, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 99 (523) 55-60 1999年12月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本報告では,学習データ量に応じた回帰クラスタ設定にMDL基準を用いる方法を提案する.話者モデルは,隠れマルコフモデル(HMM:HiddenMarkovModel)で表し,主張話者モデルをMLLR適応により作成する.回帰クラスを設定するために,音響的な距離を基準にtop-downclusteringで作成した木構造を用いる.木構造を用いた回帰クラスタの自動設定には,次の3通りを実験する.MDL基準を用いる場合,フレーム数を用いる場合,回帰クラスタを固定する場合.発声内容指定型話者照合で実験した結果,MDL基準を用いる方法は7クラスタ分割を抑制し,学習データ量に応じた最適なクラスタ数を選択できる可能性が得られた

  289. N - best候補からの言語重みと挿入ペナルティの最適化に関する検討

    伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (91) 35-40 1999年10月29日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識システムには,最適化すべき多くのパラメータがある.本稿では,その中で言語重みと挿入ペナルティの設定について考察する.まず,実際に言語重みと挿入ペナルティの値を変えながら認識実験を行った結果から,三つの重要な観察事実を得た.一つ目は,これらのパラメータの最適値が,最適化に用いたテストセットに依存するという点である.二つ目は,これらのパラメータと単語エラー率の関係は複雑で,大域的な最適解を得るためには,パラメータ空間を全探索しなければならないという点である.三つ目は,ある程度最適な領域における単語エラ一率の変動は2%程度という点である,これらの事実を踏まえて,パラメータ最適化のための新しい手法を三つ提案する.最初に,n-best候補のりスコアリングに基づいてパラメータを最適化する場合に,そのn-best候補を予備選択する方法を提案する.この方法を使えば,最適化結果をまったく変えずに,n-best候補の数を大幅に削減することができる.二つ目に,より頑健なパラメータの設定値を探す方法を提案する.この方法は,パラメータ最適化のためのテストセットをいくつかに分割し,あるパラメータ設定における単語エラー率の平均と分散を考慮するという方法であり,bigram言語モデルを用いた場合には,ある程度の頑健性の改善が得られている.最後に,近隣サーチに基づいて,準最適なパラメータ設定を高速に探索する手法を提案する.An LVCSR system has many parameters to be optimized. In this paper, we investigate several issues about language model weight and word insertion penalty. From recognition results obtained by changing these parameters, we found three important observations. The first one was that the optimum point of these parameter values depended to the test set for the optimization. The second one was that the parameter space had many local optimum, which meant that one had to try all points in the parameter space to find the global optimum point. The third one was that the potential increment of WER in suboptimum region of the parameter space was about 2%. Based on these observations, We propose three new methods to optimize language model weight and insertion penalty. Firstly, a new method is proposed to preselect n-best candidates for n-best rescoring based parameter optimization. Secondly, a method to choose robust parameter setting is proposed. This method splits a development test set into several sets. Accoding to the optimization results for each set, This method choosed the optimum point by considering the average of WER as well as its variances. Finally, a method to find sub-optimum parameter setting is proposed. This optimization is based on neighborhood search, and it finds a parameter setting rapidly.

  290. Eurospeech99 IEEE MMSP99会議報告

    中村 哲, 大川 茂樹, 伊藤 彰則, 田本 真詞, 水野 秀之, 鵜木 祐史, 徳田 恵一, 鏑木 時彦, 畑岡 信夫

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (91) 21-28 1999年10月29日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本稿では,1999年9月5日から9日にハンガリーのブタペストで開催されたESCAのEurospeech99および9月13日から15日にかけてデンマークのへルシンガーで開催されたIEEE Multimedia Signal Processing Workshopの報告を行う.This paper summarizes the topics in ESCA Eurospeech99 held at Budapest, Hungary, from Sep. 5 to Sep. 9, 1999 and in IEEE Multimedia Signal Processing Workshop held at Helsinger, Denmark, from Sep. 13 to Sep. 15, 1999.

  291. 話者照合における話者モデルのMLLR適応の検討

    加納 淳也, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 49-50 1999年9月1日

    ISSN: 1340-3168

  292. N-best候補からの高速な言語重み・挿入ペナルティの最適化法

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 65-66 1999年9月1日

    ISSN: 1340-3168

  293. 複数の認識出力の統合による性能改善の検討

    加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 85-86 1999年9月1日

    ISSN: 1340-3168

  294. 尤度差に基づくn-gram言語モデル評価基準の検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 73-74 1999年9月1日

    ISSN: 1340-3168

  295. bigramに基づくergodicHMMによる言語モデルの検討

    斎藤 秀樹, 伊藤 彰則, 加藤 正治, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 101-102 1999年9月1日

    ISSN: 1340-3168

  296. 尤度差に基づく n-gram 言語モデル評価のための指標

    伊藤 彰則, 好田 正紀, オステンドルフ M.

    電子情報通信学会技術研究報告. SP, 音声 99 (121) 95-102 1999年6月18日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    N-gramをはじめとする統計的言語モデルの評価尺度として,パープレキシティがこれまで広く用いられてきた.しかし,ドメイン外テキストを併用する言語モデルや混合言語モデルなどの複雑な言語モデルに関しては,認識システムの単語エラー率とパープレキシティとの相関が悪いという結果が近年報告されている.本稿では,n-gram言語モデルに代わりうる評価尺度について検討した結果を報告する.パープレキシティが評価テキストの単語の出現確率のみを用いるのに対して,ここで提案する指標は,評価テキストに出現する単語の言語尤度と,その単語が出現した文脈における最大言語尤度との差に基いている.この尤度差に対してシグモイド状の非線型関数を適用した後,言語毎の平均を算出する.非線型関数を適用することにより,認識結果の改善に寄与しない言語スコアの変動の影響を抑えることができる.音声認シミュレーション実験および実音声認識実験の結果と,ここで提案した指標との相関を調べてみたところ,パープレキシティに比べて高い相関を示すことが確認された.

  297. 確率文脈自由文法を用いた言語モデルの構築と音声認識実験による評価

    堀 智織, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 99 (121) 79-86 1999年6月18日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    確率文脈自由文法(Stochastic Context Free Grammar:SCFG)は,N-pramのような局所的な制約だけでなく,文全体に渡る大局的な制約をも記述できることから,非常に表現力の高い言語モデルとして知られている.しかし,SCFGのパラメータ推定にはInside-Outsideアルゴリズムを用いる必要があり,非終端記号数の3乗,かつ入力系列長の3乗に比例する莫大な計算量を要する.そのため,これまでSCFGが音声認識用の言語モデルとして利用されることはほとんどなかった.そこで本研究では,Inside-Outsideアルゴリズムの計算量を削除するために,文節単位の係受け文法を適用したSCFGを提案する.EDRコーパスを用いた実験では,提案法を含む各種SCFGの性能とパラメータ推定に要する処理量を比較し,提案法の計算量削除の効果を示す.そして,毎日新聞コーパスを用いて大規模な文節単位の係受けSCFGを構築し,大語彙連続音声認識システムに実装して,Trigramとの認識性能の比較を行った結果について報告する.

  298. 日本語ディクテーション基本ソフトウェア 97年度版

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌 55 (3) 175-180 1999年3月1日

    出版者・発行元: 日本音響学会

    DOI: 10.20697/jasj.55.3_175  

    ISSN: 0369-4232

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。

  299. Japanese Dictation Toolkit -1997 version

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Katsunobu Itou, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    Journal of the Acoustical Society of Japan (E) (English translation of Nippon Onkyo Gakkaishi) 20 (3) 233-239 1999年

    DOI: 10.1250/ast.20.233  

    ISSN: 0388-2861

  300. 大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討

    堀 貴明, 岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 98 (461) 25-32 1998年12月11日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    本報告では, 大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition : LVCSR)のための高速な探索手法について検討し, 効果的に探索空間を狭める新しい手法-音素グラフに基づく仮説制限法-を提案する.本手法は, 認識の前処理として音素グラフを生成し, 認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する.音素グラフによる仮説制限は, 音素境界制限とForward-Backward Pruningからなり, これらは探索空間の大幅な削減を可能にする.語彙サイズ5000の新聞記事読み上げ音声を用いた認識実験において, 本手法が誤り率を増加させることなく処理時間の約70%を削減可能であることを示す.

  301. 大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討

    堀 貴明, 岡 直生, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1998 (114) 113-120 1998年12月10日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本報告では,大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition : LVCSR)のための高速な探索手法について検討し,効果的に探索空間を狭める新しい手法?音素グラフに基づく仮説制限法?を提案する.本手法は,認識の前処理として音素グラフを生成し,認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する.音素グラフによる仮説制限は,音素境界制限とForward-Backward Pruningからなり,これらは探索空間の大幅な削減を可能にする.語彙サイズ5000の新聞記事読み上げ音声を用いた認識実験において,本手法が誤り率を増加させることなく処理時間の約70%を削減可能であることを示す.In this paper, we study about fast search strategies for Large Vocabulary Continuous Speech Recognition (LVCSR), and propose a new method - a phoneme-graph-based hypothesis restriction, which effectually prunes the search space. In the proposed method, a phoneme graph is generated at the pre-processing stage, and then the best word sequence is searched while restricting expansion of hypotheses using the information of the phoneme graph at the main recognition stage. The phoneme-graph-based restriction consists of the limitation of phoneme boundaries and the Forward-Backward Pruning, which enable to reduce the search space dramatically. The proposed method was tested on a 5,000-word Japanese newspaper reading task. The experimental results show that this method can reduce about 70% of the elapsed time without any error increasing.

  302. 状態クラスタリングによるHM-Netを用いた大語彙連続音声認識システムの検討

    堀 貴明, 岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (2) 95-96 1998年9月1日

    ISSN: 1340-3168

  303. 新聞記事コーパスから作成した各種N-gram言語モデルの音声認識実験による評価

    亀山 誠裕, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (2) 73-74 1998年9月1日

    ISSN: 1340-3168

  304. ここまでできるぞ音声/言語処理技術 : 音声編

    新田恒雄, 小林哲則, 鹿野清宏, 武田一哉, 河原達也, 伊藤克亘, 峯松信昭, 伊藤彰則, 宇津呂武仁, 山本幹雄, 山田篤, 西村雅史, 甲斐充彦, 中川聖一, 服部浩明, 阿部匡伸, 松浦博

    情報処理学会研究報告. SLP, 音声言語情報処理 98 (49) 9-16 1998年5月28日

    出版者・発行元: 社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    マルチメディア時代が到来し, 様々なサービス提供が始まっている。本報告では, 今後, ますます重要性を増す音声インタフェース技術に焦点をあて, 音声認識および音声合成を中心とした最新技術を紹介している。内容は, 音声認識技術として, 日本語ディクテーションソフトウエア, Web検索ソフトウエア, 大語彙音声認識チップを, また音声合成技術として, 音声コンテンツ制作支援ツール, テキスト-音声変換ソフトウエアから成る。

  305. SIG - SLP/SIG - NL合同セッション ここまでできるぞ音声/言語処理技術 -音声編-

    新田 恒雄, 小林 哲則, 鹿野 清宏, 武田 一哉, 河原 達也, 伊藤 克亘, 峯松 信昭, 伊藤 彰則, 宇津呂 武仁, 山本 幹雄, 山田 篤, 西村 雅史, 甲斐 充彦, 中川 聖一, 服部 浩明, 阿部 匡伸, 松浦 博

    情報処理学会研究報告自然言語処理(NL) 1998 (48) 9-16 1998年5月28日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    マルチメディア時代が到来し,様々なサービス提供が始まっている。本報告では,今後,ますます重要性を増す音声インタフェース技術に焦点をあて,音声認識および音声合成を中心とした最新技術を紹介している。内容は,音声認識技術として,日本語ディクテーションソフトウエア,Web検索ソフトウエア,大語彙音声認識チップを,また音声合成技術として,音声コンテンツ制作支援ツール,テキスト‐音声変換ソフトウエアから成る。

  306. 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価

    河原 達也, 李晃伸, 小林 哲則, 武田 一哉, 峯松 信明, 伊藤 克亘, 伊藤 彰則, 山本 幹雄, 山田 篤, 宇津呂 武仁, 鹿野 清宏

    情報処理学会研究報告自然言語処理(NL) 1998 (48) 109-114 1998年5月28日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は、大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。これは、複数の大学・公的研究機関の研究者の協力プロジェクトの成果である。このプラットフォームは、標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは、日本音響学会の音声データベースを用いて学習し、monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は、毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは、音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して、5000語彙の日本語ディクテーションシステムを作成し、種々の要素技術の評価を行なった。本ツールキットは、無償で一般に公開されている。The project of developing LVCSR (Large Vocabulary Continuous Speech Recognition) platform is introduced. It is a collaboration of researchers of different academic institutes and intended to develop a sharable software repository of not only databases but also models and programs. The platform consists of a standard recognition engine, Japanese phone models and Japanese statistical language models. As an integrated system of these modules, we have implemented a baseline 5000-word dictation system and evaluated various components. The software repository is available to the public.

  307. N-gramタスク適応の認識実験による評価

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (1) 43-44 1998年3月1日

    ISSN: 1340-3168

  308. 言語モデル作成におけるカットオフおよび時期差の検討

    亀山 誠裕, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (1) 49-50 1998年3月1日

    ISSN: 1340-3168

  309. 音素連接HMMを用いた尤度正規化に基づくワードスポッティングの検討

    加藤 正治, 堀 貴明, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 97 (440) 9-14 1997年12月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    近年の音声認識では, 確率モデルに基づく隠れマルコフモデル(HMM)が広く利用されている. 連続音声認識では, 仮説の長さや位置が異なるためにHMMの尤度スコアを直接用いることには問題がある. 本研究では, 確率論的な考えに基づいて音素HMMの尤度を正規化する手法について検討する. 具体的には, 日本語の任意の音素並びを表現できる音素連接HMMを用いて, HMMの尤度を正規化する. 音素連接HMMに基づく手法は, 特別なモデルを作成する必要がなく, 認識システムの枠組にとり込める, といった特徴がある. 本研究で提案する手法をワードスポッティングに適用しその効果を評価する.

  310. 状態クラスタリングによるHM - Netの構造決定法の検討

    堀 貴明, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (120) 47-52 1997年12月11日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    隠れマルコフ網 (M?Ne) は,音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり,高精度かつ頑健な音声認識を実現する音響モデルとして有効であることが示されている.HM?Netを生成する方法として,これまで逐次状態分割法 (uccessive State Splitting:SS) やその改良が提案されているが,これらの手法は学習サンプルを用いて状態分割とパラメータ推定を繰り返す手法であるため,大量の学習サンプルを利用する場合には計算量が膨大になるという問題がある.通常,HM?Netは少量のサンプルによって構造決定され,各状態の分布のみが多量のサンプルによって再推定される.しかし,少量のサンプルでは大語彙連続音声認識などに用いる大規模なHM?Netの構造が得られない.本報告では大語彙連続音声認識のための高精度なHM?Netを作成する手法として,状態クラスタリングに基づく高速なHM?Netの構造決定法を提案する.同じ学習サンプルセットを用いた場合に,本手法が高速かつ従来と同等のHM?Netを生成可能であることを連続音素認識実験により示す.A Hidden Markov Network (HM-Net) is a highly accurate and robust acoustic model which represents a tied-state structure of context dependent Hidden Markov Models as a network. A Successive State Splitting (SSS) method and its improved ones have been already proposed to generate HM-Nets. However, there is a common problem in these algorithms. The problem is that much amount of computation is required when large amount of training data is used, because state splitting and parameter estimation are repeated using the training data. Although topologies of HM-Nets are usually designed with a part of training data and then only their output density distributions are estimated with all of the data, HM-Nets with large-scale topologies for large vocabulary continuous speech recognition (LVCSR) cannot be derived. In this paper, we propose a state clustering-based rapid topology design method to generate high accuracy HM-Nets for LVCSR. In continuous phoneme recognition experiments, it is shown that the proposed method is a fast algorithm and can generate HM-Nets equivalent to ones designed by conventional methods when the same training data is used.

  311. 大語彙日本語連続音声認識研究基盤の整備 -評価用連続音声認識プログラムの開発-

    河原 達也, 李晃伸, 伊藤 克亘, 小林 哲則, 伊藤 彰則, 宇津呂 武仁, 清水 徹, 田本 真詞, 荒井 和博, 峯松 信明, 山本 幹雄, 竹沢 寿幸, 武田 一哉, 松岡 達雄, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (101) 1-6 1997年10月24日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識研究の推進のためには、データベースと共に、標準 (ベースライン) となるソフトウェア (言語モデル・音響モデル・認識プログラム) が必要であり、著者らはその基盤整備を進めている。本稿では、認識プログラムについて、その仕様 (案) と基本的なアルゴリズムを説明する。For Japanese large vocabulary continuous speech recognition (LVCSR) research, we are developing standard baseline software repository that includes language models, acoustic models and recognition engines. In this report, specifications and algorithms of the speech recognizer currently designed are described.

  312. 大語彙日本語連続音声認識研究基盤の整備 -学習・評価テキストコーパスの作成-

    伊藤 克亘, 伊藤 彰則, 宇津呂 武仁, 河原 達也, 小林 哲則, 清水 徹, 田本 真詞, 荒井 和博, 峯松 信明, 山本 幹雄, 竹沢 寿幸, 武田 一哉, 松岡 達雄, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (101) 7-12 1997年10月24日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識研究の推進のためには、標準 (ベースライン) となるコーパス (音声、テキスト) やソフトウェア (言語モデル・音響モデル・認識プログラム) が必要であり、著者らはその基盤整備を進めている。本稿では、システム評価のためのテキストコーパスについて設計方法とその諸元を述べる。For Japanese large vocabulary continuous speech recognition (LVCSR) research, we are developing standard baseline software repsitory that includes language models, acoustic models and recognition engines. In this report, design and specification of the text corpus are described.

  313. 大語彙日本語連続音声認識研究基盤の整備 -汎用音素モデルの作成-

    武田 一哉, 峯松 信明, 伊藤 彰則, 伊藤 克亘, 宇津呂 武仁, 河原 達也, 小林 哲則, 清水 徹, 田本 真詞, 荒井 和博, 山本 幹雄, 竹沢 寿幸, 松岡 達雄, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (101) 13-18 1997年10月24日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識研究の推進のためには、データベースと共に、標準 (ベースライン) となるソフトウェア (言語モデル・音響モデル・認識プログラム) が必要であり、著者らはその基盤整備を進めている。本稿では、音響モデルの構築について述べる。For Japanese large vocabulary continuous speech recognition (LVCSR) research, we are developing standard baseline software repository that includes language models, acoustic models and recognition engines. In this report, construction of acoustic models 13 discussed.

  314. 係り受け文法による確率文脈自由文法を用いた言語モデルの検討

    柳沼 正宣, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 97 (330) 33-40 1997年10月17日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    確率文脈自由文法 (SCFG) を用いて音声認識のための言語モデルを構築する。SCFGの学習にはIn side-Outside (I/O) アルゴリズムが用いられるが、本研究では係り受け文法を適用させるためにそれを改良した。それは, テキスト (EDRコーパス) 中の単語を機能語 (助詞, 助動詞など) と実質語 (機能語以外) に分けて適用する。比較対象としては、オリジナルのI/Oアルゴリズムを用いてSCFGを学習したモデル (Normal SCFG)、N-gram (bigram、trigram) である。提案法を用いることで計算コストをO(N^3) からO(N^2) のオーダに削減でき、また性能面 (Perplexity評価) においてもはるかに改善され、非終端記号数を12以上にすることによりtrigramを上回った。さらに、計算時間短縮、性能向上を目指すため初期値の検討を行った。

  315. 重みつき平均によるN-gramタスク適応における語彙の設定法と評価

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (2) 61-62 1997年9月1日

    ISSN: 1340-3168

  316. 確率文脈自由文法を用いた言語モデルにおける初期値の検討

    柳沼 正宣, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (2) 51-52 1997年9月1日

    ISSN: 1340-3168

  317. 音素連接HMMに基づく尤度正規化を用いたワードスポッティングの検討

    加藤 正治, 堀 貴明, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (2) 79-80 1997年9月1日

    ISSN: 1340-3168

  318. N-gram のタスク適応における語彙の設定法の検討

    伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 97 (115) 51-58 1997年6月20日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    あるタスクについてN-gram言語モデルを作成するには, そのタスクに属する言語資料を大量に集めなければならない. 本稿では, 大量の一般的な言語資料(大量テキスト)と, 小量の特定タスクのサンプル(適応テキスト)から, 特定タスク向きのN-gramを作成する「タスク適応」について述べる. ここで用いているタスク適応法は, 大量テキストと適応テキストとを重みつきで混合するという方法である. まず, この手法とMAP推定, Bayes推定との関係を明らかにする. 次に, 適応時のモデルの語婁の設定法について検討する. 一般的な言語資料には目的のタスクと無関係な単語が多く含まれるため, これらを未知諸として語彙から除外することにより, モデルの精度を高めることができる. 本稿では, 大量テキストと適応テキストの語彙を独立に設定することで, モデルのバープレキシティが低減できることを示す.

  319. N-gramを用いた言語コーパスへの読みの付与

    伊藤 彰則, 萬崎 弘, 加藤 正治, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (1) 9-10 1997年3月1日

    ISSN: 1340-3168

  320. 音素決定木に基づく逐次状態分割法による HM-Net の性能改善の検討

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 96 (420) 17-24 1996年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    限られた学習サンプルから高精度かつ頑健な音素環境依存モデルを生成するためには,パラメータの共有関係をどのように決定するか,未知の音素環境をどのように扱うかが重要である.このような観点から,我々は音素決定木に基づく逐次状態分割法 (Decsion Tree-based Successive State Splitting:DT-SSS) を提案し,この手法によって自動生成された HM-Net が高精度かつあらゆる音素環境を表現可能であることを示した[13].しかし, DT-SSS には時間方向の状態分割が組み込まれておらず,この手法によって生成された HM-Net は SSS の特徴を十分に反映したモデルではなかった.本報告では, DT-SSS の性能改善のために時間方向の状態分割を導入し,様々な初期モデルからの状態分割を試みて,連続音素認識実験により性能を比較する.また,頑健性向上とパラメータ数削減のために,過度に分割が行われた状態の再共有化についても検討する.

  321. HMMの状態系列に基づく単語予備選択法の検討

    加藤 正治, 堀 貴明, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (2) 87-88 1996年9月1日

    ISSN: 1340-3168

  322. 小量テキストによる言語モデルのタスク適応の検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (2) 37-38 1996年9月1日

    ISSN: 1340-3168

  323. 音素決定木に基づく逐次状態分割法による HM-Net の検討

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 96 (93) 15-22 1996年6月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    限られた学習サンプルを用いて高精度かつ頑健なコンテキスト依存モデルを生成するために重要なことは,パラメータの共有関係をどのように決定するか,未知コンテキストをどのように扱うかである.逐次状態分割法(SSS)は,モデルの状態共有関係を自動的に決定する優れた手法であるが,未知コンテキストの扱いが十分ではなく,コンテキスト方向の分割にも問題がある.本報告では,逐次状態分割法のコンテキスト方向の状態分割過程に,音素決定木に基づくコンテキストクラスの分割を導入した新しいアルゴリズムを提案する.この手法により,高精度かつあらゆるコンテキストを表現可能なHM-Netの自動生成が可能となる.特定話者/不特定話者連続音素認識実験より,本手法の有効性を示す.

  324. 最適音素系列に基づく単語予備選択法の検討

    加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 96 (92) 9-14 1996年6月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    HMMに基づく単語音声認識を高速に行なうための単語予備選択法について検討する.この方法では,音素対文法に基づくネットワークから最適音素列を求め,これに基づき候補単語を選択する.候補単語の推定には音素DPを利用する.約15,000語の辞書を用いた単語音声認識実験で評価を行なった結果,辞書の1%にあたる150単語を候補とした場合,そのなかに正解が含まれている割合は99%以上であった.このときの計算量は,全数探索と比較してCPUtimeで4.6%,漸化式の比較回数で8.6%となった.また,HMM出力確率を簡略化するモデルとの併用についても検討する.

  325. 大語彙言語データベースからのN - gram構築とタスク適応の検討

    伊藤 彰則, 代島 直人, 丸山 敦, 加藤正治, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1996 (55) 25-30 1996年5月27日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    比較的規模の大きいコーパスであるEDRコーパスを用いて,N?gramの構築実験を行った.このとき,学習テキストの大きさを50万?500万単語のあいだで変化させ,語彙数・カットオフ条件などを変えて実験を行い,それぞれの場合の最適値を見出すことができた.また,EDRコーパスを学習テキストとしてタスク適応の実験を行った.適応タスクとして音響学会データベースの対話データを用い,さまざまなタスク・適応データ量・学習データ量について実験を行った.その結果,適応がない場合と比較してperplexityを1/3程度に減少させることが可能になった.N-gram language models were constructed from EDR corpus, 5-million-word Japanese corpus. The models were investigated under various conditions about training text size, vocabulary and cut-off condition. The result of the experiments clarified the optimum condition under a certain training text size. We carried out another experiments about task adaptation. An N-gram model from a dialog was mixed with the N-gram from EDR corpus, which made about 60% reduction of perplexity.

  326. 文字列パターンとパターンクラスのN-gramの検討

    伊藤 彰則, 好田 正紀

    電子情報通信学会総合大会講演論文集 1996 (1) 345-346 1996年3月11日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    現在我々は文節構造をベースとした対話音声認識を目指して研究を進めている.その一環として,これまで人間同士の対話から文節構造モデルを構築するという研究を行ってきた.しかし,単純な有限オートマトンによる文法では認識に用いる際の制約能力が不十分であることから,N-gramなどの確率モデルの利用を検討している.N-gramによる確率モデルを日本語に適用する際に問題になるのは,何をモデルの単位とするかである.英語の場合には学習用のテキストが単語ごとにわかち書きされているので単語単位のN-gramが容易に構成できるが,日本語の場合には事前に形態素解析が必要である.しかし,従来の形態素解析システムを用いて会話文のような文章を解析するのは難しく,正確な解析は望めない.文字などの単位を用いた確率モデルを使うこともできるが,N-gramの単位が短いため,制約が弱い.そこで本稿では,次のような手法によって自動的にN-gramを生成する方法について検討する.1.「単語単位」と「文字単位」の中間的な単位として,学習テキストから自動的に抽出できる単位を用いて確率モデルを構成する.2.学習テキストの文字列を何らかの基準でクラスに分け,そのクラスと文字のN-gramを構成する.3.学習テキストに対して文節数最小基準による形態素解析を行い,その結果からN-gramを生成する.今回は,文節単位のデータを用いてN-gramを構成し,マルコフモデルによる文節モデルを構築している.

  327. 最適音素系列に基づく単語予備選択法の検討

    加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (1) 79-80 1996年3月1日

    ISSN: 1340-3168

  328. 文字列パターンとパターンクラスのN-gramによる文節モデルの検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (1) 193-194 1996年3月1日

    ISSN: 1340-3168

  329. 対話音声認識のための事前タスクの適応の検討

    伊藤彰則

    信学技報,SP96-81 1996年

  330. The performance prediction on sentence recognition using a finite state word automaton

    T Otsuki, A Ito, S Makino, T Ohtomo

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E79D (1) 47-53 1996年1月

    ISSN: 0916-8532

  331. Language modeling by string pattern N-gram for Japanese speech recognition

    A Ito, M Kohda

    ICSLP 96 - FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, PROCEEDINGS, VOLS 1-4 1 490-493 1996年

  332. 文字列パターンの N-gram による文節モデルの検討

    伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 95 (429) 19-24 1995年12月15日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    日本語文/対話音声認識において, N-gramに代表される統計的言語モデルを用いようとした場合,その単位が問題となる。英語の場合には単語を単位としたN-gramを用いるのが一般的であるが,日本語の場合には単語に分かち書きされないため,事前に形態素解析が必要となる。しかし,対話などの場合は従来のシステムによる形態素解析が難しい。そこで本稿では,形態素解析を行なわずに性能の良いN-gramを作るための手法,誤りを含んだ形態素解析によるN-gram,さらに文字列パターンのクラス化によるN-gramについて検討を行なった。その結果,パターンクラスによる方法で人手による形態素解析を越える結果を得ることができた。

  333. 文字列パターンのN - gramによる文節モデルの検討

    伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1995 (120) 105-112 1995年12月14日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    日本語文/対話音声認識において,N?gramに代表される統計的言語モデルを用いようとした場合,その単位が問題となる.英語の場合には単語を単位としたN?gramを用いるのが一般的であるが,日本語の場合には単語に分かち書きされないため,事前に形態素解析が必要となる.しかし,対話などの場合は従来のシステムによる形態素解析が難しい.そこで本稿では,形態素解析を行なわずに性能の良いN?gramを作るための手法,誤りを含んだ形態素解析によるN?gram,さらに文字列パターンのクラス化によるN?gramについて検討を行なった.その結果,パターンクラスによる方法で人手による形態素解析を越える結果を得ることができた.Markov model based language models (N-gram) are popular among sentence/dialog speech recognition. On applying these models to Japanese speech recognition, one has to dicide what to be a unit of N-gram. As Japanese sentence is not divided into words, the morphemic analysis is required before word-by-word processing. But it is difficult to get the precise analysis automatically for spontaneous speech transcription. In this paper, we propose several language models which enable fully automatic construction of the model. We examined three types of models: N-gram by string pattern, N-gram by automatic morphemic analysis and string pattern class N-gram. These models were compared by perplexity. From the experimental results, the string pattern class N-gram got better performance than morpheme N-gram.

  334. 文節構造モデルの自動生成の検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1995 (2) 19-20 1995年9月1日

    ISSN: 1340-3168

  335. サブギガネットワークでマルチメディア・アプリケーションを実現する東北大学「SuperTAINS」

    亀山幸義, 伊藤彰則, 小林広明

    コンピュータ&ネットワークLAN 13 (6) 114-120 1995年6月

    出版者・発行元: オーム社

  336. A NEW HMNET CONSTRUCTION ALGORITHM REQUIRING NO CONTEXTUAL FACTORS

    M SUZUKI, S MAKINO, A ITO, H ASO, H SHIMODAIRA

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E78D (6) 662-668 1995年6月

    ISSN: 0916-8532

  337. 音声認識のための文節構造モデルとその制約について

    伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 1995 (51) 43-50 1995年5月25日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    音声対話処理など,自由発話を主に扱うタスクに用いるための文節モデルを作成した.このモデルは,日本音響学会連続音声データベースの対話テキストの分析に基づき,そこに出現する表現をカバーするように作成した有限オートマトンである.現在のモデルの規模は,実質語3386,機能語615である.次に,このモデルを実際に認識に用いることを考慮し,各種の確率モデルとの併用を検討した.有限オートマトンの遷移確率を用いる方法と,N?gramを併用する方法を検討し,bigramとの併用で比較的良い結果を得た.また,有限オートマトンでは表現しにくい各種の制約について,属性による表現を試みた,属性付きの有限オートマトンをそのまま使うのではなく,属性なしのものに自動変換して使うことを試みた.この手法により,従来有限オートマトンで制御される認識手法をそのまま使うことが可能になる.今回作成した文節モデルにいくつかの属性を導入し,その効果について調査した.This paper describes a bunsetsu (phrase) model for Japanese spontaneous speech recognition. This model is represented as a finite automaton which covers almost all expressions in dialog transcriptions in the ASJ continuous speech corpus. This model contains 3386 conceptual words and 615 functional words. Next, stochastic language models are combined with the bunsetsu model. Two types of stochastic models are investigated: a stochastic regular grammar and a N-gram model. When combined with the bunsetsu model, a bigram model gets smaller perplexity. Finally, several attributes are introduced the bunsetsu model to express constraints between distant words in a phrase. The finite automaton model with attributes is automatically converted to a finite automaton without attributes, which can be easily used for conventional speech recognition schemes.

  338. 対話音声認識のための文節構造モデルへの各種制約の導入

    伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 1995 (1) 183-184 1995年3月1日

    ISSN: 1340-3168

  339. 対話音声認識のための事前タスク適応の検討

    伊藤彰則

    信学技報NLC96-50,SP96-81 1995年

  340. Performance prediction of word recognition using the probability of word occurrence

    Takashi Otsuki, Teruhiko Otomo, Akinori Ito, Shozo Makino

    Electronics and Communications in Japan (Part III: Fundamental Electronic Science) 78 (3) 10-19 1995年

    DOI: 10.1002/ecjc.4430780302  

    ISSN: 1520-6440 1042-0967

  341. Performance prediction of word recognition using the transition information between phonemes or between characters

    Takashi Otsuki, Shozo Makino, Akinori Ito, Toshio Sone

    Systems and Computers in Japan 25 (7) 72-81 1994年

    DOI: 10.1002/scj.4690250707  

    ISSN: 1520-684X 0882-1666

  342. 有限状態オートマトンを用いた文認識系の能力評価 : 単語認識率と文認識率の関係

    大槻 恭士, 伊藤 彰則, 牧野 正三, 大友 照彦

    電子情報通信学会技術研究報告. SP, 音声 93 (183) 41-48 1993年8月19日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    本報告では,構文的言語情報として良く用いられている有限状態オートマトンを利用した文認識系の能力評価法について述べる.文認識における単語認識率と文認識率の関係は,タスク中の距離が1離れた文の数より,原理的には推定できるが,有限状態オートマトンに受理される系列(文)における距離1の文の数の求め方は明らかになっていなかった.そこで,有限状態オートマトンに受理される単語(文節)系列中の距離1の文の数を,O(ANL)の計算量(A:オートマトンをネットワークで表したときのアーク(弧)の本数,L:文の長さ,N:文の数)で求めるアルゴリズムを提案し,文認識のシミュレーションの結果を予測した.

  343. カテゴリ間の遷移情報を用いた文認識系の能力評価法

    大槻 恭士, 伊藤 彰則, 牧野 正三, 曽根 敏夫

    全国大会講演論文集 46 197-198 1993年3月1日

    詳細を見る 詳細を閉じる

    言語情報を用いて単語ラティスから文を決定する文認識系における単語認識率と文認識率の関係は,タスク中の距離1の文の数より推定することができるが,品詞等のカテゴリのbigramやtrigramの有無を用いた場合の,距離1の文の数の求め方は明らかになっていない.本稿ではそれを求めるアルゴリズムを提案し,単語認識率と文認識率の関係を推定する.

  344. 文節間文法を用いた未知語検出

    石川 永和, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 46 55-56 1993年3月1日

    詳細を見る 詳細を閉じる

    近年の自然言語処理システムでは文法をはじめとする各種言語情報は各単語ごとに分散記述,データベース化し,維持・管理することが多い.しかしこのデータベース化にはコストがかかること,タスクごとに変更を迫られるなどの点から作成の自動化が望まれている.これに当たっては大量のテキストを解析しなければならないが,辞書未登録語(未知語)については検出を行い,言語情報を付与する必要がある.本稿ではこの未知語検出に関する一方法を提案する.この方法は文節間の依存関係を表現した文節間文法を基礎とするもので,前報告で述べた疑似文節を用いた未知語検出法に採り入れることにより検出率が向上した.

  345. A NEW WORD PRESELECTION METHOD BASED ON AN EXTENDED REDUNDANT HASH ADDRESSING FOR CONTINUOUS SPEECH RECOGNITION

    A ITO, S MAKINO

    ICASSP-93 : 1993 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5 2 B299-B302 1993年

    ISSN: 0736-7791

  346. 文節オートマトンを用いた未知語検出法

    石川 永和, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 45 167-168 1992年9月28日

    詳細を見る 詳細を閉じる

    最近の連続音声認識システムや自然言語処理システムでは、文法・意味などの言語情報の大部分を単語に付属させることが多いが、この情報付与は手作業であるため、自動化が望まれている。本研究は、未知語を検出しその語の文法的・意味的属性を自動的に付与することを目的としている。われわれは形態素解析において辞書未登録語を検出するため、未知語に対応できる形態素解析法を提案した。しかし、この方法は経験則に大きく依存し、十分な効果を上げることはできなかった。本稿では確率的手法を用いることにより、未知語検出を高精度化する方法を提案する。

  347. 言語データベース作成のための形態素解析における未知語検出の検討

    石川 永和, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 44 177-178 1992年2月24日

    詳細を見る 詳細を閉じる

    現在我々は大規模な言語データベースの構築を行なおうとしている。データベース作成にあたっては大量のテキストを解析することが必要であり、これらのテキストを対して十分な語彙を持つ辞書を用意する必要がある。しかしながらあらゆるテキストに対処できる辞書を構成することは日本語の造語能力などの点から、因難である。またデータベース作成の趣旨からはテキスト中に辞書に記載されていない語が存在した場合この語の文法的性質や意味推定を行ない、最終的には新語として辞書に単語登録する段階に達することが望まれる。本稿ではデータベース作成の第一段階として行なわれる形態素解析において辞書未登録語を検出することを目的とする。従来さまざまな形態素解析法が提案されているがこれらは解析対象となるテキストに辞書未登録語が現れないことを前提としているものが多く、未登録語が存在する場合の動作は保証されていない。ここでは一旦形態素候補を作成した後、新たな形態素候補を加えることにより、未知語が存在しても形態素解析が行なえるアルゴリズムを開発することをねらう。

  348. Redundant Hash Addressing法と機能語予測CYK法を組み合わせた連続音声認識の統語処理

    伊藤 彰則, 牧野 正三

    全国大会講演論文集 44 165-166 1992年2月24日

    詳細を見る 詳細を閉じる

    連続音声認識の統語処理法としては,拡張LR法に基づくものやChart Parser,Earley法などに基づくものが提案されている.しかし,これらのアルゴリズムでは主に文法からの単語予測というトップダウンの処理を中心にしているため,文法的に予測された単語については,すベて入力系列とマッチングを行ってみる必要がある.これは認識精度を高めるという点においては有効であるが,大語彙の連続音声認識システムを構築する場合に計算量が問題となる.本稿では,KohonenのRedundant Hash Addressing法を連続音声認識に拡張し,これを筆者らの提案した連続音声認識アルゴリズムである機能語予測CYK法の予備選択として使う方法を示す.この方法を用いることにより,入力音素系列中からそこに含まれる実質語を高速に予備選択することができるため,単語マッチングの計算量を削減することができる.

  349. 言語情報を利用した文字認識における文字認識率と単語認識率の関係

    大槻 恭士, 伊藤 彰則, 牧野 正三, 曽根 敏夫

    全国大会講演論文集 44 141-142 1992年2月24日

    詳細を見る 詳細を閉じる

    文字認識の後処理として,単語辞書や文字連接情報などの言語情報が用いられている.特に文字連接情報は,簡単で高速な処理で単語辞書と同等な効果が得られることが報告されている.本稿では,これらの言語情報を用いた文字認識における,文字認識率と単語認識率の関係を,実際に認識を行なわずに求める手法を示す.

  350. A JAPANESE TEXT DICTATION SYSTEM BASED ON PHONEME RECOGNITION AND A DEPENDENCY GRAMMAR

    S MAKINO, A ITO, M ENDO, K KIDO

    ICASSP 91, VOLS 1-5 1 273-276 1991年

    ISSN: 0736-7791

  351. 文章朗読音声を対象とした連続音声認識のための言語処理

    伊藤彰則

    東北大応用情報研究センターシンポジウム予稿集 143-150 1990年

︎全件表示 ︎最初の5件までを表示

書籍等出版物 7

  1. Issues in Japanese Psycholinguistics from Comparative Perspectives

    Masatoshi Koizumi

    De Gruyter Mouton 2023年7月

    ISBN: 9783110778946

  2. 社会言語科学の源流を追う

    横山, 詔一, 杉戸, 清樹, 佐藤, 和之, 米田, 正人, 前田, 忠彦, 阿部, 貴人

    ひつじ書房 2018年9月

    ISBN: 9784894769311

  3. 音響情報ハイディング技術

    鵜木, 祐史, 西村, 竜一, 伊藤, 彰則, 西村, 明, 近藤, 和弘, 薗田, 光太郎

    コロナ社 2018年3月

    ISBN: 9784339011357

  4. 音響学入門

    鈴木陽一, 赤木正人, 伊藤彰則, 佐藤洋, 苣木禎史, 中村健太郎

    2010年2月

  5. Spoken Language Systems

    Seiichi Nakagawa, Michio Okada, Tatsuya Kawahara

    Ohmsha/IOS Press 2005年9月15日

  6. IT Text 音声認識システム

    鹿野清宏, 伊藤克亘, 河原達也, 武田一哉, 山本幹雄

    オーム社 2001年5月15日

  7. Recent Research towards Advanced Man-Machine Interface through Spoken Language

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    Elsevier 1996年1月

︎全件表示 ︎最初の5件までを表示

講演・口頭発表等 9

  1. DNN-based talking movie generation with face direction consideration

    Toru Ishikawa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this paper, we propose a method to generate a talking head animation considering the direction of the face. The proposed method parametrizes a facial image using the active appearance model (AAM) and models the parameters of the AAM using a feedforward deep neural network. Since the AAM is a two-dimensional face model, conventional methods that use the AAM assumes only the frontal face. Thus, when combining the generated face and other parts such as a head and a body, the direction of the face and the head was often inconsistent. The proposed method models the shape parameters of the AAM using the principal component analysis (PCA) so that the direction and movement of individual facial parts are modeled separately; thus we substitute the face direction of the generated animation with that of the head part so that the direction of the face and the head coincides. We conducted an experiment to demonstrate that the proposed method can generate face animation with proper face direction.

  2. Two-stage sequence-to-sequence neural voice conversion with low-to-high definition spectrogram mapping

    Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this study, we propose a voice conversion technique with two-stage conversion, which is realized by using two models consisting of U-Net and pix2pix. Using U-Net, we tried to reproduce intonation of a target speaker by performing low-dimensional feature conversion considering the time direction. We introduced pix2pix for the task of spectrogram enhancement. The pix2pix is trained to map from low definition spectrogram to high definition spectrogram (low-to-high spectrogram mapping). Low definition spectrogram is reconstructed from low dimensional mel-cepstrum converted by U-Net and high definition spectrogram is extracted from natural speech. In objective evaluations, we showed that the proposed method was effective in improvement of mel-cepstral distance (MCD) and Log F0 RMSE. Subjective evaluations revealed that the use of the proposed method had a certain effect in improving speech individuality while maintaining the same level of naturalness as the conventional method.

  3. Evaluation of english speech recognition for Japanese learners using DNN-based acoustic models

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. Regarding the assistance of computer-assisted language learning (CALL) systems to make foreign language learning easier, it is necessary to recognize the utterances of the learner with high accuracy. The quality of CALL systems mainly depends on the accuracy of automatic speech recognition (ASR). However, since the pronunciation of non-native speakers is greatly different from that of native speakers, existing ASR system cannot well recognize speech accurately. To solve this problem, this research projects an acoustic model based on deep neural networks (DNN), which is trained by using ERJ (English Read by Japanese) database collected from 202 Japanese learners. Compared with traditional ASR systems, this new system significantly promotes the speech recognition accuracy.

  4. Comparison of speech recognition performance between kaldi and google cloud speech API

    Takashi Kimura, Takashi Nose, Shinji Hirooka, Shinji Hirooka, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In recent years, many systems having a speech interface have grown. The speech interface includes spoken dialogue function and high performance of a spoken dialogue system has been required. The spoken dialogue system consists of a speech recognition module. In this study, we focus on the speech recognition module of the spoken dialogue system and aim for improving the spoken dialogue system by enhancing the performance of the speech recognition system. Among several speech recognition systems, Kaldi is a widely used speech recognition system in many kinds of researches. On the other hand, several speech recognition services that are Web API is also provided, such as IBM Watson Speech to Text, Microsoft Bing Speech API, and Google Cloud Speech API, which is known that it has high performance. This paper compares speech recognition performance between Kaldi and Google Cloud Speech API in WER and RTF and confirms the recognition performance of each recognition system.

  5. Segmental pitch control using speech input based on differential contexts and features for customizable neural speech synthesis

    Shinya Hanabusa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. This paper proposes a technique for controlling the pitch of synthetic speech at a segmental level using user input speech within a framework of speech synthesis based on deep neural networks (DNNs). In a previous study, we proposed tailor-made speech synthesis, the speech synthesis technique which enables users to control the synthetic speech naturally and intuitively. We introduced differential fundamental frequency (F0) contexts into speaker model training of speech synthesis based on DNNs. The differential F0 context represents relative log F0 at the segmental level of training data. In this study, we use the user speech to determine the F0 contexts for synthetic speech. This approach allows users to modify and control the segmental pitch more flexibly, which will enhance the performance of the tailor-made speech synthesis.

  6. A study on a spoken dialogue system with cooperative emotional speech synthesis using acoustic and linguistic information

    Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. This study examines an emotion labeling method for a system utterance of a non-task-oriented spoken dialogue system. The conventional study proposed the cooperative emotion labeling, which generates an emotional speech with an emotion label estimated from user and system utterances. However, this method had a problem that the system cannot decide the emotion label when the emotion is not estimated from the linguistic information. Therefore, we propose a method that uses both the acoustic and the linguistic information for the emotion recognition. In this paper, we show the performance of the emotion recognition when using the acoustic features first. Then, a dialogue experiment based on scenarios is conducted to verify the effectiveness of the proposed emotion labeling method.

  7. Muting machine speech using audio watermarking

    Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. Spoken dialog systems have become popular and are used in a home environment, such as smart speakers. A problem will occur when two or more smart speakers are in the same environment, in which a dialog system misdetects the other dialog systems voice as a users voice. In this paper, a method to mute synthesized speech is proposed to prevent a speech recognizer from recognizing speech uttered by a machine. The audio watermark technique is used to indicate that a machine utters the speech, and the speech recognizer attenuates the observed speech if it contains the watermark. The watermark is embedded in high frequency so that humans cannot perceive the watermark and the watermark is robustly extracted. From the experimental result, we found that the proposed method robustly determine the existence of the watermark when the SNR is no less than 0 dB.

  8. Melody completion based on convolutional neural networks and generative adversarial learning

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this paper, we deal with melody completion, a technique which smoothly completes melodies that are partially masked. Melody completion can be used to help people compose or arrange pieces of music in several ways, such as editing existing melodies or connecting two other melodies. In recent years, various methods have been proposed for realizing high-quality completion via neural networks. Therefore, in this research, we examine a method of melody completion based on an image completion network. We represent melodies of a certain length as images and train a completion network to complete those images. The completion network consists of convolution layers and is trained in the framework of generative adversarial networks. We also consider chord progression from musical pieces as conditions.

  9. Leveraging a small corpus by different frame shifts for training of a speech recognizer

    Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. During the feature extraction process for speech recognition, a window function is first applied to the input waveform to extract temporally-limited spectrum. By shifting the window function with a short time period, we can analyze the temporal change of speech spectrum. This time period is called “the frame shift,” which is usually 5 to 10 ms. In this paper, frame shift is re-considered from two aspects. The first one is the appropriateness of 10 ms as the frame shift. The frame-based process is based on the assumption that temporal change of speech spectrum is slow enough compared with the frame shift, which does not hold for kinds of consonants such as plosives. Thus, this paper experimentally shows that feature value fluctuates much according to the first position of the frame. Then a training method is proposed that uses temporally shifted samples as independent samples to compensate for the fluctuation of feature caused by the difference of the beginning position of a frame. The second aspect is that the frame shift could be longer if the fluctuation can be compensated. To prove this, an experiment was conducted to change frame shift from 10 to 60 ms, and it was found that the result of 40 ms frame shift outperformed the result of 10 ms frame shift, and comparable recognition performance with 10 ms frame shift result was obtained with 50 ms frame shift.

︎全件表示 ︎最初の5件までを表示

産業財産権 5

  1. スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム

    特許第5700566号

    産業財産権の種類: 特許権

  2. 音声評価装置,音声評価方法,及びプログラム

    特許第5805474号

    産業財産権の種類: 特許権

  3. モデルパラメータ配列装置とその方法とプログラム

    大庭 隆伸, 堀 貴明, 中村 篤, 伊藤 彰則

    特許第5610304号

    産業財産権の種類: 特許権

  4. モデル縮減装置とその方法とプログラム

    大庭 隆伸, 堀 貴明, 中村 篤, 伊藤 彰則

    特許第5780516号

    産業財産権の種類: 特許権

  5. データ通信方法、データ通信システムおよびデータ通信プログラム

    鈴木 陽一, 伊藤 彰則, 阿部 俊一郎, 須藤 裕史, 吉木 伸二, 染谷 大

    特許第4911385号

    産業財産権の種類: 特許権

共同研究・競争的資金等の研究課題 23

  1. 音楽情報処理 競争的資金

    2004年4月 ~ 継続中

  2. 音声認識を用いたCALLシステムの開発 競争的資金

    制度名:Grant-in-Aid for Scientific Research

    2004年4月 ~ 継続中

  3. 音声認識システムの開発 競争的資金

    制度名:Ordinary Research

    2002年4月 ~ 継続中

  4. 音声対話システムの開発 競争的資金

    2002年4月 ~ 継続中

  5. 生理指標付き自然談話コーパスに基づく危機言語の擬似動態保存と脳内処理過程の解明

    小泉 政利, 伊藤 彰則, 那須川 訓也, 大塚 祐子, 小野 創, 大滝 宏一, 里 麻奈美, 木山 幸子, 安永 大地, 山田 真寛, 大関 洋平, 新国 佳祐, 矢野 雅貴, 宮川 創, 遊佐 麻友子

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (A)

    研究機関:Tohoku University

    2024年4月1日 ~ 2028年3月31日

  6. オンライン授業支援のためのバーチャル・クラスメートの開発

    伊藤 彰則, 塩入 諭, 能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2021年4月1日 ~ 2026年3月31日

    詳細を見る 詳細を閉じる

    このプロジェクトでは、オンライン授業、特にオンデマンド型講義に関して、受講者と対話しながら講義への集中と内容の理解を促す音声対話エージェントを開発することが目標である。そのための課題のうち、昨年度は次のサブテーマに取り組んだ。(1) オンライン講義ビデオから、重要な個所を自動推定する。(2) 最終的な対話エージェントのプロトタイプを作成する。(3) ビデオコンテンツおよび受講者のマルチモーダル情報から、エージェントの適切な動作を推定する。 このうち(1)に関して、今年度は3つの講義ビデオから重要箇所を推定した。まず、ビデオの内容を書き起こし、3名の実験参加者が重要箇所のアノテーションを行った。次に、書き起こしテキストに対して、文章要約アルゴリズムを使って重要文を抽出し、これを人手による重要箇所と比較した。要約手法として、Luhn, TextRank, LexRank, BERTSUMの4つの手法を比較した。その結果、全体としてはLexRankが安定して高い性能を示し、BERTSUMは講演者による性能の変動が大きいことが分かった。また、LexRank/BERTSUMとLuhnを組み合わせる方法を検討し、抽出文の中から重要語句を含まない文を排除することで性能が改善することが分かった。さらに、音声のピッチやパワーなどの韻律情報を組み合わせることを検討したところ、これも講演者による差が大きく、この差が何に起因するかを解明することが課題となった。 (2)に関しては、Unityを利用して、動画と対話エージェントを同時に表示するシステムのプロトタイプを完成させた。まだエージェントの表情やジェスチャなどの表現力が十分ではないため、これが課題となる。 (3)については、感情ラベル付き顔画像データベースであるCK+を用い、感情ラベルから顔表情のアクションユニットを生成するシステムを作成した。

  7. 話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援

    能勢 隆, 伊藤 彰則

    2022年4月1日 ~ 2025年3月31日

  8. OS言語からみた「言語の語順」と「思考の順序」に関するフィールド認知脳科学的研究

    小泉 政利, 安永 大地, 内藤 真帆, 木山 幸子, 大関 洋平, 菅野 彰剛, 太田 真理, 大塚 祐子, 遊佐 典昭, 酒井 弘, 大滝 宏一, 杉崎 鉱司, Jeong Hyeonjeong, 新国 佳祐, 玉岡 賀津雄, 伊藤 彰則, 金 情浩, 那須川 訓也, 里 麻奈美, 矢野 雅貴, 小野 創

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (S)

    研究機関:Tohoku University

    2019年6月26日 ~ 2024年3月31日

    詳細を見る 詳細を閉じる

    主語(S)が目的語(O)に先行するSO語順が、その逆のOS語順に比べて処理負荷が低く、母語話者に好まれる傾向があること(SO語順選好)が多くの研究で報告されている。しかし、従来の文処理研究は日本語や英語のようにSO語順を基本語順にもつSO言語を対象にしているため、SO語順選好が個別言語の基本語順を反映したものなのか、あるいは人間のより普遍的な認知特性を反映したものなのかが分からない。この2種類の要因の影響を峻別するためには、OS語順を基本語順に持つOS言語で検証を行う必要がある。そこで、本研究では、SO言語(日本語、トンガ語など)と消滅が危惧されるOS言語(タロコ語、カクチケル語など)を比較対照することによって、人間言語における語順選好を決定する要因ならびに、「言語の語順」と「思考の順序」との関係を明らかにする。聞き取り調査やコーパス調査、行動実験、視線計測、脳機能計測など多様な研究手法を駆使して、SO言語だけでなくOS言語にも当てはまる、脳内言語処理メカニズムに関するより一般性の高いモデルを構築し、言語と文化の垣根を超えて互いに分かり合える、より暮らしやすい共生社会の実現に向けて貢献する。 コロナ禍の影響で海外遠征ができなかったため、日本国内での研究に加えて、台湾とトンガの現地の研究者の協力を得て、主に以下の研究を実施した。(1)トンガ語の話題化とかき混ぜの処理負荷に関する行動実験 (2)トンガ語レキシコン・プロジェクト (3)タロコ語の対話コーパスにかかる動画の撮影と書き起こし (4)日本語レキシコン・プロジェクト (5)国際シンポジウム Issues in Japanese Psycholinguistics from Comparative Perspectives の実施

  9. 自然言語処理を用いたアントレプレナーシップの測定と教育プログラム改善への展開

    伊藤 彰則, 石田 修一, 武田 浩太郎

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Research (Exploratory)

    研究機関:Tohoku University

    2020年7月30日 ~ 2023年3月31日

    詳細を見る 詳細を閉じる

    今年度は、さらなるデータ収集と、関連技術であるユーザーの性格推定の研究を行った。 データ収集としては、アントレプレナーシップ関係の講義からアンケートの収集、およびこれらの受講生からアントレプレナーシップに関する作文の収集を行った。「汎用的技能ワークショップ」「アントレプレナー入門塾」「TUSGのハンズオン講義・メンタリング」国際戦略リーダー講座」「ベンチャービジネス論」から30名程度のアンケートを回収したが、作文については後日依頼する形だったので、収集できた分は3名のみであった。 十分なデータ収集に時間がかかることから、アントレプレナーシップ推定に類似のタスクとして、性格の推定実験を行った。Myers-Briggs Personality Type Dataset(英語)約8000文を利用し、フォーラムへの投稿文からMBTI性格指標ラベルの推定を試みた。ナイーブベイズ法(NB)、ロジスティック回帰(LR)、多層パーセプトロン(MLP)、BiLSTMの4種類の識別器を用い、学習データ量と識別精度の関係を調査した。その結果、BiLSTMはデータ量が多いときは高精度だがデータ量が少なくなると精度が悪くなること、中程度のデータ量(~1000文)ではMLPが比較的良いことが分かった。タスクは外向性・内向性判定の2クラス識別であるが、F1-scoreは52~70%程度であった。 また、データセットを日本語に翻訳して実験をした。翻訳にはDeepLを用いた。その結果、やや精度が低下したものの、言語による大きい差はないことが分かった。制度低下の原因は十分分析できていないが、少なくとも一部は機械翻訳の精度に起因すると考えられる。

  10. 深層学習に基づくマルチモーダル対話型英会話学習システムの研究開発

    伊藤 彰則, 能勢 隆, 千葉 祐弥

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (A)

    研究機関:Tohoku University

    2017年4月1日 ~ 2021年3月31日

    詳細を見る 詳細を閉じる

    深層学習に基づく英会話学習システムのための要素技術を開発し,英会話の練習ができるCALLシステムを作成した.まず、深層学習に基づく音声・表情・ジェスチャに対するインターフェースの高度化・高精度化として,日本人英語音声を高精度に認識する技術を確立した.次に,深層学習に基づく英語発音評価・英会話シミュレーション技術を確立させるため,表情とジェスチャが英語の習熟度評価に与える影響を調べた.また,対話音声に対して高精度に発音評価を行う手法を確立した.最後に基盤要素技術を統合して音声対話型英会話学習システムを作成した.

  11. OS言語からみた「言語の語順」と「思考の順序」に関するフィールド言語心理学的研究

    小泉 政利, 安永 大地, 木山 幸子, 大塚 祐子, 遊佐 典昭, 酒井 弘, 大滝 宏一, 杉崎 鉱司, Jeong Hyeonjeong, 新国 佳祐, 玉岡 賀津雄, 伊藤 彰則, 金 情浩, 那須川 訓也, 里 麻奈美, 矢野 雅貴, 小野 創

    2019年4月1日 ~ 2020年3月31日

    詳細を見る 詳細を閉じる

    8月にトンガ王国で以下のような調査・実験を行うための準備を進めた。 (1)語彙処理,文処理,正順語順の判定,格助詞脱落などの諸問題を網羅した一連の実験と質問紙調査 (2)主語関係節と目的語関係節の理解過程の比較実験 (3)統語的能格性の獲得に関する行動実験 また、関連する研究動向について情報収集を行うために、日本言語学会 第158回 大会(一橋大学)に参加した。

  12. 「やさしい日本語」データベース構築のための基礎的研究

    前田 理佳子, 佐藤 和之, 伊藤 彰則, 杉戸 清樹, 孫 偉庭, 馬場 康維, 水野 義道, 御園生 保子, 米田 正人

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (C)

    研究機関:Daito Bunka University

    2015年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    日本語に不慣れな人を緊急時に情報弱者にしないための実践を支えることを目的に、減災のための「やさしい日本語」資源の収集・整理、実態把握を行った。また、「やさしい日本語」の使い手となろうとする人々にとっての学習資源の整備を進めた。 発災後72時間対応のうち、「やさしい日本語」対応の具体案が存在していない部分について、伝達媒体、伝達目的等に適合した案文等を作成・蓄積した。減災のための「やさしい日本語」の使い手育成において、モデルないしは学習資源として提供しうる案文データベースのソースの整備を進めることができた。

  13. 状態推定に基づく多様な音声の認識・合成による「人にやさしい」対話システムの研究

    能勢 隆, 伊藤 彰則, 千葉 祐弥, 森 大毅

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2015年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    本研究課題では、「人にやさしい」対話システムを実現するため、多様な音声の認識および合成手法の改善や高度化、および対話者の状態推定手法とその利用について検討を行なった。具体的には(1)音声対話における感情利用の妥当性、および感情推定法について検討した。(2)音韻と韻律コンテキストを考慮した拡張エントロピーに基づく文選択法の提案・評価を行なった。(3)対話意欲推定のために、対話の収録・分析を行なった。(4)感情音声合成・感情音声認識・感情推定に利用可能な大規模な感情音声コーパスを構築した。(5)多様で高品質な音声合成手法として分散補償およびテーラーメイド音声合成手法を提案・評価した。

  14. 日本語文難易度推定と音声合成による「やさしい日本語」作成補助システムの研究開発

    伊藤 彰則, 佐藤 和之, 能勢 隆, 千葉 祐弥, 長野 雄

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2014年4月1日 ~ 2017年3月31日

    詳細を見る 詳細を閉じる

    「やさしい日本語」の文作成および音声アナウンス作成を高度化するため、やさしい日本語支援システム「やんしす」の高度化、およびそれに必要な調査研究を行った。調査内容としては、文難易度の自動推定、文の難易度、話速、ポーズおよび音響環境による音声劣化が文の聴き取りにどのように影響するかを調べた。これによって「やさしい日本語」音声として適切な話速が明らかになった。これを受けて、文難易度推定および音声合成機能を「やんしす」に実装した。

  15. エージェントとの対話に基づく英語学習システムの開発

    伊藤 彰則, 廣井 富

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Exploratory Research

    研究機関:Tohoku University

    2012年4月1日 ~ 2015年3月31日

    詳細を見る 詳細を閉じる

    本研究では,日本人英語学習者がエージェント(CGキャラクタおよびロボット)と対話を行うことにより,英会話のコミュニケーション能力を高めるためのシステム開発を行った.まず,英語による音声対話・指差しによる場所の共有・人追従による室内移動などの能力を持った移動ロボットを開発した.また,誤りを含んだ日本人英語学習者の音声を,誤りも含めて正確に認識するためのアルゴリズムを開発した.さらに,CGキャラクタとの英会話練習において,適切な応答タイミングを習得するための手法を開発した.

  16. 日本語母語話者の英語学習のための韻律評価および文法誤り検出の高度化

    伊藤 彰則, 鈴木 基之, 牧野 正三, 大河 雄一, 鈴木 基之

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2008年 ~ 2010年

    詳細を見る 詳細を閉じる

    コンピュータによる英語学習(CALL)システムにおいて「話す」練習を可能にするために,学習者の英語発話のイントネーション・リズムを自動評価する方法,および学習者発話に含まれる文法誤りを自動的に指摘する方法を開発した。イントネーション・リズム評価においては,決定木により単語の重要度を推定する手法を開発し,ネイティブ評定者間の評定値相関に近い相関を持つスコアが計算できた。文法誤り検出では,自動生成文からn-gramを学習する手法を開発し,単語正解精度89.2%が得られた。

  17. 話者適応と文法誤りモデリングを用いた外国語教育システムの開発

    伊藤 彰則, 鈴木 基之, 牧野 正三

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2004年 ~ 2007年

    詳細を見る 詳細を閉じる

    1.発音評価の高精度化 音声認識技術を応用し,外国語学習者の発音誤りを検出する方法を開発した.対象は日本人の英語学習と韓国人の日本語学習である.誤り検出精度を向上させるため,日本語と英語の音響モデルを同時に適応するバイリンガル話者適応の手法を開発した.また,発音誤り検出の厳密さが文脈に依存する問題を解決するため,決定木を用いた誤り検出手法を開発し,日本人の英語発音に対して90%以上の精度で誤り発音を検出することができた. 2.イントネーション・リズムの評価 発音だけでなく,韻律のよさを自動評価するため,イントネーションとリズムの評価手法を開発した.イントネーションに関しては,対数基本周波数およびその時間微分,対数パワーおよびその時間微分を特徴量として用いるのがよいということを見出した.また文の中の単語によってイントネーション評価の厳密さを変えるため,決定木を用いて単語の重要度を自動推定する手法を開発した.リズム評価については,特徴量として単語持続時間比が有効であることを発見した. 3.対話型CALLシステムの開発 コンピュータと対話しながら外国語を学習する「対話型CALLシステム」において,学習者の発話に含まれる文法誤りを自動的に検出する方法を開発した.日本語の学習においては,正解文に誤りルールを適応した有限オートマトンを用いて音声認識する手法を開発した.また,英語の学習においては,誤りルールを用いて自動生成したコーパスからn-gram言語モデルを学習する方法を開発した.

  18. 新聞記事読み上げ文を対象とする大語彙連続音声認識システムの研究

    好田 正紀, 加藤 正治, 伊藤 彰則

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (C)

    研究機関:Yamagata University

    1998年 ~ 2000年

    詳細を見る 詳細を閉じる

    新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムを構築し、下記の研究成果を得た。 (1)音響モデル 隠れマルコフ網(HM-Net)は、音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり、高精度かつ頑健な音声認識を実現する音響モデルとして有効である。本研究では、状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した。また、音響モデルの最尤線形回帰(MLLR)ベース話者適応において、BIC基準に基づく回帰クラスタの自動設定法を提案し、MAP法との併用、SATコンパクトモデルの利用等も検討した。 (2)言語モデル 大量の一般的な言語コーパスと、少量の特定タスクのサンプルから、特定タスク向きのN-gramを重み付き混合で作成するタスク適応について検討した。単語誤り率との相関がより良い言語モデルの評価尺度として、評価テキストに出現する単語の言語尤度と、その単語が出現した文脈における最大尤度との差に基づく新しい評価尺度を提案し、パープレキシティより優れていることを確認した。確率文脈自由文法(SCFG)のパラメータ推定に要する処理量を大幅に削減するために、文節単位の係り受け制約をもつSCFGを提案し、このSCFGとTrigramを併用すると、Trigram単独より性能が良いことを確認した。 (3)デコーダ 大語彙連続音声認識のための高速な探索手法として、認識の前処理で音素グラフを作成し、認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する手法を提案した。また、単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において、bigramによるリスコアリングに基づく、単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討した。 (4)ソフトウエアツール 単語n-gramとクラスn-gramが作成可能なツールキットを作成した。このツールキットは、CMU-Cambridge SLM Toolkitとコマンドレベルで互換性がある。また、n-gram出現回数の混合による言語モデルや、線形結合による言語モデルの組み合わせをサポートしている。

  19. 日本語音声認識のための統計的言語モデルとそのタスク適応に関する研究

    伊藤 彰則

    1997年 ~ 1998年

    詳細を見る 詳細を閉じる

    今年度の研究では,「日本語連続音声認識のための形態素解析によらない統計的言語モデル」の研究を行った.この研究は2つのサブテーマから成っている.一つは統計的に選ばれた文字列を単位とした言語モデルの作成であり,もう一つは統計的手法に基づく漢字かな混じり文への読みの付与である. 文字列を単位とした言語モデルの作成においては,提案法の評価実験として,さまざまな文字列への分割方法の比較実験,および学習テキストと評価テキストのタスクと規模を変えた実験を行った.その結果,頻度による文字列の抽出と左最長一致法による解析の組み合わせにおいて,もっとも大きいパ-プレキシティ低減効果(最大9.3%)が見られた.また,コーパスによる性能差を見るために,3種類の対話コーパスと,書き言葉であるEDRコーパスを用いた比較実験を行った.その結果,単一タスクであるATR会話コーパスにおけるパ-プレキシティ低減率がもっとも大きかった.これは,学習テキストのみから統計量の推定と分割単位の双方を決定するためであり,本手法の適用限界を示すものと言うことができる. 統計的な手法を用いた読みの付与では,EDRコーパスを用いて,N-gramモデルを応用した読み付与システムを作成し評価した.その結果,当該文字の前後1文字を用いてモデルを作成した場合が最も高性能であることが明らかとなった.システムの最高性能として96.27%の読み付与精度が得られた.

  20. 入力音声への適用機能を持つ連続音声認識に関する研究

    牧野 正三, 鈴木 基之, 曽根 秀昭, 伊藤 彰則, 安倍 正人

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    1995年 ~ 1997年

    詳細を見る 詳細を閉じる

    音声の大きな変動要因である発生速度の変動と,個人差による変動を予備認識結果を利用して予測し,正規化するシステムの構築を目指して研究を行った.すなわち,入力音声に対してまず音素の認識を行い,その認識結果から発生速度を抽出し,それに基づいて各音素標準パターンの長さを予測する.発生速度による音素標準パターンの変動を解析し,発生速度と入力音声中の母音の平均持続時間とが密接に関係することを見出し,音素標準パターンの長さの変動を入力音声中の平均母音長の1次関数として表し,予測する方法を開発した.男性5名,女性10名の各話者が発声した212単語をもとに,音素標準パターンの長さの予測式と音素標準パターンを作成し,他の男性話者5名の発声した212単語の単語認識にこの方法を適用した結果,頓悟認識率が95.6%から97.3%に改善された.さらに,音素認識における持続時間制約としてこの方法を利用した結果,音素正解率は71.8%から86.3%へと大きく改善された. 同じく音素の予備認識結果から個人差の変動を音素ごとに予測し,音素標準パターンを再構築する方法を開発した.以上の処理によって入力音声からの情報を基にして,発声速度や個人差を考慮した音素標準パターンの再構築をリアルタイムで可能にし,より柔軟で高性能な連続音声認識システムを構築した.

  21. 連想的手法を用いた自由発話文音声の認識

    伊藤 彰則

    1994年 ~ 1994年

    詳細を見る 詳細を閉じる

    本研究は,自由発話文の認識のために新しい枠組の開発を目指したものであり,その方針として「連想関係」を中心にすえた.本研究は次の3つの段階から成る. 1.大規模な言語データベースを解析し,その中に表れる連想関係やその他の言語情報を調査する. 2.連想情報を用いて効率の良い認識のできるアルゴリズムを開発する. 3.これらの結果を用いて,実際に稼働する実験システムを試作する. 本年度の研究成果として,これらの段階のうち,(1)言語データベースの解析と,各種言語現象の調査,(2)連想関係を用いて認識を行うアルゴリズム「拡張RHA法」の開発の2つを行った.以下にその概略を述べる. 1.言語データベースの解析: 分析に用いたデータベースは,日本音響学会研究用連続音声データベースの模擬対話テキストデータベースに含まれる書き起こしテキストである.この中の44対話(3633発話,19019文節)を分析対象とした.まず,このテキストに対して形態素解析を行ない,実質語3386個,機能語615個を抽出した.次に,この分析結果から,対話音声のための文節モデルを構築した.このモデルは,従来我々が文章朗読音声認識のために用いてきた文節モデルを拡張したものである.この文節モデルを用いて,データベース内の単語間の遷移確率,perplexity等を求めている. 認識アルゴリズム「拡張RHA法」の開発: 連想関係を用いて連続音声中から単語認識を行なうアルゴリズム「拡張RHA法」を開発した.この認識法は,各種の情報を用いて単語を連想し認識するというものであり,従来のパターンマッチング的手法とは異なる.今回は,連想情報源として認識された音素のみを用い,従来的な連続音声認識の単語予備選択法として用い,その有効性を検証した.全く同じ枠組で,例えば単語の連続関係等の情報を有効に用いた音声認識が可能である.

  22. 統計と連想に基づく連続音声認識に関する研究

    伊藤 彰則

    1993年 ~ 1993年

    詳細を見る 詳細を閉じる

    今年度の研究内容としては,(1)文法情報の構築,(2)連想に基づく単語検出法の構築,および(3)単語連想における統計情報の利用,の3つが挙げられる.今回の研究では,当初の研究計画にある「単語から単語,あるいは単語から場面への連想情報の構築」は行っていない. 文法情報は,本研究の基礎となる重要な情報源である.本研究では,自然な発話の認識を目指して,会話音声中の文節構造を表現する有限オートマトンの構築を行った.会話資料としては,日本音響学会の連続音声データベース中の会話音声の書き起こしテキストを用いている.このテキストから間投詞などのいわゆる不用語を除き,残った表現を受理する文節内文法を有限オートマンで表現した.この文法の構築は,筆者の以前構築した文章音声のための文節内文法を改変する形で行われた. 連想に基づく単語検出法の研究として,「拡張RHA法」を提案した.拡張RHA法は,高速な単語認識法に用いられる「RHA(Redundant Hash Addressing)法」を連続音声認識用に拡張したものである.RHA法を連続音声認識に応用する際には,(1)単語向けの手法を連続音声用に変更することと,(2)元のRHA法の精度を改善することの2点が重要であった.(1)として,RHA法に「活性点(activation point)」の概念を導入し,RHAを単語検出に応用した.また(2)として,あらかじめ音素認識誤りを見込んだ「拡張fragment」を導入し,検出の高精度化をはかった.単語検出実験により,従来この用途に用いられてきた「連続DP法」と比較し,検出性能は遜色なく,検出速度は数倍高速であることが確かめられた. 拡張RHA法による単語検出に統計的要素を導入する一手段として,拡張fragmentによる単語検出法を提案した.拡張RHA法において,単語を連想するための単位は,あらかじめ固定された長さの音素組であったが,拡張fragmentを用いる方法では,その単位を統計的に決定する.この手法では,検出対象となる単語集合が与えられたとき,ひとつの連想単位から連想される単語が一定数以下になるように統計的に連想単位を決定する.具体的には,不定長の音素組を使って単語を連想するようになる.これによって無駄な連想が抑えられ,単語の誤検出を少なく抑えることができるようになった.

  23. 機能語予測CYK法を用いた連続音声認識システムに関する研究

    伊藤 彰則

    1992年 ~ 1992年

︎全件表示 ︎最初の5件までを表示

Works(作品等) 2

  1. 統計的言語モデルツールキット palmkit

    http://palmkit.sourceforge.net/ 2001年11月5日 ~

    作品分類: コンピュータソフト

  2. ウェブブラウザ w3m

    http://w3m.sourceforge.net/ 1999年1月10日 ~

    作品分類: コンピュータソフト

社会貢献活動 4

  1. サイエンスカフェ

    2013年6月28日 ~

    詳細を見る 詳細を閉じる

    「スマホやロボットとどうやって会話できるのか?」と題して、おんせい認識・合成・対話技術について公開の公演を行った。

  2. 出前講義

    2008年12月4日 ~

    詳細を見る 詳細を閉じる

    宮城県仙台第二高校において,「ロボットとの対話」という題目で,高校生を対象に出前講義を行った.

  3. 出前講義

    2008年10月18日 ~

    詳細を見る 詳細を閉じる

    群馬県立太田高校において,「ロボットとの対話」という題目で,高校生を対象に出前講義を行った.

  4. ネット障害時 円滑送信

    2007年3月23日 ~

その他 1

  1. 日本語ディクテーション基本ソフトウェアの開発

    詳細を見る 詳細を閉じる

    日本語の大語彙連続音声認識の研究・開発・実用化を促進する ため、誰でも利用でき、高精度な音声認識システムを開発する。 このため、不特定話者に対して利用できる高精度な音響モデル、 大量の言語データを用いて学習した言語モデル、および高速・ 高精度な音声認識エンジンの開発を行う。