研究者詳細

顔写真

ノセ タカシ
能勢 隆
Takashi Nose
所属
大学院工学研究科 通信工学専攻 知的通信ネットワーク工学講座(マルチメディア通信分野)
職名
准教授
学位
  • 博士(工学)(東京工業大学)

学歴 1

  • 東京工業大学 総合理工学研究科 物理情報システム専攻

    ~ 2009年3月

委員歴 4

  • 音響学会東北支部 会計幹事

    2014年4月 ~ 2016年3月

  • 音声研究会 幹事補佐

    2014年4月 ~ 2016年3月

  • 音響学会東北支部 会計幹事

    2014年4月 ~ 2016年3月

  • 音声研究会 幹事補佐

    2014年4月 ~ 2016年3月

所属学協会 5

  • ISCA

  • 情報処理学会

  • 音響学会

  • 電子情報通信学会

  • IEEE

研究キーワード 7

  • マルチメディア情報処理

  • 音楽情報処理

  • 音声符号化

  • 音声対話

  • 音声認識

  • 音声合成

  • 音声情報処理

研究分野 2

  • 情報通信 / 知能ロボティクス /

  • 情報通信 / 知覚情報処理 /

論文 159

  1. The Development of an Emotional Embodied Conversational Agent and the Evaluation of the Effect of Response Delay on User Impression

    Simon Christophe Jolibois, Akinori Ito, Takashi Nose

    Applied Sciences 2025年4月11日

    DOI: 10.3390/app15084256  

  2. Unified model for voice conversion of speech and singing voice using adaptive pitch constraints

    Shogo Fukawa, Takashi Nose, Shuhei Imai, Akinori Ito

    Acoustical Science and Technology 46 (1) 120-123 2025年1月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.e24.47  

    ISSN:1346-3969

    eISSN:1347-5177

  3. We open our mouths when we are silent

    Shoki Kawanishi, Yuya Chiba, Akinori Ito, Takashi Nose

    Acoustical Science and Technology 46 (1) 96-99 2025年1月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.e24.21  

    ISSN:1346-3969

    eISSN:1347-5177

  4. Selection of key sentences from lecture video transcription and its application to feedback to the learner

    Miki Takeuchi, Akinori Ito, Takashi Nose

    Proceedings of the 2024 8th International Conference on Education and Multimedia Technology 218-223 2024年6月22日

    出版者・発行元: ACM

    DOI: 10.1145/3678726.3678733  

  5. Character Expressions in Meta-Learning for Extremely Low Resource Language Speech Recognition

    Rui Zhou, Akinori Ito, Takashi Nose

    Proceedings of the 2024 16th International Conference on Machine Learning and Computing 2024年2月2日

    出版者・発行元: ACM

    DOI: 10.1145/3651671.3651730  

  6. Evaluation of Environmental Sound Classification using Vision Transformer

    Changlong Wang, Akinori Ito, Takashi Nose, Chia-Ping Chen

    Proceedings of the 2024 16th International Conference on Machine Learning and Computing 665-669 2024年2月2日

    出版者・発行元: ACM

    DOI: 10.1145/3651671.3651733  

  7. Toward Photo-Realistic Facial Animation Generation Based on Keypoint Features

    Zikai Shu, Takashi Nose, Akinori Ito

    Proceedings of the 2024 16th International Conference on Machine Learning and Computing 39 334-339 2024年2月2日

    出版者・発行元: ACM

    DOI: 10.1145/3651671.3651731  

  8. Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning

    Niu, X., Ito, A., Nose, T.

    IEEE Access 12 2024年1月31日

    DOI: 10.1109/ACCESS.2024.3376418  

    ISSN:2169-3536

  9. Simultaneous Adaptation of Acoustic and Language Models for Emotional Speech Recognition Using Tweet Data

    Kosaka, T., Saeki, K., Aizawa, Y., Kato, M., Nose, T.

    IEICE Transactions on Information and Systems E107.D (3) 2024年

    DOI: 10.1587/transinf.2023HCP0010  

    ISSN:1745-1361 0916-8532

  10. A Replaceable Curiosity-Driven Candidate Agent Exploration Approach for Task-Oriented Dialog Policy Learning

    Niu, X., Ito, A., Nose, T.

    IEEE Access 12 2024年

    DOI: 10.1109/ACCESS.2024.3462719  

    ISSN:2169-3536

  11. Multilingual Meta-Transfer Learning for Low-Resource Speech Recognition

    Zhou, R., Koshikawa, T., Ito, A., Nose, T., Chen, C.-P.

    IEEE Access 2024年

    DOI: 10.1109/ACCESS.2024.3486711  

    ISSN:2169-3536

  12. Fast end-to-end non-parallel voice conversion based on speaker-adaptive neural vocoder with cycle-consistent learning

    Shuhei Imai, Aoi Kanagaki, Takashi Nose, Shogo Fukawa, Akinori Ito

    Acoustical Science and Technology 2024年

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.e24.46  

    ISSN:1346-3969

    eISSN:1347-5177

  13. Multimodal Expressive Embodied Conversational Agent Design

    Simon Jolibois, Akinori Ito, Takashi Nose

    Communications in Computer and Information Science 244-249 2023年7月9日

    出版者・発行元: Springer Nature Switzerland

    DOI: 10.1007/978-3-031-35989-7_31  

    ISSN:1865-0929

    eISSN:1865-0937

  14. Effect of Data Size and Machine Translation on the Accuracy of Automatic Personality Classification

    Yuki Fukazawa, Akinori Ito, Takashi Nose

    Advances in Intelligent Information Hiding and Multimedia Signal Processing 405-413 2023年5月24日

    出版者・発行元: Springer Nature Singapore

    DOI: 10.1007/978-981-99-0105-0_36  

    ISSN:2190-3018

    eISSN:2190-3026

  15. Spoken term detection from utterances of minority languages

    Ito, A., Mizuochi, S., Nose, T.

    Issues in Japanese Psycholinguistics from Comparative Perspectives: Volume 1: Cross-Linguistic Studies 2023年

    DOI: 10.1515/9783110778946-014  

  16. Response Sentence Modification Using a Sentence Vector for a Flexible Response Generation of Retrieval-based Dialogue Systems

    Ryota Yahagi, Akinori Ito, Takashi Nose, Yuya Chiba

    2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2022年11月7日

    出版者・発行元: IEEE

    DOI: 10.23919/apsipaasc55919.2022.9979841  

  17. Design and Construction of Japanese Multimodal Utterance Corpus with Improved Emotion Balance and Naturalness

    Daisuke Horii, Akinori Ito, Takashi Nose

    2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2022年11月7日

    出版者・発行元: IEEE

    DOI: 10.23919/apsipaasc55919.2022.9980272  

  18. Multimodal Dialogue Response Timing Estimation Using Dialogue Context Encoder

    Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

    Lecture Notes in Electrical Engineering 133-141 2022年11月1日

    出版者・発行元: Springer Nature Singapore

    DOI: 10.1007/978-981-19-5538-9_9  

    ISSN:1876-1100

    eISSN:1876-1119

  19. Spoken Term Detection of Zero-Resource Language Using Posteriorgram of Multiple Languages

    Satoru MIZUOCHI, Takashi NOSE, Akinori ITO

    Interdisciplinary Information Sciences 28 (1) 1-13 2022年

    出版者・発行元: Graduate School of Information Sciences, Tohoku University

    DOI: 10.4036/iis.2022.a.04  

    ISSN:1340-9050

    eISSN:1347-6157

  20. Analysis of Feature Extraction by Convolutional Neural Network for Speech Emotion Recognition

    Daisuke Horii, Akinori Ito, Takashi Nose

    2021 IEEE 10th Global Conference on Consumer Electronics (GCCE) 2021年10月12日

    出版者・発行元: IEEE

    DOI: 10.1109/gcce53005.2021.9621964  

  21. Improvement of Automatic English Pronunciation Assessment with Small Number of Utterances Using Sentence Speakability

    Satsuki Naijo, Akinori Ito, Takashi Nose

    Interspeech 2021 2021年8月30日

    出版者・発行元: ISCA

    DOI: 10.21437/interspeech.2021-1132  

  22. Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational Systems

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    Interspeech 2021 2021年8月30日

    出版者・発行元: ISCA

    DOI: 10.21437/interspeech.2021-381  

  23. SMOC corpus: A large-scale Japanese spontaneous multimodal one-on-one chat-talk corpus for dialog systems

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 42 (4) 210-213 2021年7月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.42.210  

    ISSN:1346-3969

    eISSN:1347-5177

  24. CycleGAN-Based High-Quality Non-Parallel Voice Conversion with Spectrogram and WaveRNN

    Aoi Kanagaki, Masaya Tanaka, Takashi Nose, Ryohei Shimizu, Akira Ito, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 356-357 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291952  

  25. Incremental response generation using prefix-to-prefix model for dialogue system

    Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 349-350 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291883  

  26. A study on minimum spectral error analysis of speech

    Takuma Hayasaka, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 362-363 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291840  

  27. Filler prediction based on bidirectional LSTM for generation of natural response of spoken dialog

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 360-361 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291867  

  28. Successive Japanese lyrics generation based on encoder-decoder model

    Rikiya Takahashi, Takashi Nose, Yuya Chiba, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 126-127 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291718  

  29. Analysis and Estimation of Sentence Speakability for English Pronunciation Evaluation

    Satsuki Naijo, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 353-355 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9292072  

  30. LJSing: large-scale singing voice corpus of single Japanese singer

    Takuto Fujimura, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 364-365 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291704  

  31. Improving Pronunciation Clarity of Dysarthric Speech Using CycleGAN with Multiple Speakers

    Shuhei Imai, Takashi Nose, Aoi Kanagaki, Satoshi Watanabe, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 366-367 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9292041  

  32. Spoken term detection based on acoustic models trained in multiple languages for zero-resource language

    Satoru Mizuochi, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 351-352 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291761  

  33. Integration of accent sandhi and prosodic features estimation for japanese text-to-speech synthesis

    Daisuke Fujimaki, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 358-359 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291906  

  34. Language modeling in speech recognition for grammatical error detection based on neural machine translation

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 41 (5) 788-791 2020年9月1日

    出版者・発行元: Acoustical Society of Japan

    DOI: 10.1250/ast.41.788  

    ISSN:1346-3969

    eISSN:1347-5177

  35. Scyclone: High-Quality and Parallel-Data-Free Voice Conversion Using Spectrogram and Cycle-Consistent Adversarial Networks

    Masaya Tanaka, Takashi Nose, Aoi Kanagaki, Ryohei Shimizu, Akira Ito

    2020年5月7日

    詳細を見る 詳細を閉じる

    This paper proposes Scyclone, a high-quality voice conversion (VC) technique without parallel data training. Scyclone improves speech naturalness and speaker similarity of the converted speech by introducing CycleGAN-based spectrogram conversion with a simplified WaveRNN-based vocoder. In Scyclone, a linear spectrogram is used as the conversion features instead of vocoder parameters, which avoids quality degradation due to extraction errors in fundamental frequency and voiced/unvoiced parameters. The spectrogram of source and target speakers are modeled by modified CycleGAN networks, and the waveform is reconstructed using the simplified WaveRNN with a single Gaussian probability density function. The subjective experiments with completely unpaired training data show that Scyclone is significantly better than CycleGAN-VC2, one of the existing state-of-the-art parallel-data-free VC techniques.

  36. Automatic assessment of English proficiency for Japanese learners without reference sentences based on deep neural network acoustic models

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Speech Communication 116 86-97 2020年1月

    DOI: 10.1016/j.specom.2019.12.002  

    ISSN:0167-6393

  37. A symbol-level melody completion based on a convolutional neural network with generative adversarial learning

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Journal of Information Processing 28 248-257 2020年

    DOI: 10.2197/ipsjjip.28.248  

    ISSN:0387-5806

    eISSN:1882-6652

  38. Construction and analysis of a multimodal chat-talk corpus for dialog systems considering interpersonal closeness

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings 443-448 2020年

  39. Multi-stream attention-based BLSTM with feature segmentation for speech emotion recognition

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2020-October 3301-3305 2020年

    DOI: 10.21437/Interspeech.2020-1199  

    ISSN:2308-457X

    eISSN:1990-9772

  40. Developing a Multi-Platform Speech Recording System Toward Open Service of Building Large-Scale Speech Corpora

    Keita Ishizuka, Takashi Nose

    2019年12月19日

    詳細を見る 詳細を閉じる

    This paper briefly reports our ongoing attempt at the development of a multi-platform browser-based speech recording system. We designed the system toward a service of providing open service of building large-scale speech corpora at a low-cost for any researchers and developers related to speech processing. The recent increase in the use of crowdsourcing services, e.g., Amazon Mechanical Turk, enable us to reduce the cost of collecting speakers in the web, and there have been many attempts to develop the automated speech collecting platforms or application that is designed for the use the crowdsourcing. However, one of the major problems in the previous studies and developments for the attempts is that most of the systems are not a form of common service of speech recording and corpus building, and each corpus builder is necessary to develop the system in their own environment including a web server. For this problem, we develope a new platform where both the corpus builders and recording participants can commonly use a single system and service by creating their user accounts. A brief introduction of the system is given in this paper as the start of this challenge.

  41. Improving human scoring of prosody using parametric speech synthesis 査読有り

    Prafianto, H., Nose, T., Chiba, Y., Ito, A.

    Speech Communication 111 14 2019年8月

    出版者・発行元: Elsevier {BV}

    DOI: 10.1016/j.specom.2019.06.001  

    ISSN:0167-6393

  42. Multi-condition training for noise-robust speech emotion recognition

    Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 40 (6) 406-409 2019年

    DOI: 10.1250/ast.40.406  

    ISSN:1346-3969

    eISSN:1347-5177

  43. Evaluation of English Speech Recognition for Japanese Learners Using DNN-Based Acoustic Models 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 93-100 2019年1月

  44. Comparison of Speech Recognition Performance Between Kaldi and Google Cloud Speech API 査読有り

    Takashi Kimura, Takashi Nose, Shinji Hirooka, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 109-115 2019年1月

  45. Segmental Pitch Control Using Speech Input Based on Differential Contexts and Features for Customizable Neural Speech Synthesis 査読有り

    Shinya Hanabusa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 124-131 2019年1月

  46. Melody Completion Based on Convolutional Neural Networks and Generative Adversarial Learning 査読有り

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 116-123 2019年1月

  47. Two-Stage Sequence-to-Sequence Neural Voice Conversion with Low-to-High Definition Spectrogram Mapping 査読有り

    Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito

    Smart Innovation, Systems and Technologies 110 132-139 2019年1月

  48. DNN-Based Talking Movie Generation with Face Direction Consideration 査読有り

    Toru Ishikawa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 157-164 2019年1月

  49. A Study on a Spoken Dialogue System with Cooperative Emotional Speech Synthesis Using Acoustic and Linguistic Information 査読有り

    Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 101-108 2019年1月

  50. Improvement of accent sandhi rules based on Japanese accent dictionaries 査読有り

    Hiroto Aoyama, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 140-148 2019年1月

    DOI: 10.1007/978-3-030-03748-2_17  

    ISSN:2190-3018

  51. Data collection and analysis for automatically generating record of human behaviors by environmental sound recognition 査読有り

    Takahiro Furuya, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 149-156 2019年1月1日

    DOI: 10.1007/978-3-030-03748-2_18  

    ISSN:2190-3018

  52. Effect of mutual self-disclosure in spoken dialog system on user impression 査読有り

    Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of 2018 APSIPA-ASC 806-810 2018年11月

  53. Improving User Impression in Spoken Dialog System with Gradual Speech Form Control. 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018 235-240 2018年7月

    出版者・発行元: Association for Computational Linguistics

  54. An Analysis of the Effect of Emotional Speech Synthesis on Non-Task-Oriented Dialogue System. 査読有り

    Yuya Chiba, Takashi Nose, Taketo Kase, Mai Yamanaka, Akinori Ito

    Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018 371-375 2018年7月

    出版者・発行元: Association for Computational Linguistics

  55. Analyses of example sentences collected by conversation for example-based non-task-oriented dialog system 査読有り

    Kageyama, Y., Chiba, Y., Nose, T., Ito, A.

    IAENG International Journal of Computer Science 45 (2) 285-293 2018年5月

    ISSN:1819-9224 1819-656X

  56. Analyzing effect of physical expression on English proficiency for multimodal computer-assisted language learning 査読有り

    Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2018-September 1746-1750 2018年1月1日

    出版者・発行元: ISCA

    DOI: 10.21437/Interspeech.2018-1425  

    ISSN:2308-457X

  57. Analysis of preferred speaking rate and pause in spoken Easy Japanese for non-native listeners 査読有り

    Hafiyan Prafiyanto, Takashi Nose, Yuya Chiba, Akinori Ito

    Acoustical Science and Technology 39 92-100 2018年1月1日

    DOI: 10.1250/ast.39.92  

    ISSN:1346-3969

  58. Dialog-based interactive movie recommendation: Comparison of dialog strategies 査読有り

    Hayato Mori, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 77-83 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_10  

    ISSN:2190-3026 2190-3018

    eISSN:2190-3026

  59. A study on 2D photo-realistic facial animation generation using 3D facial feature points and deep neural networks 査読有り

    Kazuki Sato, Takashi Nose, Akira Ito, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 113-118 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_15  

    ISSN:2190-3026 2190-3018

  60. Voice conversion from arbitrary speakers based on deep neural networks with adversarial learning 査読有り

    Sou Miyamoto, Takashi Nose, Suzunosuke Ito, Harunori Koike, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 97-103 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_13  

    ISSN:2190-3026 2190-3018

    eISSN:2190-3026

  61. Response selection of interview-based dialog system using user focus and semantic orientation 査読有り

    Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 84-90 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_11  

    ISSN:2190-3026 2190-3018

    eISSN:2190-3026

  62. Development and evaluation of julius-compatible interface for Kaldi ASR 査読有り

    Yusuke Yamada, Takashi Nose, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 91-96 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_12  

    ISSN:2190-3026 2190-3018

    eISSN:2190-3026

  63. Detection of singing mistakes from singing voice 査読有り

    Isao Miyagawa, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 130-136 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_17  

    ISSN:2190-3026 2190-3018

    eISSN:2190-3026

  64. Evaluation of nonlinear tempo modification methods based on sinusoidal modeling 査読有り

    Kosuke Nakamura, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 104-111 2018年

    出版者・発行元: Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_14  

    ISSN:2190-3026 2190-3018

    eISSN:2190-3026

  65. Analysis of Efficient Multimodal Features for Estimating User’s Willingness to Talk: Comparison of Human-Machine and Human-Human Dialog 査読有り

    2018-February 1-4 2017年12月13日

    DOI: 10.1109/APSIPA.2017.8282069  

  66. HMM-Based Photo-Realistic Talking Face Synthesis Using Facial Expression Parameter Mapping with Deep Neural Networks 査読有り

    Kazuki Sato, Takashi Nose, Akinori Ito

    Journal of Computer and Communications 5 (10) 55-65 2017年8月

    DOI: 10.4236/jcc.2017.510006  

  67. 日常音識別による活動記録自動生成のためのデータの収集と分析

    古谷崇拓, 千葉祐弥, 能勢隆, 伊藤彰則

    情報処理学会研究報告 1-6 2017年6月17日

  68. Cluster-based approach to discriminate the user’s state whether a user is embarrassed or thinking to an answer to a prompt 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Journal on Multimodal User Interfaces 11 (2) 185-196 2017年6月

    DOI: 10.1007/s12193-017-0238-y  

    ISSN:1783-7677

    eISSN:1783-8738

  69. Sentence Selection Based on Extended Entropy Using Phonetic and Prosodic Contexts for Statistical Parametric Speech Synthesis 査読有り

    Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga

    IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING 25 (5) 1107-1116 2017年5月

    DOI: 10.1109/TASLP.2017.2688585  

    ISSN:2329-9290

    eISSN:2329-9304

  70. Dimensional paralinguistic information control based on multiple-regression HSMM for spontaneous dialogue speech synthesis with robust parameter estimation 査読有り

    Tomohiro Nagata, Hiroki Mori, Takashi Nose

    SPEECH COMMUNICATION 88 137-148 2017年4月

    DOI: 10.1016/j.specom.2017.01.002  

    ISSN:0167-6393

    eISSN:1872-7182

  71. A Study on Tailor-Made Speech Synthesis Based on Deep Neural Networks 査読有り

    Shuhei Yamada, Takashi Nose, Akinori Ito

    ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL 1 63 159-166 2017年

    DOI: 10.1007/978-3-319-50209-0_20  

    ISSN:2190-3018

  72. Synthesis of Photo-Realistic Facial Animation from Text Based on HMM and DNN with Animation Unit 査読有り

    Kazuki Sato, Takashi Nose, Akinori Ito

    ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL 2 64 29-36 2017年

    DOI: 10.1007/978-3-319-50212-0_4  

    ISSN:2190-3018

  73. Development of an Easy Japanese Writing Support System with Text-to-Speech Function 査読有り

    Takeshi Nagano, Hafiyan Prafianto, Takashi Nose, Akinori Ito

    ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL 2 64 221-228 2017年

    DOI: 10.1007/978-3-319-50212-0_27  

    ISSN:2190-3018

  74. クロスリンガル音声合成のための共有決定木コンテクストクラスタリングを用いた話者適応 査読有り

    長濱大樹, 能勢隆, 郡山知樹, 小林隆夫

    電子情報通信学会論文誌D J100-D (3) 385-393 2017年

  75. 統計モデルに基づく多様な音声の合成技術 査読有り

    能勢隆

    電子情報通信学会論文誌D J100-D (4) 556-569 2017年

  76. Collection of example sentences for non-task-oriented dialog using a spoken dialog system and comparison with hand-crafted DB 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 713 458-464 2017年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-3-319-58750-9_63  

    ISSN:1865-0929

  77. Construction and analysis of phonetically and prosodically balanced emotional speech database 査読有り

    Takeishi, E, Nose, T, Chiba, Y, Ito, A

    2016 Conference of the Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques, O-COCOSDA 2016 16-21 2016年10月

    DOI: 10.1109/ICSDA.2016.7918977  

  78. Efficient Implementation of Global Variance Compensation for Parametric Speech Synthesis 査読有り

    Takashi Nose

    IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING 24 (10) 1694-1704 2016年10月

    DOI: 10.1109/TASLP.2016.2580298  

    ISSN:2329-9290

  79. Estimating the user's state before exchanging utterances using intermediate acoustic features for spoken dialog systems 査読有り

    Chiba, Y., Nose, T., Ito, M., Ito, A.

    IAENG International Journal of Computer Science 43 (1) 1-9 2016年2月29日

    ISSN:1819-9224 1819-656X

  80. A PRECISE EVALUATION METHOD OF PROSODIC QUALITY OF NON-NATIVE SPEAKERS USING AVERAGE VOICE AND PROSODY SUBSTITUTION 査読有り

    Hafiyan Prafianto, Takashi Nose, Akinori Ito

    PROCEEDINGS OF 2016 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP) 208-212 2016年

    DOI: 10.1109/ICALIP.2016.7846620  

  81. DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討 査読有り

    齋藤優貴, 能勢隆, 伊藤彰則

    電子情報通信学会論文誌 J199-D (11) 1112-1115 2016年

  82. Prosodically rich speech synthesis interface using limited data of celebrity voice 査読有り

    Takashi Nose, Taiki Kamei

    Journal of Computer and Communications 4 (16) 79-94 2016年

  83. 発話状態推定に基づく協調的感情音声合成による音声対話システムの評価 査読有り

    加瀬嵩人, 能勢隆, 千葉祐弥, 伊藤彰則

    電子情報通信学会論文誌 J199-A (1) 25-35 2016年1月

  84. Investigation of Pause Insertion Effect in Spoken Easy Japanese for Non-Native Listeners 査読有り

    Hafiyan Prafianto, Takeshi Nagano, Takashi Nose, Akinori Ito

    Proceedings of 12th Western Pacific Acoustics Conference 507-511 2015年12月8日

  85. Automatic Generation of Proper Noun Entries in a Speech Recognizer for Local Information Recognition 査読有り

    Kenta Shiga, Takashi Nose, Akinori Ito, Ryo Masumura, Hirokazu Masataki

    Proceedings of 12th Western Pacific Acoustics Conference 2015年12月8日

  86. Real-time talking avatar on the internet using Kinect and voice conversion 査読有り

    Takashi Nose, Yuki Igarashi

    International Journal of Advanced Computer Science and Applications 6 (12) 301-307 2015年12月

  87. 応答タイミングを考慮した英会話練習のための音声対話型英語学習システム 査読有り

    鈴木 直人, 廣井 富, 千葉 祐弥, 能勢 隆, 伊藤 彰則

    情報処理学会論文誌 56 (11) 2177-2189 2015年11月1日

  88. HMM-based expressive singing voice synthesis with singing style control and robust pitch modeling 査読有り

    Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi

    COMPUTER SPEECH AND LANGUAGE 34 (1) 308-322 2015年11月

    DOI: 10.1016/j.csl.2015.04.001  

    ISSN:0885-2308

    eISSN:1095-8363

  89. Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting 査読有り

    Saito, Y, Nose, T, Shinozaki, T, Ito, A

    Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015 433-436 2015年9月25日

    出版者・発行元: IEEE

    DOI: 10.1109/IIH-MSP.2015.85  

  90. Tempo Modification of Mixed Music Signal by Nonlinear Time Scaling and Sinusoidal Modeling 査読有り

    Nishino, T, Nose, T, Ito, A

    Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015 146-149 2015年9月24日

    出版者・発行元: IEEE

    DOI: 10.1109/IIH-MSP.2015.86  

  91. Entropy-based sentence selection for speech synthesis using phonetic and prosodic contexts 査読有り

    Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga, Akinori Ito

    Proceedings of 16th Annual Conference of the International Speech Communication Association 3491-3495 2015年9月10日

  92. On appropriateness and estimation of the emotion of synthesized response speech in a spoken dialogue system 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 528 747-752 2015年1月1日

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

  93. Statistical Parametric Speech Synthesis Based on Gaussian Process Regression 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING 8 (2) 173-183 2014年4月

    DOI: 10.1109/JSTSP.2013.2283461  

    ISSN:1932-4553

    eISSN:1941-0484

  94. A Parameter Generation Algorithm Using Local Variance for HMM-Based Speech Synthesis 査読有り

    Takashi Nose, Vataya Chunwijitra, Takao Kobayashi

    IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING 8 (2) 221-228 2014年4月

    DOI: 10.1109/JSTSP.2013.2283459  

    ISSN:1932-4553

    eISSN:1941-0484

  95. Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis 査読有り

    Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka

    SPEECH COMMUNICATION 57 144-154 2014年2月

    DOI: 10.1016/j.specom.2013.09.014  

    ISSN:0167-6393

    eISSN:1872-7182

  96. PARAMETRIC SPEECH SYNTHESIS USING LOCAL AND GLOBAL SPARSE GAUSSIAN PROCESSES 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    2014 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING (MLSP) 2014年

    ISSN:2161-0363

  97. Speech Recognition in a Home Environment Using Parallel Decoding with GMM-Based Noise Modeling 査読有り

    Kohei Machida, Takashi Nose, Akinori Ito

    2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA) 2014年

    DOI: 10.1109/APSIPA.2014.7041622  

  98. PARAMETRIC SPEECH SYNTHESIS BASED ON GAUSSIAN PROCESS REGRESSION USING GLOBAL VARIANCE AND HYPERPARAMETER OPTIMIZATION 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 3862-3866 2014年

    DOI: 10.1109/ICASSP.2014.6854319  

    ISSN:1520-6149

  99. Tone modeling using stress information for HMM-based Thai speech synthesis 査読有り

    Decha Moungsri, Tomoki Koriyama, Tashi Nose, Takao Kobayashi

    Proceedings of the 7th International Conference on Speech Prosody 1057-1061 2014年

  100. Controlling Switching Pause Using an AR Agent for Interactive CALL System 査読有り

    Naoto Suzuki, Takashi Nose, Akinori Ito, Yutaka Hiroi

    Communications in Computer and Information Science 435 588-593 2014年

    出版者・発行元: Springer Verlag

    DOI: 10.1007/978-3-319-07854-0_102  

    ISSN:1865-0929

  101. Subjective Evaluation of Packet Loss RecoveryTechniques for Voice over IP 査読有り

    Masahito Okamoto, Takashi Nose, Akinori Ito, Takeshi Nagano

    2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2 711-714 2014年

    DOI: 10.1109/ICALIP.2014.7009887  

  102. A Study on the Effect of Speech Rate on Perception of Spoken Easy Japanese Using Speech Synthesis 査読有り

    Hafiyan Prafianto, Takashi Nose, Yuya Chiba, Akinori Ito, Kazuyuki Sato

    2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2 476-479 2014年

    DOI: 10.1109/ICALIP.2014.7009839  

  103. Robot: Have I Done Something Wrong? -Analysis of Prosodic Features of Speech Commands under the Robot's Unintended Behavior- 査読有り

    Noriko Totsuka, Yuya Chiba, Takashi Nose, Akinori Ito

    2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2 887-890 2014年

    DOI: 10.1109/ICALIP.2014.7009922  

  104. Tempo modification of music signal using sinusoidal model and LPC-based residue model 査読有り

    Akinori Ito, Yuki Igarashi, Masashi Ito, Takashi Nose

    Proceedings of the 21st International Congress on Sound and Vibration 1 1-8 2014年

  105. User modeling by using bag-of-behaviors for building a dialog system sensitive to the interlocutor's internal state 査読有り

    Yuya Chiba, Masashi Ito, Takashi Nose, Akinori Ito

    Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue 74-78 2014年

  106. Quantized F0 Context and Its Applications to Speech Synthesis, Speech Coding and Voice Conversion 査読有り

    Takashi Nose, Takao Kobayashi

    2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014) 578-581 2014年

    DOI: 10.1109/IIH-MSP.2014.149  

  107. Analysis of English pronunciation of singing voices sung by Japanese speakers 査読有り

    Kazumichi Yoshida, Takashi Nose, Akinori Ito

    2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014) 554-557 2014年

    DOI: 10.1109/IIH-MSP.2014.143  

  108. Transform Mapping Using Shared Decision Tree Context Clustering for HMM-Based Cross-Lingual Speech Synthesis 査読有り

    Daiki Nagahama, Takashi Nose, Tomoki Koriyama, Takao Kobayashi

    15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4 770-774 2014年

    ISSN:2308-457X

  109. Accent type and phrase boundary estimation using acoustic and language models for automatic prosodic labeling 査読有り

    Tomoki Koriyama, Hiroshi Suzuki, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    Proceedings of 15th Annual Conference of the International Speech Communication Association 2337-2341 2014年

  110. Analysis of spectral enhancement using global variance in HMM-based speech synthesis 査読有り

    Takashi Nose, Akinori Ito

    Proceedings of 15th Annual Conference of the International Speech Communication Association 2917-2921 2014年

    ISSN:2308-457X

    eISSN:1990-9772

  111. Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 8007-8011 2013年10月18日

    DOI: 10.1109/ICASSP.2013.6639224  

    ISSN:1520-6149

  112. An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model 査読有り

    Takashi Nose, Takao Kobayashi

    SPEECH COMMUNICATION 55 (2) 347-357 2013年2月

    DOI: 10.1016/j.specom.2012.09.003  

    ISSN:0167-6393

    eISSN:1872-7182

  113. [招待講演] 統計モデルに基づく音声合成における話者・スタイルの多様化 招待有り

    能勢 隆

    電子情報通信学会技術研究報告 Vol. 112 (No. 422) 67-72 2013年

  114. HMM-BASED EXPRESSIVE SPEECH SYNTHESIS BASED ON PHRASE-LEVEL F0 CONTEXT LABELING 査読有り

    Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka

    2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 7859-7863 2013年

    DOI: 10.1109/ICASSP.2013.6639194  

    ISSN:1520-6149

  115. SPEAKER-INDEPENDENT STYLE CONVERSION FOR HMM-BASED EXPRESSIVE SPEECH SYNTHESIS 査読有り

    Hiroki Kanagawa, Takashi Nose, Takao Kobayashi

    2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 7864-7868 2013年

    DOI: 10.1109/ICASSP.2013.6639195  

    ISSN:1520-6149

  116. A style control technique for singing voice synthesis based on multiple-regression HSMM 査読有り

    Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi

    Proceedings of 14th Annual Conference of the International Speech Communication Association 378-382 2013年

  117. Statistical nonparametric speech synthesis using sparse Gaussian processes 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    Proceedings of 14th Annual Conference of the International Speech Communication Association 1072-1076 2013年

  118. Robust Estimation of Multiple-Regression HMM Parameters for Dimension-Based Expressive Dialogue Speech Synthesis 査読有り

    Tomohiro Nagata, Hiroki Mori, Takashi Nose

    14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5 1548-1552 2013年

    ISSN:2308-457X

  119. Very low bit-rate F0 coding for phonetic vocoders using MSD-HMM with quantized F0 symbols 査読有り

    Takashi Nose, Takao Kobayashi

    SPEECH COMMUNICATION 54 (3) 384-392 2012年3月

    DOI: 10.1016/j.specom.2011.10.002  

    ISSN:0167-6393

    eISSN:1872-7182

  120. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis 査読有り

    Vataya Chunwijitra, Takashi Nose, Takao Kobayashi

    SPEECH COMMUNICATION 54 (2) 245-255 2012年2月

    DOI: 10.1016/j.specom.2011.08.006  

    ISSN:0167-6393

    eISSN:1872-7182

  121. HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張 査読有り

    郡山知樹, 能勢 隆, 小林隆夫

    電子情報通信学会論文誌 Vol. J95-D (No. 3) 597-607 2012年

  122. AN F0 MODELING TECHNIQUE BASED ON PROSODIC EVENTS FOR SPONTANEOUS SPEECH SYNTHESIS 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 4589-4592 2012年

    DOI: 10.1109/ICASSP.2012.6288940  

    ISSN:1520-6149

  123. Discontinuous Observation HMM for Prosodic-Event-Based F0 Generation 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3 462-465 2012年

  124. A speech parameter generation algorithm using local variance for HMM-based speech synthesis 査読有り

    Vataya Chunwijitra, Takashi Nose, Takao Kobayashi

    13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3 1150-1153 2012年

  125. Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency 査読有り

    Takashi Nose, Takao Kobayashi

    SPEECH COMMUNICATION 53 (7) 973-985 2011年9月

    DOI: 10.1016/j.specom.2011.05.001  

    ISSN:0167-6393

    eISSN:1872-7182

  126. TONAL CONTEXT LABELING USING QUANTIZED F-0 SYMBOLS FOR IMPROVING TONE CORRECTNESS IN AVERAGE-VOICE-BASED SPEECH SYNTHESIS 査読有り

    Vataya Chunwijitra, Takashi Nose, Takao Kobayashi

    2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 4708-4711 2011年

    DOI: 10.1109/ICASSP.2011.5947406  

    ISSN:1520-6149

  127. VERY LOW BIT-RATE F0 CODING FOR PHONETIC VOCODER USING MSD-HMM WITH QUANTIZED F0 CONTEXT 査読有り

    Takashi Nose, Takao Kobayashi

    2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 5236-5239 2011年

    DOI: 10.1109/ICASSP.2011.5947538  

    ISSN:1520-6149

  128. A Perceptual Expressivity Modeling Technique for Speech Synthesis Based on Multiple-Regression HSMM 査読有り

    Takashi Nose, Takao Kobayashi

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 116-119 2011年

  129. HMM-Based Emphatic Speech Synthesis Using Unsupervised Context Labeling 査読有り

    Yu Maeno, Takashi Nose, Takao Kobayashi, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 1860-+ 2011年

  130. Performance Prediction of Speech Recognition Using Average-Voice-Based Speech Synthesis 査読有り

    Tatsuhiko Saito, Takashi Nose, Takao Kobayashi, Yohei Okato, Akio Horii

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 1964-+ 2011年

  131. On the Use of Extended Context for HMM-based Spontaneous Conversational Speech Synthesis 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 2668-2671 2011年

  132. Recent development of HMM-based expressive speech synthesis and its applications 査読有り

    Takashi Nose, Takao Kobayashi

    Proceedings of 2011 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 1-4 2011年

  133. HMM-Based Voice Conversion Using Quantized F0 Context 査読有り

    Takashi Nose, Yuhei Ota, Takao Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E93D (9) 2483-2490 2010年9月

    DOI: 10.1587/transinf.E93.D.2483  

    ISSN:0916-8532

  134. A Rapid Model Adaptation Technique for Emotional Speech Recognition with Style Estimation Based on Multiple-Regression HMM 査読有り

    Yusuke Ijima, Takashi Nose, Makoto Tachibana, Takao Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E93D (1) 107-115 2010年1月

    DOI: 10.1587/transinf.E93.D.107  

    ISSN:0916-8532

  135. A Technique for Estimating Intensity of Emotional Expressions and Speaking Styles in Speech Based on Multiple-Regression HSMM 査読有り

    Takashi Nose, Takao Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E93D (1) 116-124 2010年1月

    DOI: 10.1587/transinf.E93.D.116  

    ISSN:0916-8532

  136. HMM-BASED SPEECH SYNTHESIS WITH UNSUPERVISED LABELING OF ACCENTUAL CONTEXT BASED ON F0 QUANTIZATION AND AVERAGE VOICE MODEL 査読有り

    Takashi Nose, Koujirou Ooki, Takao Kobayashi

    2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 4622-4625 2010年

    DOI: 10.1109/ICASSP.2010.5495548  

    ISSN:1520-6149

  137. 統計的モデル選択に基づいた連続音声からの語彙学習 査読有り

    田口 亮, 岩橋直人, 船越孝太郎, 中野幹生, 能勢 隆, 新田恒雄

    人工知能学会論文誌 25 (4) 549-559 2010年

    DOI: 10.1527/tjsai.25.549  

    ISSN:1346-0714 1346-8030

  138. HMM-based robust voice conversion using adaptive F0 quantization 査読有り

    Takashi Nose, Takao Kobayashi

    Proceedings of 7th ISCA Workshop on Speech Synthesis 80-85 2010年

  139. Evaluation of Prosodic Contextual Factors for HMM-based Speech Synthesis 査読有り

    Shuji Yokomizo, Takashi Nose, Takao Kobayashi

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2 430-433 2010年

  140. Conversational Spontaneous Speech Synthesis Using Average Voice Model 査読有り

    Tomoki Koriyama, Takashi Nose, Takao Kobayashi

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2 853-856 2010年

  141. Speaker-independent HMM-based Voice Conversion Using Quantized Fundamental Frequency 査読有り

    Takashi Nose, Takao Kobayashi

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4 1724-1727 2010年

  142. Grounding new words on the physical world in multi-domain human-robot dialogues 査読有り

    Mikio Nakano, Naoto Iwahashi, Takayuki Nagai, Taisuke Sumii, Xiang Zuo, Ryo Taguchi, Takashi Nose, Akira Mizutani, Tomoaki Nakamura, Muhammad Attamimi, Hiromi Narimatsu, Kotaro Funakoshi, Yuji Hasegawa

    AAAI Publications, 2010 AAAI Fall Symposium Series 74-79 2010年

  143. Robust Speaker-Adaptive HMM-Based Text-to-Speech Synthesis 査読有り

    Junichi Yamagishi, Takashi Nose, Heiga Zen, Zhen-Hua Ling, Tomoki Toda, Keiichi Tokuda, Simon King, Steve Renals

    IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING 17 (6) 1208-1230 2009年8月

    DOI: 10.1109/TASL.2009.2016394  

    ISSN:1558-7916

    eISSN:1558-7924

  144. HMM-Based Style Control for Expressive Speech Synthesis with Arbitrary Speaker's Voice Using Model Adaptation 査読有り

    Takashi Nose, Makoto Tachibana, Takao Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E92D (3) 489-497 2009年3月

    DOI: 10.1587/transinf.E92.D.489  

    ISSN:0916-8532

  145. EMOTIONAL SPEECH RECOGNITION BASED ON STYLE ESTIMATION AND ADAPTATION WITH MULTIPLE-REGRESSION HMM 査読有り

    Yusuke Ijima, Makoto Tachibana, Takashi Nose, Takao Kobayashi

    2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1- 8, PROCEEDINGS 4157-4160 2009年

    DOI: 10.1109/ICASSP.2009.4960544  

    ISSN:1520-6149

  146. Speaking Style Adaptation for Spontaneous Speech Recognition Using Multiple-Regression HMM 査読有り

    Yusuke Ijima, Takeshi Matsubara, Takashi Nose, Takao Kobayashi

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 548-551 2009年

  147. HMM-based Speaker Characteristics Emphasis Using Average Voice Model 査読有り

    Takashi Nose, Junichi Adada, Takao Kobayashi

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 2599-2602 2009年

  148. Learning Lexicons from Spoken Utterances Based on Statistical Model Selection 査読有り

    Ryo Taguchi, Naoto Iwahashi, Takashi Nose, Kotaro Funakoshi, Mikio Nakano

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 2687-2690 2009年

  149. Recent development of the HMM-based speech synthesis system (HTS) 査読有り

    Heiga Zen, Keiichiro Oura, Takashi Nose, Junichi Yamagishi, Shinji Sako, Tomoki Toda, Takashi Masuko, Alan W. Black, Keiichi Tokuda

    Proceedings of 2009 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 121-130 2009年

  150. Performance evaluation of the speaker-independent HMM-based speech synthesis system "HTS-2007" for the Blizzard Challenge 2007 査読有り

    Junichi Yamagishi, Takashi Nose, Heiga Zen, Tomoki Toda, Keiichi Tokuda

    2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12 3957-+ 2008年

    DOI: 10.1109/ICASSP.2008.4518520  

    ISSN:1520-6149

  151. Speaker and style adaptation using average voice model for style control in HMM-based speech synthesis 査読有り

    Makoto Tachibana, Shinsuke Izawa, Takashi Nose, Takao Kobayashi

    2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12 4633-4636 2008年

    DOI: 10.1109/ICASSP.2008.4518689  

    ISSN:1520-6149

  152. An On-line Adaptation Technique for Emotional Speech Recognition Using Style Estimation with Multiple-Regression HMM 査読有り

    Yusuke Ijima, Makoto Tachibana, Takashi Nose, Takao Kobayashi

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 1297-1300 2008年

  153. An Estimation Technique of Style Expressiveness for Emotional Speech Using Model Adaptation Based on Multiple-Regression HSMM 査読有り

    Takashi Nose, Yoichi Kato, Makoto Tachibana, Takao Kobayashi

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 2759-2762 2008年

  154. A style control technique for HMM-based expressive speech synthesis 査読有り

    Takashi Nose, Junichi Yamagishi, Takashi Masuko, Takao Kobayashi

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E90D (9) 1406-1413 2007年9月

    DOI: 10.1093/ietisy/e90-d.9.1406  

    ISSN:0916-8532

  155. A speaker adaptation technique for MRHSMM-based style control of. synthetic speech 査読有り

    Takashi Nose, Yoichi Kato, Takao Kobayashi

    2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL IV, PTS 1-3 833-+ 2007年

    DOI: 10.1109/ICASSP.2007.367042  

    ISSN:1520-6149

  156. The HMM-based speech synthesis system version 2.0 査読有り

    Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, Alan W. Black, Keiichi Tokuda

    Proceedings of 6th ISCA Workshop on Speech Synthesis 294-299 2007年

  157. Style Estimation of Speech Based on Multiple Regression Hidden Semi-Markov Model 査読有り

    Takashi Nose, Yoichi Kato, Takao Kobayashi

    INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4 2900-2903 2007年

  158. A Style Control Technique for Speech Synthesis Using Multiple Regression HSMM 査読有り

    Takashi Nose, Junichi Yamagishi, Takao Kobayashi

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 1324-1327 2006年

  159. A Technique for Controlling Voice Quality of Synthetic Speech Using Multiple Regression HSMM 査読有り

    Makoto Tachibana, Takashi Nose, Junichi Yamagishi, Takao Kobayashi

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 2438-2441 2006年

︎全件表示 ︎最初の5件までを表示

MISC 52

  1. 招待講演 深層学習を利用した多様な音声の合成・認識・変換と応用 (音声)

    能勢 隆

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 117 (160) 3-8 2017年7月27日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  2. スペクトル特徴量のベクトル量子化に基づくDNN音声合成の検討 (音声)

    能勢 隆, 伊藤 鈴乃介

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (414) 65-70 2017年1月21日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  3. ポスター講演 読み上げ音声を利用したニューラルネットワークに基づく歌唱者非依存歌声変換の検討 (音声)

    小池 治憲, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (414) 17-22 2017年1月21日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  4. ポスター講演 日本語テキスト音声合成のためのアクセント辞典に基づくアクセント結合規則の改良 (音声) -- (第18回音声言語シンポジウム)

    青山 紘人, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 31-36 2016年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  5. ポスター講演 Kaldiの音声認識エンジンをJulius互換にするためのインタフェースの開発 (音声) -- (第18回音声言語シンポジウム)

    山田 裕介, 能勢 隆, 千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 49-51 2016年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  6. ポスター講演 DNN音声合成における差分特徴量のモデル化を利用したF0制御 (音声) -- (第18回音声言語シンポジウム)

    山田 修平, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 37-42 2016年12月20日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  7. Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (ライフインテリジェンスとオフィス情報システム)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (220) 67-72 2016年9月15日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  8. Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (メディア工学)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    映像情報メディア学会技術報告 = ITE technical report 40 (31) 67-72 2016年9月

    出版者・発行元: 映像情報メディア学会

    ISSN: 1342-6893

  9. 顔特徴量を用いたテキストからのフォトリアリスティック顔動画像生成の検討 (情報理論)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (33) 43-48 2016年5月19日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  10. HMM音声合成におけるモデル学習の高速化の検討 (音声)

    山田 修平, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (253) 27-32 2015年10月15日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  11. 地域情報の音声認識のための固有名詞省略表現の自動生成 (音声)

    志賀 健太, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (184) 7-12 2015年8月21日

    出版者・発行元: 電子情報通信学会

    ISSN: 0913-5685

  12. HMM音声合成におけるアクセントラベリング基準が合成音声に与える影響の分析

    高橋 遼太, 能勢 隆, 伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (1) 1-6 2015年5月18日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本論文では,従来の HMM 音声合成において曖昧であったアクセントラベリング基準について検討を行い,合成音声への影響を調べる.具体的には,アクセント型の表現およびアクセント句境界の基準について検討する.アクセント型については,尾高型が 0 型とモーラ長型の 2 通りの表現があることに着目し,それらを用いた場合に合成音声の F0 がどのような影響を受けるかについて客観評価を行う.また,2 段階クラスタリングを用いる効果についても検証する.アクセント句境界については,アクセント句によっては 0 型と 1 型の 2 つのアクセント句で表現する場合と,それらを結合し 1 つのアクセント句として表現する場合があり,これらの違いが合成音声に与える影響を調べる.またこれらの評価において,日本語アクセントの高低の誤りを客観的指標として導入し,この指標の有効性について分析を行う.

  13. シナリオ対話における感情音声合成を用いた対話システムの評価と感情付与方法の検討

    加瀬 嵩人, 能勢 隆, 千葉 祐弥, 伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (9) 1-7 2015年5月18日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    近年,非タスク指向型の音声対話システムへの需要が拡大しており,様々な研究がされている.それらほとんどの研究は言語的な観点から適切な応答の生成を目指したものである.一方で人間同士の会話においては,感情表現や発話様式などのパラ言語情報を効果的に利用することにより,対話を円滑に進めることができると考えられる.そこで我々はシステムの応答の内容ではなく,応答の仕方に着目し,感情音声合成を対話システムに用いることを試みる.本研究ではまず,適切な感情付与を人手により与えた場合に実際に対話システムの質が向上するかを複数のシナリオを作成して主観基準により評価する.次に,感情付与を自動化するために,システム発話に応じた付与とユーザ発話に協調した付与の 2 つの手法について検討を行う.評価結果から,感情を自動付与することで対話におけるユーザの主観評価スコアが向上すること,またユーザ発話に協調した感情付与がより効果的であることを示す.

  14. ユーザの対話意欲自動推定を目標とした対話データの分析と音声画像特徴量の検討

    千葉 祐弥, 能勢 隆, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2015 (10) 1-6 2015年2月20日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    対話型システムがユーザに適応して話題の提供や情報推薦を行うためには,ユーザの情報を効率的に獲得できることが望ましい.本研究では,ユーザに対して積極的に質問するインタビュー型の音声対話システムを想定する.このようなシステムとの対話では,ユーザが話したいと思う話題に関してはより詳細な情報が得られる可能性がある一方,ユーザが話したくない話題に関しては有益な情報が得られない可能性が高いと考えられるため,システムはユーザの対話意欲を考慮して質問や話題の選択を行う必要がある.本稿では,ユーザの対話意欲を自動推定するための初期検討として,人間同士のインタビュー対話の分析とその自動識別を行った.分析から,対話者自身が自分の対話意欲の高低を自覚できている場合,70~80% 程度の精度で第三者にあたる評価者が対話意欲を判断できることが示唆された.また,評価者のアンケートに挙げられたマルチモーダル情報を利用することで,人間と同程度の精度で自動識別できることが示された.

  15. Waveletを用いた特徴量抽出法とその高精度化手法の評価

    松井 清彰, 能勢 隆, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2015 (5) 1-6 2015年2月20日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    音声認識の普及のために,より安価な音声認識システムの実現が必要である.音声認識の低演算量化に関しては様々な先行研究が行われているが,特徴量抽出処理に関しては研究が不十分である.そのため我々は,Wavelet 変換を用いた新しい低演算量特徴量抽出法およびその高精度化手法について提案してきた.本論文では,Haar Wavelet 及び Daubechies Wavelet の 2 種類の Wavelet を用いて特徴量抽出を行い,その性能を MFCC と比較した.その結果,高精度化手法を用いることで,若干の認識率の向上が見られた.また,フレーム間の動的特徴量である Δ 特徴量及び MFCC と同様に,DCT 出力の高次削減によって,さらに認識率を向上させることができた.一方,計算時間に関しては,最もシンプルな Wavelet を用いることで,MFCC の 5 倍以上の計算速度を確保できることが分かった.

  16. 統計的音声合成におけるエントロピーに基づく大規模学習文セット構築の評価

    能勢隆, 荒生侑介, 荒生侑介, 小林隆夫, 杉浦孔明, 志賀芳則

    電子情報通信学会技術研究報告 115 (184(SP2015 50-58)) 2015年

    ISSN: 0913-5685

  17. 英会話学習システムの複数回使用時における学習者の交替潜時の変化に関する検討

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2015 2015年

    ISSN: 1880-7658

  18. 英会話学習システムにおける応答タイミング練習方法の有効性の検証

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    情報処理学会研究報告(Web) 2015 (SLP-105) 2015年

  19. 日本人による英語歌唱音声の発音評価手法の検討

    吉田一道, 能勢隆, 伊藤彰則

    研究報告音楽情報科学(MUS) 2014 (9) 1-6 2014年11月13日

    詳細を見る 詳細を閉じる

    我々は日本人による英語歌唱音声の英語発音の自動評価を目指している.本研究では,日本人による英語歌詞朗読音声,歌唱音声のデータベースを構築し,英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った.また,英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し,歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された.さらに,HMM による英語歌唱の自動発音評価手法について検討し,日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った.その結果,発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により,更に検出精度を向上させられる可能性がある事を論じた.

  20. 日本人による英語歌唱音声の発音評価手法の検討

    吉田一道, 能勢隆, 伊藤彰則

    研究報告デジタルコンテンツクリエーション(DCC) 2014 (9) 1-6 2014年11月13日

    詳細を見る 詳細を閉じる

    我々は日本人による英語歌唱音声の英語発音の自動評価を目指している.本研究では,日本人による英語歌詞朗読音声,歌唱音声のデータベースを構築し,英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った.また,英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し,歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された.さらに,HMM による英語歌唱の自動発音評価手法について検討し,日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った.その結果,発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により,更に検出精度を向上させられる可能性がある事を論じた.

  21. Kinectによる顔特徴量を利用した合成音声の感情表現・発話様式の直観的制御の検討 (音声) -- (オーガナイズドセッション「文脈や状況に合った発声を実現する音声合成技術及び周辺技術」)

    畢 煜, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (303) 25-30 2014年11月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,テキスト音声合成においてユーザが容易に合成音声の感情表現・発話様式(スタイル)を変更できる手法として,Kinectによる顔特徴量を利用した重回帰隠れマルコフモデル(HSMM)に基づくスタイル制御法を提案する.提案法では,学習データに含まれるスタイルとその表出度合をユーザの顔特徴量であるAnimation Unit(AU)を説明変数とした重回帰により表現する.具体的にはHSMMの各分布の平均パラメータがAUパラメータによる重回帰で表されると仮定する.この際,元のAUパラメータ間の相関が問題となるため,主成分分析により直交化および次元削減を行う.合成時には顔の表情を所望のスタイルに応じて変化させることで,それに応じた合成音声を生成することができる.本稿では,適切なAUパラメータの次元数やユーザの違いによる性能の違いについて評価を行った結果を報告する.

  22. ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討 (音声)

    郡山 知樹, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (404) 19-24 2014年1月23日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    ガウス過程回帰に基づく統計的音声合成の枠組みにおいて,カーネル関数の選択は重要な要素である.ガウス過程では周辺尤度の評価を行うことで,ガウス過程のハイパーパラメータであるカーネル関数のパラメータを自動的に決定することが可能であり,本研究では,この枠組みを音声合成に適用する.我々の提案しているガウス過程に基づく統計的音声合成では計算量削減のためにpartially independent conditional(PIC)近似による近似を行っている.本橋では,PIC近似を用いたガウス過程のための効率的なハイパーパラメータの最適化手法として一般化EMアルゴリズムを用いる手法を提案する.客観および主観評価の結果から提案手法によって適切な予測分布が生成可能であることを示す.

  23. 英会話学習システムにおけるCGキャラクタの効果と学習者の発話タイミング制御のための付加表現に関する検討

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

    ISSN: 1880-7658

  24. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

    ISSN: 1880-7658

  25. 言語モデルと音響モデルを利用したアクセント句境界の自動推定 (音声)

    鈴木 啓史, 郡山 智樹, 能勢 隆, 篠崎 隆宏, 小林 隆夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (366) 97-102 2013年12月19日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    テキスト音声合成システムの構築にはアクセント情報に関する韻律情報ラベルが付与された音声データが必要不可欠であるが,アクセント情報の付与は主に人手で行われており高コストである,そこで本研究では,音声データの自動ラベリングを目的としたアクセント句の境界推定手法を提案する.提案手法では,音声を書き起こしたテキスト情報だけでなく,音声から得られるFOなどの音響特徴量を使用する.アクセント句境界モデルおよびアクセント型モデルといった言語モデルには条件付き確率場(CRF)を,そして音響モデルに隠れマルコフモデル(HMM)を使用し,それらを組み合わせてアクセント句の境界を推定する.本稿では,読み上げ音声に対するアクセント句境界推定実験を行い,従来法に比べ推定精度が向上することを示した.

  26. 言語モデルと音響モデルを利用したアクセント句境界の自動推定

    鈴木 啓史, 郡山 智樹, 能勢 隆, 篠崎 隆宏, 小林 隆夫

    研究報告音声言語情報処理(SLP) 2013 (16) 1-6 2013年12月12日

    出版者・発行元: 一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    テキスト音声合成システムの構築にはアクセント情報に関する韻律情報ラベルが付与された音声データが必要不可欠であるが,アクセント情報の付与は主に人手で行われており高コストである.そこで本研究では,音声データの自動ラベリングを目的としたアクセント句の境界推定手法を提案する.提案手法では,音声を書き起こしたテキスト情報だけでなく,音声から得られる F0 などの音響特徴量を使用する.アクセント句境界モデルおよびアクセント型モデルといった言語モデルには条件付き確率場 (CRF) を,そして音響モデルに隠れマルコフモデル (HMM) を使用し,それらを組み合わせてアクセント句の境界を推定する.本稿では,読み上げ音声に対するアクセント句境界推定実験を行い,従来法に比べ推定精度が向上することを示した.This paper proposes a technique for automatically estimating accent phrase boundaries for text-to-speech synthesis systems. To construct speech synthesis systems, we need to prepare a database that has annotations of prosodic information including accents. However, manual annotation for this purpose generally requires costly process. In contrast, the proposed method utilizes conditional random field (CRF) for the language models of accent phrase boundary and accent type, and uses hidden markov model (HMM) for the acoustic feature model. In this paper, we confirmed that the proposed method improved the estimation accuracy for reading-style speech data compared with conventional method.

  27. 多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討 (音声)

    能勢 隆, 金本 美沙, 郡山 知樹, 小林 隆夫

    電子情報通信学会技術研究報告 : 信学技報 112 (422) 79-84 2013年1月30日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では、HMMに基づく歌声合成における合成音声の多様化を目的とし、合成音声に現れるスタイルとその度合を直観的に操作できる重回帰HSMMに基づくスタイル制御法を提案する。提案法では、学習データに含まれるスタイルとその表出度合をスタイルベクトルと呼ばれる低次元のベクトルにより表し、これを説明変数とした重回帰によりモデルの各分布の平均パラメータを表現することでスタイルとその度合を明示的にモデル化する。合成時には所望のスタイルベクトルを与えることで、各スタイルの度合を弱める、あるいは強調することができる。さらに提案法では、限られた学習データで精度よく音高をモデル化するため、楽譜情報を利用した音高正規化学習を重回帰HSMMに導入する。また、ビブラートが顕著でない歌唱音声においても安定してビブラートパラメータを抽出できる手法を提案し、これらにより自然性を保ったまま、合成音声の歌唱スタイルを直観的に制御できることを主観評価により示す。

  28. 任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討 (音声)

    金川 裕紀, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告 : 信学技報 112 (422) 73-78 2013年1月30日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では目標話者の読上げ音声のみから所望のスタイルの音声を合成する不特定話者スタイル変換において、学習に使用した複数話者間の音響的差異による変換性能の低下を抑えるため、話者正規化学習の枠組みを変換行列の推定に導入する。不特定話者スタイル変換では、あらかじめ用意した複数話者の読上げおよび目標スタイルの音声を用いて読上げスタイルから目標スタイルへの変換行列を求め、これを目標話者の読上げスタイルのモデルに適用することで、目標話者の目標スタイルのモデルを生成する。しかし、変換行列の推定に用いる話者のスペクトル・韻律特徴が話者間で大きく異なる場合、この影響でスタイル変換において自然性が劣化してしまう。そこで提案法では、変換行列の推定の際に各話者の特徴量に対し話者適応に基づく話者正規化を行うことでこの問題を低減する。客観および主観評価にて、話者正規化が自然性改善に有効であることを示す。

  29. 多様な韻律生成のための多クラス局所韻律コンテキストの検討(オーガナイズドセッション「多様な音声・歌声の合成に向けて」,音声・言語・対話,一般)

    前野 悠, 能勢 隆, 小林 隆夫, 郡山 知樹, 井島 勇祐, 中嶋 秀治, 水野 秀之, 吉岡 理

    電子情報通信学会技術研究報告. SP, 音声 112 (422) 85-90 2013年1月23日

    出版者・発行元: 一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    HMM音声合成において、多様なスタイルを伴う音声に現れる局所的な表現の変化を合成音声に反映させるため、学習データに対する局所韻律コンテキストを新たに定義し、それらのコンテキストの自動ラベリング手法を提案する。韻律コンテキストは原音声と合成音声の韻律特徴量の差分を利用して付与する、具体的にはF0、継続長、パワー特徴量に対し、アクセント句単位での平均値の差分をそれぞれ3クラスに分類し。新たなコンテキストとして追加する。実験では商品宣伝および童話読み聞かせを想定して収録された音声を用い、評価用データを利用した理想的な場合および実際の利用場面を想定した場合の2つの条件においてそれぞれ評価を行う。

  30. HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用

    能勢 隆, チュンウィジター ワータヤー, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 112 (281) 43-48 2012年11月1日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,HMM音声合成においてスペクトル特徴量の局所的な系列内変動(LV)のモデル化とそれを用いたパラメータ生成法を提案する.提案法では,スペクトル特徴量の各フレームの近傍の変動を表す特徴量としてLVを定義し,それをコンテキスト依存音素HMMによりモデル化する.また,LVの時間的変化を適切にモデル化するため,LV系列の動的特徴量も考慮する.パラメータ生成時は学習したスペクトル特徴量モデルとLVモデルの両方を考慮した目的関数を最大化するようにパラメータの推定を行う.これによりパラメータ生成時に,従来の発話単位の系列内変動(GV)に比べより精密な系列内変動制約を課すことができ,原音声に近い合成音声を生成することができる.客観評価および主観評価により提案法の有効性を検討する.

  31. 強調音声合成のための局所韻律コンテキスト自動付与の検討

    前野 悠, 能勢 隆, 小林 隆夫, 井島 勇祐, 中嶋 秀治, 水野 秀之, 吉岡 理

    電子情報通信学会技術研究報告. SP, 音声 112 (81) 1-6 2012年6月7日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    HMM音声合成において,多様なスタイルを伴う音声に現れる強調表現を合成音声に反映させるため,学習データに対する強調コンテキストの自動ラベリング手法を提案する.我々はこれまでに商品宣伝を想定して収録された音声を対象とし,原音声と合成音声のアクセント句毎の基本周波数(F0)の差分に着目した強調コンテキストのラベリング手法を提案した.しかし,この手法では強調/非強調を判定するための閾値をあらかじめ主観評価などにより決定する必要があった.これに対し,本稿では学習データ全体の強調音声のF0の性質を利用し,閾値を自動で決定する手法を提案する.客観評価および主観評価実験から提案法の有効性を示す.

  32. HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

    能勢 隆, 小林 隆夫

    研究報告音声言語情報処理(SLP) 2011 (33) 1-6 2011年12月12日

    詳細を見る 詳細を閉じる

    HMM 音声合成における音素継続長の推定精度の改善を目的とし,動的特徴量を用いた音素継続長のモデル化および生成手法を提案する.継続長のモデル化については隠れセミマルコフモデル (HSMM) により状態継続長を明示的にモデル化する手法が提案されているが,音素継続長が直接モデル化されておらず,また音素間の継続長の関係はコンテキストのみで表現されている.提案法では,音素継続長を観測デ-タとみなし直接モデル化を行う.モデル化の際には,音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う.合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる.静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い,提案法の有効性を示す.This paper proposes a technique for modeling and generating phone durations using their dynamic features to improve prediction accuracy of phone durations in HMM-based speech synthesis. For the duration modeling, a technique with explicit state-duration modeling based on hidden semi-Markov model (HSMM) has been proposed. However, the HSMM cannot directly model phone durations, and the relation of phone durations among adjacent phonemes are represented only by context labels. In the proposed technique, phone durations are regarded as observable data obtained by manual labeling or forced alignment and are directly modeled using single Gaussian distributions. To explicitly take into account the correlation of phone durtions in the model training and speech synthesis, we use not only static phone durations but also dynamic ones. When synthesizing speech, we generate a phone-duration sequence from the trained duration models using a parameter generation algorithm with static and dynamic features. We evaluate the performance of our duration modeling technique by comparing to other techniques with static or static log-duration features.

  33. 韻律イベントHMMを用いた対話音声F0生成

    郡山 知樹, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 111 (364) 185-190 2011年12月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿ではHMM音声合成において話し言葉音声のF0パタンを効率的にモデル化するための手法として韻律イベントHMMを提案する.韻律イベントHMMではHMMの単位として,従来の音素の代わりにアクセントによるピッチの下降や句末境界音調(BPM)によるピッチの上昇などの韻律イベントの部分区間を使用する.韻律イベントはF0の変動と密接に結びついている上に音素に比べ発生頻度が低いため,韻律イベントに基づく単位を使用することでF0モデルのパラメータが効率的に表現され,その結果としてモデルパラメータの削減が期待される,対話音声に対して客観および主観評価実験を行い,合成音声の品質を保ったままモデルパラメータ数が大きく削減可能であることを確認した.

  34. パラ言語情報を表現可能な対話音声合成のための重回帰HSMMの検討

    永田 智洋, 森 大毅, 能勢 隆

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 111 (364) 179-184 2011年12月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では,隠れセミマルコフモデル(HSMM)に基づく音声合成方式に重回帰モデルを組み込んだ重回帰HSMMを用いて,対話音声に見られる多様なパラ言語情報を制御可能な音声合成を目指す.本研究では,パラ言語情報を少数の次元から構成される空間上の座標として表現し,この空間を構成する次元を重回帰モデルの説明変数として用いる.次元には感情状態を表す一般的な指標とされている「快-不快」,「覚醒睡眠」の2つの次元を用いる.モデルの学習時には各発話に対し次元毎に主観的に評価された評価値を用いて学習し,合成時には任意の評価値を与えて任意の感情状態の音声を合成する.合成された音声の音響的特徴量から,2つの次元が合成音声に与える影響について検討する.また,合成された音声に対して3つの主観評価実験を行った.まず,自然性評価を行い,合成された音声の自然性について示した.次に,再現性評価を行い,付与した感情状態の再現性について示した.最後に,感情状態の表出について評価を行い,意図した感情状態が伝達されていることを示した.

  35. HMM音声合成における不特定話者スタイル変換の検討

    金川 裕紀, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 111 (364) 191-196 2011年12月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本論文では隠れマルコフモデル(HMM)に基づく音声合成において,目標話者の読上げスタイルの音声のみから異なる目標スタイルの音声を生成する手法を提案する.従来,読上げスタイルモデルから少量の目標スタイル音声を用いてスタイル適応を行うことにより目標スタイルの任意の文章を合成する手法が提案されているが,目標スタイルの音声が得られない場合にはこの手法を利用することはできない.提案法では,あらかじめ複数の話者により学習された読上げスタイルモデルに対し,同じ話者による目標スタイルへのスタイル変換を線形変換により表現する.これにより得られる変換行列は特定の話者に依存しない不特定話者のスタイル変換を表すため,これを目標話者の読上げスタイルモデルに適用することで目標話者の目標スタイル音声が利用できない場合についてもスタイル音声の合成が可能となる.評価実験では変換後の合成音声について話者性,スタイル再現性および自然性の3つの観点から提案法の有効性を検討する.

  36. HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

    能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 111 (364) 197-202 2011年12月12日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    HMM音声合成における音素継続長の推定精度の改善を目的とし,動的特徴量を用いた音素継続長のモデル化および生成手法を提案する.継続長のモデル化については隠れセミマルコフモデル(HSMM)により状態継続長を明示的にモデル化する手法が提案されているが,音素継続長が直接モデル化されておらず,また音素問の継続長の関係はコンテキストのみで表現されている,提案法では,音素継続長を観測データとみなし直接モデル化を行う.モデル化の際には,音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う.合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる.静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い,提案法の有効性を示す.

  37. 日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価

    郡山 知樹, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 111 (28) 155-160 2011年5月5日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では自発性の高い対話音声の合成において,多様な韻律を生成するための拡張コンテキストの提案とその評価を行った結果を報告する.HMM音声合成では音韻・韻律の変動要因をコンテキストとして考慮し学習・合成を行っているが,従来の読上げ音声のためのコンテキストセットでは対話音声の韻律の多様性を実現することが困難である.そこで,大規模音声コーパスである日本語話し言葉コーパス(CSJ)に含まれる様々な情報をコンテキストとして追加し拡張コンテキストとした.従来のコンテキストと拡張コンテキストの比較を行い,音素引き延ばしおよびX-JToBIのトーン層ラベルに基づく情報がコンテキストとして有効であるという結果を得た.さらに,コンテキストの増加による過学習を避けるための決定木クラスタリングの新たな停止基準の導入や,実用上のシステムを考慮して合成時に一部の追加コンテキストを自動推定する手法の提案を行い,その有効性を評価した.

  38. 極低ビットレートボコーダのためのHMMに基づくF0符号化法の検討 (音声言語情報処理(SLP) Vol.2010-SLP-84)

    能勢 隆, 熊本 政真, 小林 隆夫

    情報処理学会研究報告 2010 (5) 1-6 2011年2月

    出版者・発行元: 情報処理学会

    ISSN: 1884-0930

  39. 極低ビットレートボコーダのためのHMMに基づくF0符号化法の検討

    能勢 隆, 熊本 政真, 小林 隆夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 110 (356) 189-194 2010年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本稿では極低ビットレートでの符号化を目的としたHMM音素ボコーダのためのF0符号化方法として,量子化F0シンボルを用いた多空間確率分布HMM(MSD-HMM)に基づく手法を提案する.提案法ではF0をMSD-HMMによりモデル化する際に音素毎の対数F0の平均値を量子化したシンボルを韻律コンテキストとして利用する.これにより,アクセント型などの韻律情報を用いずにF0のモデル化を行うことができる.符号化時は,入力音声から抽出されたF0を量子化F0シンボルに変換し,音素認識により得られた音素および状態継続長情報とともに伝送する.復号化時は音素と量子化F0シンボルから音声合成用のコンテキスト依存ラベルを作成し,与えられた状態継続長に基づいてあらかじめ学習したMSD-HMMを用いてスペクトルおよびF0系列を最尤基準により生成する.提案法では当該の音素,F0シンボルだけでなく,先行および後続の情報もコンテキストとして使用できるという利点がある.評価実験により,提案法によるF0符号化を用いた場合,50bit/s以下のビットレートでも符号化によるF0の劣化はほとんど気にならない程度であり,極低ビットレートでの音声符号化において有効であることを示す.

  40. 平均声に基づく対話音声合成に関する検討

    郡山 知樹, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 109 (375) 33-38 2010年1月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    少量の音声データから自然な対話音声を合成することを目的とし,平均声と話者適応を用いた隠れセミマルコフモデルに基づく音声合成手法について検討を行う.対話音声は自発性が高く,朗読音声と異なり音声の音響的特徴が話者や発話様式・発話意図などの影響を受け多様に変化するため,目標話者の限られた音声データのみで自然性の高い合成音声を生成することは容易ではない.提案法ではあらかじめ複数の話者の音声データを用いて学習された平均声モデルに対して話者適応を行うことにより,目標話者の音声データが数分以下とごく限られている場合でも目標話者の音響モデルを学習することが可能である.本研究では,対話音声,読上げ音声をそれぞれ用いて学習した平均声モデルを話者適応したモデルから得られた合成音声を客観実験により評価した。実験結果から,提案法による合成音声は従来の話者依存モデルに比べて良好な結果が得られ,また読上げ音声よりも対話音声を用いて学習した平均声モデルを用いた方が,客観評価において優れた結果となった.

  41. F0量子化と非パラレル学習に基づく声質変換の評価

    太田 悠平, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 109 (375) 27-32 2010年1月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    コンテキスト依存HMMに基づく声質変換法の有効性を示すためにGMMに基づく声質変換法との比較を中心に,客観及び主観評価実験を行った結果を報告する.この手法では元話者の入力音声に対して音韻及び韻律の情報を抽出し,これらの情報に基づいてあらかじめ学習した目標話者の音響モデルから音声を生成することで声質変換を実現している.また韻律のうち,ピッチ情報を適切にモデル化するために,従来HMM音声合成で用いられていた手動ラベリングに基づくアクセント情報ではなく,学習データのF0値自体を粗く量子化したシンボルをコンテキストとして利用することで学習データに対する自動ラベリングが可能である.さらに従来提案されているGMMに基づく声質変換法では音素単位や複数の音素にわたる音響的特徴に含まれる話者の個人性を適切に変換することが困難であったのに対し,HMMに基づく手法では音韻・韻律に関わるコンテキスト依存モデルを利用することにより,このようなセグメンタル・スープラセグメンタル特徴も変換することができる.評価の結果HMMに基づく手法を用いることにより,従来法よりも自然性が大幅に改善され,また話者性の変換においても従来を上回る結果が得られた.

  42. F0量子化と非パラレル学習に基づく声質変換の検討

    太田 悠平, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 109 (356) 171-176 2009年12月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    HMM音素認識とHMM音声合成を用いた非パラレル学習に基づく声質変換手法を提案する.提案法では,音素認識と基本周波数の量子化を利用し,変換元の話者の入力音声から音素情報,音素継続長,及び基本周波数パターンの大まかな変動情報を抽出し合成部に伝達する.合成部では,伝達された各情報からコンテキスト依存ラベルを作成し,これとあらかじめ学習しておいた目標話者の多空間確率分布HMMを用いて,音声を生成する。元話者と目標話者のモデルは独立に学習することが可能であるため,元話者と目標話者が同じ文章を発話したパラレルデータを用意する必要がないという特徴がある.また音素継続長に含まれる話者性の適切な変換のため,入力音声の各音素の継続長に対して線形変換を行う.本稿では,パラレルデータが利用可能でない場合,及び継続長の変換の効果について客観及び主観評価を行い,提案手法である非パラレルデータ学習に基づく声質変換法の有効性を示す.

  43. F0量子化に基づく韻律コンテキストを用いたHMM音声合成

    大木 康次郎, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 109 (356) 141-146 2009年12月14日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本論文では,隠れマルコフモデル(HMM)に基づく音声合成において,目標話者の学習データに対してアクセントに関わるコンテキストの手動ラベリングを必要とせずに合成音声を生成する手法を提案する.提案法では,従来のコンテキスト依存ラベルで用いられていたアクセント型などのコンテキストに代わり,音声の基本周波数(F0)の値を音素毎に粗く量子化したものをコンテキストとして用いて目標話者のF0をモデル化する.学習データのF0そのものからコンテキストを生成することで,F0に関するコンテキストについて高い精度での自動ラベリングが可能となる.合成時には,あらかじめ従来用いるコンテキスト依存ラベルにより学習された平均声モデルを利用して,入力テキストから一旦F0を生成し,このF0値を量子化することで合成用ラベルを自動生成する.この合成用ラベルを用いて,あらかじめ学習された目標話者モデルから目標話者の合成音声を生成する.客観評価実験及び主観評価実験を行い,提案法の有効性を示す.

  44. 重回帰HMMに基づく自然発話音声の発話様式識別

    能勢 隆, 松原 健, 井島 勇祐, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 109 (139) 31-36 2009年7月10日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本論文では重回帰隠れマルコフモデル(重回帰HMM)に基づく自然発話音声の発話様式識別と音声認識について検討する.重回帰HMMではモデルの各分布の平均パラメータをスタイルベクトルと呼ばれる低次元のベクトルの重回帰により表現する.スタイルベクトルの各次元はそれぞれ特定の発話様式の表出・強調度合を表しており,入力音声に対してスタイルベクトルを最尤推定することにより発話様式を識別することができる.また,スタイルベクトルを入力発話毎に推定し,推定されたスタイルベクトルによりモデルを更新することにより音声認識においてオンラインで音響モデルを入力音声の発話様式に適応することができる.日本語話し言葉コーパス(CSJ)による評価の結果,学習用の発話がごく少量の場合でも発話様式の識別率は十分高く,また音素認識実験においてもHMMの場合に比べ良好な結果が得られた.

  45. 自然な対話の中で物体の名前を覚えるロボット

    中野 幹生, 長井 隆行, 能勢 隆, 田口 亮, 水谷 了, 中村 友昭, 船越 孝太郎, 長谷川 雄二, 鳥井 豊隆, 岩橋 直人

    JSAI大会論文集 2009 (0) 1F2OS73-1F2OS73 2009年

    出版者・発行元: 一般社団法人 人工知能学会

    詳細を見る 詳細を閉じる

    <p>発話と画像情報を入力として,物の名前を覚えるロボットが研究されているが, 名前を覚えさせるモードをあらかじめ設定しておかなくてはならなかったり, 名前を覚えさせる発話のパタンが決まっていたりした.本稿では,さまざまな ドメインの対話を行うことができ,対話の途中で物の名前を教示する発話を聞 くと学習を行うことができるロボットのアーキテクチャとその実装について述 べる. </p>

  46. モデル選択による言語獲得手法とその評価

    田口 亮, 岩橋 直人, 能勢 隆, 船越 孝太郎, 中野 幹生

    JSAI大会論文集 2009 (0) 1F2OS72-1F2OS72 2009年

    出版者・発行元: 一般社団法人 人工知能学会

    詳細を見る 詳細を閉じる

    <p>本稿では,単語の知識を持たないロボットが,人の自由な発話から物や場所の名前を学習する手法を提案する.初期の単語候補は,学習データの音素認識結果から生成する.この単語候補を用いて単語認識と意味・文法の学習を行い,統計的モデル選択の基準を元に,音響的,文法的,意味的に不要な単語を削除・連結する.そして再び単語認識を行う.これを繰り返すことで,単語の正しい音素系列と意味が獲得される.</p>

  47. 重回帰HMMに基づくスタイル推定を用いた音声認識における音響モデル学習法

    井島勇祐, 橘 誠, 能勢 隆, 小林 隆夫

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (123) 37-42 2008年12月2日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    本論文では,重回帰 HMM に基づくスタイル推定を用いた音声認識手法において,この手法を容易に任意の話者へ適用することを目的に,重回帰 HMM の学習に話者非依存モデルとモデル適応手法を導入する手法を提案する.提案法では,まず話者非依存モデルに目標話者の各スタイルの少量の適応データを用いて,話者性とスタイルの同時適応を行い,重回帰 HMM の学習に用いる目標話者のスタイル適応 HMM を作成する.得られたスタイル適応 HMM のモデルパラメータと発話様式・感情表現 (スタイル) の表出度合を表すスタイルベクトルから,最小二乗法により重回帰 HMM の回帰行列を求め,最尤推定により補正を行う.プロのナレータと一般の発話者が発話した模擬感情音声に対して音素認識実験を行い,その結果から提案法の性能評価を行う.また,提案法ではスタイル推定の結果から,認識結果だけでなく入力音声のスタイルも得られることを示す.We propose a technique for emotional speech recognition based on multiple-regression HMM (MRHMM). To achieve emotional speech recognition for an arbitrary speaker with a small amount of training data, we incorporate a speaker and style adaptation technique into speaker-dependent MRHMM-based emotional speech recognition. In the proposed technique, we first adapt the speaker-independent model to target speaker's respective styles with a small amount of speech data. Then, using obtained speaker- and style-adapted HMMs and low-dimensional style control vector for each training style, the regression matrices of MRHMM are estimated based on least square method and maximum likelihood estimation. We assess the performance of the proposed technique on the recognition of acted emotional speech uttered by both professional narrators and non-professional speakers and show the effectiveness of the technique.

  48. 重回帰HMMに基づくスタイル推定を用いた音声認識における音響モデル学習法

    井島 勇祐, 橘 誠, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108 (337) 37-42 2008年12月2日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本論文では,重回帰HMMに基づくスタイル推定を用いた音声認識手法において,この手法を容易に任意の話者へ適用することを目的に,重回帰HMMの学習に話者非依存モデルとモデル適応手法を導入する手法を提案する.提案法では,まず話者非依存モデルに目標話者の各スタイルの少量の適応データを用いて,話者性とスタイルの同時適応を行い,重回帰HMMの学習に用いる目標話者のスタイル適応HMMを作成する.得られたスタイル適応HMMのモデルパラメータと発話様式・感情表現(スタイル)の表出度合を表すスタイルベクトルから,最小二乗法により重回帰HMMの回帰行列を求め,最尤推定により補正を行う.プロのナレータと一般の発話者が発話した模擬感情音声に対して音素認識実験を行い,その結果から提案法の性能評価を行う.また,提案法ではスタイル推定の結果から,認識結果だけでなく入力音声のスタイルも得られることを示す.

  49. 平均声からの話者適応手法を用いた重回帰HSMMに基づく合成音声の声質制御

    橘 誠, 河野 明文, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 108 (265) 41-46 2008年10月16日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本研究では,重回帰隠れセミマルコフモデル(重回帰HSMM)に基づく合成音声の声質制御手法において,様々な声質の制御を少量の学習データから容易に実現することを目的に,平均声モデルからの話者適応手法を導入することを提案する.提案手法では,まず平均声モデルに少量の適応データを用いて話者適応を行い,学習に用いる各話者の話者適応HSMMを作成する.得られた話者適応HSMMのモデルパラメータと話者毎の声質の特徴を表す声質ベクトルから,最小二乗基準で重回帰HSMMの回帰行列を求め,最尤推定により補正を行う.20名の各話者50文章のデータを用いた声質制御実験を行い,主観評価から提案手法が合成音声の声質制御に有効であることを示す.さらに,複数の重回帰HSMMをモデル補間する手法を提案し,これを用いて複数の声質を制御することを試み,その結果を報告する.

  50. HMM 音声合成システム (HTS) の開発

    全 炳河, 大浦圭一郎, 能勢 隆, 山岸 順一, 酒向慎司, 戸田 智基, 益子 貴史, ブラック アラン, 徳田 恵一

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 301-306 2007年12月21日

    出版者・発行元: 一般社団法人情報処理学会

    ISSN: 0919-6072

    詳細を見る 詳細を閉じる

    近年,隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される.音声合成時は,合成したい文章に対応する HMM からの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002 年より我々は,HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.A statistical parametric speech synthesis approach based on hidden Markov models (HMMs) has grown in popularity over the last few years. In this approach, spectrum, excitation, and duration of speech are simultaneously modeled by context-dependent HMMs, and speech waveforms are generated from the HMMs themselves. Since December 2002, we have publicly released an open-source software toolkit named "HMM-based speech synthesis system (HTS)" to provide a research and development toolkit of statistical parametric speech synthesis. This paper describes recent developments of HTS in detail, as well as future release plans.

  51. HMM音声合成システム(HTS)の開発

    全 炳河, 大浦 圭一郎, 能勢 隆, 山岸 順一, 酒向 慎司, 戸田 智基, 益子 貴史, ブラック アラン, 徳田 恵一

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 301-306 2007年12月13日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.

  52. 重回帰HSMMに基づく合成音声のスタイル制御のための平均声からの話者適応手法

    井澤 信介, 橘 誠, 能勢 隆, 小林 隆夫

    電子情報通信学会技術研究報告. SP, 音声 107 (282) 81-86 2007年10月18日

    出版者・発行元: 一般社団法人電子情報通信学会

    ISSN: 0913-5685

    詳細を見る 詳細を閉じる

    本論文では,隠れマルコフモデル(HMM)に基づく音声合成システムにおいて,少量の目標話者のデータから合成音声のスタイル制御を行う話者適応の実現を目的に,平均声と話者・スタイル適応を用いた重回帰HSMMによるモデル学習法を提案する.重回帰HSMMにおける話者適応では,ある特定話者モデルを初期モデルとしていた.しかし,目標話者の合成音声の品質が初期モデルの話者の特徴に影響する可能性があった.そこで本研究では,まず複数の話者の平均的な特徴を持つ平均声から少量の学習データで過応を行うことで話者依存HSMMを作成し,そのモデルを利用して重回帰HSMMの初期モデルを求める.次に重回帰HSMMによる話者適応を行い,少量の学習データのみで任意の目標話者に対し,初期モデルに依存しない目標話者のモデル作成を実現している.客観評価により提案モデルが各スタイル450文章で学習した話者依存重回帰HSMMに近いモデルであることを示す.さらに,主観評価から提案手法は合成音声の自然性が話者依存重回帰HSMMと同程度となることを示す.

︎全件表示 ︎最初の5件までを表示

書籍等出版物 3

  1. 音響キーワードブック

    能勢隆

    2016年3月22日

  2. 進化するヒトと機械の音声コミュニケーション

    能勢隆

    (株)エヌ・ティー・エス 2015年9月

  3. Human Machine Interaction - Getting Closer

    Ryo Taguchi, Naoto Iwahashi, Kotaro Funakoshi, Mikio Nakano, Takashi Nose, Tsuneo Nitta

    2012年1月

共同研究・競争的資金等の研究課題 16

  1. オンライン授業支援のためのバーチャル・クラスメートの開発

    伊藤 彰則, 塩入 諭, 能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2021年4月1日 ~ 2026年3月31日

    詳細を見る 詳細を閉じる

    このプロジェクトでは、オンライン授業、特にオンデマンド型講義に関して、受講者と対話しながら講義への集中と内容の理解を促す音声対話エージェントを開発することが目標である。そのための課題のうち、昨年度は次のサブテーマに取り組んだ。(1) オンライン講義ビデオから、重要な個所を自動推定する。(2) 最終的な対話エージェントのプロトタイプを作成する。(3) ビデオコンテンツおよび受講者のマルチモーダル情報から、エージェントの適切な動作を推定する。 このうち(1)に関して、今年度は3つの講義ビデオから重要箇所を推定した。まず、ビデオの内容を書き起こし、3名の実験参加者が重要箇所のアノテーションを行った。次に、書き起こしテキストに対して、文章要約アルゴリズムを使って重要文を抽出し、これを人手による重要箇所と比較した。要約手法として、Luhn, TextRank, LexRank, BERTSUMの4つの手法を比較した。その結果、全体としてはLexRankが安定して高い性能を示し、BERTSUMは講演者による性能の変動が大きいことが分かった。また、LexRank/BERTSUMとLuhnを組み合わせる方法を検討し、抽出文の中から重要語句を含まない文を排除することで性能が改善することが分かった。さらに、音声のピッチやパワーなどの韻律情報を組み合わせることを検討したところ、これも講演者による差が大きく、この差が何に起因するかを解明することが課題となった。 (2)に関しては、Unityを利用して、動画と対話エージェントを同時に表示するシステムのプロトタイプを完成させた。まだエージェントの表情やジェスチャなどの表現力が十分ではないため、これが課題となる。 (3)については、感情ラベル付き顔画像データベースであるCK+を用い、感情ラベルから顔表情のアクションユニットを生成するシステムを作成した。

  2. 話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援

    能勢 隆, 伊藤 彰則

    2022年4月1日 ~ 2025年3月31日

  3. 深層学習に基づくマルチモーダル対話型英会話学習システムの研究開発

    伊藤 彰則, 能勢 隆, 千葉 祐弥

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (A)

    研究機関:Tohoku University

    2017年4月1日 ~ 2021年3月31日

    詳細を見る 詳細を閉じる

    深層学習に基づく英会話学習システムのための要素技術を開発し,英会話の練習ができるCALLシステムを作成した.まず、深層学習に基づく音声・表情・ジェスチャに対するインターフェースの高度化・高精度化として,日本人英語音声を高精度に認識する技術を確立した.次に,深層学習に基づく英語発音評価・英会話シミュレーション技術を確立させるため,表情とジェスチャが英語の習熟度評価に与える影響を調べた.また,対話音声に対して高精度に発音評価を行う手法を確立した.最後に基盤要素技術を統合して音声対話型英会話学習システムを作成した.

  4. 平均声モーフィングを利用した日本語発音学習システムの研究開発

    能勢 隆, 千葉 祐弥

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Exploratory Research

    研究機関:Tohoku University

    2016年4月1日 ~ 2019年3月31日

    詳細を見る 詳細を閉じる

    本課題では、日本において非母語話者が日本語の発音学習を「低コストで」「手軽に」「確実に」行えるような新たな枠組の実現を目指した。具体的には複数の教師話者の音声により学習した平均教師声モデルによる統計的パラメトリック音声合成を利用し、音声の音韻や韻律(ピッチ・リズム)を特徴量毎に置換することで、従来よりも詳細で高精度な発音スコアのラベル付けを可能とした。この手法を用いて音韻、アクセント、リズムについて個別に発音スコアの予測モデルを学習し、非母語話者の発音スコアを予測することで、発音学習を効率的に行うことを実現した。

  5. 「自然な非人間性」に着目した新たな歌唱デザイン論の研究

    森勢 将雅, 能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Exploratory Research

    研究機関:University of Yamanashi

    2016年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    VOCALOIDを代表とする歌声合成ソフトウェアが広く一般に普及するにつれ,計算機による「人間的」な歌唱を目指す数多くの取り組みがなされてきた.一方,Auto-Tuneなどのソフトウェアを用いた「非人間的」な歌唱もコンテンツとして利用されている.ここでは,コンテンツとしての自然さと非人間性を両立する歌声が存在するか確認するため,人間性を制御する加工法について研究に取り組んだ.実験の結果,提案法により,人間の歌声が有する揺らぎ成分を除去するという従来のアプローチだけではなく,誇張させた場合でも一定の自然さを保ちつつ非人間的な歌声を生成できることを確認した.

  6. ガウス過程回帰に基づく音声合成技術の確立

    小林 隆夫, 郡山 知樹, Moungsri Decha, 長濱 大樹, 能勢 隆, Arifianto Dhany

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tokyo Institute of Technology

    2015年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    多様で表情豊かな音声合成の実現に向け,統計的パラメトリック音声合成の新たな枠組みであるガウス過程回帰に基づく音声合成(GPR音声合成)技術の確立をめざして研究を行った。ガウス過程回帰に基づいたスペクトルパラメータ生成に加え,基本周波数および音韻継続長予測からなる韻律生成手法を提案し,GPR音声合成システムを構築した。評価実験を通してGPR音声合成手法の有効性を示すとともに,多様な話者性やスタイルによる音声合成への応用,従来手法では合成音声の韻律の自然性が不十分であった声調言語への適用を検討し,提案手法の有用性を示した。

  7. 状態推定に基づく多様な音声の認識・合成による「人にやさしい」対話システムの研究

    能勢 隆, 伊藤 彰則, 千葉 祐弥, 森 大毅

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2015年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    本研究課題では、「人にやさしい」対話システムを実現するため、多様な音声の認識および合成手法の改善や高度化、および対話者の状態推定手法とその利用について検討を行なった。具体的には(1)音声対話における感情利用の妥当性、および感情推定法について検討した。(2)音韻と韻律コンテキストを考慮した拡張エントロピーに基づく文選択法の提案・評価を行なった。(3)対話意欲推定のために、対話の収録・分析を行なった。(4)感情音声合成・感情音声認識・感情推定に利用可能な大規模な感情音声コーパスを構築した。(5)多様で高品質な音声合成手法として分散補償およびテーラーメイド音声合成手法を提案・評価した。

  8. Affect burst―音声対話における無意識な感情表出の分析および合成

    森 大毅, 有本 泰子, 能勢 隆, 永田 智洋

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Utsunomiya University

    2014年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    (1) 叫び声を誘発しやすいオンラインゲームをプレイする状況のコーパスを開発した。このコーパスには既存コーパスの10倍以上の頻度で叫び声が含まれている。叫び声の音響分析により、通常語彙や感動詞との音響的特性の違いを明らかにした。 (2) 感情表出系感動詞の形態を分類し、多様な形態を持つ「あ」を合成した。合成音声を用いた知覚実験により、形態とパラ言語情報との関係を明らかにした。 (3) 自然対話コーパスから笑い声の構成要素の変動要因を明らかにするとともに、コーパスベース音声合成を応用した多様な笑い声合成を実現した。知覚実験により、定義した変動要因を考慮することにより自然性が向上することがわかった。

  9. 音声認識生成システムの自己組織化学習

    篠崎 隆宏, 能勢 隆, Duh Kevin, 荒井 隆行, 渡部 晋治

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tokyo Institute of Technology

    2014年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    少量のラベル付き音声データと大量のラベル無し音声データから音声言語を学習したり、人手に頼ることなく自動的にシステム構造や学習条件を最適化しシステム性能を最大化したりすることのできる、自律的な音声言語情報処理システムの仕組みを実現することを目的に研究を行った。進化戦略を用いた大規模なニューラルネットワークシステムの自動最適化手法や、音声をモデル化する各種の統計モデルの教師なし学習法、強化学習法の提案を行い、実験により有効性を示した。研究成果発表の一環として公開したフリーな高性能日本語音声認識システムは、国内外で幅広く用いられている。

  10. 日本語文難易度推定と音声合成による「やさしい日本語」作成補助システムの研究開発

    伊藤 彰則, 佐藤 和之, 能勢 隆, 千葉 祐弥, 長野 雄

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2014年4月1日 ~ 2017年3月31日

    詳細を見る 詳細を閉じる

    「やさしい日本語」の文作成および音声アナウンス作成を高度化するため、やさしい日本語支援システム「やんしす」の高度化、およびそれに必要な調査研究を行った。調査内容としては、文難易度の自動推定、文の難易度、話速、ポーズおよび音響環境による音声劣化が文の聴き取りにどのように影響するかを調べた。これによって「やさしい日本語」音声として適切な話速が明らかになった。これを受けて、文難易度推定および音声合成機能を「やんしす」に実装した。

  11. 多様で肉声感の高い音声生成のための素片正規化に基づくハイブリッド音声合成の研究

    能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Young Scientists (B)

    研究機関:Tohoku University

    2013年4月1日 ~ 2015年3月31日

    詳細を見る 詳細を閉じる

    本研究は,任意の話者の限られた音声データのみで「人間に近い肉声感」をもち,かつ様々な感情や発話様式を表現可能なハイブリッド型の音声合成方式を確立することを目的として研究を行い,以下の6つの項目について成果が得られた.(1)非言語情報やパラ言語情報を柔軟に再現・制御可能とする,(2)韻律の多様性を自動学習する,(3)多言語の音声合成への拡張を行う,(4)音声だけでなく歌声への応用についても検討する,(5)このような音声コーパスを効率的に構築する方法を確立する,(6)従来のパラメータ生成法を改善し主観品質を向上する,

  12. ガウス過程回帰モデルに基づくノンパラメトリック音声合成の研究

    小林 隆夫, 能勢 隆, 郡山 知樹

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Exploratory Research

    研究機関:Tokyo Institute of Technology

    2013年4月1日 ~ 2015年3月31日

    詳細を見る 詳細を閉じる

    隠れマルコフモデルに基づく音声合成手法の性能の限界を超えて,より多様で自然な合成音声を生成するために,ノンパラメトリックモデルを用いた音声合成手法を確立することをめざして研究を行った。提案する音声合成手法におけるモデル化はガウス過程回帰に基づいており,入力テキストに対してフレーム単位で音声合成に必要なパラメータを予測するためのカーネル関数の設計,計算量削減手法,ハイパーパラメータの自動最適化手法,ガウス過程分類を導入した韻律情報のモデル化手法などの検討を行った。

  13. ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

    小林 隆夫, 能勢 隆, 郡山 知樹

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tokyo Institute of Technology

    2012年4月1日 ~ 2015年3月31日

    詳細を見る 詳細を閉じる

    多様で表現豊かな音声合成の実現のために,モデル学習用音声データの量や質の変動に頑健で自然性の高い合成音声を生成するロバスト音声合成技術の深化をめざして研究を行った。ロバスト音声合成の基本技術として,学習用音声データのスタイル表出度合に依存しにくいスタイル制御モデルの構築法や韻律モデリング手法を提案し,評価実験を通してその有効性を示した。また,音声資源が乏しい言語へのロバスト音声合成技術の応用や新たなクロスリンガル音声合成手法を提案し,多言語音声コミュニケーションへの展開の検討を行った。

  14. 次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

    能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Young Scientists (B)

    2011年 ~ 2012年

    詳細を見る 詳細を閉じる

    本研究課題は人間に近いより自然で多様な音声合成システムの実現を目指すものであり、研究期間全体を通じて以下の項目について研究成果が得られた。 (1)アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。(2)ユーザによる主観的な感情の度合を定量化してモデル学習に組み込む新たな枠組を提案した。(3)強調表現を含む音声を自動的に生成するため、声の高さを表す基本周波数(F0)に着目し、F0生成を利用した強調表現の自動ラベリングを実現した。(4)言語の多様化手法として、目標話者の母国語音声のみからその話者の外国語音声を合成する手法を提案した。

  15. 個性及び表現性ロバストな音声言語インタフェースに関する研究

    小林 隆夫, 長橋 宏, 能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tokyo Institute of Technology

    2009年 ~ 2011年

    詳細を見る 詳細を閉じる

    ユーザの嗜好や気分に応じた表現豊かな音声出力と,ユーザの個性,気分や話し方の変化に頑健な音声入力ができる音声インタラクションを実現するためのロバスト音声認識・合成技術の確立を目指して研究を行った。ロバスト音声合成では,基本周波数量子化に基づく韻律コンテキストや自然発話・会話音声合成のための拡張コンテキストに基づく音声合成手法を,またロバスト音声認識では,感情表現・発話様式などのパラ言語情報の検出・表出度合の推定手法及び高速なモデル適応手法を確立し,その有効性を示した。

  16. ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究

    能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Research Activity Start-up

    研究機関:Tokyo Institute of Technology

    2009年 ~ 2010年

    詳細を見る 詳細を閉じる

    ヒューマノイド音声対話システムの実現に向けた話し言葉音声合成のための基盤技術として、(1)統計モデルに基づく話し言葉音声合成の検討、(2)統計モデルに基づく不特定話者声質変換の検討、(3)音声合成における音韻・韻律コンテキストの詳細な評価、を行った。

︎全件表示 ︎最初の5件までを表示