東北大学研究者紹介

研究者詳細

ホーム

日本語 English

ノセ　タカシ

能勢　隆

Takashi Nose

所属

大学院工学研究科　通信工学専攻　知的通信ネットワーク工学講座（マルチメディア通信分野）

職名

准教授

学位

博士（工学）（東京工業大学）

researchmap

https://researchmap.jp/7000007028

J-GLOBAL ID

201401047826406636

ORCID

https://orcid.org/0000-0002-2278-0429

学歴 1

東京工業大学　総合理工学研究科　物理情報システム専攻

2006年4月～ 2009年3月

委員歴 5

日本音響学会東北支部　会計幹事

2024年4月～継続中
日本音響学会東北支部　会計監査

2018年4月～ 2020年3月
日本音響学会東北支部　庶務幹事

2016年4月～ 2018年3月
日本音響学会東北支部　会計幹事

2014年4月～ 2016年3月
音声研究会　幹事補佐

2014年4月～ 2016年3月

所属学協会 5

ISCA
情報処理学会
音響学会
電子情報通信学会
IEEE

研究キーワード 7

マルチメディア情報処理
音楽情報処理
音声符号化
音声対話
音声認識
音声合成
音声情報処理

研究分野 2

情報通信 / 知能ロボティクス /
情報通信 / 知覚情報処理 /

論文 161

The Development of an Emotional Embodied Conversational Agent and the Evaluation of the Effect of Response Delay on User Impression

Simon Christophe Jolibois, Akinori Ito, Takashi Nose

Applied Sciences　2025年4月11日

DOI： 10.3390/app15084256 　
Adaptive Fine-Grained Pruning via Binary Search for Efficient Environmental Sound Classification

Changlong Wang, Akinori Ito, Takashi Nose

IEEE Access　2025年

DOI： 10.1109/ACCESS.2025.3617879 　
Generation of Listening Motion of Embodied Conversational Agents Using Speech and Text Information

Haruki Ito, Akinori Ito, Takashi Nose

2025年

DOI： 10.1007/978-3-032-05994-9_10 　
Unified model for voice conversion of speech and singing voice using adaptive pitch constraints

Shogo Fukawa, Takashi Nose, Shuhei Imai, Akinori Ito

Acoustical Science and Technology　46　(1)　120-123　2025年1月1日
出版者・発行元： Acoustical Society of Japan
DOI： 10.1250/ast.e24.47 　

ISSN：1346-3969

eISSN：1347-5177
We open our mouths when we are silent

Shoki Kawanishi, Yuya Chiba, Akinori Ito, Takashi Nose

Acoustical Science and Technology　46　(1)　96-99　2025年1月1日
出版者・発行元： Acoustical Society of Japan
DOI： 10.1250/ast.e24.21 　

ISSN：1346-3969

eISSN：1347-5177
Selection of key sentences from lecture video transcription and its application to feedback to the learner

Miki Takeuchi, Akinori Ito, Takashi Nose

Proceedings of the 2024 8th International Conference on Education and Multimedia Technology　218-223　2024年6月22日
出版者・発行元： ACM
DOI： 10.1145/3678726.3678733 　
Character Expressions in Meta-Learning for Extremely Low Resource Language Speech Recognition

Rui Zhou, Akinori Ito, Takashi Nose

Proceedings of the 2024 16th International Conference on Machine Learning and Computing　2024年2月2日
出版者・発行元： ACM
DOI： 10.1145/3651671.3651730 　
Evaluation of Environmental Sound Classification using Vision Transformer

Changlong Wang, Akinori Ito, Takashi Nose, Chia-Ping Chen

Proceedings of the 2024 16th International Conference on Machine Learning and Computing　665-669　2024年2月2日
出版者・発行元： ACM
DOI： 10.1145/3651671.3651733 　
Toward Photo-Realistic Facial Animation Generation Based on Keypoint Features

Zikai Shu, Takashi Nose, Akinori Ito

Proceedings of the 2024 16th International Conference on Machine Learning and Computing　39　334-339　2024年2月2日
出版者・発行元： ACM
DOI： 10.1145/3651671.3651731 　
Scheduled Curiosity-Deep Dyna-Q: Efficient Exploration for Dialog Policy Learning

Niu, X., Ito, A., Nose, T.

IEEE Access　12　2024年1月31日

DOI： 10.1109/ACCESS.2024.3376418 　

ISSN：2169-3536
Simultaneous Adaptation of Acoustic and Language Models for Emotional Speech Recognition Using Tweet Data

Kosaka, T., Saeki, K., Aizawa, Y., Kato, M., Nose, T.

IEICE Transactions on Information and Systems　E107.D　(3)　2024年

DOI： 10.1587/transinf.2023HCP0010 　

ISSN：1745-1361 0916-8532
A Replaceable Curiosity-Driven Candidate Agent Exploration Approach for Task-Oriented Dialog Policy Learning

Niu, X., Ito, A., Nose, T.

IEEE Access　12　2024年

DOI： 10.1109/ACCESS.2024.3462719 　

ISSN：2169-3536
Multilingual Meta-Transfer Learning for Low-Resource Speech Recognition

Zhou, R., Koshikawa, T., Ito, A., Nose, T., Chen, C.-P.

IEEE Access　2024年

DOI： 10.1109/ACCESS.2024.3486711 　

ISSN：2169-3536
Fast end-to-end non-parallel voice conversion based on speaker-adaptive neural vocoder with cycle-consistent learning

Shuhei Imai, Aoi Kanagaki, Takashi Nose, Shogo Fukawa, Akinori Ito

Acoustical Science and Technology　2024年
出版者・発行元： Acoustical Society of Japan
DOI： 10.1250/ast.e24.46 　

ISSN：1346-3969

eISSN：1347-5177
Multimodal Expressive Embodied Conversational Agent Design

Simon Jolibois, Akinori Ito, Takashi Nose

Communications in Computer and Information Science　244-249　2023年7月9日
出版者・発行元： Springer Nature Switzerland
DOI： 10.1007/978-3-031-35989-7_31 　

ISSN：1865-0929

eISSN：1865-0937
Effect of Data Size and Machine Translation on the Accuracy of Automatic Personality Classification

Yuki Fukazawa, Akinori Ito, Takashi Nose

Advances in Intelligent Information Hiding and Multimedia Signal Processing　405-413　2023年5月24日
出版者・発行元： Springer Nature Singapore
DOI： 10.1007/978-981-99-0105-0_36 　

ISSN：2190-3018

eISSN：2190-3026
Spoken term detection from utterances of minority languages

Ito, A., Mizuochi, S., Nose, T.

Issues in Japanese Psycholinguistics from Comparative Perspectives: Volume 1: Cross-Linguistic Studies　2023年

DOI： 10.1515/9783110778946-014 　
Response Sentence Modification Using a Sentence Vector for a Flexible Response Generation of Retrieval-based Dialogue Systems

Ryota Yahagi, Akinori Ito, Takashi Nose, Yuya Chiba

2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)　2022年11月7日
出版者・発行元： IEEE
DOI： 10.23919/apsipaasc55919.2022.9979841 　
Design and Construction of Japanese Multimodal Utterance Corpus with Improved Emotion Balance and Naturalness

Daisuke Horii, Akinori Ito, Takashi Nose

2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC)　2022年11月7日
出版者・発行元： IEEE
DOI： 10.23919/apsipaasc55919.2022.9980272 　
Multimodal Dialogue Response Timing Estimation Using Dialogue Context Encoder

Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

Lecture Notes in Electrical Engineering　133-141　2022年11月1日
出版者・発行元： Springer Nature Singapore
DOI： 10.1007/978-981-19-5538-9_9 　

ISSN：1876-1100

eISSN：1876-1119
Spoken Term Detection of Zero-Resource Language Using Posteriorgram of Multiple Languages

Satoru MIZUOCHI, Takashi NOSE, Akinori ITO

Interdisciplinary Information Sciences　28　(1)　1-13　2022年
出版者・発行元： Graduate School of Information Sciences, Tohoku University
DOI： 10.4036/iis.2022.a.04 　

ISSN：1340-9050

eISSN：1347-6157
Analysis of Feature Extraction by Convolutional Neural Network for Speech Emotion Recognition

Daisuke Horii, Akinori Ito, Takashi Nose

2021 IEEE 10th Global Conference on Consumer Electronics (GCCE)　2021年10月12日
出版者・発行元： IEEE
DOI： 10.1109/gcce53005.2021.9621964 　
Improvement of Automatic English Pronunciation Assessment with Small Number of Utterances Using Sentence Speakability

Satsuki Naijo, Akinori Ito, Takashi Nose

Interspeech 2021　2021年8月30日
出版者・発行元： ISCA
DOI： 10.21437/interspeech.2021-1132 　
Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational Systems

Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

Interspeech 2021　2021年8月30日
出版者・発行元： ISCA
DOI： 10.21437/interspeech.2021-381 　
SMOC corpus: A large-scale Japanese spontaneous multimodal one-on-one chat-talk corpus for dialog systems

Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

Acoustical Science and Technology　42　(4)　210-213　2021年7月1日
出版者・発行元： Acoustical Society of Japan
DOI： 10.1250/ast.42.210 　

ISSN：1346-3969

eISSN：1347-5177
CycleGAN-Based High-Quality Non-Parallel Voice Conversion with Spectrogram and WaveRNN

Aoi Kanagaki, Masaya Tanaka, Takashi Nose, Ryohei Shimizu, Akira Ito, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　356-357　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291952 　
Incremental response generation using prefix-to-prefix model for dialogue system

Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　349-350　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291883 　
A study on minimum spectral error analysis of speech

Takuma Hayasaka, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　362-363　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291840 　
Filler prediction based on bidirectional LSTM for generation of natural response of spoken dialog

Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　360-361　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291867 　
Successive Japanese lyrics generation based on encoder-decoder model

Rikiya Takahashi, Takashi Nose, Yuya Chiba, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　126-127　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291718 　
Analysis and Estimation of Sentence Speakability for English Pronunciation Evaluation

Satsuki Naijo, Yuya Chiba, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　353-355　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9292072 　
LJSing: large-scale singing voice corpus of single Japanese singer

Takuto Fujimura, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　364-365　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291704 　
Improving Pronunciation Clarity of Dysarthric Speech Using CycleGAN with Multiple Speakers

Shuhei Imai, Takashi Nose, Aoi Kanagaki, Satoshi Watanabe, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　366-367　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9292041 　
Spoken term detection based on acoustic models trained in multiple languages for zero-resource language

Satoru Mizuochi, Yuya Chiba, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　351-352　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291761 　
Integration of accent sandhi and prosodic features estimation for japanese text-to-speech synthesis

Daisuke Fujimaki, Takashi Nose, Akinori Ito

2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020　358-359　2020年10月13日

DOI： 10.1109/GCCE50665.2020.9291906 　
Language modeling in speech recognition for grammatical error detection based on neural machine translation

Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

Acoustical Science and Technology　41　(5)　788-791　2020年9月1日
出版者・発行元： Acoustical Society of Japan
DOI： 10.1250/ast.41.788 　

ISSN：1346-3969

eISSN：1347-5177
Scyclone: High-Quality and Parallel-Data-Free Voice Conversion Using Spectrogram and Cycle-Consistent Adversarial Networks

Masaya Tanaka, Takashi Nose, Aoi Kanagaki, Ryohei Shimizu, Akira Ito

2020年5月7日

詳細を見る詳細を閉じる

This paper proposes Scyclone, a high-quality voice conversion (VC) technique without parallel data training. Scyclone improves speech naturalness and speaker similarity of the converted speech by introducing CycleGAN-based spectrogram conversion with a simplified WaveRNN-based vocoder. In Scyclone, a linear spectrogram is used as the conversion features instead of vocoder parameters, which avoids quality degradation due to extraction errors in fundamental frequency and voiced/unvoiced parameters. The spectrogram of source and target speakers are modeled by modified CycleGAN networks, and the waveform is reconstructed using the simplified WaveRNN with a single Gaussian probability density function. The subjective experiments with completely unpaired training data show that Scyclone is significantly better than CycleGAN-VC2, one of the existing state-of-the-art parallel-data-free VC techniques.
Automatic assessment of English proficiency for Japanese learners without reference sentences based on deep neural network acoustic models

Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

Speech Communication　116　86-97　2020年1月

DOI： 10.1016/j.specom.2019.12.002 　

ISSN：0167-6393
A symbol-level melody completion based on a convolutional neural network with generative adversarial learning

Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

Journal of Information Processing　28　248-257　2020年

DOI： 10.2197/ipsjjip.28.248 　

ISSN：0387-5806

eISSN：1882-6652
Construction and analysis of a multimodal chat-talk corpus for dialog systems considering interpersonal closeness

Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings　443-448　2020年
Multi-stream attention-based BLSTM with feature segmentation for speech emotion recognition

Yuya Chiba, Takashi Nose, Akinori Ito

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH　2020-October　3301-3305　2020年

DOI： 10.21437/Interspeech.2020-1199 　

ISSN：2308-457X

eISSN：1990-9772
Developing a Multi-Platform Speech Recording System Toward Open Service of Building Large-Scale Speech Corpora

Keita Ishizuka, Takashi Nose

2019年12月19日

詳細を見る詳細を閉じる

This paper briefly reports our ongoing attempt at the development of a multi-platform browser-based speech recording system. We designed the system toward a service of providing open service of building large-scale speech corpora at a low-cost for any researchers and developers related to speech processing. The recent increase in the use of crowdsourcing services, e.g., Amazon Mechanical Turk, enable us to reduce the cost of collecting speakers in the web, and there have been many attempts to develop the automated speech collecting platforms or application that is designed for the use the crowdsourcing. However, one of the major problems in the previous studies and developments for the attempts is that most of the systems are not a form of common service of speech recording and corpus building, and each corpus builder is necessary to develop the system in their own environment including a web server. For this problem, we develope a new platform where both the corpus builders and recording participants can commonly use a single system and service by creating their user accounts. A brief introduction of the system is given in this paper as the start of this challenge.
Improving human scoring of prosody using parametric speech synthesis 査読有り

Prafianto, H., Nose, T., Chiba, Y., Ito, A.

Speech Communication　111　14　2019年8月
出版者・発行元： Elsevier {BV}
DOI： 10.1016/j.specom.2019.06.001 　

ISSN：0167-6393
Multi-condition training for noise-robust speech emotion recognition

Yuya Chiba, Takashi Nose, Akinori Ito

Acoustical Science and Technology　40　(6)　406-409　2019年

DOI： 10.1250/ast.40.406 　

ISSN：1346-3969

eISSN：1347-5177
Evaluation of English Speech Recognition for Japanese Learners Using DNN-Based Acoustic Models 査読有り

Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　110　93-100　2019年1月
Comparison of Speech Recognition Performance Between Kaldi and Google Cloud Speech API 査読有り

Takashi Kimura, Takashi Nose, Shinji Hirooka, Yuya Chiba, Akinori Ito

Smart Innovation, Systems and Technologies　110　109-115　2019年1月
Segmental Pitch Control Using Speech Input Based on Differential Contexts and Features for Customizable Neural Speech Synthesis 査読有り

Shinya Hanabusa, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　110　124-131　2019年1月
Melody Completion Based on Convolutional Neural Networks and Generative Adversarial Learning 査読有り

Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

Smart Innovation, Systems and Technologies　110　116-123　2019年1月
Two-Stage Sequence-to-Sequence Neural Voice Conversion with Low-to-High Definition Spectrogram Mapping 査読有り

Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito

Smart Innovation, Systems and Technologies　110　132-139　2019年1月
DNN-Based Talking Movie Generation with Face Direction Consideration 査読有り

Toru Ishikawa, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　110　157-164　2019年1月
A Study on a Spoken Dialogue System with Cooperative Emotional Speech Synthesis Using Acoustic and Linguistic Information 査読有り

Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　110　101-108　2019年1月
Improvement of accent sandhi rules based on Japanese accent dictionaries 査読有り

Hiroto Aoyama, Takashi Nose, Yuya Chiba, Akinori Ito

Smart Innovation, Systems and Technologies　110　140-148　2019年1月

DOI： 10.1007/978-3-030-03748-2_17 　

ISSN：2190-3018
Data collection and analysis for automatically generating record of human behaviors by environmental sound recognition 査読有り

Takahiro Furuya, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　110　149-156　2019年1月1日

DOI： 10.1007/978-3-030-03748-2_18 　

ISSN：2190-3018
Effect of mutual self-disclosure in spoken dialog system on user impression 査読有り

Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

Proceedings of 2018 APSIPA-ASC　806-810　2018年11月
Improving User Impression in Spoken Dialog System with Gradual Speech Form Control. 査読有り

Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018　235-240　2018年7月
出版者・発行元： Association for Computational Linguistics
An Analysis of the Effect of Emotional Speech Synthesis on Non-Task-Oriented Dialogue System. 査読有り

Yuya Chiba, Takashi Nose, Taketo Kase, Mai Yamanaka, Akinori Ito

Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018　371-375　2018年7月
出版者・発行元： Association for Computational Linguistics
Analyses of example sentences collected by conversation for example-based non-task-oriented dialog system 査読有り

Kageyama, Y., Chiba, Y., Nose, T., Ito, A.

IAENG International Journal of Computer Science　45　(2)　285-293　2018年5月

ISSN：1819-9224 1819-656X
Analyzing effect of physical expression on English proficiency for multimodal computer-assisted language learning 査読有り

Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH　2018-September　1746-1750　2018年1月1日
出版者・発行元： ISCA
DOI： 10.21437/Interspeech.2018-1425 　

ISSN：2308-457X
Analysis of preferred speaking rate and pause in spoken Easy Japanese for non-native listeners 査読有り

Hafiyan Prafiyanto, Takashi Nose, Yuya Chiba, Akinori Ito

Acoustical Science and Technology　39　92-100　2018年1月1日

DOI： 10.1250/ast.39.92 　

ISSN：1346-3969
Dialog-based interactive movie recommendation: Comparison of dialog strategies 査読有り

Hayato Mori, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　82　77-83　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_10 　

ISSN：2190-3026 2190-3018

eISSN：2190-3026
A study on 2D photo-realistic facial animation generation using 3D facial feature points and deep neural networks 査読有り

Kazuki Sato, Takashi Nose, Akira Ito, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

Smart Innovation, Systems and Technologies　82　113-118　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_15 　

ISSN：2190-3026 2190-3018
Voice conversion from arbitrary speakers based on deep neural networks with adversarial learning 査読有り

Sou Miyamoto, Takashi Nose, Suzunosuke Ito, Harunori Koike, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

Smart Innovation, Systems and Technologies　82　97-103　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_13 　

ISSN：2190-3026 2190-3018

eISSN：2190-3026
Response selection of interview-based dialog system using user focus and semantic orientation 査読有り

Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　82　84-90　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_11 　

ISSN：2190-3026 2190-3018

eISSN：2190-3026
Development and evaluation of julius-compatible interface for Kaldi ASR 査読有り

Yusuke Yamada, Takashi Nose, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

Smart Innovation, Systems and Technologies　82　91-96　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_12 　

ISSN：2190-3026 2190-3018

eISSN：2190-3026
Detection of singing mistakes from singing voice 査読有り

Isao Miyagawa, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　82　130-136　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_17 　

ISSN：2190-3026 2190-3018

eISSN：2190-3026
Evaluation of nonlinear tempo modification methods based on sinusoidal modeling 査読有り

Kosuke Nakamura, Yuya Chiba, Takashi Nose, Akinori Ito

Smart Innovation, Systems and Technologies　82　104-111　2018年
出版者・発行元： Springer Science and Business Media Deutschland GmbH
DOI： 10.1007/978-3-319-63859-1_14 　

ISSN：2190-3026 2190-3018

eISSN：2190-3026
Analysis of Efficient Multimodal Features for Estimating User’s Willingness to Talk: Comparison of Human-Machine and Human-Human Dialog 査読有り

2018-February　1-4　2017年12月13日

DOI： 10.1109/APSIPA.2017.8282069 　
HMM-Based Photo-Realistic Talking Face Synthesis Using Facial Expression Parameter Mapping with Deep Neural Networks 査読有り

Kazuki Sato, Takashi Nose, Akinori Ito

Journal of Computer and Communications　5　(10)　55-65　2017年8月

DOI： 10.4236/jcc.2017.510006 　
日常音識別による活動記録自動生成のためのデータの収集と分析

古谷崇拓, 千葉祐弥, 能勢隆, 伊藤彰則

情報処理学会研究報告　1-6　2017年6月17日
Cluster-based approach to discriminate the user’s state whether a user is embarrassed or thinking to an answer to a prompt 査読有り

Yuya Chiba, Takashi Nose, Akinori Ito

Journal on Multimodal User Interfaces　11　(2)　185-196　2017年6月

DOI： 10.1007/s12193-017-0238-y 　

ISSN：1783-7677

eISSN：1783-8738
Sentence Selection Based on Extended Entropy Using Phonetic and Prosodic Contexts for Statistical Parametric Speech Synthesis 査読有り

Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga

IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING　25　(5)　1107-1116　2017年5月

DOI： 10.1109/TASLP.2017.2688585 　

ISSN：2329-9290

eISSN：2329-9304
Dimensional paralinguistic information control based on multiple-regression HSMM for spontaneous dialogue speech synthesis with robust parameter estimation 査読有り

Tomohiro Nagata, Hiroki Mori, Takashi Nose

SPEECH COMMUNICATION　88　137-148　2017年4月

DOI： 10.1016/j.specom.2017.01.002 　

ISSN：0167-6393

eISSN：1872-7182
A Study on Tailor-Made Speech Synthesis Based on Deep Neural Networks 査読有り

Shuhei Yamada, Takashi Nose, Akinori Ito

ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL 1　63　159-166　2017年

DOI： 10.1007/978-3-319-50209-0_20 　

ISSN：2190-3018
Synthesis of Photo-Realistic Facial Animation from Text Based on HMM and DNN with Animation Unit 査読有り

Kazuki Sato, Takashi Nose, Akinori Ito

ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL 2　64　29-36　2017年

DOI： 10.1007/978-3-319-50212-0_4 　

ISSN：2190-3018
Development of an Easy Japanese Writing Support System with Text-to-Speech Function 査読有り

Takeshi Nagano, Hafiyan Prafianto, Takashi Nose, Akinori Ito

ADVANCES IN INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL 2　64　221-228　2017年

DOI： 10.1007/978-3-319-50212-0_27 　

ISSN：2190-3018
クロスリンガル音声合成のための共有決定木コンテクストクラスタリングを用いた話者適応査読有り

長濱大樹, 能勢隆, 郡山知樹, 小林隆夫

電子情報通信学会論文誌D　J100-D　(3)　385-393　2017年
統計モデルに基づく多様な音声の合成技術査読有り

能勢隆

電子情報通信学会論文誌D　J100-D　(4)　556-569　2017年
Collection of example sentences for non-task-oriented dialog using a spoken dialog system and comparison with hand-crafted DB 査読有り

Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

Communications in Computer and Information Science　713　458-464　2017年
出版者・発行元： Springer Verlag
DOI： 10.1007/978-3-319-58750-9_63 　

ISSN：1865-0929
Construction and analysis of phonetically and prosodically balanced emotional speech database 査読有り

Takeishi, E, Nose, T, Chiba, Y, Ito, A

2016 Conference of the Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques, O-COCOSDA 2016　16-21　2016年10月

DOI： 10.1109/ICSDA.2016.7918977 　
Efficient Implementation of Global Variance Compensation for Parametric Speech Synthesis 査読有り

Takashi Nose

IEEE-ACM TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING　24　(10)　1694-1704　2016年10月

DOI： 10.1109/TASLP.2016.2580298 　

ISSN：2329-9290
Estimating the user's state before exchanging utterances using intermediate acoustic features for spoken dialog systems 査読有り

Chiba, Y., Nose, T., Ito, M., Ito, A.

IAENG International Journal of Computer Science　43　(1)　1-9　2016年2月29日

ISSN：1819-9224 1819-656X
A PRECISE EVALUATION METHOD OF PROSODIC QUALITY OF NON-NATIVE SPEAKERS USING AVERAGE VOICE AND PROSODY SUBSTITUTION 査読有り

Hafiyan Prafianto, Takashi Nose, Akinori Ito

PROCEEDINGS OF 2016 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP)　208-212　2016年

DOI： 10.1109/ICALIP.2016.7846620 　
DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討査読有り

齋藤優貴, 能勢隆, 伊藤彰則

電子情報通信学会論文誌　J199-D　(11)　1112-1115　2016年
Prosodically rich speech synthesis interface using limited data of celebrity voice 査読有り

Takashi Nose, Taiki Kamei

Journal of Computer and Communications　4　(16)　79-94　2016年
発話状態推定に基づく協調的感情音声合成による音声対話システムの評価査読有り

加瀬嵩人, 能勢隆, 千葉祐弥, 伊藤彰則

電子情報通信学会論文誌　J199-A　(1)　25-35　2016年1月
Investigation of Pause Insertion Effect in Spoken Easy Japanese for Non-Native Listeners 査読有り

Hafiyan Prafianto, Takeshi Nagano, Takashi Nose, Akinori Ito

Proceedings of 12th Western Pacific Acoustics Conference　507-511　2015年12月8日
Automatic Generation of Proper Noun Entries in a Speech Recognizer for Local Information Recognition 査読有り

Kenta Shiga, Takashi Nose, Akinori Ito, Ryo Masumura, Hirokazu Masataki

Proceedings of 12th Western Pacific Acoustics Conference　2015年12月8日
Real-time talking avatar on the internet using Kinect and voice conversion 査読有り

Takashi Nose, Yuki Igarashi

International Journal of Advanced Computer Science and Applications　6　(12)　301-307　2015年12月
応答タイミングを考慮した英会話練習のための音声対話型英語学習システム査読有り

鈴木直人, 廣井富, 千葉祐弥, 能勢隆, 伊藤彰則

情報処理学会論文誌　56　(11)　2177-2189　2015年11月1日
HMM-based expressive singing voice synthesis with singing style control and robust pitch modeling 査読有り

Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi

COMPUTER SPEECH AND LANGUAGE　34　(1)　308-322　2015年11月

DOI： 10.1016/j.csl.2015.04.001 　

ISSN：0885-2308

eISSN：1095-8363
Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting 査読有り

Saito, Y, Nose, T, Shinozaki, T, Ito, A

Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015　433-436　2015年9月25日
出版者・発行元： IEEE
DOI： 10.1109/IIH-MSP.2015.85 　
Tempo Modification of Mixed Music Signal by Nonlinear Time Scaling and Sinusoidal Modeling 査読有り

Nishino, T, Nose, T, Ito, A

Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015　146-149　2015年9月24日
出版者・発行元： IEEE
DOI： 10.1109/IIH-MSP.2015.86 　
Entropy-based sentence selection for speech synthesis using phonetic and prosodic contexts 査読有り

Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga, Akinori Ito

Proceedings of 16th Annual Conference of the International Speech Communication Association　3491-3495　2015年9月10日
On appropriateness and estimation of the emotion of synthesized response speech in a spoken dialogue system 査読有り

Taketo Kase, Takashi Nose, Akinori Ito

Communications in Computer and Information Science　528　747-752　2015年1月1日

DOI： 10.1007/978-3-319-21380-4_126 　

ISSN：1865-0929
Statistical Parametric Speech Synthesis Based on Gaussian Process Regression 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING　8　(2)　173-183　2014年4月

DOI： 10.1109/JSTSP.2013.2283461 　

ISSN：1932-4553

eISSN：1941-0484
A Parameter Generation Algorithm Using Local Variance for HMM-Based Speech Synthesis 査読有り

Takashi Nose, Vataya Chunwijitra, Takao Kobayashi

IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING　8　(2)　221-228　2014年4月

DOI： 10.1109/JSTSP.2013.2283459 　

ISSN：1932-4553

eISSN：1941-0484
Prosodic variation enhancement using unsupervised context labeling for HMM-based expressive speech synthesis 査読有り

Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka

SPEECH COMMUNICATION　57　144-154　2014年2月

DOI： 10.1016/j.specom.2013.09.014 　

ISSN：0167-6393

eISSN：1872-7182
PARAMETRIC SPEECH SYNTHESIS USING LOCAL AND GLOBAL SPARSE GAUSSIAN PROCESSES 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

2014 IEEE INTERNATIONAL WORKSHOP ON MACHINE LEARNING FOR SIGNAL PROCESSING (MLSP)　2014年

ISSN：2161-0363
Speech Recognition in a Home Environment Using Parallel Decoding with GMM-Based Noise Modeling 査読有り

Kohei Machida, Takashi Nose, Akinori Ito

2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA)　2014年

DOI： 10.1109/APSIPA.2014.7041622 　
PARAMETRIC SPEECH SYNTHESIS BASED ON GAUSSIAN PROCESS REGRESSION USING GLOBAL VARIANCE AND HYPERPARAMETER OPTIMIZATION 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)　3862-3866　2014年

DOI： 10.1109/ICASSP.2014.6854319 　

ISSN：1520-6149
Tone modeling using stress information for HMM-based Thai speech synthesis 査読有り

Decha Moungsri, Tomoki Koriyama, Tashi Nose, Takao Kobayashi

Proceedings of the 7th International Conference on Speech Prosody　1057-1061　2014年
Controlling Switching Pause Using an AR Agent for Interactive CALL System 査読有り

Naoto Suzuki, Takashi Nose, Akinori Ito, Yutaka Hiroi

Communications in Computer and Information Science　435　588-593　2014年
出版者・発行元： Springer Verlag
DOI： 10.1007/978-3-319-07854-0_102 　

ISSN：1865-0929
Subjective Evaluation of Packet Loss RecoveryTechniques for Voice over IP 査読有り

Masahito Okamoto, Takashi Nose, Akinori Ito, Takeshi Nagano

2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2　711-714　2014年

DOI： 10.1109/ICALIP.2014.7009887 　
A Study on the Effect of Speech Rate on Perception of Spoken Easy Japanese Using Speech Synthesis 査読有り

Hafiyan Prafianto, Takashi Nose, Yuya Chiba, Akinori Ito, Kazuyuki Sato

2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2　476-479　2014年

DOI： 10.1109/ICALIP.2014.7009839 　
Robot: Have I Done Something Wrong? -Analysis of Prosodic Features of Speech Commands under the Robot's Unintended Behavior- 査読有り

Noriko Totsuka, Yuya Chiba, Takashi Nose, Akinori Ito

2014 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING (ICALIP), VOLS 1-2　887-890　2014年

DOI： 10.1109/ICALIP.2014.7009922 　
Tempo modification of music signal using sinusoidal model and LPC-based residue model 査読有り

Akinori Ito, Yuki Igarashi, Masashi Ito, Takashi Nose

Proceedings of the 21st International Congress on Sound and Vibration　1　1-8　2014年
User modeling by using bag-of-behaviors for building a dialog system sensitive to the interlocutor's internal state 査読有り

Yuya Chiba, Masashi Ito, Takashi Nose, Akinori Ito

Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue　74-78　2014年
Quantized F0 Context and Its Applications to Speech Synthesis, Speech Coding and Voice Conversion 査読有り

Takashi Nose, Takao Kobayashi

2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014)　578-581　2014年

DOI： 10.1109/IIH-MSP.2014.149 　
Analysis of English pronunciation of singing voices sung by Japanese speakers 査読有り

Kazumichi Yoshida, Takashi Nose, Akinori Ito

2014 TENTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP 2014)　554-557　2014年

DOI： 10.1109/IIH-MSP.2014.143 　
Transform Mapping Using Shared Decision Tree Context Clustering for HMM-Based Cross-Lingual Speech Synthesis 査読有り

Daiki Nagahama, Takashi Nose, Tomoki Koriyama, Takao Kobayashi

15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4　770-774　2014年

ISSN：2308-457X
Accent type and phrase boundary estimation using acoustic and language models for automatic prosodic labeling 査読有り

Tomoki Koriyama, Hiroshi Suzuki, Takashi Nose, Takahiro Shinozaki, Akinori Ito

Proceedings of 15th Annual Conference of the International Speech Communication Association　2337-2341　2014年
Analysis of spectral enhancement using global variance in HMM-based speech synthesis 査読有り

Takashi Nose, Akinori Ito

Proceedings of 15th Annual Conference of the International Speech Communication Association　2917-2921　2014年

ISSN：2308-457X

eISSN：1990-9772
Frame-level acoustic modeling based on Gaussian process regression for statistical nonparametric speech synthesis 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings　8007-8011　2013年10月18日

DOI： 10.1109/ICASSP.2013.6639224 　

ISSN：1520-6149
An intuitive style control technique in HMM-based expressive speech synthesis using subjective style intensity and multiple-regression global variance model 査読有り

Takashi Nose, Takao Kobayashi

SPEECH COMMUNICATION　55　(2)　347-357　2013年2月

DOI： 10.1016/j.specom.2012.09.003 　

ISSN：0167-6393

eISSN：1872-7182
[招待講演] 統計モデルに基づく音声合成における話者・スタイルの多様化招待有り

能勢隆

電子情報通信学会技術研究報告　Vol. 112　(No. 422)　67-72　2013年
HMM-BASED EXPRESSIVE SPEECH SYNTHESIS BASED ON PHRASE-LEVEL F0 CONTEXT LABELING 査読有り

Yu Maeno, Takashi Nose, Takao Kobayashi, Tomoki Koriyama, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka

2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)　7859-7863　2013年

DOI： 10.1109/ICASSP.2013.6639194 　

ISSN：1520-6149
SPEAKER-INDEPENDENT STYLE CONVERSION FOR HMM-BASED EXPRESSIVE SPEECH SYNTHESIS 査読有り

Hiroki Kanagawa, Takashi Nose, Takao Kobayashi

2013 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)　7864-7868　2013年

DOI： 10.1109/ICASSP.2013.6639195 　

ISSN：1520-6149
A style control technique for singing voice synthesis based on multiple-regression HSMM 査読有り

Takashi Nose, Misa Kanemoto, Tomoki Koriyama, Takao Kobayashi

Proceedings of 14th Annual Conference of the International Speech Communication Association　378-382　2013年
Statistical nonparametric speech synthesis using sparse Gaussian processes 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

Proceedings of 14th Annual Conference of the International Speech Communication Association　1072-1076　2013年
Robust Estimation of Multiple-Regression HMM Parameters for Dimension-Based Expressive Dialogue Speech Synthesis 査読有り

Tomohiro Nagata, Hiroki Mori, Takashi Nose

14TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2013), VOLS 1-5　1548-1552　2013年

ISSN：2308-457X
Very low bit-rate F0 coding for phonetic vocoders using MSD-HMM with quantized F0 symbols 査読有り

Takashi Nose, Takao Kobayashi

SPEECH COMMUNICATION　54　(3)　384-392　2012年3月

DOI： 10.1016/j.specom.2011.10.002 　

ISSN：0167-6393

eISSN：1872-7182
A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis 査読有り

Vataya Chunwijitra, Takashi Nose, Takao Kobayashi

SPEECH COMMUNICATION　54　(2)　245-255　2012年2月

DOI： 10.1016/j.specom.2011.08.006 　

ISSN：0167-6393

eISSN：1872-7182
HMMに基づく対話音声合成における多様な韻律生成のためのコンテクストの拡張査読有り

郡山知樹, 能勢隆, 小林隆夫

電子情報通信学会論文誌　Vol. J95-D　(No. 3)　597-607　2012年
AN F0 MODELING TECHNIQUE BASED ON PROSODIC EVENTS FOR SPONTANEOUS SPEECH SYNTHESIS 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)　4589-4592　2012年

DOI： 10.1109/ICASSP.2012.6288940 　

ISSN：1520-6149
Discontinuous Observation HMM for Prosodic-Event-Based F0 Generation 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3　462-465　2012年
A speech parameter generation algorithm using local variance for HMM-based speech synthesis 査読有り

Vataya Chunwijitra, Takashi Nose, Takao Kobayashi

13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3　1150-1153　2012年
Speaker-independent HMM-based voice conversion using adaptive quantization of the fundamental frequency 査読有り

Takashi Nose, Takao Kobayashi

SPEECH COMMUNICATION　53　(7)　973-985　2011年9月

DOI： 10.1016/j.specom.2011.05.001 　

ISSN：0167-6393

eISSN：1872-7182
TONAL CONTEXT LABELING USING QUANTIZED F-0 SYMBOLS FOR IMPROVING TONE CORRECTNESS IN AVERAGE-VOICE-BASED SPEECH SYNTHESIS 査読有り

Vataya Chunwijitra, Takashi Nose, Takao Kobayashi

2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING　4708-4711　2011年

DOI： 10.1109/ICASSP.2011.5947406 　

ISSN：1520-6149
VERY LOW BIT-RATE F0 CODING FOR PHONETIC VOCODER USING MSD-HMM WITH QUANTIZED F0 CONTEXT 査読有り

Takashi Nose, Takao Kobayashi

2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING　5236-5239　2011年

DOI： 10.1109/ICASSP.2011.5947538 　

ISSN：1520-6149
A Perceptual Expressivity Modeling Technique for Speech Synthesis Based on Multiple-Regression HSMM 査読有り

Takashi Nose, Takao Kobayashi

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5　116-119　2011年
HMM-Based Emphatic Speech Synthesis Using Unsupervised Context Labeling 査読有り

Yu Maeno, Takashi Nose, Takao Kobayashi, Yusuke Ijima, Hideharu Nakajima, Hideyuki Mizuno, Osamu Yoshioka

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5　1860-+　2011年
Performance Prediction of Speech Recognition Using Average-Voice-Based Speech Synthesis 査読有り

Tatsuhiko Saito, Takashi Nose, Takao Kobayashi, Yohei Okato, Akio Horii

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5　1964-+　2011年
On the Use of Extended Context for HMM-based Spontaneous Conversational Speech Synthesis 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5　2668-2671　2011年
Recent development of HMM-based expressive speech synthesis and its applications 査読有り

Takashi Nose, Takao Kobayashi

Proceedings of 2011 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference　1-4　2011年
HMM-Based Voice Conversion Using Quantized F0 Context 査読有り

Takashi Nose, Yuhei Ota, Takao Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS　E93D　(9)　2483-2490　2010年9月

DOI： 10.1587/transinf.E93.D.2483 　

ISSN：0916-8532
A Rapid Model Adaptation Technique for Emotional Speech Recognition with Style Estimation Based on Multiple-Regression HMM 査読有り

Yusuke Ijima, Takashi Nose, Makoto Tachibana, Takao Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS　E93D　(1)　107-115　2010年1月

DOI： 10.1587/transinf.E93.D.107 　

ISSN：0916-8532
A Technique for Estimating Intensity of Emotional Expressions and Speaking Styles in Speech Based on Multiple-Regression HSMM 査読有り

Takashi Nose, Takao Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS　E93D　(1)　116-124　2010年1月

DOI： 10.1587/transinf.E93.D.116 　

ISSN：0916-8532
HMM-BASED SPEECH SYNTHESIS WITH UNSUPERVISED LABELING OF ACCENTUAL CONTEXT BASED ON F0 QUANTIZATION AND AVERAGE VOICE MODEL 査読有り

Takashi Nose, Koujirou Ooki, Takao Kobayashi

2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING　4622-4625　2010年

DOI： 10.1109/ICASSP.2010.5495548 　

ISSN：1520-6149
統計的モデル選択に基づいた連続音声からの語彙学習査読有り

田口亮, 岩橋直人, 船越孝太郎, 中野幹生, 能勢隆, 新田恒雄

人工知能学会論文誌　25　(4)　549-559　2010年

DOI： 10.1527/tjsai.25.549 　

ISSN：1346-0714 1346-8030
HMM-based robust voice conversion using adaptive F0 quantization 査読有り

Takashi Nose, Takao Kobayashi

Proceedings of 7th ISCA Workshop on Speech Synthesis　80-85　2010年
Evaluation of Prosodic Contextual Factors for HMM-based Speech Synthesis 査読有り

Shuji Yokomizo, Takashi Nose, Takao Kobayashi

11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2　430-433　2010年
Conversational Spontaneous Speech Synthesis Using Average Voice Model 査読有り

Tomoki Koriyama, Takashi Nose, Takao Kobayashi

11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2　853-856　2010年
Speaker-independent HMM-based Voice Conversion Using Quantized Fundamental Frequency 査読有り

Takashi Nose, Takao Kobayashi

11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4　1724-1727　2010年
Grounding new words on the physical world in multi-domain human-robot dialogues 査読有り

Mikio Nakano, Naoto Iwahashi, Takayuki Nagai, Taisuke Sumii, Xiang Zuo, Ryo Taguchi, Takashi Nose, Akira Mizutani, Tomoaki Nakamura, Muhammad Attamimi, Hiromi Narimatsu, Kotaro Funakoshi, Yuji Hasegawa

AAAI Publications, 2010 AAAI Fall Symposium Series　74-79　2010年
Robust Speaker-Adaptive HMM-Based Text-to-Speech Synthesis 査読有り

Junichi Yamagishi, Takashi Nose, Heiga Zen, Zhen-Hua Ling, Tomoki Toda, Keiichi Tokuda, Simon King, Steve Renals

IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING　17　(6)　1208-1230　2009年8月

DOI： 10.1109/TASL.2009.2016394 　

ISSN：1558-7916

eISSN：1558-7924
HMM-Based Style Control for Expressive Speech Synthesis with Arbitrary Speaker's Voice Using Model Adaptation 査読有り

Takashi Nose, Makoto Tachibana, Takao Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS　E92D　(3)　489-497　2009年3月

DOI： 10.1587/transinf.E92.D.489 　

ISSN：0916-8532
EMOTIONAL SPEECH RECOGNITION BASED ON STYLE ESTIMATION AND ADAPTATION WITH MULTIPLE-REGRESSION HMM 査読有り

Yusuke Ijima, Makoto Tachibana, Takashi Nose, Takao Kobayashi

2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1- 8, PROCEEDINGS　4157-4160　2009年

DOI： 10.1109/ICASSP.2009.4960544 　

ISSN：1520-6149
Speaking Style Adaptation for Spontaneous Speech Recognition Using Multiple-Regression HMM 査読有り

Yusuke Ijima, Takeshi Matsubara, Takashi Nose, Takao Kobayashi

INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5　548-551　2009年
HMM-based Speaker Characteristics Emphasis Using Average Voice Model 査読有り

Takashi Nose, Junichi Adada, Takao Kobayashi

INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5　2599-2602　2009年
Learning Lexicons from Spoken Utterances Based on Statistical Model Selection 査読有り

Ryo Taguchi, Naoto Iwahashi, Takashi Nose, Kotaro Funakoshi, Mikio Nakano

INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5　2687-2690　2009年
Recent development of the HMM-based speech synthesis system (HTS) 査読有り

Heiga Zen, Keiichiro Oura, Takashi Nose, Junichi Yamagishi, Shinji Sako, Tomoki Toda, Takashi Masuko, Alan W. Black, Keiichi Tokuda

Proceedings of 2009 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference　121-130　2009年
Performance evaluation of the speaker-independent HMM-based speech synthesis system "HTS-2007" for the Blizzard Challenge 2007 査読有り

Junichi Yamagishi, Takashi Nose, Heiga Zen, Tomoki Toda, Keiichi Tokuda

2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12　3957-+　2008年

DOI： 10.1109/ICASSP.2008.4518520 　

ISSN：1520-6149
Speaker and style adaptation using average voice model for style control in HMM-based speech synthesis 査読有り

Makoto Tachibana, Shinsuke Izawa, Takashi Nose, Takao Kobayashi

2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-12　4633-4636　2008年

DOI： 10.1109/ICASSP.2008.4518689 　

ISSN：1520-6149
An On-line Adaptation Technique for Emotional Speech Recognition Using Style Estimation with Multiple-Regression HMM 査読有り

Yusuke Ijima, Makoto Tachibana, Takashi Nose, Takao Kobayashi

INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5　1297-1300　2008年
An Estimation Technique of Style Expressiveness for Emotional Speech Using Model Adaptation Based on Multiple-Regression HSMM 査読有り

Takashi Nose, Yoichi Kato, Makoto Tachibana, Takao Kobayashi

INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5　2759-2762　2008年
A style control technique for HMM-based expressive speech synthesis 査読有り

Takashi Nose, Junichi Yamagishi, Takashi Masuko, Takao Kobayashi

IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS　E90D　(9)　1406-1413　2007年9月

DOI： 10.1093/ietisy/e90-d.9.1406 　

ISSN：0916-8532
A speaker adaptation technique for MRHSMM-based style control of. synthetic speech 査読有り

Takashi Nose, Yoichi Kato, Takao Kobayashi

2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL IV, PTS 1-3　833-+　2007年

DOI： 10.1109/ICASSP.2007.367042 　

ISSN：1520-6149
The HMM-based speech synthesis system version 2.0 査読有り

Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, Alan W. Black, Keiichi Tokuda

Proceedings of 6th ISCA Workshop on Speech Synthesis　294-299　2007年
Style Estimation of Speech Based on Multiple Regression Hidden Semi-Markov Model 査読有り

Takashi Nose, Yoichi Kato, Takao Kobayashi

INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4　2900-2903　2007年
A Style Control Technique for Speech Synthesis Using Multiple Regression HSMM 査読有り

Takashi Nose, Junichi Yamagishi, Takao Kobayashi

INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5　1324-1327　2006年
A Technique for Controlling Voice Quality of Synthetic Speech Using Multiple Regression HSMM 査読有り

Makoto Tachibana, Takashi Nose, Junichi Yamagishi, Takao Kobayashi

INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5　2438-2441　2006年

︎全件表示 ︎最初の5件までを表示

MISC 52

招待講演深層学習を利用した多様な音声の合成・認識・変換と応用 (音声)

能勢隆

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　117　(160)　3-8　2017年7月27日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
スペクトル特徴量のベクトル量子化に基づくDNN音声合成の検討 (音声)

能勢隆, 伊藤鈴乃介

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(414)　65-70　2017年1月21日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
ポスター講演読み上げ音声を利用したニューラルネットワークに基づく歌唱者非依存歌声変換の検討 (音声)

小池治憲, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(414)　17-22　2017年1月21日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
ポスター講演日本語テキスト音声合成のためのアクセント辞典に基づくアクセント結合規則の改良 (音声) -- (第18回音声言語シンポジウム)

青山紘人, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(378)　31-36　2016年12月20日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
ポスター講演 Kaldiの音声認識エンジンをJulius互換にするためのインタフェースの開発 (音声) -- (第18回音声言語シンポジウム)

山田裕介, 能勢隆, 千葉祐弥, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(378)　49-51　2016年12月20日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
ポスター講演 DNN音声合成における差分特徴量のモデル化を利用したF0制御 (音声) -- (第18回音声言語シンポジウム)

山田修平, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(378)　37-42　2016年12月20日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (ライフインテリジェンスとオフィス情報システム)

佐藤一樹, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(220)　67-72　2016年9月15日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (メディア工学)

佐藤一樹, 能勢隆, 伊藤彰則

映像情報メディア学会技術報告 = ITE technical report　40　(31)　67-72　2016年9月
出版者・発行元：映像情報メディア学会
ISSN： 1342-6893
顔特徴量を用いたテキストからのフォトリアリスティック顔動画像生成の検討 (情報理論)

佐藤一樹, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　116　(33)　43-48　2016年5月19日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
HMM音声合成におけるモデル学習の高速化の検討 (音声)

山田修平, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　115　(253)　27-32　2015年10月15日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
地域情報の音声認識のための固有名詞省略表現の自動生成 (音声)

志賀健太, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　115　(184)　7-12　2015年8月21日
出版者・発行元：電子情報通信学会
ISSN： 0913-5685
HMM音声合成におけるアクセントラベリング基準が合成音声に与える影響の分析

高橋遼太, 能勢隆, 伊藤彰則

情報処理学会研究報告. SLP, 音声言語情報処理　2015　(1)　1-6　2015年5月18日
出版者・発行元：一般社団法人情報処理学会

詳細を見る詳細を閉じる

本論文では,従来の HMM 音声合成において曖昧であったアクセントラベリング基準について検討を行い,合成音声への影響を調べる.具体的には,アクセント型の表現およびアクセント句境界の基準について検討する.アクセント型については,尾高型が 0 型とモーラ長型の 2 通りの表現があることに着目し,それらを用いた場合に合成音声の F0 がどのような影響を受けるかについて客観評価を行う.また,2 段階クラスタリングを用いる効果についても検証する.アクセント句境界については,アクセント句によっては 0 型と 1 型の 2 つのアクセント句で表現する場合と,それらを結合し 1 つのアクセント句として表現する場合があり,これらの違いが合成音声に与える影響を調べる.またこれらの評価において,日本語アクセントの高低の誤りを客観的指標として導入し,この指標の有効性について分析を行う.
シナリオ対話における感情音声合成を用いた対話システムの評価と感情付与方法の検討

加瀬嵩人, 能勢隆, 千葉祐弥, 伊藤彰則

情報処理学会研究報告. SLP, 音声言語情報処理　2015　(9)　1-7　2015年5月18日
出版者・発行元：一般社団法人情報処理学会

詳細を見る詳細を閉じる

近年,非タスク指向型の音声対話システムへの需要が拡大しており,様々な研究がされている.それらほとんどの研究は言語的な観点から適切な応答の生成を目指したものである.一方で人間同士の会話においては,感情表現や発話様式などのパラ言語情報を効果的に利用することにより,対話を円滑に進めることができると考えられる.そこで我々はシステムの応答の内容ではなく,応答の仕方に着目し,感情音声合成を対話システムに用いることを試みる.本研究ではまず,適切な感情付与を人手により与えた場合に実際に対話システムの質が向上するかを複数のシナリオを作成して主観基準により評価する.次に,感情付与を自動化するために,システム発話に応じた付与とユーザ発話に協調した付与の 2 つの手法について検討を行う.評価結果から,感情を自動付与することで対話におけるユーザの主観評価スコアが向上すること,またユーザ発話に協調した感情付与がより効果的であることを示す.
ユーザの対話意欲自動推定を目標とした対話データの分析と音声画像特徴量の検討

千葉祐弥, 能勢隆, 伊藤彰則

研究報告音声言語情報処理（SLP）　2015　(10)　1-6　2015年2月20日
出版者・発行元：一般社団法人情報処理学会

詳細を見る詳細を閉じる

対話型システムがユーザに適応して話題の提供や情報推薦を行うためには，ユーザの情報を効率的に獲得できることが望ましい．本研究では，ユーザに対して積極的に質問するインタビュー型の音声対話システムを想定する．このようなシステムとの対話では，ユーザが話したいと思う話題に関してはより詳細な情報が得られる可能性がある一方，ユーザが話したくない話題に関しては有益な情報が得られない可能性が高いと考えられるため，システムはユーザの対話意欲を考慮して質問や話題の選択を行う必要がある．本稿では，ユーザの対話意欲を自動推定するための初期検討として，人間同士のインタビュー対話の分析とその自動識別を行った．分析から，対話者自身が自分の対話意欲の高低を自覚できている場合，70～80% 程度の精度で第三者にあたる評価者が対話意欲を判断できることが示唆された．また，評価者のアンケートに挙げられたマルチモーダル情報を利用することで，人間と同程度の精度で自動識別できることが示された．
Waveletを用いた特徴量抽出法とその高精度化手法の評価

松井清彰, 能勢隆, 伊藤彰則

研究報告音声言語情報処理（SLP）　2015　(5)　1-6　2015年2月20日
出版者・発行元：一般社団法人情報処理学会

詳細を見る詳細を閉じる

音声認識の普及のために，より安価な音声認識システムの実現が必要である．音声認識の低演算量化に関しては様々な先行研究が行われているが，特徴量抽出処理に関しては研究が不十分である．そのため我々は，Wavelet 変換を用いた新しい低演算量特徴量抽出法およびその高精度化手法について提案してきた．本論文では，Haar Wavelet 及び Daubechies Wavelet の 2 種類の Wavelet を用いて特徴量抽出を行い，その性能を MFCC と比較した．その結果，高精度化手法を用いることで，若干の認識率の向上が見られた．また，フレーム間の動的特徴量である Δ 特徴量及び MFCC と同様に，DCT 出力の高次削減によって，さらに認識率を向上させることができた．一方，計算時間に関しては，最もシンプルな Wavelet を用いることで，MFCC の 5 倍以上の計算速度を確保できることが分かった．
統計的音声合成におけるエントロピーに基づく大規模学習文セット構築の評価

能勢隆, 荒生侑介, 荒生侑介, 小林隆夫, 杉浦孔明, 志賀芳則

電子情報通信学会技術研究報告　115　(184(SP2015 50-58))　2015年

ISSN： 0913-5685
英会話学習システムの複数回使用時における学習者の交替潜時の変化に関する検討

鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

日本音響学会研究発表会講演論文集(CD-ROM)　2015　2015年

ISSN： 1880-7658
英会話学習システムにおける応答タイミング練習方法の有効性の検証

鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

情報処理学会研究報告(Web)　2015　(SLP-105)　2015年
日本人による英語歌唱音声の発音評価手法の検討

吉田一道, 能勢隆, 伊藤彰則

研究報告音楽情報科学（MUS）　2014　(9)　1-6　2014年11月13日

詳細を見る詳細を閉じる

我々は日本人による英語歌唱音声の英語発音の自動評価を目指している．本研究では，日本人による英語歌詞朗読音声，歌唱音声のデータベースを構築し，英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った．また，英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し，歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された．さらに，HMM による英語歌唱の自動発音評価手法について検討し，日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った．その結果，発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により，更に検出精度を向上させられる可能性がある事を論じた．
日本人による英語歌唱音声の発音評価手法の検討

吉田一道, 能勢隆, 伊藤彰則

研究報告デジタルコンテンツクリエーション（DCC）　2014　(9)　1-6　2014年11月13日

詳細を見る詳細を閉じる

我々は日本人による英語歌唱音声の英語発音の自動評価を目指している．本研究では，日本人による英語歌詞朗読音声，歌唱音声のデータベースを構築し，英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った．また，英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し，歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された．さらに，HMM による英語歌唱の自動発音評価手法について検討し，日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った．その結果，発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により，更に検出精度を向上させられる可能性がある事を論じた．
Kinectによる顔特徴量を利用した合成音声の感情表現・発話様式の直観的制御の検討 (音声) -- (オーガナイズドセッション｢文脈や状況に合った発声を実現する音声合成技術及び周辺技術｣)

畢煜, 能勢隆, 伊藤彰則

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　114　(303)　25-30　2014年11月13日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では,テキスト音声合成においてユーザが容易に合成音声の感情表現・発話様式(スタイル)を変更できる手法として,Kinectによる顔特徴量を利用した重回帰隠れマルコフモデル(HSMM)に基づくスタイル制御法を提案する.提案法では,学習データに含まれるスタイルとその表出度合をユーザの顔特徴量であるAnimation Unit(AU)を説明変数とした重回帰により表現する.具体的にはHSMMの各分布の平均パラメータがAUパラメータによる重回帰で表されると仮定する.この際,元のAUパラメータ間の相関が問題となるため,主成分分析により直交化および次元削減を行う.合成時には顔の表情を所望のスタイルに応じて変化させることで,それに応じた合成音声を生成することができる.本稿では,適切なAUパラメータの次元数やユーザの違いによる性能の違いについて評価を行った結果を報告する.
ガウス過程回帰に基づく音声合成におけるハイパーパラメータ最適化の検討 (音声)

郡山知樹, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　113　(404)　19-24　2014年1月23日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

ガウス過程回帰に基づく統計的音声合成の枠組みにおいて,カーネル関数の選択は重要な要素である.ガウス過程では周辺尤度の評価を行うことで,ガウス過程のハイパーパラメータであるカーネル関数のパラメータを自動的に決定することが可能であり,本研究では,この枠組みを音声合成に適用する.我々の提案しているガウス過程に基づく統計的音声合成では計算量削減のためにpartially independent conditional(PIC)近似による近似を行っている.本橋では,PIC近似を用いたガウス過程のための効率的なハイパーパラメータの最適化手法として一般化EMアルゴリズムを用いる手法を提案する.客観および主観評価の結果から提案手法によって適切な予測分布が生成可能であることを示す.
英会話学習システムにおけるCGキャラクタの効果と学習者の発話タイミング制御のための付加表現に関する検討

鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

日本音響学会研究発表会講演論文集(CD-ROM)　2014　2014年

ISSN： 1880-7658
ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 能勢隆, 伊藤彰則

日本音響学会研究発表会講演論文集(CD-ROM)　2014　2014年

ISSN： 1880-7658
言語モデルと音響モデルを利用したアクセント句境界の自動推定 (音声)

鈴木啓史, 郡山智樹, 能勢隆, 篠崎隆宏, 小林隆夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報　113　(366)　97-102　2013年12月19日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

テキスト音声合成システムの構築にはアクセント情報に関する韻律情報ラベルが付与された音声データが必要不可欠であるが,アクセント情報の付与は主に人手で行われており高コストである,そこで本研究では,音声データの自動ラベリングを目的としたアクセント句の境界推定手法を提案する.提案手法では,音声を書き起こしたテキスト情報だけでなく,音声から得られるFOなどの音響特徴量を使用する.アクセント句境界モデルおよびアクセント型モデルといった言語モデルには条件付き確率場(CRF)を,そして音響モデルに隠れマルコフモデル(HMM)を使用し,それらを組み合わせてアクセント句の境界を推定する.本稿では,読み上げ音声に対するアクセント句境界推定実験を行い,従来法に比べ推定精度が向上することを示した.
言語モデルと音響モデルを利用したアクセント句境界の自動推定

鈴木啓史, 郡山智樹, 能勢隆, 篠崎隆宏, 小林隆夫

研究報告音声言語情報処理（SLP）　2013　(16)　1-6　2013年12月12日
出版者・発行元：一般社団法人情報処理学会

詳細を見る詳細を閉じる

テキスト音声合成システムの構築にはアクセント情報に関する韻律情報ラベルが付与された音声データが必要不可欠であるが，アクセント情報の付与は主に人手で行われており高コストである．そこで本研究では，音声データの自動ラベリングを目的としたアクセント句の境界推定手法を提案する．提案手法では，音声を書き起こしたテキスト情報だけでなく，音声から得られるＦ0 などの音響特徴量を使用する．アクセント句境界モデルおよびアクセント型モデルといった言語モデルには条件付き確率場 (CRF) を，そして音響モデルに隠れマルコフモデル (HMM) を使用し，それらを組み合わせてアクセント句の境界を推定する．本稿では，読み上げ音声に対するアクセント句境界推定実験を行い，従来法に比べ推定精度が向上することを示した．This paper proposes a technique for automatically estimating accent phrase boundaries for text-to-speech synthesis systems. To construct speech synthesis systems, we need to prepare a database that has annotations of prosodic information including accents. However, manual annotation for this purpose generally requires costly process. In contrast, the proposed method utilizes conditional random field (CRF) for the language models of accent phrase boundary and accent type, and uses hidden markov model (HMM) for the acoustic feature model. In this paper, we confirmed that the proposed method improved the estimation accuracy for reading-style speech data compared with conventional method.
多様な歌声合成のための重回帰HSMMに基づくスタイル制御法の検討 (音声)

能勢隆, 金本美沙, 郡山知樹, 小林隆夫

電子情報通信学会技術研究報告 : 信学技報　112　(422)　79-84　2013年1月30日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では、HMMに基づく歌声合成における合成音声の多様化を目的とし、合成音声に現れるスタイルとその度合を直観的に操作できる重回帰HSMMに基づくスタイル制御法を提案する。提案法では、学習データに含まれるスタイルとその表出度合をスタイルベクトルと呼ばれる低次元のベクトルにより表し、これを説明変数とした重回帰によりモデルの各分布の平均パラメータを表現することでスタイルとその度合を明示的にモデル化する。合成時には所望のスタイルベクトルを与えることで、各スタイルの度合を弱める、あるいは強調することができる。さらに提案法では、限られた学習データで精度よく音高をモデル化するため、楽譜情報を利用した音高正規化学習を重回帰HSMMに導入する。また、ビブラートが顕著でない歌唱音声においても安定してビブラートパラメータを抽出できる手法を提案し、これらにより自然性を保ったまま、合成音声の歌唱スタイルを直観的に制御できることを主観評価により示す。
任意話者の多様なスタイル生成のための話者正規化スタイル変換法の検討 (音声)

金川裕紀, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告 : 信学技報　112　(422)　73-78　2013年1月30日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では目標話者の読上げ音声のみから所望のスタイルの音声を合成する不特定話者スタイル変換において、学習に使用した複数話者間の音響的差異による変換性能の低下を抑えるため、話者正規化学習の枠組みを変換行列の推定に導入する。不特定話者スタイル変換では、あらかじめ用意した複数話者の読上げおよび目標スタイルの音声を用いて読上げスタイルから目標スタイルへの変換行列を求め、これを目標話者の読上げスタイルのモデルに適用することで、目標話者の目標スタイルのモデルを生成する。しかし、変換行列の推定に用いる話者のスペクトル・韻律特徴が話者間で大きく異なる場合、この影響でスタイル変換において自然性が劣化してしまう。そこで提案法では、変換行列の推定の際に各話者の特徴量に対し話者適応に基づく話者正規化を行うことでこの問題を低減する。客観および主観評価にて、話者正規化が自然性改善に有効であることを示す。
多様な韻律生成のための多クラス局所韻律コンテキストの検討(オーガナイズドセッション「多様な音声・歌声の合成に向けて」,音声・言語・対話,一般)

前野悠, 能勢隆, 小林隆夫, 郡山知樹, 井島勇祐, 中嶋秀治, 水野秀之, 吉岡理

電子情報通信学会技術研究報告. SP, 音声　112　(422)　85-90　2013年1月23日
出版者・発行元：一般社団法人電子情報通信学会

詳細を見る詳細を閉じる

HMM音声合成において、多様なスタイルを伴う音声に現れる局所的な表現の変化を合成音声に反映させるため、学習データに対する局所韻律コンテキストを新たに定義し、それらのコンテキストの自動ラベリング手法を提案する。韻律コンテキストは原音声と合成音声の韻律特徴量の差分を利用して付与する、具体的にはF0、継続長、パワー特徴量に対し、アクセント句単位での平均値の差分をそれぞれ3クラスに分類し。新たなコンテキストとして追加する。実験では商品宣伝および童話読み聞かせを想定して収録された音声を用い、評価用データを利用した理想的な場合および実際の利用場面を想定した場合の2つの条件においてそれぞれ評価を行う。
HMM音声合成におけるスペクトル特徴量の局所変動のモデル化とパラメータ生成への適用

能勢隆, チュンウィジターワータヤー, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　112　(281)　43-48　2012年11月1日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では,HMM音声合成においてスペクトル特徴量の局所的な系列内変動(LV)のモデル化とそれを用いたパラメータ生成法を提案する.提案法では,スペクトル特徴量の各フレームの近傍の変動を表す特徴量としてLVを定義し,それをコンテキスト依存音素HMMによりモデル化する.また,LVの時間的変化を適切にモデル化するため,LV系列の動的特徴量も考慮する.パラメータ生成時は学習したスペクトル特徴量モデルとLVモデルの両方を考慮した目的関数を最大化するようにパラメータの推定を行う.これによりパラメータ生成時に,従来の発話単位の系列内変動(GV)に比べより精密な系列内変動制約を課すことができ,原音声に近い合成音声を生成することができる.客観評価および主観評価により提案法の有効性を検討する.
強調音声合成のための局所韻律コンテキスト自動付与の検討

前野悠, 能勢隆, 小林隆夫, 井島勇祐, 中嶋秀治, 水野秀之, 吉岡理

電子情報通信学会技術研究報告. SP, 音声　112　(81)　1-6　2012年6月7日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

HMM音声合成において,多様なスタイルを伴う音声に現れる強調表現を合成音声に反映させるため,学習データに対する強調コンテキストの自動ラベリング手法を提案する.我々はこれまでに商品宣伝を想定して収録された音声を対象とし,原音声と合成音声のアクセント句毎の基本周波数(F0)の差分に着目した強調コンテキストのラベリング手法を提案した.しかし,この手法では強調/非強調を判定するための閾値をあらかじめ主観評価などにより決定する必要があった.これに対し,本稿では学習データ全体の強調音声のF0の性質を利用し,閾値を自動で決定する手法を提案する.客観評価および主観評価実験から提案法の有効性を示す.
HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

能勢隆, 小林隆夫

研究報告音声言語情報処理（SLP）　2011　(33)　1-6　2011年12月12日

詳細を見る詳細を閉じる

HMM 音声合成における音素継続長の推定精度の改善を目的とし，動的特徴量を用いた音素継続長のモデル化および生成手法を提案する．継続長のモデル化については隠れセミマルコフモデル (HSMM) により状態継続長を明示的にモデル化する手法が提案されているが，音素継続長が直接モデル化されておらず，また音素間の継続長の関係はコンテキストのみで表現されている．提案法では，音素継続長を観測デ－タとみなし直接モデル化を行う．モデル化の際には，音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う．合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる．静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い，提案法の有効性を示す．This paper proposes a technique for modeling and generating phone durations using their dynamic features to improve prediction accuracy of phone durations in HMM-based speech synthesis. For the duration modeling, a technique with explicit state-duration modeling based on hidden semi-Markov model (HSMM) has been proposed. However, the HSMM cannot directly model phone durations, and the relation of phone durations among adjacent phonemes are represented only by context labels. In the proposed technique, phone durations are regarded as observable data obtained by manual labeling or forced alignment and are directly modeled using single Gaussian distributions. To explicitly take into account the correlation of phone durtions in the model training and speech synthesis, we use not only static phone durations but also dynamic ones. When synthesizing speech, we generate a phone-duration sequence from the trained duration models using a parameter generation algorithm with static and dynamic features. We evaluate the performance of our duration modeling technique by comparing to other techniques with static or static log-duration features.
韻律イベントHMMを用いた対話音声F0生成

郡山知樹, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション　111　(364)　185-190　2011年12月12日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿ではHMM音声合成において話し言葉音声のF0パタンを効率的にモデル化するための手法として韻律イベントHMMを提案する.韻律イベントHMMではHMMの単位として,従来の音素の代わりにアクセントによるピッチの下降や句末境界音調(BPM)によるピッチの上昇などの韻律イベントの部分区間を使用する.韻律イベントはF0の変動と密接に結びついている上に音素に比べ発生頻度が低いため,韻律イベントに基づく単位を使用することでF0モデルのパラメータが効率的に表現され,その結果としてモデルパラメータの削減が期待される,対話音声に対して客観および主観評価実験を行い,合成音声の品質を保ったままモデルパラメータ数が大きく削減可能であることを確認した.
パラ言語情報を表現可能な対話音声合成のための重回帰HSMMの検討

永田智洋, 森大毅, 能勢隆

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション　111　(364)　179-184　2011年12月12日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では,隠れセミマルコフモデル(HSMM)に基づく音声合成方式に重回帰モデルを組み込んだ重回帰HSMMを用いて,対話音声に見られる多様なパラ言語情報を制御可能な音声合成を目指す.本研究では,パラ言語情報を少数の次元から構成される空間上の座標として表現し,この空間を構成する次元を重回帰モデルの説明変数として用いる.次元には感情状態を表す一般的な指標とされている「快-不快」,「覚醒睡眠」の2つの次元を用いる.モデルの学習時には各発話に対し次元毎に主観的に評価された評価値を用いて学習し,合成時には任意の評価値を与えて任意の感情状態の音声を合成する.合成された音声の音響的特徴量から,2つの次元が合成音声に与える影響について検討する.また,合成された音声に対して3つの主観評価実験を行った.まず,自然性評価を行い,合成された音声の自然性について示した.次に,再現性評価を行い,付与した感情状態の再現性について示した.最後に,感情状態の表出について評価を行い,意図した感情状態が伝達されていることを示した.
HMM音声合成における不特定話者スタイル変換の検討

金川裕紀, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション　111　(364)　191-196　2011年12月12日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本論文では隠れマルコフモデル(HMM)に基づく音声合成において,目標話者の読上げスタイルの音声のみから異なる目標スタイルの音声を生成する手法を提案する.従来,読上げスタイルモデルから少量の目標スタイル音声を用いてスタイル適応を行うことにより目標スタイルの任意の文章を合成する手法が提案されているが,目標スタイルの音声が得られない場合にはこの手法を利用することはできない.提案法では,あらかじめ複数の話者により学習された読上げスタイルモデルに対し,同じ話者による目標スタイルへのスタイル変換を線形変換により表現する.これにより得られる変換行列は特定の話者に依存しない不特定話者のスタイル変換を表すため,これを目標話者の読上げスタイルモデルに適用することで目標話者の目標スタイル音声が利用できない場合についてもスタイル音声の合成が可能となる.評価実験では変換後の合成音声について話者性,スタイル再現性および自然性の3つの観点から提案法の有効性を検討する.
HMM音声合成のための動的特徴量を用いた音素継続長モデリングの検討

能勢隆, 小林隆夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション　111　(364)　197-202　2011年12月12日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

HMM音声合成における音素継続長の推定精度の改善を目的とし,動的特徴量を用いた音素継続長のモデル化および生成手法を提案する.継続長のモデル化については隠れセミマルコフモデル(HSMM)により状態継続長を明示的にモデル化する手法が提案されているが,音素継続長が直接モデル化されておらず,また音素問の継続長の関係はコンテキストのみで表現されている,提案法では,音素継続長を観測データとみなし直接モデル化を行う.モデル化の際には,音素間の継続長の相関を明示的に考慮するために静的特徴量だけでなく音素継続長の動的特徴量も用いて学習を行う.合成時には静的および動的特徴量を用いて音素継続長系列を生成することにより音素間の継続長の相関を合成音声に反映させることが可能となる.静的特徴量のみを用いた場合や対数継続長を用いた場合などとの比較を行い,提案法の有効性を示す.
日本語話し言葉コーパスを用いた対話音声合成のためのコンテキストの評価

郡山知樹, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　111　(28)　155-160　2011年5月5日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では自発性の高い対話音声の合成において,多様な韻律を生成するための拡張コンテキストの提案とその評価を行った結果を報告する.HMM音声合成では音韻・韻律の変動要因をコンテキストとして考慮し学習・合成を行っているが,従来の読上げ音声のためのコンテキストセットでは対話音声の韻律の多様性を実現することが困難である.そこで,大規模音声コーパスである日本語話し言葉コーパス(CSJ)に含まれる様々な情報をコンテキストとして追加し拡張コンテキストとした.従来のコンテキストと拡張コンテキストの比較を行い,音素引き延ばしおよびX-JToBIのトーン層ラベルに基づく情報がコンテキストとして有効であるという結果を得た.さらに,コンテキストの増加による過学習を避けるための決定木クラスタリングの新たな停止基準の導入や,実用上のシステムを考慮して合成時に一部の追加コンテキストを自動推定する手法の提案を行い,その有効性を評価した.
極低ビットレートボコーダのためのHMMに基づくF0符号化法の検討 (音声言語情報処理(SLP) Vol.2010-SLP-84)

能勢隆, 熊本政真, 小林隆夫

情報処理学会研究報告　2010　(5)　1-6　2011年2月
出版者・発行元：情報処理学会
ISSN： 1884-0930
極低ビットレートボコーダのためのHMMに基づくF0符号化法の検討

能勢隆, 熊本政真, 小林隆夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション　110　(356)　189-194　2010年12月13日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本稿では極低ビットレートでの符号化を目的としたHMM音素ボコーダのためのF0符号化方法として,量子化F0シンボルを用いた多空間確率分布HMM(MSD-HMM)に基づく手法を提案する.提案法ではF0をMSD-HMMによりモデル化する際に音素毎の対数F0の平均値を量子化したシンボルを韻律コンテキストとして利用する.これにより,アクセント型などの韻律情報を用いずにF0のモデル化を行うことができる.符号化時は,入力音声から抽出されたF0を量子化F0シンボルに変換し,音素認識により得られた音素および状態継続長情報とともに伝送する.復号化時は音素と量子化F0シンボルから音声合成用のコンテキスト依存ラベルを作成し,与えられた状態継続長に基づいてあらかじめ学習したMSD-HMMを用いてスペクトルおよびF0系列を最尤基準により生成する.提案法では当該の音素,F0シンボルだけでなく,先行および後続の情報もコンテキストとして使用できるという利点がある.評価実験により,提案法によるF0符号化を用いた場合,50bit/s以下のビットレートでも符号化によるF0の劣化はほとんど気にならない程度であり,極低ビットレートでの音声符号化において有効であることを示す.
平均声に基づく対話音声合成に関する検討

郡山知樹, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　109　(375)　33-38　2010年1月14日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

少量の音声データから自然な対話音声を合成することを目的とし,平均声と話者適応を用いた隠れセミマルコフモデルに基づく音声合成手法について検討を行う.対話音声は自発性が高く,朗読音声と異なり音声の音響的特徴が話者や発話様式・発話意図などの影響を受け多様に変化するため,目標話者の限られた音声データのみで自然性の高い合成音声を生成することは容易ではない.提案法ではあらかじめ複数の話者の音声データを用いて学習された平均声モデルに対して話者適応を行うことにより,目標話者の音声データが数分以下とごく限られている場合でも目標話者の音響モデルを学習することが可能である.本研究では,対話音声,読上げ音声をそれぞれ用いて学習した平均声モデルを話者適応したモデルから得られた合成音声を客観実験により評価した。実験結果から,提案法による合成音声は従来の話者依存モデルに比べて良好な結果が得られ,また読上げ音声よりも対話音声を用いて学習した平均声モデルを用いた方が,客観評価において優れた結果となった.
F0量子化と非パラレル学習に基づく声質変換の評価

太田悠平, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　109　(375)　27-32　2010年1月14日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

コンテキスト依存HMMに基づく声質変換法の有効性を示すためにGMMに基づく声質変換法との比較を中心に,客観及び主観評価実験を行った結果を報告する.この手法では元話者の入力音声に対して音韻及び韻律の情報を抽出し,これらの情報に基づいてあらかじめ学習した目標話者の音響モデルから音声を生成することで声質変換を実現している.また韻律のうち,ピッチ情報を適切にモデル化するために,従来HMM音声合成で用いられていた手動ラベリングに基づくアクセント情報ではなく,学習データのF0値自体を粗く量子化したシンボルをコンテキストとして利用することで学習データに対する自動ラベリングが可能である.さらに従来提案されているGMMに基づく声質変換法では音素単位や複数の音素にわたる音響的特徴に含まれる話者の個人性を適切に変換することが困難であったのに対し,HMMに基づく手法では音韻・韻律に関わるコンテキスト依存モデルを利用することにより,このようなセグメンタル・スープラセグメンタル特徴も変換することができる.評価の結果HMMに基づく手法を用いることにより,従来法よりも自然性が大幅に改善され,また話者性の変換においても従来を上回る結果が得られた.
F0量子化と非パラレル学習に基づく声質変換の検討

太田悠平, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　109　(356)　171-176　2009年12月14日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

HMM音素認識とHMM音声合成を用いた非パラレル学習に基づく声質変換手法を提案する.提案法では,音素認識と基本周波数の量子化を利用し,変換元の話者の入力音声から音素情報,音素継続長,及び基本周波数パターンの大まかな変動情報を抽出し合成部に伝達する.合成部では,伝達された各情報からコンテキスト依存ラベルを作成し,これとあらかじめ学習しておいた目標話者の多空間確率分布HMMを用いて,音声を生成する。元話者と目標話者のモデルは独立に学習することが可能であるため,元話者と目標話者が同じ文章を発話したパラレルデータを用意する必要がないという特徴がある.また音素継続長に含まれる話者性の適切な変換のため,入力音声の各音素の継続長に対して線形変換を行う.本稿では,パラレルデータが利用可能でない場合,及び継続長の変換の効果について客観及び主観評価を行い,提案手法である非パラレルデータ学習に基づく声質変換法の有効性を示す.
F0量子化に基づく韻律コンテキストを用いたHMM音声合成

大木康次郎, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　109　(356)　141-146　2009年12月14日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本論文では,隠れマルコフモデル(HMM)に基づく音声合成において,目標話者の学習データに対してアクセントに関わるコンテキストの手動ラベリングを必要とせずに合成音声を生成する手法を提案する.提案法では,従来のコンテキスト依存ラベルで用いられていたアクセント型などのコンテキストに代わり,音声の基本周波数(F0)の値を音素毎に粗く量子化したものをコンテキストとして用いて目標話者のF0をモデル化する.学習データのF0そのものからコンテキストを生成することで,F0に関するコンテキストについて高い精度での自動ラベリングが可能となる.合成時には,あらかじめ従来用いるコンテキスト依存ラベルにより学習された平均声モデルを利用して,入力テキストから一旦F0を生成し,このF0値を量子化することで合成用ラベルを自動生成する.この合成用ラベルを用いて,あらかじめ学習された目標話者モデルから目標話者の合成音声を生成する.客観評価実験及び主観評価実験を行い,提案法の有効性を示す.
重回帰HMMに基づく自然発話音声の発話様式識別

能勢隆, 松原健, 井島勇祐, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　109　(139)　31-36　2009年7月10日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本論文では重回帰隠れマルコフモデル(重回帰HMM)に基づく自然発話音声の発話様式識別と音声認識について検討する.重回帰HMMではモデルの各分布の平均パラメータをスタイルベクトルと呼ばれる低次元のベクトルの重回帰により表現する.スタイルベクトルの各次元はそれぞれ特定の発話様式の表出・強調度合を表しており,入力音声に対してスタイルベクトルを最尤推定することにより発話様式を識別することができる.また,スタイルベクトルを入力発話毎に推定し,推定されたスタイルベクトルによりモデルを更新することにより音声認識においてオンラインで音響モデルを入力音声の発話様式に適応することができる.日本語話し言葉コーパス(CSJ)による評価の結果,学習用の発話がごく少量の場合でも発話様式の識別率は十分高く,また音素認識実験においてもHMMの場合に比べ良好な結果が得られた.
自然な対話の中で物体の名前を覚えるロボット

中野幹生, 長井隆行, 能勢隆, 田口亮, 水谷了, 中村友昭, 船越孝太郎, 長谷川雄二, 鳥井豊隆, 岩橋直人

JSAI大会論文集　2009　(0)　1F2OS73-1F2OS73　2009年
出版者・発行元：一般社団法人人工知能学会

詳細を見る詳細を閉じる

<p>発話と画像情報を入力として，物の名前を覚えるロボットが研究されているが，名前を覚えさせるモードをあらかじめ設定しておかなくてはならなかったり，名前を覚えさせる発話のパタンが決まっていたりした．本稿では，さまざまなドメインの対話を行うことができ，対話の途中で物の名前を教示する発話を聞くと学習を行うことができるロボットのアーキテクチャとその実装について述べる． </p>
モデル選択による言語獲得手法とその評価

田口亮, 岩橋直人, 能勢隆, 船越孝太郎, 中野幹生

JSAI大会論文集　2009　(0)　1F2OS72-1F2OS72　2009年
出版者・発行元：一般社団法人人工知能学会

詳細を見る詳細を閉じる

<p>本稿では，単語の知識を持たないロボットが，人の自由な発話から物や場所の名前を学習する手法を提案する．初期の単語候補は，学習データの音素認識結果から生成する．この単語候補を用いて単語認識と意味・文法の学習を行い，統計的モデル選択の基準を元に，音響的，文法的，意味的に不要な単語を削除・連結する．そして再び単語認識を行う．これを繰り返すことで，単語の正しい音素系列と意味が獲得される．</p>
重回帰HMMに基づくスタイル推定を用いた音声認識における音響モデル学習法

井島勇祐, 橘誠, 能勢隆, 小林隆夫

情報処理学会研究報告音声言語情報処理（SLP）　2008　(123)　37-42　2008年12月2日
出版者・発行元：一般社団法人情報処理学会
ISSN： 0919-6072

詳細を見る詳細を閉じる

本論文では，重回帰 HMM に基づくスタイル推定を用いた音声認識手法において，この手法を容易に任意の話者へ適用することを目的に，重回帰 HMM の学習に話者非依存モデルとモデル適応手法を導入する手法を提案する．提案法では，まず話者非依存モデルに目標話者の各スタイルの少量の適応データを用いて，話者性とスタイルの同時適応を行い，重回帰 HMM の学習に用いる目標話者のスタイル適応 HMM を作成する．得られたスタイル適応 HMM のモデルパラメータと発話様式・感情表現（スタイル）の表出度合を表すスタイルベクトルから，最小二乗法により重回帰 HMM の回帰行列を求め，最尤推定により補正を行う．プロのナレータと一般の発話者が発話した模擬感情音声に対して音素認識実験を行い，その結果から提案法の性能評価を行う．また，提案法ではスタイル推定の結果から，認識結果だけでなく入力音声のスタイルも得られることを示す．We propose a technique for emotional speech recognition based on multiple-regression HMM (MRHMM). To achieve emotional speech recognition for an arbitrary speaker with a small amount of training data, we incorporate a speaker and style adaptation technique into speaker-dependent MRHMM-based emotional speech recognition. In the proposed technique, we first adapt the speaker-independent model to target speaker's respective styles with a small amount of speech data. Then, using obtained speaker- and style-adapted HMMs and low-dimensional style control vector for each training style, the regression matrices of MRHMM are estimated based on least square method and maximum likelihood estimation. We assess the performance of the proposed technique on the recognition of acted emotional speech uttered by both professional narrators and non-professional speakers and show the effectiveness of the technique.
重回帰HMMに基づくスタイル推定を用いた音声認識における音響モデル学習法

井島勇祐, 橘誠, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション　108　(337)　37-42　2008年12月2日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本論文では,重回帰HMMに基づくスタイル推定を用いた音声認識手法において,この手法を容易に任意の話者へ適用することを目的に,重回帰HMMの学習に話者非依存モデルとモデル適応手法を導入する手法を提案する.提案法では,まず話者非依存モデルに目標話者の各スタイルの少量の適応データを用いて,話者性とスタイルの同時適応を行い,重回帰HMMの学習に用いる目標話者のスタイル適応HMMを作成する.得られたスタイル適応HMMのモデルパラメータと発話様式・感情表現(スタイル)の表出度合を表すスタイルベクトルから,最小二乗法により重回帰HMMの回帰行列を求め,最尤推定により補正を行う.プロのナレータと一般の発話者が発話した模擬感情音声に対して音素認識実験を行い,その結果から提案法の性能評価を行う.また,提案法ではスタイル推定の結果から,認識結果だけでなく入力音声のスタイルも得られることを示す.
平均声からの話者適応手法を用いた重回帰HSMMに基づく合成音声の声質制御

橘誠, 河野明文, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　108　(265)　41-46　2008年10月16日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本研究では,重回帰隠れセミマルコフモデル(重回帰HSMM)に基づく合成音声の声質制御手法において,様々な声質の制御を少量の学習データから容易に実現することを目的に,平均声モデルからの話者適応手法を導入することを提案する.提案手法では,まず平均声モデルに少量の適応データを用いて話者適応を行い,学習に用いる各話者の話者適応HSMMを作成する.得られた話者適応HSMMのモデルパラメータと話者毎の声質の特徴を表す声質ベクトルから,最小二乗基準で重回帰HSMMの回帰行列を求め,最尤推定により補正を行う.20名の各話者50文章のデータを用いた声質制御実験を行い,主観評価から提案手法が合成音声の声質制御に有効であることを示す.さらに,複数の重回帰HSMMをモデル補間する手法を提案し,これを用いて複数の声質を制御することを試み,その結果を報告する.
HMM 音声合成システム (HTS) の開発

全炳河, 大浦圭一郎, 能勢隆, 山岸順一, 酒向慎司, 戸田智基, 益子貴史, ブラックアラン, 徳田恵一

情報処理学会研究報告音声言語情報処理（SLP）　2007　(129)　301-306　2007年12月21日
出版者・発行元：一般社団法人情報処理学会
ISSN： 0919-6072

詳細を見る詳細を閉じる

近年，隠れマルコフモデル (HMM) に基づく統計的パラメトリック音声合成方式が注目されている．本方式では，音声スペクトル・励振源・継続長がコンテキスト依存 HMM により同時にモデル化される．音声合成時は，合成したい文章に対応する HMM からの出力確率が最大となるよう，継続長・スペクトル・励振源系列を決定した後，音声合成フィルタを用いて波形が出力される．2002 年より我々は，HMM に基づく音声合成のための研究・開発ツール「HMM 音声合成システム(HTS)」を，オープンソースソフトウェアとして公開してきた．本報告では，その最新の開発状況と今後の予定について述べる．A statistical parametric speech synthesis approach based on hidden Markov models (HMMs) has grown in popularity over the last few years. In this approach, spectrum, excitation, and duration of speech are simultaneously modeled by context-dependent HMMs, and speech waveforms are generated from the HMMs themselves. Since December 2002, we have publicly released an open-source software toolkit named "HMM-based speech synthesis system (HTS)" to provide a research and development toolkit of statistical parametric speech synthesis. This paper describes recent developments of HTS in detail, as well as future release plans.
HMM音声合成システム(HTS)の開発

全炳河, 大浦圭一郎, 能勢隆, 山岸順一, 酒向慎司, 戸田智基, 益子貴史, ブラックアラン, 徳田恵一

電子情報通信学会技術研究報告. SP, 音声　107　(406)　301-306　2007年12月13日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

近年,隠れマルコフモデル(HMM)に基づく統計的パラメトリック音声合成方式が注目されている.本方式では,音声スペクトル・励振源・継続長がコンテキスト依存HMMにより同時にモデル化される.音声合成時は,合成したい文章に対応するHMMからの出力確率が最大となるよう,継続長・スペクトル・励振源系列を決定した後,音声合成フィルタを用いて波形が出力される.2002年より我々は,HMMに基づく音声合成のための研究・開発ツール「HMM音声合成システム(HTS)」を,オープンソースソフトウェアとして公開してきた.本報告では,その最新の開発状況と今後の予定について述べる.
重回帰HSMMに基づく合成音声のスタイル制御のための平均声からの話者適応手法

井澤信介, 橘誠, 能勢隆, 小林隆夫

電子情報通信学会技術研究報告. SP, 音声　107　(282)　81-86　2007年10月18日
出版者・発行元：一般社団法人電子情報通信学会
ISSN： 0913-5685

詳細を見る詳細を閉じる

本論文では,隠れマルコフモデル(HMM)に基づく音声合成システムにおいて,少量の目標話者のデータから合成音声のスタイル制御を行う話者適応の実現を目的に,平均声と話者・スタイル適応を用いた重回帰HSMMによるモデル学習法を提案する.重回帰HSMMにおける話者適応では,ある特定話者モデルを初期モデルとしていた.しかし,目標話者の合成音声の品質が初期モデルの話者の特徴に影響する可能性があった.そこで本研究では,まず複数の話者の平均的な特徴を持つ平均声から少量の学習データで過応を行うことで話者依存HSMMを作成し,そのモデルを利用して重回帰HSMMの初期モデルを求める.次に重回帰HSMMによる話者適応を行い,少量の学習データのみで任意の目標話者に対し,初期モデルに依存しない目標話者のモデル作成を実現している.客観評価により提案モデルが各スタイル450文章で学習した話者依存重回帰HSMMに近いモデルであることを示す.さらに,主観評価から提案手法は合成音声の自然性が話者依存重回帰HSMMと同程度となることを示す.

︎全件表示 ︎最初の5件までを表示

書籍等出版物 3

音響キーワードブック

能勢隆

2016年3月22日
進化するヒトと機械の音声コミュニケーション

能勢隆

(株)エヌ・ティー・エス　2015年9月
Human Machine Interaction - Getting Closer

Ryo Taguchi, Naoto Iwahashi, Kotaro Funakoshi, Mikio Nakano, Takashi Nose, Tsuneo Nitta

2012年1月

共同研究・競争的資金等の研究課題 18

オンライン授業支援のためのバーチャル・クラスメートの開発

伊藤彰則, 塩入諭, 能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tohoku University

2021年4月1日～ 2026年3月31日

詳細を見る詳細を閉じる

仮想エージェントシステムの作成、講義の重要箇所の推定、学習者の注意状態の推定の３つの研究を推進した。それぞれの概要は以下の通りである。１．R04年度に作成した仮想エージェントを実際に利用できるようにするため、全体システムの調整を行うとともに、プログラムの並列化を行って反応時間を短くすることに成功した。また、このシステムを利用して、エージェントの反応時間、エージェントの感情表現とユーザの印象に関する評価実験を行った。さらに、エージェントとユーザが共に動画を視聴している場合の、エージェントの動作生成に関する検討を行った。２．講義の重要箇所の推定として、事前学習モデルBERTに基づく文章要約モデルBERTSUMと、大規模言語モデルGPT-3.5を用いた文章要約の比較実験を行った。その結果、GPTを利用した要約を利用して重要箇所を推定したものが高精度であることがわかった。さらに、重要箇所を指摘する主観評価実験を行い、同様にGPTによる重要箇所に基づく指摘が有効であることを見出した。３．集中度推定システムには、Web カメラを使って心拍情報を計測する rPPG(remote photo-plethysmography) を用いた。システムには OpenFace と pyVHR を用いて実装した。今回はよそ見などの不注意を検出した瞬間にアラート音が鳴るように実装したが、検出精度が十分でない問題や、アラート音がかえって集中を妨げる問題が発生した。これらの問題点は先行研究にも見られたもので、今後改善していく必要がある。
オンライン授業支援のためのバーチャル・クラスメートの開発

伊藤彰則, 塩入諭, 能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tohoku University

2021年4月1日～ 2026年3月31日

詳細を見る詳細を閉じる

このプロジェクトでは、オンライン授業、特にオンデマンド型講義に関して、受講者と対話しながら講義への集中と内容の理解を促す音声対話エージェントを開発することが目標である。そのための課題のうち、昨年度は次のサブテーマに取り組んだ。(1) オンライン講義ビデオから、重要な個所を自動推定する。(2) 最終的な対話エージェントのプロトタイプを作成する。(3) ビデオコンテンツおよび受講者のマルチモーダル情報から、エージェントの適切な動作を推定する。このうち(1)に関して、今年度は3つの講義ビデオから重要箇所を推定した。まず、ビデオの内容を書き起こし、3名の実験参加者が重要箇所のアノテーションを行った。次に、書き起こしテキストに対して、文章要約アルゴリズムを使って重要文を抽出し、これを人手による重要箇所と比較した。要約手法として、Luhn, TextRank, LexRank, BERTSUMの4つの手法を比較した。その結果、全体としてはLexRankが安定して高い性能を示し、BERTSUMは講演者による性能の変動が大きいことが分かった。また、LexRank/BERTSUMとLuhnを組み合わせる方法を検討し、抽出文の中から重要語句を含まない文を排除することで性能が改善することが分かった。さらに、音声のピッチやパワーなどの韻律情報を組み合わせることを検討したところ、これも講演者による差が大きく、この差が何に起因するかを解明することが課題となった。 (2)に関しては、Unityを利用して、動画と対話エージェントを同時に表示するシステムのプロトタイプを完成させた。まだエージェントの表情やジェスチャなどの表現力が十分ではないため、これが課題となる。 (3)については、感情ラベル付き顔画像データベースであるCK+を用い、感情ラベルから顔表情のアクションユニットを生成するシステムを作成した。
話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援

能勢隆, 伊藤彰則

2022年4月1日～ 2025年3月31日

詳細を見る詳細を閉じる

本研究課題では、「音響工学および音声知覚の観点から、リスニング能力の効率的な向上のための方法論とはなにか?」という学術的問いに対する解を導くため、これまで我々が統計的音声合成、機械学習、対話型英会話学習システムなどの研究により培ってきた個別の要素技術を融合・発展させ、話者・地域・スタイル・訛りといった英語音声の特徴を深層学習に基づくモーフィング技術により段階的にシミュレーション可能な全く新しい実環境リスニング学習支援の実現を目指し、以下の具体的な4項目について検討を行うことを目的とする。(a)多様な話者・地域・スタイルを有する音声コーパスの設計と構築、(b)深層学習に基づくモーフィング音声合成技術の確立、(c)モーフィング音声合成を用いたリスニング学習支援システムの開発、(d)提案システムによる実環境におけるリスニング能力向上の実証実験。2023年度は上記のうち(b)および(c)について話速スタイルの観点から検討を行った。(b)については、Glow-TTSをベースとして話速情報を埋め込むことにより話速および話速に関係するスタイル（話速スタイル）の制御が可能であることを示すとともに、テキストエンコーダの改良により、音声・スタイルの再現性についての改善手法を提案し、その有効性を客観指標により示した。(c)についてはWebベースで利用可能な段階的な話速制御に基づくリスニング学習・評価システムを構築した。(d)については(c)のシステムをクラウドソーシングにおり実際に利用してもらい、従来の話速制御を行わないシステムと比較してリスニング能力が向上することを実験的に示した。
話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援

能勢隆, 伊藤彰則

2022年4月1日～ 2025年3月31日
深層学習に基づくマルチモーダル対話型英会話学習システムの研究開発

伊藤彰則, 能勢隆, 千葉祐弥

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (A)

研究機関：Tohoku University

2017年4月1日～ 2021年3月31日

詳細を見る詳細を閉じる

深層学習に基づく英会話学習システムのための要素技術を開発し，英会話の練習ができるCALLシステムを作成した．まず、深層学習に基づく音声・表情・ジェスチャに対するインターフェースの高度化・高精度化として，日本人英語音声を高精度に認識する技術を確立した．次に，深層学習に基づく英語発音評価・英会話シミュレーション技術を確立させるため，表情とジェスチャが英語の習熟度評価に与える影響を調べた．また，対話音声に対して高精度に発音評価を行う手法を確立した．最後に基盤要素技術を統合して音声対話型英会話学習システムを作成した．
平均声モーフィングを利用した日本語発音学習システムの研究開発

能勢隆, 千葉祐弥

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Challenging Exploratory Research

研究機関：Tohoku University

2016年4月1日～ 2019年3月31日

詳細を見る詳細を閉じる

本課題では、日本において非母語話者が日本語の発音学習を「低コストで」「手軽に」「確実に」行えるような新たな枠組の実現を目指した。具体的には複数の教師話者の音声により学習した平均教師声モデルによる統計的パラメトリック音声合成を利用し、音声の音韻や韻律（ピッチ・リズム）を特徴量毎に置換することで、従来よりも詳細で高精度な発音スコアのラベル付けを可能とした。この手法を用いて音韻、アクセント、リズムについて個別に発音スコアの予測モデルを学習し、非母語話者の発音スコアを予測することで、発音学習を効率的に行うことを実現した。
「自然な非人間性」に着目した新たな歌唱デザイン論の研究

森勢将雅, 能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Challenging Exploratory Research

研究機関：University of Yamanashi

2016年4月1日～ 2018年3月31日

詳細を見る詳細を閉じる

VOCALOIDを代表とする歌声合成ソフトウェアが広く一般に普及するにつれ，計算機による「人間的」な歌唱を目指す数多くの取り組みがなされてきた．一方，Auto-Tuneなどのソフトウェアを用いた「非人間的」な歌唱もコンテンツとして利用されている．ここでは，コンテンツとしての自然さと非人間性を両立する歌声が存在するか確認するため，人間性を制御する加工法について研究に取り組んだ．実験の結果，提案法により，人間の歌声が有する揺らぎ成分を除去するという従来のアプローチだけではなく，誇張させた場合でも一定の自然さを保ちつつ非人間的な歌声を生成できることを確認した．
ガウス過程回帰に基づく音声合成技術の確立

小林隆夫, 郡山知樹, Moungsri Decha, 長濱大樹, 能勢隆, Arifianto Dhany

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tokyo Institute of Technology

2015年4月1日～ 2018年3月31日

詳細を見る詳細を閉じる

多様で表情豊かな音声合成の実現に向け，統計的パラメトリック音声合成の新たな枠組みであるガウス過程回帰に基づく音声合成（GPR音声合成）技術の確立をめざして研究を行った。ガウス過程回帰に基づいたスペクトルパラメータ生成に加え，基本周波数および音韻継続長予測からなる韻律生成手法を提案し，GPR音声合成システムを構築した。評価実験を通してGPR音声合成手法の有効性を示すとともに，多様な話者性やスタイルによる音声合成への応用，従来手法では合成音声の韻律の自然性が不十分であった声調言語への適用を検討し，提案手法の有用性を示した。
状態推定に基づく多様な音声の認識・合成による「人にやさしい」対話システムの研究

能勢隆, 伊藤彰則, 千葉祐弥, 森大毅

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tohoku University

2015年4月1日～ 2018年3月31日

詳細を見る詳細を閉じる

本研究課題では、「人にやさしい」対話システムを実現するため、多様な音声の認識および合成手法の改善や高度化、および対話者の状態推定手法とその利用について検討を行なった。具体的には(1)音声対話における感情利用の妥当性、および感情推定法について検討した。(2)音韻と韻律コンテキストを考慮した拡張エントロピーに基づく文選択法の提案・評価を行なった。(3)対話意欲推定のために、対話の収録・分析を行なった。(4)感情音声合成・感情音声認識・感情推定に利用可能な大規模な感情音声コーパスを構築した。(5)多様で高品質な音声合成手法として分散補償およびテーラーメイド音声合成手法を提案・評価した。
Affect burst―音声対話における無意識な感情表出の分析および合成

森大毅, 有本泰子, 能勢隆, 永田智洋

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Utsunomiya University

2014年4月1日～ 2018年3月31日

詳細を見る詳細を閉じる

(1) 叫び声を誘発しやすいオンラインゲームをプレイする状況のコーパスを開発した。このコーパスには既存コーパスの10倍以上の頻度で叫び声が含まれている。叫び声の音響分析により、通常語彙や感動詞との音響的特性の違いを明らかにした。 (2) 感情表出系感動詞の形態を分類し、多様な形態を持つ「あ」を合成した。合成音声を用いた知覚実験により、形態とパラ言語情報との関係を明らかにした。 (3) 自然対話コーパスから笑い声の構成要素の変動要因を明らかにするとともに、コーパスベース音声合成を応用した多様な笑い声合成を実現した。知覚実験により、定義した変動要因を考慮することにより自然性が向上することがわかった。
音声認識生成システムの自己組織化学習

篠崎隆宏, 能勢隆, Duh Kevin, 荒井隆行, 渡部晋治

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tokyo Institute of Technology

2014年4月1日～ 2018年3月31日

詳細を見る詳細を閉じる

少量のラベル付き音声データと大量のラベル無し音声データから音声言語を学習したり、人手に頼ることなく自動的にシステム構造や学習条件を最適化しシステム性能を最大化したりすることのできる、自律的な音声言語情報処理システムの仕組みを実現することを目的に研究を行った。進化戦略を用いた大規模なニューラルネットワークシステムの自動最適化手法や、音声をモデル化する各種の統計モデルの教師なし学習法、強化学習法の提案を行い、実験により有効性を示した。研究成果発表の一環として公開したフリーな高性能日本語音声認識システムは、国内外で幅広く用いられている。
日本語文難易度推定と音声合成による「やさしい日本語」作成補助システムの研究開発

伊藤彰則, 佐藤和之, 能勢隆, 千葉祐弥, 長野雄

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tohoku University

2014年4月1日～ 2017年3月31日

詳細を見る詳細を閉じる

「やさしい日本語」の文作成および音声アナウンス作成を高度化するため、やさしい日本語支援システム「やんしす」の高度化、およびそれに必要な調査研究を行った。調査内容としては、文難易度の自動推定、文の難易度、話速、ポーズおよび音響環境による音声劣化が文の聴き取りにどのように影響するかを調べた。これによって「やさしい日本語」音声として適切な話速が明らかになった。これを受けて、文難易度推定および音声合成機能を「やんしす」に実装した。
多様で肉声感の高い音声生成のための素片正規化に基づくハイブリッド音声合成の研究

能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Young Scientists (B)

研究機関：Tohoku University

2013年4月1日～ 2015年3月31日

詳細を見る詳細を閉じる

本研究は，任意の話者の限られた音声データのみで「人間に近い肉声感」をもち，かつ様々な感情や発話様式を表現可能なハイブリッド型の音声合成方式を確立することを目的として研究を行い，以下の6つの項目について成果が得られた．(1)非言語情報やパラ言語情報を柔軟に再現・制御可能とする，(2)韻律の多様性を自動学習する，(3)多言語の音声合成への拡張を行う，(4)音声だけでなく歌声への応用についても検討する，(5)このような音声コーパスを効率的に構築する方法を確立する，(6)従来のパラメータ生成法を改善し主観品質を向上する，
ガウス過程回帰モデルに基づくノンパラメトリック音声合成の研究

小林隆夫, 能勢隆, 郡山知樹

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Challenging Exploratory Research

研究機関：Tokyo Institute of Technology

2013年4月1日～ 2015年3月31日

詳細を見る詳細を閉じる

隠れマルコフモデルに基づく音声合成手法の性能の限界を超えて，より多様で自然な合成音声を生成するために，ノンパラメトリックモデルを用いた音声合成手法を確立することをめざして研究を行った。提案する音声合成手法におけるモデル化はガウス過程回帰に基づいており，入力テキストに対してフレーム単位で音声合成に必要なパラメータを予測するためのカーネル関数の設計，計算量削減手法，ハイパーパラメータの自動最適化手法，ガウス過程分類を導入した韻律情報のモデル化手法などの検討を行った。
ロバスト音声合成の深化と多言語音声コミュニケーションへの展開

小林隆夫, 能勢隆, 郡山知樹

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tokyo Institute of Technology

2012年4月1日～ 2015年3月31日

詳細を見る詳細を閉じる

多様で表現豊かな音声合成の実現のために，モデル学習用音声データの量や質の変動に頑健で自然性の高い合成音声を生成するロバスト音声合成技術の深化をめざして研究を行った。ロバスト音声合成の基本技術として，学習用音声データのスタイル表出度合に依存しにくいスタイル制御モデルの構築法や韻律モデリング手法を提案し，評価実験を通してその有効性を示した。また，音声資源が乏しい言語へのロバスト音声合成技術の応用や新たなクロスリンガル音声合成手法を提案し，多言語音声コミュニケーションへの展開の検討を行った。
次世代ヒューマノイド音声合成に向けたコーパスデザインに基づく音声多様化技術の研究

能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Young Scientists (B)

2011年～ 2012年

詳細を見る詳細を閉じる

本研究課題は人間に近いより自然で多様な音声合成システムの実現を目指すものであり、研究期間全体を通じて以下の項目について研究成果が得られた。 (1)アクセント、スタイル、文末表現などを総合的に考慮した音声コーパス構築法を提案し、その有効性を示した。(2)ユーザによる主観的な感情の度合を定量化してモデル学習に組み込む新たな枠組を提案した。(3)強調表現を含む音声を自動的に生成するため、声の高さを表す基本周波数(F0)に着目し、F0生成を利用した強調表現の自動ラベリングを実現した。(4)言語の多様化手法として、目標話者の母国語音声のみからその話者の外国語音声を合成する手法を提案した。
個性及び表現性ロバストな音声言語インタフェースに関する研究

小林隆夫, 長橋宏, 能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Scientific Research (B)

研究機関：Tokyo Institute of Technology

2009年～ 2011年

詳細を見る詳細を閉じる

ユーザの嗜好や気分に応じた表現豊かな音声出力と,ユーザの個性,気分や話し方の変化に頑健な音声入力ができる音声インタラクションを実現するためのロバスト音声認識・合成技術の確立を目指して研究を行った。ロバスト音声合成では,基本周波数量子化に基づく韻律コンテキストや自然発話・会話音声合成のための拡張コンテキストに基づく音声合成手法を,またロバスト音声認識では,感情表現・発話様式などのパラ言語情報の検出・表出度合の推定手法及び高速なモデル適応手法を確立し,その有効性を示した。
ヒューマノイド音声対話システムのための話し言葉音声合成に関する研究

能勢隆

提供機関：Japan Society for the Promotion of Science

制度名：Grants-in-Aid for Scientific Research

研究種目：Grant-in-Aid for Research Activity Start-up

研究機関：Tokyo Institute of Technology

2009年～ 2010年

詳細を見る詳細を閉じる

ヒューマノイド音声対話システムの実現に向けた話し言葉音声合成のための基盤技術として、(1)統計モデルに基づく話し言葉音声合成の検討、(2)統計モデルに基づく不特定話者声質変換の検討、(3)音声合成における音韻・韻律コンテキストの詳細な評価、を行った。

︎全件表示 ︎最初の5件までを表示