顔写真

イトウ アキノリ
伊藤 彰則
Akinori Ito
所属
大学院工学研究科 通信工学専攻 知的通信ネットワーク工学講座(ヒューマンインターフェース分野)
職名
教授
学位
  • 工学博士(東北大学)

  • 工学修士(東北大学)

e-Rad 研究者番号
70232428

経歴 7

  • 2010年4月 ~ 継続中
    東北大学 大学院工学研究科 教授

  • 2002年4月 ~ 2010年3月
    東北大学 大学院工学研究科 助教授

  • 1999年10月 ~ 2002年3月
    山形大学工学部 助教授

  • 1995年4月 ~ 1999年9月
    山形大学工学部 講師

  • 1998年5月 ~ 1999年4月
    ボストン大学工学部 客員研究員

  • 1992年4月 ~ 1995年3月
    東北大学 情報処理教育センター 助手

  • 1991年4月 ~ 1992年3月
    東北大学 応用情報学研究センター 助手

︎全件表示 ︎最初の5件までを表示

学歴 2

  • 東北大学 工学研究科 情報工学専攻

    ~ 1991年3月

  • 東北大学 工学部 通信工学科

    ~ 1986年3月

委員歴 42

  • Journal of Information Hiding and Multimedia Signal Processing Associate Editor

    2009年4月 ~ 継続中

  • 日本音響学会 評議員

    2007年5月 ~ 継続中

  • 日本音響学会 代議員

    2005年5月 ~ 継続中

  • 日本音響学会 会長

    2019年5月 ~ 2021年5月

  • 日本音響学会 理事

    2009年6月 ~ 2021年5月

  • 日本音響学会 編集委員会 委員長

    2015年6月 ~ 2017年6月

  • 日本音響学会 編集委員会 委員長

    2015年6月 ~ 2017年6月

  • 電子情報通信学会 マルチメディア情報ハイディング・エンリッチメント研究会 委員長

    2015年5月 ~ 2017年4月

  • Acoustical Society of Japan Vice President

    2013年6月 ~ 2015年6月

  • 日本音響学会 副会長

    2013年6月 ~ 2015年6月

  • 情報処理学会 音声言語情報処理研究会 運営委員

    2004年5月 ~ 2015年4月

  • 日本音響学会 編集委員会 副主査

    2007年5月 ~ 2009年4月

  • 情報処理学会 音楽情報科学研究会 運営委員

    2007年5月 ~ 2009年4月

  • 日本音響学会 編集委員会 副主査

    2007年5月 ~ 2009年4月

  • 情報処理学会 音楽情報科学研究会 運営委員

    2007年5月 ~ 2009年4月

  • 電子情報通信学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 日本音響学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 電子情報通信学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 日本音響学会 音声研究会 運営委員

    2005年5月 ~ 2008年5月

  • 日本音響学会 学術委員会 幹事

    2005年9月 ~ 2007年6月

  • 日本音響学会 学術委員会 幹事

    2005年9月 ~ 2007年6月

  • 日本音響学会 電子化推進委員会 委員

    2005年9月 ~ 2007年5月

  • 電子情報通信学会 和文論文誌D 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 日本音響学会 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 電子情報通信学会 和文論文誌D 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 日本音響学会 編集委員会 編集幹事

    2005年5月 ~ 2007年4月

  • 日本音響学会 編集委員会 編集委員

    2003年5月 ~ 2005年4月

  • 日本音響学会 編集委員会 編集委員

    2003年5月 ~ 2005年4月

  • 日本音響学会 東北支部 幹事

    2002年5月 ~ 2005年4月

  • 電子情報通信学会 和文論文誌D編集委員会 編集委員

    2002年5月 ~ 2005年4月

  • 日本音響学会 東北支部 幹事

    2002年5月 ~ 2005年4月

  • 電子情報通信学会 和文論文誌D編集委員会 編集委員

    2002年5月 ~ 2005年4月

  • 電子情報通信学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 日本音響学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 電子情報通信学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 日本音響学会 音声研究会 幹事

    2002年5月 ~ 2004年4月

  • 情報処理学会 音声言語情報処理研究会 連続音声認識コンソーシアム 実行委員

    2001年1月 ~ 2003年9月

  • 情報処理学会 音声言語情報処理研究会 連続音声認識コンソーシアム 実行委員

    2001年1月 ~ 2003年9月

  • 情報処理学会 音声言語研究会 連絡委員

    1997年5月 ~ 2001年4月

  • 情報処理学会 音声言語研究会 連絡委員

    1997年5月 ~ 2001年4月

  • 大学入試センター 教科専門委員会 問題作成部会 委員

    1996年4月 ~ 1997年3月

  • 大学入試センター 教科専門委員会 問題作成部会 委員

    1996年4月 ~ 1997年3月

︎全件表示 ︎最初の5件までを表示

所属学協会 6

  • ヒューマンインタフェース学会

  • International Speech Communication Association

  • The Institute of Electrical and Electronics Engineers

  • 情報処理学会

  • 電子情報通信学会

  • 日本音響学会

︎全件表示 ︎最初の5件までを表示

研究キーワード 5

  • 外国語教育システム

  • 音楽情報処理

  • 自然言語処理

  • 音声処理

  • 音声認識

研究分野 2

  • 人文・社会 / 外国語教育 /

  • 情報通信 / 知能情報学 /

受賞 5

  1. Best Paper Award of International Conference on Natural Language Processing and Knowledge Engineering

    2008年10月 Organizing Committee of International Conference on Natural Language Processing and Knowledge Engineering

  2. Best Paper Award of International Conference on Intelligent Information Hiding and Multimedia Signal Processing

    2007年11月 Organizing Committee of International Conference on Intelligent Information Hiding and Multimedia Signal Processing

  3. Best Paper Award of The 5th International Conference on Education and Information Systems, Technologies and Applications

    2007年7月 Organizing Committee of The 5th International Conference on Education and Information Systems, Technologies and Applications

  4. 石田(實)記念財団研究奨励賞

    2003年11月28日 石田(實)記念財団 音声言語処理に関する研究

  5. オープンソフトウェア大賞 入賞

    2000年6月7日 電子ネットワーク協議会 ソフトウェア“w3m”の開発

論文 357

  1. Automatic assessment of English proficiency for Japanese learners without reference sentences based on deep neural network acoustic models 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Speech Communication 116 86-97 2020年1月

    DOI: 10.1016/j.specom.2019.12.002  

    ISSN:0167-6393

    詳細を見る 詳細を閉じる

    © 2019 Elsevier B.V. Speech-based computer-assisted language learning (CALL) systems should recognize the utterances of the learner with high accuracy and evaluate the language proficiency of the specific speaker with appropriate methods. In this paper, we discuss the automatic assessment of the second language (L2) for non-native speakers. There are many existing works on pronunciation evaluation by applying the goodness of pronunciation (GOP) method. This paper introduces an automatic proficiency evaluation system that combines various kinds of non-native acoustic models and native ones, such as Gaussian mixture model (GMM)-hidden Markov model (HMM) and deep neural network (DNN)-HMM. Most of existing works assume that we know the transcription of an utterance (the reference sentence) when evaluating the utterance, especially in reading and repeating tasks. To realize a reference-free proficiency evaluation, we propose a novel machine score named as the reference-free error rate (RER) to evaluate English proficiency. In our experiments, the DNN-based non-native acoustic models outperformed the traditional acoustic models on non-native speech recognition. Thus, we calculated the RER by regarding the recognition result from the DNN-based non-native acoustic model as “reference” and the result from the native acoustic model as “recognition result”. The proposed RER has high correlation with human proficiency scores, which indicates the effectiveness of RER for automatically estimating the proficiency. By combining the RER with other machine scores such as the log-likelihood scores, we obtained high correlation (reading aloud task: [Formula presented]; constrained interactive dialogue task: [Formula presented]; spontaneous English conversation task: [Formula presented]) to the human scores.

  2. Development of a Play-Tag Robot with Human–Robot Contact 査読有り

    Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Applied Sciences 13 (23) 12909-12909 2023年12月1日

    出版者・発行元:MDPI AG

    DOI: 10.3390/app132312909  

    eISSN:2076-3417

    詳細を見る 詳細を閉じる

    Many robots that play with humans have been developed so far, but developing a robot that physically contacts humans while playing is challenging. We have developed robots that play tag with humans, which find players, approach them, and move away from them. However, the developed algorithm for approaching a player was insufficient because it did not consider how the arms are attached to the robot. Therefore, in this paper, we assume that the arms are fixed on both sides of the robot and develop a new algorithm to approach the player and touch them with an arm. Since the algorithm aims to move along a circular orbit around a player, we call this algorithm “the go-round mode”. To investigate the effectiveness of the proposed method, we conducted two experiments. The first is a simulation experiment, which showed that the proposed method outperformed the previous one. In the second experiment, we implemented the proposed method in a real robot and conducted an experiment to chase and touch the player. As a result, the robot could touch the player in all the trials without collision.

  3. Multimodal Expressive Embodied Conversational Agent Design 査読有り

    Simon Jolibois, Akinori Ito, Takashi Nose

    Communications in Computer and Information Science 244-249 2023年7月9日

    出版者・発行元:Springer Nature Switzerland

    DOI: 10.1007/978-3-031-35989-7_31  

    ISSN:1865-0929

    eISSN:1865-0937

  4. Spoken term detection from utterances of minority languages 招待有り 査読有り

    Akinori Ito, Satoru Mizuochi, Takashi Nose

    Issues in Japanese Psycholongustics from Comparative Perspectives 1 2023年7月

  5. Effect of Data Size and Machine Translation on the Accuracy of Automatic Personality Classification 査読有り

    Yuki Fukazawa, Akinori Ito, Takashi Nose

    Advances in Intelligent Information Hiding and Multimedia Signal Processing 405-413 2023年5月24日

    出版者・発行元:Springer Nature Singapore

    DOI: 10.1007/978-981-99-0105-0_36  

    ISSN:2190-3018

    eISSN:2190-3026

  6. Spoken Dialogue System Development Without Speech Recognition Towards Language Revitalization 査読有り

    Akinori Ito

    Advances in Intelligent Information Hiding and Multimedia Signal Processing 393-404 2023年5月24日

    出版者・発行元:Springer Nature Singapore

    DOI: 10.1007/978-981-99-0105-0_35  

    ISSN:2190-3018

    eISSN:2190-3026

  7. A Robotic System for Remote Teaching of Technical Drawing 査読有り

    Yutaka Hiroi, Akinori Ito

    Education Sciences 13 (4) 2023年3月28日

    DOI: 10.3390/educsci13040347  

  8. Personality Analysis of Entrepreneurial Text for Entrepreneurship Education 査読有り

    Akinori Ito, Kotaro Takeda, Shuichi Ishida

    2023 5th International Conference on Natural Language Processing (ICNLP) 2023年3月

    出版者・発行元:IEEE

    DOI: 10.1109/icnlp58431.2023.00047  

  9. Path Following Algorithm with Small Error for Guide Robot 査読有り

    Hironobu Wakabayashi, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Robot Intelligence Technology and Applications 7 56-67 2023年3月1日

    出版者・発行元:Springer International Publishing

    DOI: 10.1007/978-3-031-26889-2_6  

    ISSN:2367-3370

    eISSN:2367-3389

  10. Confidence-based Utterance Selection for a Recognizer-free Spoken Dialogue System 査読有り

    Akinori Ito

    Proceedings of the 2023 15th International Conference on Machine Learning and Computing 481-484 2023年2月17日

    出版者・発行元:ACM

    DOI: 10.1145/3587716.3587796  

  11. Response Sentence Modification Using a Sentence Vector for a Flexible Response Generation of Retrieval-based Dialogue Systems 査読有り

    Ryota Yahagi, Akinori Ito, Takashi Nose, Yuya Chiba

    2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2022年11月7日

    出版者・発行元:IEEE

    DOI: 10.23919/apsipaasc55919.2022.9979841  

  12. Design and Construction of Japanese Multimodal Utterance Corpus with Improved Emotion Balance and Naturalness 査読有り

    Daisuke Horii, Akinori Ito, Takashi Nose

    2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) 2022年11月7日

    出版者・発行元:IEEE

    DOI: 10.23919/apsipaasc55919.2022.9980272  

  13. Multimodal Dialogue Response Timing Estimation Using Dialogue Context Encoder 査読有り

    Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

    Lecture Notes in Electrical Engineering 133-141 2022年11月1日

    出版者・発行元:Springer Nature Singapore

    DOI: 10.1007/978-981-19-5538-9_9  

    ISSN:1876-1100

    eISSN:1876-1119

  14. Combination of deep-learning-based audio separation and speech enhancement for noise reduction of extracted signal from polyphonic music 査読有り

    Soichiro Kobayashi, Takashi Nose, Akinori Ito

    Proceedings of the 24th International Congress of Acoustics 2022年10月

  15. Successive Binary Partition K-means Method for Clustering with Less Cluster Size Bias 査読有り

    Akinori Ito

    2022 7th International Conference on Signal and Image Processing (ICSIP) 2022年7月20日

    出版者・発行元:IEEE

    DOI: 10.1109/icsip55141.2022.9886452  

  16. Development of a Teleoperated Play Tag Robot with Semi-Automatic Play 査読有り

    Yoshitaka Kasai, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    2022 IEEE/SICE International Symposium on System Integration (SII) 2022年1月9日

    出版者・発行元:IEEE

    DOI: 10.1109/sii52469.2022.9708883  

  17. Spoken Term Detection of Zero-Resource Language Using Posteriorgram of Multiple Languages

    Satoru MIZUOCHI, Takashi NOSE, Akinori ITO

    Interdisciplinary Information Sciences 28 (1) 1-13 2022年

    出版者・発行元:Graduate School of Information Sciences, Tohoku University

    DOI: 10.4036/iis.2022.a.04  

    ISSN:1340-9050

    eISSN:1347-6157

  18. Study on the Background Music Cancellation System for Speech Privacy 査読有り

    Jianning Huang, Akinori Ito

    2021 IEEE 6th International Conference on Signal and Image Processing (ICSIP) 2021年10月22日

    出版者・発行元:IEEE

    DOI: 10.1109/icsip52628.2021.9688835  

  19. Analysis of Feature Extraction by Convolutional Neural Network for Speech Emotion Recognition 査読有り

    Daisuke Horii, Akinori Ito, Takashi Nose

    2021 IEEE 10th Global Conference on Consumer Electronics (GCCE) 2021年10月12日

    出版者・発行元:IEEE

    DOI: 10.1109/gcce53005.2021.9621964  

  20. Speaker Intimacy in Chat-Talks: Analysis and Recognition based on Verbal and Non-Verbal Information 査読有り

    Chiba, Yuya, Yoshihiro Yamazaki, Akinori Ito

    Proceedings of the 25th Workshop on the Semantics and Pragmatics of Dialogue 2021年9月

  21. Effect of Training Data Selection for Speech Recognition of Emotional Speech 査読有り

    Yusuke Yamada, Yuya Chiba, Takashi Nose, Akinori Ito

    International Journal of Machine Learning and Computing 11 (5) 362-366 2021年9月

  22. Improvement of Automatic English Pronunciation Assessment with Small Number of Utterances Using Sentence Speakability 査読有り

    Satsuki Naijo, Akinori Ito, Takashi Nose

    Interspeech 2021 2021年8月30日

    出版者・発行元:ISCA

    DOI: 10.21437/interspeech.2021-1132  

  23. Neural Spoken-Response Generation Using Prosodic and Linguistic Context for Conversational Systems 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    Interspeech 2021 2021年8月30日

    出版者・発行元:ISCA

    DOI: 10.21437/interspeech.2021-381  

  24. Development of a Mobile Robot That Plays Tag with Touch-and-Away Behavior Using a Laser Range Finder 査読有り

    Yoshitaka Kasai, Yutaka Hiroi, Kenzaburo Miyawaki, Akinori Ito

    Applied Sciences 11 (16) 7522-7522 2021年8月17日

    出版者・発行元:MDPI AG

    DOI: 10.3390/app11167522  

    eISSN:2076-3417

    詳細を見る 詳細を閉じる

    The development of robots that play with humans is a challenging topic for robotics. We are developing a robot that plays tag with human players. To realize such a robot, it needs to observe the players and obstacles around it, chase a target player, and touch the player without collision. To achieve this task, we propose two methods. The first one is the player tracking method, by which the robot moves towards a virtual circle surrounding the target player. We used a laser range finder (LRF) as a sensor for player tracking. The second one is a motion control method after approaching the player. Here, the robot moves away from the player by moving towards the opposite side to the player. We conducted a simulation experiment and an experiment using a real robot. Both experiments proved that with the proposed tracking method, the robot properly chased the player and moved away from the player without collision. The contribution of this paper is the development of a robot control method to approach a human and then move away safely.

  25. SMOC corpus: A large-scale Japanese spontaneous multimodal one-on-one chat-talk corpus for dialog systems 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 42 (4) 210-213 2021年7月1日

    出版者・発行元:Acoustical Society of Japan

    DOI: 10.1250/ast.42.210  

    ISSN:1346-3969

    eISSN:1347-5177

  26. A Light-weight Hand-waving Gesture Recognition Method Using Kinect V2 and Frequency Analysis 査読有り

    Yuki Misaki, Yutaka Hiroi, Akinori Ito

    2021 IEEE/SICE International Symposium on System Integration, SII 2021 750-755 2021年1月11日

    DOI: 10.1109/IEEECONF49454.2021.9382709  

    詳細を見る 詳細を閉じる

    This paper describes a light-weight method for hand-waving gesture detection. Gesture recognition is actively researched as a user interface of robots. Conventional gesture recognition methods need to employ complicated pattern matching algorithms, such as DTW, HMM, and DNN, which require a powerful computing platform such as fast CPU or GPU that consumes much energy. We propose a gesture recognition/detection method specially designed for the recognition of hand-waving gesture. This method uses Kinect V2 as the sensor and detects the waving gesture using only a simple signal processing. The recognition experiment suggested that the proposed method gave sufficiently high accuracy, and the processing speed was much faster than real-time.

  27. CycleGAN-Based High-Quality Non-Parallel Voice Conversion with Spectrogram and WaveRNN 査読有り

    Aoi Kanagaki, Masaya Tanaka, Takashi Nose, Ryohei Shimizu, Akira Ito, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 356-357 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291952  

    詳細を見る 詳細を閉じる

    This paper proposes Scyclone, a high-quality voice conversion (VC) technique without parallel data training. Scyclone improves speech naturalness and speaker similarity of the converted speech by introducing CycleGAN-based spectrogram conversion with a simplified WaveRNN-based vocoder. In Scyclone, a linear spectrogram is used as the conversion feature, which avoids quality degradation due to extraction errors. The subjective experiments show that Scyclone is significantly better than CycleGAN-VC2, one of the existing state-of-the-art parallel-data-free VC techniques.

  28. Incremental response generation using prefix-to-prefix model for dialogue system 査読有り

    Ryota Yahagi, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 349-350 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291883  

    詳細を見る 詳細を閉じる

    A spoken dialogue system that is currently deployed in many devices cannot respond to a user with a natural switching pause. One of the reasons is that the conventional system generates the response with the pipe-line of several processes, such as speech recognition, response generation, and speech synthesis. The dialogue system should process the user's utterance and generate the response incrementally to achieve natural turn-taking as human-being. In this paper, we examined an incremental response generation method based on a Prefix-to-Prefix model, which is proposed for simultaneous machine translation. This model has a similar structure with the Sequence-to-Sequence model, which is successfully applied to the response generation. We conducted several experiments to confirm the effectiveness of the Prefix-to-Prefix model for incremental response generation.

  29. A study on minimum spectral error analysis of speech 査読有り

    Takuma Hayasaka, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 362-363 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291840  

    詳細を見る 詳細を閉じる

    Conventional source-filter vocoders, such as WORLD, can quickly synthesize speech. However, the quality of synthetic speech is degraded due to speech parameters extraction errors. Therefore, this paper proposes minimum spectral error analysis, a speech analysis method that extracts speech parameters using Analysis-by-Synthesis (A-b-S), to improve the quality of speech synthesized by WORLD. We update speech parameters to minimize the error between the amplitude spectra of natural and synthetic speech. We developed the calculation process of the amplitude spectrum of synthetic speech from speech parameters to perform this analysis. A preliminary experiment shows that we have successfully constructed the calculation process.

  30. Filler prediction based on bidirectional LSTM for generation of natural response of spoken dialog 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 360-361 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291867  

    詳細を見る 詳細を閉じる

    Most of the conventional response generation models do not generate speech disfluencies including fillers, because they are trained from a written language corpus. It is necessary to insert fillers to written sentences for training a response generation model for the spoken language. In this paper, we proposed the filler prediction model based on bidirectional LSTM (BLSTM). This approach can consider a whole utterance and model both positions and kinds of fillers simultaneously. The experiments showed that the proposed method surpasses the conventional approach in terms of the prediction accuracy.

  31. Successive Japanese lyrics generation based on encoder-decoder model 査読有り

    Rikiya Takahashi, Takashi Nose, Yuya Chiba, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 126-127 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291718  

    詳細を見る 詳細を閉じる

    In this paper, we propose lyrics writing based on the Encoder-Decoder model. Because recent lyrics writing support systems writes lyrics based on an N-gram language model, they cannot consider a long-term context of lyrics. In the proposed method, we consider a context of 3 words and over by writing lyrics with the Encoder-Decoder model. By using relative mora positions and an algorithm of generating several sentences, we accomplish generating the number of morae that specified and plural candidate sentences.

  32. Analysis and Estimation of Sentence Speakability for English Pronunciation Evaluation 査読有り

    Satsuki Naijo, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 353-355 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9292072  

    詳細を見る 詳細を閉じる

    Conventional automatic English evaluation systems used only acoustic features extracted from an input speech. However, not only the speaker' s pronunciation ability but also the difficulty of the sentences affect the pronunciation score. In this paper, we referred to the difficulty of sentences as 'speakability.' Analysis of variance revealed that sentence speakability was effective in the evaluation as well as the speaker s pronunciation ability. We also showed that the number of phonemes in a sentence and word familiarity were useful as features to estimate sentence speakability. Finally, we carried out the multivariate regression analysis to estimate the sentence speakability score from these features, and the correlation coefficient was 0.41.

  33. LJSing: large-scale singing voice corpus of single Japanese singer 査読有り

    Takuto Fujimura, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 364-365 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291704  

    詳細を見る 詳細を閉じる

    This paper describes the construction of the LJSing, a large-scale Japanese singing voice corpus by a single female singer for singing voice synthesis based on statistical methods. Singing voice synthesis systems based on machine learning have been widely studied. However, most Japanese singing voice corpora are not enough for the training of recent deep-learningbased synthesis. Furthermore, those corpora were designed without phonetic and prosodic balance. Therefore, we recorded and labeled a five-hour phonetically and prosodically balanced singing corpus sung by a Japanese singer. The corpus consists of two data sets, SongSet and PhraseSet, which are constructed based on songs and phrases, respectively.

  34. Improving Pronunciation Clarity of Dysarthric Speech Using CycleGAN with Multiple Speakers 査読有り

    Shuhei Imai, Takashi Nose, Aoi Kanagaki, Satoshi Watanabe, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 366-367 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9292041  

    詳細を見る 詳細を閉じる

    In this paper, we propose a method that improves pronunciation clarity of dysarthric speech using CycleGAN based non-parallel voice conversion. This method converts dysarthric speech into healthy speech using CycleGAN. We considered the use of single and multiple speakers as healthy speech. The subjective evaluations showed the effectiveness of using multiple speakers as healthy speech.

  35. Spoken term detection based on acoustic models trained in multiple languages for zero-resource language 査読有り

    Satoru Mizuochi, Yuya Chiba, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 351-352 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291761  

    詳細を見る 詳細を閉じる

    In this paper, we study a spoken term detection method for zero-resource languages by using rich-resource languages. The examined method combines phonemic posteriorgrams (PPGs) extracted from phonemic classifiers of multiple languages and detects a query word based on dynamic time warping. As a result, the method showed better detection performance in a zero-resource language compared with the method using PPGs of a single language.

  36. Integration of accent sandhi and prosodic features estimation for japanese text-to-speech synthesis 査読有り

    Daisuke Fujimaki, Takashi Nose, Akinori Ito

    2020 IEEE 9th Global Conference on Consumer Electronics, GCCE 2020 358-359 2020年10月13日

    DOI: 10.1109/GCCE50665.2020.9291906  

    詳細を見る 詳細を閉じる

    In recent years, Japanese text-to-speech (TTS) synthesis methods have been actively researched. We need to estimate appropriate prosodic information for generating a high-quality synthetic speech. However, manual annotation is costly, and automatic annotation introduces estimation errors. This paper examines the integration of accent sandhi and prosodic feature estimation in the acoustic modeling for Japanese TTS to overcome the problems. The proposed method achieves total optimization of the F0 model by using the linguistic features from a dictionary. Objective and subjective evaluations confirmed that the cost of creating accent labels was reduced, and the accuracy of the prosodic feature estimation was improved.

  37. Language modeling in speech recognition for grammatical error detection based on neural machine translation 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 41 (5) 788-791 2020年9月1日

    出版者・発行元:Acoustical Society of Japan

    DOI: 10.1250/ast.41.788  

    ISSN:1346-3969

    eISSN:1347-5177

  38. Construction and analysis of a multimodal chat-talk corpus for dialog systems considering interpersonal closeness 査読有り

    Yoshihiro Yamazaki, Yuya Chiba, Takashi Nose, Akinori Ito

    LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings 443-448 2020年

    詳細を見る 詳細を閉じる

    There are high expectations for multimodal dialog systems that can make natural small talk with facial expressions, gestures, and gaze actions as next-generation dialog-based systems. Two important roles of the chat-talk system are keeping the user engaged and establishing rapport. Many studies have conducted user evaluations of such systems, some of which reported that considering the relationship with the user is an effective way to improve the subjective evaluation. To facilitate research of such dialog systems, we are currently constructing a large-scale multimodal dialog corpus focusing on the relationship between speakers. In this paper, we describe the data collection and annotation process, and analysis of the corpus collected in the early stage of the project. This corpus contains 19,303 utterances (10 hours) from 19 pairs of participants. A dialog act tag is annotated to each utterance by two annotators. We compare the frequency and the transition probability of the tags between different closeness levels to help construct a dialog system for establishing a relationship with the user.

  39. Multi-stream attention-based BLSTM with feature segmentation for speech emotion recognition 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2020-October 3301-3305 2020年

    DOI: 10.21437/Interspeech.2020-1199  

    ISSN:2308-457X

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    This paper proposes a speech emotion recognition technique that considers the suprasegmental characteristics and temporal change of individual speech parameters. In recent years, speech emotion recognition using Bidirectional LSTM (BLSTM) has been studied actively because the model can focus on a particular temporal region that contains strong emotional characteristics. One of the model's weaknesses is that it cannot consider the statistics of speech features, which are known to be effective for speech emotion recognition. Besides, this method cannot train individual attention parameters for different descriptors because it handles the input sequence by a single BLSTM. In this paper, we introduce feature segmentation and multi-stream processing into attention-based BLSTM to solve these problems. In addition, we employed data augmentation based on emotional speech synthesis in a training step. The classification experiments between four emotions (i.e., anger, joy, neutral, and sadness) using the Japanese Twitter-based Emotional Speech corpus (JTES) showed that the proposed method obtained a recognition accuracy of 73.4%, which is comparable to human evaluation (75.5%).

  40. A symbol-level melody completion based on a convolutional neural network with generative adversarial learning 査読有り

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Journal of Information Processing 28 248-257 2020年

    DOI: 10.2197/ipsjjip.28.248  

    ISSN:0387-5806

    eISSN:1882-6652

    詳細を見る 詳細を閉じる

    © 2020 Information Processing Society of Japan. In this paper, we deal with melody completion, a technique which smoothly completes partially-masked melodies. Melody completion can be used to help people compose or arrange pieces of music in several ways, such as editing existing melodies or connecting two other melodies. In recent years, various methods have been proposed for realizing high-quality completion via neural networks. Therefore, in this research, we examine a method of melody completion based on an image completion network. We represent melodies as images and train a completion network to complete those images. The completion network consists of convolution layers and is trained in the framework of generative adversarial networks. We also consider chord progression from musical pieces as conditions. From the experimental result, it was confirmed that the network could generate original melody as a completion result and the quality of the generated melody was not significantly worse than the result of a simple example-based melody completion method.

  41. Human-machine metacommunication towards development of a human-like agent: A short review 査読有り

    Akinori Ito

    Acoustical Science and Technology 41 (1) 166-169 2020年

    DOI: 10.1250/ast.41.166  

    ISSN:1346-3969

    eISSN:1347-5177

    詳細を見る 詳細を閉じる

    © 2020 The Acoustical Society of Japan This article briefly reviews the research works related to metacommunication. Metacommunication is a term meaning ''communication on communication,'' which is related to marginal communication such as conveying recognition, comprehension, and evaluation of an interlocutor's words. Herein, several research works are reviewed from the metacommunication point of view.

  42. Evaluation of Person Tracking Methods for Human-Robot Physical Play 査読有り

    Koyuki Ikemoto, Yutaka Hiroi, Akinori Ito

    Proceedings of the 2020 IEEE/SICE International Symposium on System Integration, SII 2020 416-421 2020年1月

    DOI: 10.1109/SII46433.2020.9026275  

    詳細を見る 詳細を閉じる

    © 2020 IEEE. We aim to develop a robotic system that can play physical games such as play tag with humans. To realize such a system, the system needs to detect and track persons around the robot who are rapidly moving. Tracking of persons behaving as such is a challenging task. As the first step for realizing the system, we investigated fluctuation of measurement when a person is rapidly moving along a complex path. We prepared two paths: a circular path and a zig-zag path. We measured fluctuation of velocity calculated from the measured human data. As a result, the fluctuation when running the circular path was smaller than that when walking the same path. The zig-zag movement gave the larger fluctuation. In total, the amount of fluctuation was not very larger than that when a person moves along a straight path.

  43. A pedestrian avoidance method considering personal space for a guide robot 査読有り

    Yutaka Hiroi, Akinori Ito

    Robotics 8 (4) 2019年12月1日

    DOI: 10.3390/ROBOTICS8040097  

    eISSN:2218-6581

    詳細を見る 詳細を閉じる

    © 2019 by the authors. Many methods have been proposed for avoiding obstacles in robotic systems. However, a robotic system that moves without colliding with obstacles and people, while still being mentally safe to the persons nearby, has not yet been realized. In this paper, we describe the development of a method for a mobile robot to avoid a pedestrian approaching from the front and to pass him/her by while preserving the "public distance" of personal space. We assume a robot that moves along a prerecorded path. When the robot detects a pedestrian using a laser range finder (LRF), it calculates the trajectory to avoid the pedestrian considering their personal space, passes by the pedestrian, and returns to the original trajectory. We introduce a virtual target to control the robot moving along the path, such that it can use the same control strategy as for human-following behavior. We carry out experiments to evaluate the method along three routes, in which the robot functioned without problems. The distance between the robot and the pedestrian was 9.3 m, on average, when the robot started to use avoiding behavior, which is large enough to keep a public distance from a pedestrian. When the robot passed by the pedestrian, the minimum distance between them was 1.19 m, which was large enough for passing safely.

  44. Realization of a Robot System That Plays “Darumasan-Ga-Koronda ” Game with Humans 査読有り

    Robotics 8 (3) 2019年9月1日

    DOI: 10.3390/robotics8030055  

    eISSN:2218-6581

  45. Improving human scoring of prosody using parametric speech synthesis 査読有り

    Hafiyan Prafianto, Takashi Nose, Yuya Chiba, Akinori Ito

    Speech Communication 111 14-21 2019年8月

    出版者・発行元:Elsevier {BV}

    DOI: 10.1016/j.specom.2019.06.001  

    ISSN:0167-6393

    詳細を見る 詳細を閉じる

    © 2019 Elsevier B.V. This paper proposes a method that utilizes parametric speech synthesis to improve human scoring of non-native speaker utterances. Instead of assessing each prosodic feature by directly listening to the utterance itself, in order to focus only on the target prosodic feature, the unassessed features are substituted with those of the native speakers. We used parametric speech synthesis to generate the features for substitution. In this study, HMM-based speech synthesis from an average model of native speakers was utilized. The experimental result shows that the proposed method can improve scoring reliability, which is confirmed by an increase in the inter-rater correlation. We also build an automatic pronunciation evaluation system trained from non-native speech databases with scores given by either the conventional and proposed methods, and compare the performance of the systems. The result shows that the predicted pronunciation scores matched the human-rated scores; the human-machine correlation produced a score of 0.87, while the conventional scoring method produced a score of 0.74.

  46. Effect of Mutual Self-Disclosure in Spoken Dialog System on User Impression 査読有り

    Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

    2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2018 - Proceedings 806-810 2019年3月4日

    DOI: 10.23919/APSIPA.2018.8659630  

    詳細を見る 詳細を閉じる

    © 2018 APSIPA organization. Many of current spoken dialog systems can conduct non-task-oriented dialog. The systems that can improve user impression are required for users to keep using them. This paper focuses on self-disclosure, that is a process that a person reveals information about herself/himself to an interlocutor in human-human conversation. It is known that the self-disclosure plays a vital role to develop an intimate relationship. However, it is still unclear how exchanging the self-disclosures affects the user impression in the human-machine dialog. In this paper, we conduct dialog experiments to investigate the effectiveness of mutual self-disclosures between the user and the system. To achieve this goal, we built a spoken dialog system which conducts the dialog that the user and the system disclose information about themselves alternately. The dialog experiments revealed that the proposed system can improve the user impression regarding satisfaction and friendliness.

  47. Latent words recurrent neural network language models for automatic speech recognition 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Sumitaka Sakauchi, Akinori Ito

    IEICE Transactions on Information and Systems E102D (12) 2557-2567 2019年

    DOI: 10.1587/transinf.2018EDP7242  

    ISSN:0916-8532

    eISSN:1745-1361

    詳細を見る 詳細を閉じる

    Copyright © 2019 The Institute of Electronics This paper demonstrates latent word recurrent neural network language models (LW-RNN-LMs) for enhancing automatic speech recognition (ASR). LW-RNN-LMs are constructed so as to pick up advantages in both recurrent neural network language models (RNN-LMs) and latent word language models (LW-LMs). The RNN-LMs can capture long-range context information and offer strong performance, and the LW-LMs are robust for out-of-domain tasks based on the latent word space modeling. However, the RNN-LMs cannot explicitly capture hidden relationships behind observed words since a concept of a latent variable space is not present. In addition, the LW-LMs cannot take into account long-range relationships between latent words. Our idea is to combine RNN-LM and LW-LM so as to compensate individual disadvantages. The LW-RNN-LMs can support both a latent variable space modeling as well as LW-LMs and a long-range relationship modeling as well as RNN-LMs at the same time. From the viewpoint of RNN-LMs, LW-RNN-LM can be considered as a soft class RNN-LM with a vast latent variable space. In contrast, from the viewpoint of LW-LMs, LW-RNN-LM can be considered as an LWLM that uses the RNN structure for latent variable modeling instead of an n-gram structure. This paper also details a parameter inference method and two kinds of implementation methods, an n-gram approximation and a Viterbi approximation, for introducing the LW-LM to ASR. Our experiments show effectiveness of LW-RNN-LMs on a perplexity evaluation for the Penn Treebank corpus and an ASR evaluation for Japanese spontaneous speech tasks.

  48. Preface

    Jeng Shyang Pan, Akinori Ito, Pei Wei Tsai, Lakhmi C. Jain

    Smart Innovation, Systems and Technologies 110 v-vi 2019年

    DOI: 10.1109/ICB.2012.6199777  

    ISSN:2190-3018

    eISSN:2190-3026

  49. Multi-condition training for noise-robust speech emotion recognition 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Acoustical Science and Technology 40 (6) 406-409 2019年

    DOI: 10.1250/ast.40.406  

    ISSN:1346-3969

    eISSN:1347-5177

  50. Evaluation of English speech recognition for Japanese learners using DNN-based acoustic models 査読有り

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 93-100 2019年

    DOI: 10.1007/978-3-030-03748-2_11  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. Regarding the assistance of computer-assisted language learning (CALL) systems to make foreign language learning easier, it is necessary to recognize the utterances of the learner with high accuracy. The quality of CALL systems mainly depends on the accuracy of automatic speech recognition (ASR). However, since the pronunciation of non-native speakers is greatly different from that of native speakers, existing ASR system cannot well recognize speech accurately. To solve this problem, this research projects an acoustic model based on deep neural networks (DNN), which is trained by using ERJ (English Read by Japanese) database collected from 202 Japanese learners. Compared with traditional ASR systems, this new system significantly promotes the speech recognition accuracy.

  51. Comparison of speech recognition performance between kaldi and google cloud speech API 査読有り

    Takashi Kimura, Takashi Nose, Shinji Hirooka, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 109-115 2019年

    DOI: 10.1007/978-3-030-03748-2_13  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In recent years, many systems having a speech interface have grown. The speech interface includes spoken dialogue function and high performance of a spoken dialogue system has been required. The spoken dialogue system consists of a speech recognition module. In this study, we focus on the speech recognition module of the spoken dialogue system and aim for improving the spoken dialogue system by enhancing the performance of the speech recognition system. Among several speech recognition systems, Kaldi is a widely used speech recognition system in many kinds of researches. On the other hand, several speech recognition services that are Web API is also provided, such as IBM Watson Speech to Text, Microsoft Bing Speech API, and Google Cloud Speech API, which is known that it has high performance. This paper compares speech recognition performance between Kaldi and Google Cloud Speech API in WER and RTF and confirms the recognition performance of each recognition system.

  52. Segmental pitch control using speech input based on differential contexts and features for customizable neural speech synthesis 査読有り

    Shinya Hanabusa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 124-131 2019年

    DOI: 10.1007/978-3-030-03748-2_15  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. This paper proposes a technique for controlling the pitch of synthetic speech at a segmental level using user input speech within a framework of speech synthesis based on deep neural networks (DNNs). In a previous study, we proposed tailor-made speech synthesis, the speech synthesis technique which enables users to control the synthetic speech naturally and intuitively. We introduced differential fundamental frequency (F0) contexts into speaker model training of speech synthesis based on DNNs. The differential F0 context represents relative log F0 at the segmental level of training data. In this study, we use the user speech to determine the F0 contexts for synthetic speech. This approach allows users to modify and control the segmental pitch more flexibly, which will enhance the performance of the tailor-made speech synthesis.

  53. Melody completion based on convolutional neural networks and generative adversarial learning 査読有り

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 116-123 2019年

    DOI: 10.1007/978-3-030-03748-2_14  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this paper, we deal with melody completion, a technique which smoothly completes melodies that are partially masked. Melody completion can be used to help people compose or arrange pieces of music in several ways, such as editing existing melodies or connecting two other melodies. In recent years, various methods have been proposed for realizing high-quality completion via neural networks. Therefore, in this research, we examine a method of melody completion based on an image completion network. We represent melodies of a certain length as images and train a completion network to complete those images. The completion network consists of convolution layers and is trained in the framework of generative adversarial networks. We also consider chord progression from musical pieces as conditions.

  54. Two-stage sequence-to-sequence neural voice conversion with low-to-high definition spectrogram mapping 査読有り

    Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito

    Smart Innovation, Systems and Technologies 110 132-139 2019年

    DOI: 10.1007/978-3-030-03748-2_16  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this study, we propose a voice conversion technique with two-stage conversion, which is realized by using two models consisting of U-Net and pix2pix. Using U-Net, we tried to reproduce intonation of a target speaker by performing low-dimensional feature conversion considering the time direction. We introduced pix2pix for the task of spectrogram enhancement. The pix2pix is trained to map from low definition spectrogram to high definition spectrogram (low-to-high spectrogram mapping). Low definition spectrogram is reconstructed from low dimensional mel-cepstrum converted by U-Net and high definition spectrogram is extracted from natural speech. In objective evaluations, we showed that the proposed method was effective in improvement of mel-cepstral distance (MCD) and Log F0 RMSE. Subjective evaluations revealed that the use of the proposed method had a certain effect in improving speech individuality while maintaining the same level of naturalness as the conventional method.

  55. DNN-based talking movie generation with face direction consideration 査読有り

    Toru Ishikawa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 157-164 2019年

    DOI: 10.1007/978-3-030-03748-2_19  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this paper, we propose a method to generate a talking head animation considering the direction of the face. The proposed method parametrizes a facial image using the active appearance model (AAM) and models the parameters of the AAM using a feedforward deep neural network. Since the AAM is a two-dimensional face model, conventional methods that use the AAM assumes only the frontal face. Thus, when combining the generated face and other parts such as a head and a body, the direction of the face and the head was often inconsistent. The proposed method models the shape parameters of the AAM using the principal component analysis (PCA) so that the direction and movement of individual facial parts are modeled separately; thus we substitute the face direction of the generated animation with that of the head part so that the direction of the face and the head coincides. We conducted an experiment to demonstrate that the proposed method can generate face animation with proper face direction.

  56. A study on a spoken dialogue system with cooperative emotional speech synthesis using acoustic and linguistic information 査読有り

    Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 110 101-108 2019年

    DOI: 10.1007/978-3-030-03748-2_12  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. This study examines an emotion labeling method for a system utterance of a non-task-oriented spoken dialogue system. The conventional study proposed the cooperative emotion labeling, which generates an emotional speech with an emotion label estimated from user and system utterances. However, this method had a problem that the system cannot decide the emotion label when the emotion is not estimated from the linguistic information. Therefore, we propose a method that uses both the acoustic and the linguistic information for the emotion recognition. In this paper, we show the performance of the emotion recognition when using the acoustic features first. Then, a dialogue experiment based on scenarios is conducted to verify the effectiveness of the proposed emotion labeling method.

  57. Leveraging a small corpus by different frame shifts for training of a speech recognizer 査読有り

    Akinori Ito

    Smart Innovation, Systems and Technologies 110 82-89 2019年

    DOI: 10.1007/978-3-030-03748-2_10  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. During the feature extraction process for speech recognition, a window function is first applied to the input waveform to extract temporally-limited spectrum. By shifting the window function with a short time period, we can analyze the temporal change of speech spectrum. This time period is called “the frame shift,” which is usually 5 to 10 ms. In this paper, frame shift is re-considered from two aspects. The first one is the appropriateness of 10 ms as the frame shift. The frame-based process is based on the assumption that temporal change of speech spectrum is slow enough compared with the frame shift, which does not hold for kinds of consonants such as plosives. Thus, this paper experimentally shows that feature value fluctuates much according to the first position of the frame. Then a training method is proposed that uses temporally shifted samples as independent samples to compensate for the fluctuation of feature caused by the difference of the beginning position of a frame. The second aspect is that the frame shift could be longer if the fluctuation can be compensated. To prove this, an experiment was conducted to change frame shift from 10 to 60 ms, and it was found that the result of 40 ms frame shift outperformed the result of 10 ms frame shift, and comparable recognition performance with 10 ms frame shift result was obtained with 50 ms frame shift.

  58. Muting machine speech using audio watermarking 査読有り

    Akinori Ito

    Smart Innovation, Systems and Technologies 110 74-81 2019年

    DOI: 10.1007/978-3-030-03748-2_9  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. Spoken dialog systems have become popular and are used in a home environment, such as smart speakers. A problem will occur when two or more smart speakers are in the same environment, in which a dialog system misdetects the other dialog systems voice as a users voice. In this paper, a method to mute synthesized speech is proposed to prevent a speech recognizer from recognizing speech uttered by a machine. The audio watermark technique is used to indicate that a machine utters the speech, and the speech recognizer attenuates the observed speech if it contains the watermark. The watermark is embedded in high frequency so that humans cannot perceive the watermark and the watermark is robustly extracted. From the experimental result, we found that the proposed method robustly determine the existence of the watermark when the SNR is no less than 0 dB.

  59. Improvement of accent sandhi rules based on Japanese accent dictionaries 査読有り

    Hiroto Aoyama, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 110 140-148 2019年

    DOI: 10.1007/978-3-030-03748-2_17  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In order to synthesize more natural speech with Japanese text-to-speech systems, we improve accent sandhi rules. The conventional Japanese accent sandhi rules lack rules related to numerals and counter words in conventional rules. In this paper, we comprehensively improved the accent sandhi rules as well as those related to numerals and counter words, concerning accent rules related to word combinations described in the Japanese accent dictionaries. Then, accent estimation experiments were conducted using the conventional and improved rules to evaluate the accuracy of the estimation by the two types of rules. The effectiveness and problems of the accent sandhi rules themselves and improved rules were discussed by analyzing the experimental results.

  60. Multiple player detection and tracking method using a laser range finder for a robot that plays with human 査読有り

    Yuko Nakamori, Yutaka Hiroi, Akinori Ito

    ROBOMECH Journal 5 (1) 25 2018年12月1日

    DOI: 10.1186/s40648-018-0122-x  

    eISSN:2197-4225

    詳細を見る 詳細を閉じる

    © 2018, The Author(s). We are developing a robot that can play an outdoor game with children. In realizing such a robot, the person detection and tracking methods play an important role. In this paper, we propose methods for improving person detection and tracking using a laser range finder (LRF). A problem facing player detection using an LRF during play is that detection of a player’s body sometimes fails because of the posture of the player. Thus, we propose two improvements of the conventional person detection algorithm. One is to determine the body boundary when an arm overlaps the body, and the other is to choose the most probable object as the body among the detected objects. Another problem is how to track players who are hidden by other players. We introduce a new algorithm to robustly track a player even when the player is behind other players. We conducted three experiments. In the first experiment, we investigate the performance improvement by the proposed player detection algorithm. The second experiment proves that the proposed player-tracking algorithm can robustly track a player even after the LRF has lost that player. In the last experiment, we conduct the game Darumasan ga Koronda using the developed system and confirm that the system can perform the game without large problems.

  61. 深層学習を用いた音紋による船種同定の試み (応用音響)

    西村 竜一, 天間 克宏, 服部 聖彦, 金子 健司, 伊藤 彰則, 藤井 豊展, 木島 明博

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 118 (234) 1-6 2018年10月

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  62. An Analysis of the Effect of Emotional Speech Synthesis on Non-Task-Oriented Dialogue System. 査読有り

    Yuya Chiba, Takashi Nose, Taketo Kase, Mai Yamanaka, Akinori Ito

    Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018 371-375 2018年7月

    出版者・発行元:Association for Computational Linguistics

  63. Improving User Impression in Spoken Dialog System with Gradual Speech Form Control. 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the 19th Annual SIGdial Meeting on Discourse and Dialogue, Melbourne, Australia, July 12-14, 2018 235-240 2018年7月

    出版者・発行元:Association for Computational Linguistics

  64. Domain adaptation based on mixture of latent words language models for automatic speech recognition 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    IEICE Transactions on Information and Systems E101D (6) 1581-1590 2018年6月

    出版者・発行元:Institute of Electronics, Information and Communication, Engineers, IEICE

    DOI: 10.1587/transinf.2017EDP7210  

    ISSN:0916-8532

    eISSN:1745-1361

    詳細を見る 詳細を閉じる

    Copyright © 2018 The Institute of Electronics, Information and Communication Engineers. This paper proposes a novel domain adaptation method that can utilize out-of-domain text resources and partially domain matched text resources in language modeling. A major problem in domain adaptation is that it is hard to obtain adequate adaptation effects from out-of-domain text resources. To tackle the problem, our idea is to carry out model merger in a latent variable space created from latent words language models (LWLMs). The latent variables in the LWLMs are represented as specific words selected from the observed word space, so LWLMs can share a common latent variable space. It enables us to perform flexible mixture modeling with consideration of the latent variable space. This paper presents two types of mixture modeling, i.e., LWLM mixture models and LWLM cross-mixture models. The LWLM mixture models can perform a latent word space mixture modeling to mitigate domain mismatch problem. Furthermore, in the LWLM cross-mixture models, LMs which individually constructed from partially matched text resources are split into two element models, each of which can be subjected to mixture modeling. For the approaches, this paper also describes methods to optimize mixture weights using a validation data set. Experiments show that the mixture in latent word space can achieve performance improvements for both target domain and out-of-domain compared with that in observed word space.

  65. Analyses of example sentences collected by conversation for example-based non-task-oriented dialog system 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    IAENG International Journal of Computer Science 45 (2) 285-293 2018年5月28日

    ISSN:1819-656X

    eISSN:1819-9224

    詳細を見る 詳細を閉じる

    © International Association of Engineers. Designing an example database is important for handling various users' utterances in an example-based dialog system, and several approaches to constructing the database have been proposed. This paper focuses on a method for collecting the example sentences through actual conversations with the system. Several studies employ this approach for constructing the dialog system, but conventional research lacks attentive analyses. In this study, we analyzed how many examples can be collected from the interactions, and investigated the characteristics of the collected examples. The experimental results show that the response accuracy improved with the increase in number of the interactions, and the examined collection method is effective for collecting examples of consecutive utterances. In addition, subjective evaluation comparing the databases constructed using actual conversation and the fully-handcrafted databases was conducted through dialog experiments. The results showed that the examined approach can obtain higher subjective scores than the comparative approach in terms of user satisfaction, dialog engagement, intelligence, and intention of talking.

  66. Spoken term detection of zero-resource language using machine learning 査読有り

    Akinori Ito, Masatoshi Koizumi

    ACM International Conference Proceeding Series 45-49 2018年2月26日

    DOI: 10.1145/3193063.3193068  

    詳細を見る 詳細を閉じる

    © 2018 Association for Computing Machinery. In this paper, we propose a spoken term detection method for detection of terms in zero-resource languages. The proposed method uses the classifier (the speech comparator) trained by a machine learning method combined with the dynamic time warping method. The advantage of the proposed method is that the classifier can be trained using a large language resource that is different from the target language. We exploited the random forest as a classifier, and carried out an experiment of the spoken term detection from Kaqchikel speech. As a result, the proposed method showed better detection performance compared with the method based on the Euclidean distance.

  67. Analysis of efficient multimodal features for estimating user's willingness to talk: Comparison of human-machine and human-human dialog 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings - 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2017 2018-February 428-431 2018年2月5日

    出版者・発行元:IEEE

    DOI: 10.1109/APSIPA.2017.8282069  

    詳細を見る 詳細を閉じる

    © 2017 IEEE. A dialog system can select a more favorable action to a user by estimating the user's internal state. In this paper, we introduce the user's willingness to talk, whether the user wants to talk about a topic or to answer a question posed by the system. The dialog system is expected to increase user satisfaction by managing the dialog based on the user's willingness to talk. In the previous report, we investigated the effective multimodal features for estimating the willingness to talk through humanhuman dialogs but it was not clear whether these features were also useful for human-machine dialog. Thus, we collected the interview dialog data based on the Wizard of Oz (WOZ) basis and investigated the effect of the multimodal features by the discrimination experiments.

  68. Analysis of efficient multimodal features for estimating user's willingness to talk: Comparison of human-machine and human-human dialog 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings - 9th Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2017 2018-February 428-431 2018年2月5日

    DOI: 10.1109/APSIPA.2017.8282069  

    詳細を見る 詳細を閉じる

    © 2017 IEEE. A dialog system can select a more favorable action to a user by estimating the user's internal state. In this paper, we introduce the user's willingness to talk, whether the user wants to talk about a topic or to answer a question posed by the system. The dialog system is expected to increase user satisfaction by managing the dialog based on the user's willingness to talk. In the previous report, we investigated the effective multimodal features for estimating the willingness to talk through humanhuman dialogs but it was not clear whether these features were also useful for human-machine dialog. Thus, we collected the interview dialog data based on the Wizard of Oz (WOZ) basis and investigated the effect of the multimodal features by the discrimination experiments.

  69. Enhancement of person detection and tracking for a robot that plays with human 査読有り

    Yuko Nakamori, Yutaka Hiroi, Akinori Ito

    SII 2017 - 2017 IEEE/SICE International Symposium on System Integration 2018-January 494-499 2018年2月1日

    出版者・発行元:IEEE

    DOI: 10.1109/SII.2017.8279261  

    詳細を見る 詳細を閉じる

    © 2017 IEEE. We are developing a robot that can play Darumasan-ga-koronda game (similar to "Red light, green light" game) with human players. We have developed a method to detect and track the players, to determine whether the players are moving and to actually play the game. A problem is that the system often lost or misdetect the players because the players' posture during a play is different from that when a person is walking. Therefore we propose two improvement methods. The first one is to improve the segmentation of objects using an LRF that works even when a player's arms overlap with the body. The second one is to detect the object that is the most probable as a human body. We conducted an experiment to confirm the effect of the proposed two new methods, and the result proved the improvement by the proposed method. In addition, we conducted an experiment to actually play the game by the robot and humans, confirming that the robot could actually play the game without big problems.

  70. Enhancement of person detection and tracking for a robot that plays with human 査読有り

    Yuko Nakamori, Yutaka Hiroi, Akinori Ito

    SII 2017 - 2017 IEEE/SICE International Symposium on System Integration 2018-January 494-499 2018年2月1日

    DOI: 10.1109/SII.2017.8279261  

    詳細を見る 詳細を閉じる

    © 2017 IEEE. We are developing a robot that can play Darumasan-ga-koronda game (similar to "Red light, green light" game) with human players. We have developed a method to detect and track the players, to determine whether the players are moving and to actually play the game. A problem is that the system often lost or misdetect the players because the players' posture during a play is different from that when a person is walking. Therefore we propose two improvement methods. The first one is to improve the segmentation of objects using an LRF that works even when a player's arms overlap with the body. The second one is to detect the object that is the most probable as a human body. We conducted an experiment to confirm the effect of the proposed two new methods, and the result proved the improvement by the proposed method. In addition, we conducted an experiment to actually play the game by the robot and humans, confirming that the robot could actually play the game without big problems.

  71. Special section on enriched multimedia — Potential and possibility of multimedia contents for the future 査読有り

    Akinori Ito

    IEICE Transactions on Information and Systems E101D (1) 1 2018年

    DOI: 10.1587/transinf.2017MUF0001  

    ISSN:0916-8532

    eISSN:1745-1361

  72. Dialog-based interactive movie recommendation: Comparison of dialog strategies 査読有り

    Hayato Mori, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 77-83 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_10  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. The user interface based on natural language dialog has been gathering attention. In this paper, we focus on the dialog-based user interface of movie recommendation system. We compared two kinds of dialog systems: the system-initiative system presented all the information about the recommended item at a time, and the user-initiative system provided information of the recommended item based on a dialog between the system and the user. As a result of dialog experiment, the users preferred to the user-initiative system for availability of obtaining required information, while the system-initiative system was chosen for the simplicity of obtaining the information. In addition, it was found that the appropriateness of the system’s replies in the dialog affected the user’s preference to the user-initiative system.

  73. Response selection of interview-based dialog system using user focus and semantic orientation 査読有り

    Shunsuke Tada, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 84-90 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_11  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. This research examined the response selection method of an interview-based dialog system that obtains the user’s information by the chat-like conversation. In the interview dialog, the system should ask about the subject that the user is interested in to obtain the user’s information efficiently. In this paper, we proposed the method to select the system’s utterance based on the user’s emotion to a focus detected from the user’s utterance. We prepared the question types corresponding to the semantic orientation, such as the positive, neutral, and negative. The focus was detected by the CRF, and the question type was estimated from the user’s utterance and the system’s previous utterance.

  74. Detection of singing mistakes from singing voice 査読有り

    Isao Miyagawa, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 130-136 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_17  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. We investigate a method of detecting the wrong lyrics from the singing voice. In the proposed method, we compare the input singing voice and the reference singing voice using dynamic time warping, and then observe the frame-by-frame distance to find the error location. However, the absolute value of the distance is affected by the singer individuality of the reference and input singing voice. Thus, we attempted to adapt the singer individuality into the reference singer’s one by a linear transformation. The results of the experiment showed that we could detect the wrong lyrics with high accuracy when the different part of the lyrics was long. In addition, we investigated the effect of iterative linear transformation, and we could not find any benefit from the second or third linear transformations.

  75. Evaluation of nonlinear tempo modification methods based on sinusoidal modeling 査読有り

    Kosuke Nakamura, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 82 104-111 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_14  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. Modifying tempo of musical signal is one of the basic signal processing for music signal, and many methods have been proposed so far. Nishino et al. proposed a tempo modification method of nonlinear modification based on sinusoidal model, but the evaluation of the methods was insufficient. In this paper, we evaluated the tempo modification methods with sinusoidal model and nonlinear signal stretch and compression. Namely, we compared effectiveness of use of residue signal and methods of determination of stretchable parts. From the experimental result, we could confirm the efficiency of the nonlinear tempo modification. We also compared several methods of determining the stretchable parts as well as the use of residue signal. As a result, the effect of the methods depended on the input signal.

  76. Development and evaluation of julius-compatible interface for Kaldi ASR 査読有り

    Yusuke Yamada, Takashi Nose, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 91-96 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_12  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. In recent years, the use of Kaldi has rapidly grown because it has adopted various technologies of DNN-based speech recognition in succession and has shown high recognition performance. On the other hand, the speech recognition engine, Julius, has been widely used especially in Japan. Julius is also attracting attention since DNN-HMM is implemented in it. In this paper, we describe the design plan of interfaces that make Kaldi speech recognition engine be compatible with Julius, a system overview, and the details of the speech input unit and the recognition result output unit. We also refer to the functions that we are planning to implement.

  77. Voice conversion from arbitrary speakers based on deep neural networks with adversarial learning 査読有り

    Sou Miyamoto, Takashi Nose, Suzunosuke Ito, Harunori Koike, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 97-103 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_13  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. In this study, we propose a voice conversion technique from arbitrary speakers based on deep neural networks using adversarial learning, which is realized by introducing adversarial learning to the conventional voice conversion. Adversarial learning is expected to enable us more natural voice conversion by using a discriminative model which classifies input speech to natural speech or converted speech in addition to a generative model. Experiments showed that proposed method was effective to enhance global variance (GV) of melcepstrum but naturalness of converted speech was a little lower than speech using the conventional variance compensation technique.

  78. A study on 2D photo-realistic facial animation generation using 3D facial feature points and deep neural networks 査読有り

    Kazuki Sato, Takashi Nose, Akira Ito, Yuya Chiba, Akinori Ito, Takahiro Shinozaki

    Smart Innovation, Systems and Technologies 82 113-118 2018年

    出版者・発行元:Springer Science and Business Media Deutschland GmbH

    DOI: 10.1007/978-3-319-63859-1_15  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2018. This paper proposes a technique for generating a 2D photo-realistic facial animation from an input text. The technique is based on the mapping from 3D facial feature points with deep neural networks (DNNs). Our previous approach was based only on a 2D space using hidden Markov models (HMMs) and DNNs. However, this approach has a disadvantage that generated 2D facial pixels are sensitive to the rotation of the face in the training data. In this study, we alleviate the problem using 3D facial feature points obtained by Kinect. The information of the face shape and color is parameterized by the 3D facial feature points. The relation between the labels from texts and face-model parameters are modeled by DNNs in the model training. As a preliminary experiment, we show that the proposed technique can generate the 2D facial animation from arbitrary input texts.

  79. Foreword 査読有り

    Akinori Ito

    IEICE Transactions on Information and Systems E101D (1) 1 2018年1月

    DOI: 10.1587/transinf.2017MUF0001  

    ISSN:0916-8532

    eISSN:1745-1361

  80. Analyzing effect of physical expression on English proficiency for multimodal computer-assisted language learning 査読有り

    Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2018-September 1746-1750 2018年1月1日

    出版者・発行元:ISCA

    DOI: 10.21437/Interspeech.2018-1425  

    ISSN:2308-457X

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    © 2018 International Speech Communication Association. All rights reserved. English proficiency is important for communication in English. Computer-Assisted Language Learning (CALL) systems are introduced to provide a convenient and low-cost language learning environment. Most of the conventional speech-based CALL systems concentrate on developing verbal fluency of the learners. However, actual English communication involves not only verbal expressions but also facial expressions and gestures, which could affect the perceived proficiency. The objective of our research is to develop a CALL system that can evaluate fluency of physical expressions as well as the verbal fluency of English. However, it is not clear how physical expressions affect the overall proficiency of English. Therefore, this study investigates the relationship between the proficiency of English and the fluency of the physical expression by analyzing the dialog data of the multimodal CALL system.

  81. Analysis of preferred speaking rate and pause in spoken Easy Japanese for non-native listeners 査読有り

    Hafiyan Prafiyanto, Takashi Nose, Yuya Chiba, Akinori Ito

    Acoustical Science and Technology 39 (2) 92-100 2018年

    出版者・発行元:Acoustical Society of Japan

    DOI: 10.1250/ast.39.92  

    ISSN:1346-3969

    eISSN:1347-5177

    詳細を見る 詳細を閉じる

    © 2018 The Acoustical Society of Japan. We investigate the effect of speaking rate and pauses on the perception of spoken Easy Japanese, which is Japanese language with mostly easy words to facilitate understanding by non-native speakers. In this research, we used synthetic speech with various speaking rates, pause positions, and pause lengths to investigate how they correlate with the perception of Easy Japanese for non-native speakers of Japanese. We found that speech rates of 320 and 360 morae per minute are perceived to be close to the ideal speaking rate. Inserting pauses in natural places for Japanese native speakers, based on the dependency relation rule of Japanese, makes sentences easier to listen to for non-native speakers as well, whereas inserting too many pauses makes the sentences hard to listen to.

  82. Guest editorial: Introduction to the special issue on the enrichment of sound, speech and music media 査読有り

    Yôiti Suzuki, Akinori Ito, Kazuhiro Kondo

    Journal of Information Hiding and Multimedia Signal Processing 8 (6) 1323-1324 2017年11月

    出版者・発行元:Ubiquitous International

    ISSN:2073-4212

    eISSN:2073-4239

    詳細を見る 詳細を閉じる

    音、音および音楽メディアのエンリッチメント特集号に関する紹介を述べた。まずこの特集号の狙いについて簡単に述べ、掲載論文の概要を紹介した。

  83. Enrichment of audio signal using side information 査読有り

    Akinori Ito

    Journal of Information Hiding and Multimedia Signal Processing 8 (6) 1325-1334 2017年11月

    ISSN:2073-4212

    eISSN:2073-4239

    詳細を見る 詳細を閉じる

    © 2017, Ubiquitous International. All rights reserved. This paper describes methods that add values to audio signals using side information. Many acoustic signal processing methods have been proposed for estimating the lost information from the original signal. Using the appropriate side information, we can enhance the estimation easily. In this paper, the principle of audio signal processing using side information is described first, and then three applications are described: packet loss concealment of audio signal, manipulation of mixed music signal and frequency band extension of telephone speech.

  84. Manipulating vocal signal in mixed music sounds using side information based on the fundamental frequency 査読有り

    Akinori Ito, Yuto Sasaki

    Journal of Information Hiding and Multimedia Signal Processing 8 (6) 1372-1381 2017年11月

    ISSN:2073-4212

    eISSN:2073-4239

    詳細を見る 詳細を閉じる

    © 2017, Ubiquitous International. All rights reserved. We propose a system that enables a listener of streaming audio to control the volume (magnitude of the signal) of independent part (specifically the vocal signal) in a mixed audio signal in real-time. In the proposed method, fundamental frequency (F0) of the vocal signal is used as side information. F0 information is estimated from the target signal before being mixed with backing track signals. After receiving the mixed music signal, vocal sound manipulation is performed using a comb filter using F0 information. In addition to the F0 information, we added side information considering the ratio between the level of the signal to be manipulated and the backing signal. As an experimental result, we obtained that the proposed method improved the quality of the manipulated signal compared with sending the information of vocal signal using the existing MP3 encoder.

  85. HMM-Based Photo-Realistic Talking Face Synthesis Using Facial Expression Parameter Mapping with Deep Neural Networks 査読有り

    Journal of Computer and Communications 5 (10) 55-65 2017年8月

    DOI: 10.4236/jcc.2017.510006  

  86. 日常音識別による活動記録自動生成のためのデータの収集と分析

    古谷崇拓, 千葉祐弥, 能勢隆, 伊藤彰則

    情報処理学会研究報告 1-6 2017年6月17日

  87. Cluster-based approach to discriminate the user’s state whether a user is embarrassed or thinking to an answer to a prompt 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito

    Journal on Multimodal User Interfaces 11 (2) 185-196 2017年6月1日

    出版者・発行元:SPRINGER

    DOI: 10.1007/s12193-017-0238-y  

    ISSN:1783-7677

    eISSN:1783-8738

    詳細を見る 詳細を閉じる

    © 2017, SIP. Spoken dialog systems are employed in various devices to help users operate them. An advantage of a spoken dialog system is that the user can make input utterances freely, but the system sometimes makes it difficult for the user to speak to it. The system should estimate the state of a user who encounters a problem when starting a dialog and then give appropriate help before the user abandons the dialog. Based on this assumption, our research aims to construct a system which responds to a user who does not reply to the system. In this paper, we propose a method of discriminating the user’s state based on vector quantization of non-verbal information such as prosodic features, facial feature points, and gaze. The experimental results showed that the proposed method outperforms the conventional approaches and achieves a discrimination ratio of 72.0%. Then, we examined sequential discrimination for responding to the user at an appropriate timing. The results indicate that the discrimination ratio reached equal to the end of the session at around 6.0 s.

  88. Construction and analysis of phonetically and prosodically balanced emotional speech database 査読有り

    Emika Takeishi, Takashi Nose, Yuya Chiba, Akinori Ito

    2016 Conference of the Oriental Chapter of International Committee for Coordination and Standardization of Speech Databases and Assessment Techniques, O-COCOSDA 2016 16-21 2017年5月3日

    出版者・発行元:Institute of Electrical and Electronics Engineers Inc.

    DOI: 10.1109/ICSDA.2016.7918977  

    詳細を見る 詳細を閉じる

    © 2016 IEEE. We designed an emotional speech database that can be used for emotion recognition as well as recognition and synthesis of speech with various emotions. The database was designed by compiling tweets acquired from Twitter and selecting emotion-dependent tweets considering phonetic and prosodic balance. We classified gathered tweets into four emotions: joy, anger, sadness and neutral, and then selected 50 sentences from sentences of each emotion based on the entropy-based algorithm. We compared the selected sentence sets with randomly selected sentence sets from aspects of phonetic and prosodic balance and sentence length, and confirmed that the sets selected by the algorithm were more balanced. Next, we recorded emotional speech based on the selected sentences. Then, we evaluated the speech from the viewpoint of emotional recognition and emotional speech recognition.

  89. Recognition of sounds using square cauchy mixture distribution 査読有り

    Akinori Ito

    2016 IEEE International Conference on Signal and Image Processing, ICSIP 2016 726-730 2017年3月27日

    出版者・発行元:IEEE

    DOI: 10.1109/SIPROCESS.2016.7888359  

    詳細を見る 詳細を閉じる

    © 2016 IEEE. In this paper, a new probability density distribution, 'the square Cauchy mixture distribution' is proposed for recognition of sound. The proposed density is based on the Cauchy distribution and modified so that it has mean and variance. Since the proposed density can be calculated using only simple arithmetic operations, it can be calculated faster than the Gaussian mixture model (GMM). In addition to the definition of the proposed distribution, a parameter estimation method based on the gradient descent is also described. Two experiments were conducted such as recognition of environmental sound and recognition of singer of the singing voice. The results of the experiments revealed that the proposed method was 10% to 15% faster than the GMM with addlog operation and the recognition performance was comparable.

  90. A precise evaluation method of prosodic quality of non-native speakers using average voice and prosody substitution 査読有り

    Hafiyan Prafianto, Takashi Nose, Akinori Ito

    ICALIP 2016 - 2016 International Conference on Audio, Language and Image Processing - Proceedings 208-212 2017年2月7日

    出版者・発行元:IEEE

    DOI: 10.1109/ICALIP.2016.7846620  

    詳細を見る 詳細を閉じる

    © 2016 IEEE. We propose a method to improve the consistency of human evaluation of non-native speaker's utterance, with a capability to evaluate features such as accent and rhythm. In this method, human evaluators evaluate the accent and the rhythm independently by using average voice model and prosody substitution. We also investigated the advantages of evaluating those features independently. We found that, when the prosodic features are not evaluated independently, the accent scores are affected by the goodness of the rhythm and vice versa. The correlation coefficient of the accent score and the rhythm score of identical utterances was 0.23 using the conventional method and -0.026 using the proposed method. This also leads to greater disagreement between the scores given by different evaluators. Using the conventional method, 23% of the pairs between evaluators have their inter-evaluator correlation of the rhythm score more than 0.5, while using this proposed method, 67% of the pairs have the inter-evaluator correlation more than 0.5.

  91. A Compression Method for Spherical Microphone Array Recordings using Principal Component Analysis 査読有り

    Hironori Sato, Arif Wicaksono, Shuichi Sakamoto, Cesar Salvador, Jorge Trevino, Yôiti Suzuki, Akinori Ito

    Proc. 2017 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing (NCSP'17) 2PM1-3-4 433-436 2017年2月

  92. Special section on enriched multimedia -new technology trends in creation, utilization and protection of multimedia information 査読有り

    Akinori Ito

    IEICE Transactions on Information and Systems E100D (1) 1 2017年1月

    ISSN:0916-8532

    eISSN:1745-1361

  93. Demonstration experiment of data hiding into OOXML document for suppression of plagiarism 査読有り

    Akinori Ito

    Smart Innovation, Systems and Technologies 63 3-10 2017年

    出版者・発行元:SPRINGER INT PUBLISHING AG

    DOI: 10.1007/978-3-319-50209-0_1  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2017. When a teacher gathers the students’ assignment ectronically, one big problem is plagiarism of report from documents in a Web site or other learner’s report. This paper proposes a framework using data hiding technology to suppress plagiarism. In this framework, a teacher embeds ID of a student into a template file and sends the template file to the student. The student writes a report using the template file and submits it. The teacher extracts the ID from the report file to validate the file’s originality. The Open Office XML (OOXML) format was chosen as the format of the template file because of its popularity. In the experiment, two methods were examined. The first method inserts small images with the ID into the template file. The second method embeds the ID into the fonts of the heading. According to the results of the experiments, the method using images was fragile against format conversion into PDF, and the method of font switching was more robust while the amount of embedded information was small.

  94. Estimation of user’s willingness to talk about the topic: Analysis of interviews between humans 査読有り

    Yuya Chiba, Akinori Ito

    Lecture Notes in Electrical Engineering 999 LNEE 411-419 2017年

    出版者・発行元:Springer Verlag

    DOI: 10.1007/978-981-10-2585-3_34  

    ISSN:1876-1100

    eISSN:1876-1119

    詳細を見る 詳細を閉じる

    © Springer Science+Business Media Singapore 2017. This research tried to estimate the user’s willingness to talk about the topic provided by the dialog system. Dialog management based on the user’s willingness is assumed to improve the satisfaction the user gets from the dialog with the system. We collected interview dialogs between humans to analyze the features for estimation, and found that significant differences of the statistics of F0 and power of the speech, and the degree of the facial movements by a statistical test. We conducted discrimination experiments by using multi-modal features with SVM, and obtained the best result when we used the audio-visual information. We obtained 80.4 % of discrimination ratio under leave-one-out condition and 77.1 % discrimination ratio under subject-open condition.

  95. Collection of example sentences for non-task-oriented dialog using a spoken dialog system and comparison with hand-crafted DB 査読有り

    Yukiko Kageyama, Yuya Chiba, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 713 458-464 2017年

    出版者・発行元:Springer Verlag

    DOI: 10.1007/978-3-319-58750-9_63  

    ISSN:1865-0929

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2017. Designing a question-answer database is important to make natural conversation for an example-based dialog system. We focused on the method to collect the example sentences by actual conversations with the system. In this study, examples in the database were collected from the conversation logs, then we investigated the relationship between the response accuracy and the number of the interaction. In the experiment, the transcriptions of the user’s utterances are added to the database at every end of the interaction. The responce sentences in the database were created manually. The result showed that the response accuracy appropriateness improved as increasing the number of the interactions and saturated at around 70%. In addition, we compared the collected database with the fully handcrafted database by the subjective evaluation. The score of the user satisfaction, dialog engagement, intelligence, and willingness to use were higher than the handcrafted database, and these results suggested that the proposed method can obtain more appropriate examples to the actual conversation from subjective point of view.

  96. Synthesis of photo-realistic facial animation from text based on HMM and DNN with animation unit 査読有り

    Kazuki Sato, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 64 29-36 2017年

    出版者・発行元:SPRINGER INT PUBLISHING AG

    DOI: 10.1007/978-3-319-50212-0_4  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2017. In this paper, we propose a technique for synthesizing photorealistic facial animation from a text based on hidden Markov model (HMM) and deep neural network (DNN) with facial features for an interactive agent implementation. In the proposed technique, we use Animation Unit (AU) as facial features that express the state of each part of face and can be obtained by Kinect. We synthesize facial features from any text using the same framework as the HMM-based speech synthesis. Facial features are generated from HMM and are converted into intensities of pixels using DNN. We investigate appropriate conditions for training of HMM and DNN. Then, we perform an objective evaluation to compare the proposed technique with a conventional technique based on the principal component analysis (PCA).

  97. Development of an easy Japanese writing support system with text-to-speech function 査読有り

    Takeshi Nagano, Hafiyan Prafianto, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 64 221-228 2017年

    出版者・発行元:SPRINGER INT PUBLISHING AG

    DOI: 10.1007/978-3-319-50212-0_27  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2017. Many foreigners visit and stay in Japan. Natural disasters such as earthquake, flood and volcano often occur in Japan. When a disaster occurs, the authority needs to give announcement to people including non-Japanese. Easy Japanese(EJ) is focused on conveying information to non-Japanese. EJ is a kind of Japanese designed to be easily understood by non-Japanese. We implemented an Easy Japanese writing support software “YANSIS” by Java. YANSIS runs any platform where Java runs. Under a disastrous condition, not only text information but also speech announcement is required. Thus we implemented a text-tospeech(TTS) function to YANSIS. To integrate the text-to-speech function with YANSIS, we implemented the Japanese TTS system Open JTalk with Java. In this paper, we describe our software YANSIS, and compare the quality of the synthesized speech by Open JTalk and our implemented TTS software.

  98. A study on tailor-made speech synthesis based on deep neural networks 査読有り

    Shuhei Yamada, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 63 159-166 2017年

    出版者・発行元:SPRINGER INT PUBLISHING AG

    DOI: 10.1007/978-3-319-50209-0_20  

    ISSN:2190-3018

    eISSN:2190-3026

    詳細を見る 詳細を閉じる

    © Springer International Publishing AG 2017. We propose “tailor-made speech synthesis,” the speech synthesis technique which enables users to control the synthetic speech naturally and intuitively. As a first step to realizing tailor-made speech synthesis, we introduce F0 context into speaker model training of speech synthesis based on deep neural networks (DNNs). F0 context represents relative log F0 at the mora or the accent-phrase level of training data. It allows users to control the F0 of synthetic speech steplessly on the contrary to conventional F0 context in HMM-based technique. Experiments showed that F0 context was effective to control the F0 because the F0 of synthetic voice followed the value of F0 context.

  99. Foreword. 招待有り

    Akinori Ito

    IEICE Transactions 100-D (1) 1 2017年

    DOI: 10.1587/transinf.2016MUF0001  

  100. A Crowd Avoidance Method Using Circular Avoidance Path for Robust Person Following 査読有り

    Kohei Morishita, Yutaka Hiroi, Akinori Ito

    Journal of Robotics 2017 1 2017年

    出版者・発行元:Hindawi Limited

    DOI: 10.1155/2017/3148202  

    ISSN:1687-9600

    eISSN:1687-9619

    詳細を見る 詳細を閉じる

    © 2017 Kohei Morishita et al. A life-support service robot must avoid both static and dynamic obstacles for working in a real environment. Here, a static obstacle means an obstacle that does not move, and a dynamic obstacle is the one that moves. Assuming the robot is following a target person, we discuss how the robot avoids a crowd through which the target person passes and arrives at the target position. The purpose of this paper is to propose a crowd avoidance method that makes a robot to be able to avoid both static and dynamic obstacles. The method uses the surface points of the obstacles to form an avoidance region, and the robot moves along the edge of the region. We conducted experiments assuming various situations such that the robot was blocked, there was a wide gap in the crowd, or a person in the crowd yielded for the robot to pass through. As an experimental result, it was confirmed the robot could avoid the crowd even when the obstacles were aligned in an "inverted wedge" shape.

  101. Multiple description vector quantizer design based on redundant representation of central code 査読有り

    Akinori Ito

    European Signal Processing Conference 2016-November 106-109 2016年11月28日

    DOI: 10.1109/EUSIPCO.2016.7760219  

    ISSN:2219-5491

    詳細を見る 詳細を閉じる

    © 2016 IEEE. A design method of a multiple description vector quantizer (VQ) is proposed. VQ is widely used for data compression, transmission and other processing. Here, we assume transmission channels with data erasure such as a packet-based network. Multiple description coding is a coding method used to achieve "graceful degradation" when transmitting signals through lossy channels. The proposed method is inspired by the vector quantizer design of Poggi et al., which combines VQ design based on the self-organizing map (SOM) and the multiple description scalar quantizer (MDSQ). The method also uses the SOM-based VQ; the difference is that the proposed method combines a bit-error-tolerant VQ designed by SOM and a novel scheme for cell arrangement of SOM based on Redundant Representation of Central Code (RRCC). The method is not only easy to design for any bit rate but is also more robust against data erasure compared with the conventional VQ.

  102. Investigation of combining various major language model technologies including data expansion and adaptation 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    IEICE Transactions on Information and Systems E99D (10) 2452-2461 2016年10月

    出版者・発行元:IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG

    DOI: 10.1587/transinf.2016SLP0013  

    ISSN:0916-8532

    eISSN:1745-1361

    詳細を見る 詳細を閉じる

    © 2016 The Institute of Electronics, Information and Communication Engineers. This paper aims to investigate the performance improvements made possible by combining various major language model (LM) technologies together and to reveal the interactions between LM technologies in spontaneous automatic speech recognition tasks. While it is clear that recent practical LMs have several problems, isolated use of major LM technologies does not appear to offer sufficient performance. In consideration of this fact, combining various LM technologies has been also examined. However, previous works only focused on modeling technologies with limited text resources, and did not consider other important technologies in practical language modeling, i.e., use of external text resources and unsupervised adaptation. This paper, therefore, employs not only manual transcriptions of target speech recognition tasks but also external text resources. In addition, unsupervised LM adaptation based on multi-pass decoding is also added to the combination. We divide LM technologies into three categories and employ key ones including recurrent neural network LMs or discriminative LMs. Our experiments show the effectiveness of combining various LM technologies in not only in-domain tasks, the subject of our previous work, but also out-of-domain tasks. Furthermore, we also reveal the relationships between the technologies in both tasks.

  103. Tempo Modification of Mixed Music Signal by Nonlinear Time Scaling and Sinusoidal Modeling 査読有り

    Tsukasa Nishino, Takashi Nose, Akinori Ito

    Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015 146-149 2016年2月19日

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2015.86  

    詳細を見る 詳細を閉じる

    © 2015 IEEE. Changing tempo of the music signal is one of the most basic signal processing applied to music signals. Traditional algorithms such as phase vocoder or Time-Domain Harmonic Scaling (TDHS) uniformly stretch and shrink the input signal. Therefore, those methods change not only the tempo but also the structure of the signal of the instrumental sound, such as attack and decay time, which changes the timbre of the instruments. To change the tempo of the music signal while keeping the Attack-Decay-Sustain-Release structure of the instruments, we need a non-linear modification of the time scale. To realize this, we propose a two-stage modeling of the music signal. The first stage represents the music signal using the sinusoidal model that expresses the harmonic part of the signal. Because non-harmonic component of the signal cannot be represented using the sinusoidal model, the residue of the sinusoidal model is analyzed using the linear prediction coding (LPC) in the second stage, which expresses the reverberation of the impulsive sound. Then we estimate the "stretchable parts" by observing the temporal smoothness of the spectrogram, and then only the stretchable parts are modified. We conducted experiments to modify the tempo of piano sounds, and compared the result with the conventional time stretch methods.

  104. Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting 査読有り

    Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    Proceedings - 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2015 433-436 2016年2月19日

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2015.85  

    詳細を見る 詳細を閉じる

    © 2015 IEEE. Video chat is a good way of personal communication, however, there is a privacy issue in the video chat because we need to disclose one's identity such as face or voice when chatting. In this paper, we propose two methods by which face image of a speaker is converted into that of different person to conceal the speaker's identity. In the first method, we first prepare the speech and video data of the original and target speakers for training the conversion model. The face image features are calculated using the PCA to the whole pixels of the image. In the second method, the animation units extracted by Kinect are used as an intermediate feature, and we train a model that converts the animation unit to the target speaker's face image. In both methods, we used a neural network as the conversion model. We conducted experiments, and the first method could convert the whole shape of the speakers, while small movements such as mouth movement cannot be converted. The second method could convert both the whole shape of the face and mouth movement, however, the quality of face image was deteriorated.

  105. Playing with a Robot: Realization of «red Light, Green Light» Using a Laser Range Finder 査読有り

    Keisuke Sakai, Yutaka Hiroi, Akinori Ito

    Proceedings - 2015 3rd International Conference on Robot, Vision and Signal Processing, RVSP 2015 1-4 2016年2月3日

    出版者・発行元:IEEE

    DOI: 10.1109/RVSP.2015.9  

    詳細を見る 詳細を閉じる

    © 2015 IEEE. Purpose of this study is to realize a children's play «Darumasan ga koronda» (red light, green light) by a mobile robot and a human. In this paper, the robot is «it» and the human is the other player. Three functions are needed to make the robot possible to play the game: recognition of a player, «out» judgment and following the player. In this paper, we mainly describe a method of «out» judgment. We put a laser range finder (LRF) on the mobile robot and measure the position of the player. The robot calculates distance between the past and current positions of the human for judging whether the player has moved or not, if the distance is more than the threshold, the robot judges the player «out». The threshold was determined as 40mm and 80mm for two different conditions according to the two experiments of simulating the play. Finally, we conducted an experiment of actually playing the game with the robot, and confirmed that the developed robot could play the game.

  106. Estimating the user's state before exchanging utterances using intermediate acoustic features for spoken dialog systems 査読有り

    Yuya Chiba, Takashi Nose, Masashi Ito, Akinori Ito

    IAENG International Journal of Computer Science 43 (1) 1-9 2016年2月1日

    ISSN:1819-656X

    eISSN:1819-9224

    詳細を見る 詳細を閉じる

    The spoken dialog system (SDS) is an example of a speech interface and has been included in several devices to help users operate the system. The SDS is beneficial for the user because it does not restrict the style of the user's input utterances, but sometimes makes it difficult to speak to the system. Conventional systems cannot give appropriate help to a user who does not make explicit input utterances since these systems have to recognize and parse a user's utterance in order to decide the next prompt. Therefore, the system should estimate the state of the user upon encountering a problem in order to start the dialog and provide appropriate help before the user abandons the dialog. Based on this assumption, we aim to construct a system which responds to a user who does not speak to the system. In this research, we defined two basic states of the user when the user does not speak to the system: the user is embarrassed by the prompt, or is thinking about how to answer the prompt. We discriminated these user states by using intermediate acoustic features and the facial orientation of the user. Our previous approach used several intermediate acoustic features determined manually, and it was not possible to discriminate the user's state automatically. Therefore, the present paper examines a method to extract intermediate acoustic features from low-level features, such as MFCC, log F0, and zero cross counting (ZCC). We introduce a new annotation rule, and compare the discrimination performance with the previous feature set. Finally, the user's state was discriminated by using the combination of intermediate acoustic features and facial orientation.

  107. DNNを利用したAnimation Unitの変換に基づく顔画像変換の検討 査読有り

    齋藤優貴, 能勢隆, 伊藤彰則

    電子情報通信学会論文誌 J199-D (11) 1112-1115 2016年

  108. Multiple Description Vector Quantizer Design Based on Redundant Representation of Central Code 査読有り

    Akinori Ito

    2016 24TH EUROPEAN SIGNAL PROCESSING CONFERENCE (EUSIPCO) 106-109 2016年

    出版者・発行元:IEEE

    DOI: 10.1109/EUSIPCO.2016.7760219  

    ISSN:2076-1465

    詳細を見る 詳細を閉じる

    A design method of a multiple description vector quantizer (VQ) is proposed. VQ is widely used for data compression, transmission and other processing. Here, we assume transmission channels with data erasure such as a packet-based network. Multiple description coding is a coding method used to achieve "graceful degradation" when transmitting signals through lossy channels. The proposed method is inspired by the vector quantizer design of Poggi et al., which combines VQ design based on the self-organizing map (SOM) and the multiple description scalar quantizer (MDSQ). The method also uses the SOM-based VQ; the difference is that the proposed method combines a bit-error-tolerant VQ designed by SOM and a novel scheme for cell arrangement of SOM based on Redundant Representation of Central Code (RRCC). The method is not only easy to design for any bit rate but is also more robust against data erasure compared with the conventional VQ.

  109. Influence of the height of a robot on comfortableness of verbal interaction 査読有り

    Yutaka Hiroi, Akinori Ito

    IAENG International Journal of Computer Science 43 (4) 447-455 2016年

    ISSN:1819-656X

    eISSN:1819-9224

    詳細を見る 詳細を閉じる

    © 2016, IAENG International Journal of Computer Science. We investigated the effect of height of a robot on comfortableness of verbal interaction with the robot. We created a robot whose height could be changed continuously, and carried out dialog experiments with humans at varying robot heights. We employed 19 participants to evaluate "comfortableness of dialog", and investigated the height at which the participants felt the dialog was most comfortable. Next, we investigated differences of dialog comfortableness when the height of the robot was changed. Finally, we changed the distance between the participant and the robot and observed whether the dialog comfortableness changed or not. The experimental results yielded the following three guidelines for designing the height of a communication robot. First, the optimum height of a communication robot is about 300mm lower than the eye height of the user. Second, the comfortableness of dialog with the robot degrades when the height of the robot is 200mm lower or 300mm higher than the optimum height. Third, the distance between the robot and the user does not affect the optimum height of the robot.

  110. 発話状態推定に基づく協調的感情音声合成による音声対話システムの評価 査読有り

    加瀬嵩人, 能勢隆, 千葉祐弥, 伊藤彰則

    電子情報通信学会誌A J199-A (1) 25-35 2016年1月1日

  111. Estimation of User's Willingness to Talk About the Topic: Analysis of Interviews Between Humans. 査読有り

    Yuya Chiba, Akinori Ito

    Dialogues with Social Robots - Enablements, Analyses, and Evaluation, Seventh International Workshop on Spoken Dialogue Systems, IWSDS 2016, Saariselkä, Finland, January 13-16, 2016 411-419 2016年

    出版者・発行元:Springer

    DOI: 10.1007/978-981-10-2585-3_34  

  112. Investigation of Pause Insertion Effect in Spoken Easy Japanese for Non-Native Listeners 査読有り

    Hafiyan Prafianto, Takeshi Nagano, Takashi Nose, Akinori Ito

    Proceedings of 12th Western Pacific Acoustics Conference 507-511 2015年12月8日

  113. Automatic Generation of Proper Noun Entries in a Speech Recognizer for Local Information Recognition 査読有り

    Kenta Shiga, Takashi Nose, Akinori Ito, Ryo Masumura, Hirokazu Masataki

    Proceedings of 12th Western Pacific Acoustics Conference 2015年12月8日

  114. Development of a mobile robot moving on a handrail —Control for preceding a person keeping a distance 査読有り

    Yuma Fujiwara, Yutaka Hiroi, Yuki Tanaka, Akinori Ito

    Proceedings of IEEE International Conference on Robot and Human Interactive Communication (RO-MAN) 2015-November 413-418 2015年11月20日

    出版者・発行元:None

    DOI: 10.1109/ROMAN.2015.7333579  

  115. YANSIS: An “Easy Japanese” writing support system 査読有り

    Takeshi Nagano, Akinori Ito

    Proceedings of 8th International Conference ICT for Language Learning 2015年11月12日

  116. 応答タイミングを考慮した英会話練習のための音声対話型英語学習システム 査読有り

    鈴木 直人, 廣井 富, 千葉 祐弥, 能勢 隆, 伊藤 彰則

    情報処理学会論文誌 56 (11) 2177-2189 2015年11月1日

    ISSN:1882-7764

    詳細を見る 詳細を閉じる

    本研究では,音声を用いた英会話の学習が可能なコンピュータ利用言語学習(Computer-Assisted Language Learning, CALL)システムを提案する.特に,英会話学習における学習者の応答タイミングに着目する.一般的に学習段階において応答タイミングは適切なものに比べ遅くなりがちであるが,システムとの英会話では応答タイミングを意識しにくい.そこで対話相手としてCGキャラクタを導入し,応答を要求する表現であるタイムプレッシャー表現を付加する練習方法を提案する.CGキャラクタの有無,タイムプレッシャー表現の有無のほかに,短期間での繰返し練習,および期間をおいた練習を通じて,提案手法の有効性について論じる.We propose a CALL (Computer-Assisted Language Learning) system for training of English conversation using spoken dialogue. Especially, we focus on a spoken dialogue system for training the learner's timing of response. To suppress the long pause and practice an appropriate pause duration, we introduced a CG character as a counterpart of the dialogue installed the behavior of "time pressure" to prevent the learner taking long time to consider the utterance. To verify if the expression is effective, we desighed three experiments. First, we conducted with or without CG character. Second experiment was conducted with or without the time-pressure expression. Finally, we conducted the learning of dialogue in short-term repetition as well as the same learning after two weeks interval. In conclusion, we discuss the effectiveness of the proposed method.

  117. 指差しによる人間への位置提示精度調査とその精度向上手法 査読有り

    廣井 富, 伊藤 彰則

    情報処理学会論文誌 56 (8) 1634-1645 2015年8月15日

    ISSN:1882-7764

    詳細を見る 詳細を閉じる

    我々の考える指差しジェスチャを利用する最終目標は,人間とロボットが空間情報を共有することである.本論文は,部屋の中の特定の位置を空間情報として想定する.本研究の目的は,「ロボットが指差しをして人間がそれを理解する」というコミュニケーションチャネルを確立することである.そのため,次の2点について調査・検証を行ったので報告する.1.ロボットが特定座標を指差したとき,人間はその位置をどの程度の精度で認識可能なのか調査する.2.ロボットの指差しを制御することで,人間による位置認識精度を向上させることができるか検証する.ロボットの正面3.5mに実験参加者を立たせ,ロボットが6点をランダムに指差し,その座標と人間が認識した座標との誤差を測定する.結果,角度方向の誤差の平均値は,約-1degであったのに対し,距離方向は約-545mmと大きな誤差となった.しかし,距離方向の誤差に系統的な傾向が見られたため,線形回帰によってロボットの指差し座標の補正を行った結果,角度の誤差平均は約0.1deg,距離方向は約-235mmとなり,43%誤差が低減した.Our aim of using a pointing gesture in a human-robot interaction is to share spatial information between a human and a robot. In this paper, we assume specific positions in a room as "spatial information." The purpose of this study is to establish a communication channel where "A robot makes a pointing gesture and a human recognizes it." To realize this, we investigated the following two points. First, when the robot is pointing a specific coordinate, we investigated how precisely a human perceived the pointed position. Second, we investigated whether the human perception error of the pointed position could be reduced by adjusting the pointing coordinate of the robot. We instructed the participants to stand at the position 3.5m front of the robot, then the robot pointed 6 points, and finally we measured the error between the pointed positions and the perceived positions. As a result, the average error of the perceived angle was about -1 degree, whereas the distance error was as large as about -545mm. We observed linear relationship between the distance error and absolute distance to the pointed position. Then we adjusted the pointing position based on a linear regression. As a result, the angle error reduced to -0.1 degree. The distance error also reduced to about 235mm, which was 43% smaller than the result without adjustment.

  118. Robot: Have I done something wrong? —Analysis of prosodic features of speech commands under the robot's unintended behavior— 査読有り

    Noriko Totsuka, Yuya Chiba, Takashi Nose, Akinori Ito

    International Conference on Audio, Language and Image Processing 887-890 2015年1月13日

    出版者・発行元:None

    DOI: 10.1109/ICALIP.2014.7009922  

  119. Subjective evaluation of packet loss recovery techniques for voice over IP 査読有り

    Masahito Okamoto, Takashi Nose, Akinori Ito, Takeshi Nagano

    ICALIP 2014 - 2014 International Conference on Audio, Language and Image Processing, Proceedings 711-714 2015年1月13日

    出版者・発行元:IEEE

    DOI: 10.1109/ICALIP.2014.7009887  

    詳細を見る 詳細を閉じる

    © 2014 IEEE. We conducted a subjective evaluation experiment for VoIP speech under severe packet loss condition. The target codec was G.729, and four packet loss concealment methods were tested: parameter redundancy, SVM-based parameter redundancy, N-gram-based parameter estimation and interleaving. We first evaluated the effect of the interleaving block length on the subjective delay and speech quality. As a result, we found that the interleaving improved the subjective speech quality, but longer block length did not improve the quality. Next, we investigated the effect of PLC methods on the subjective latency and quality, and we found interleaving and simple PLC method gave the best result. N-gram-based PLC method made the quality worse.

  120. A study on the effect of speech rate on perception of spoken easy Japanese using speech synthesis 査読有り

    Hafiyan Prafianto, Takashi Nose, Yuya Chiba, Akinori Ito, Kazuyuki Sato

    ICALIP 2014 - 2014 International Conference on Audio, Language and Image Processing, Proceedings 476-479 2015年1月13日

    出版者・発行元:IEEE

    DOI: 10.1109/ICALIP.2014.7009839  

    詳細を見る 詳細を閉じる

    © 2014 IEEE. 'Easy Japanese' is a controlled natural language, which is designed to convey information correctly in Japanese language to people of various nationalities. In this research, we used synthesized speech with various speech rates to investigate how the speech rate correlates with the perception of Easy Japanese for non-native speakers of Japanese. As a result, we found that the speech rates of 320 and 360 mora per minute are perceived to be close to the ideal speech rate.

  121. Hierarchical Latent Words Language Models for Robust Modeling to Out-Of Domain Tasks. 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, EMNLP 2015, Lisbon, Portugal, September 17-21, 2015 1896-1901 2015年

  122. On appropriateness and estimation of the emotion of synthesized response speech in a spoken dialogue system 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 528 747-752 2015年

    出版者・発行元:SPRINGER-VERLAG BERLIN

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

    詳細を見る 詳細を閉じる

    © Springer International Publishing Switzerland 2015. Paralinguistic features such as emotion of an utterance is as important as its linguistic content for generating better response utterances in spoken dialog systems. In this research, we carried out an experiment to reveal the effect of emotional speech synthesis in a dialogue system, and investigated what method was effective for giving emotion to the synthetic speech. Firstly, we carried out an experiment where an agent with various emotional speech talked to the user, and the appropriateness of the emotion was evaluated. As expected, users had better impression on the agent when we added emotion appropriately. Next, we examined methods of automatic estimation of emotion for the system’s response, and we found that the best method was to give the same emotion as the user’s previous utterance regardless of the content of the system’s utterance.

  123. On appropriateness and estimation of the emotion of synthesized response speech in a spoken dialogue system 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    Communications in Computer and Information Science 528 747-752 2015年

    出版者・発行元:Springer Verlag

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

    詳細を見る 詳細を閉じる

    Paralinguistic features such as emotion of an utterance is as important as its linguistic content for generating better response utterances in spoken dialog systems. In this research, we carried out an experiment to reveal the effect of emotional speech synthesis in a dialogue system, and investigated what method was effective for giving emotion to the synthetic speech. Firstly, we carried out an experiment where an agent with various emotional speech talked to the user, and the appropriateness of the emotion was evaluated. As expected, users had better impression on the agent when we added emotion appropriately. Next, we examined methods of automatic estimation of emotion for the system’s response, and we found that the best method was to give the same emotion as the user’s previous utterance regardless of the content of the system’s utterance.

  124. Entropy-Based Sentence Selection for Speech Synthesis Using Phonetic and Prosodic Contexts 査読有り

    Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga, Akinori Ito

    16TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2015), VOLS 1-5 3491-3495 2015年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    This paper proposes a sentence selection method using a maximum entropy criterion to construct recording scripts for speech synthesis. In the conventional corpus design of speech synthesis, a greedy algorithm that maximizes phonetic coverage is often used. However, for statistical parametric speech synthesis, phonetic and prosodic contextual balance is important as well as the coverage. To take account of both of the phonetic and prosodic contextual balance in the sentence selection, we introduce and maximize the entropy of the phonetic and prosodic contexts, such as biphone, triphone, accent, and sentence length. The objective experimental results show that the proposed method achieves better coverage and balance of contexts and reduces spectral and FO distortions compared to the random and coverage-based sentence selection methods.

  125. Tempo Modification of Mixed Music Signal by Nonlinear Time Scaling and Sinusoidal Modeling 査読有り

    Tsukasa Nishino, Takashi Nose, Akinori Ito

    2015 INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP) 146-149 2015年

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2015.86  

    詳細を見る 詳細を閉じる

    Changing tempo of the music signal is one of the most basic signal processing applied to music signals. Traditional algorithms such as phase vocoder or Time-Domain Harmonic Scaling (TDHS) uniformly stretch and shrink the input signal. Therefore, those methods change not only the tempo but also the structure of the signal of the instrumental sound, such as attack and decay time, which changes the timbre of the instruments. To change the tempo of the music signal while keeping the Attack-Decay-Sustain-Release structure of the instruments, we need a nonlinear modification of the time scale. To realize this, we propose a two-stage modeling of the music signal. The first stage represents the music signal using the sinusoidal model that expresses the harmonic part of the signal. Because non-harmonic component of the signal cannot be represented using the sinusoidal model, the residue of the sinusoidal model is analyzed using the linear prediction coding (LPC) in the second stage, which expresses the reverberation of the impulsive sound. Then we estimate the "stretchable parts" by observing the temporal smoothness of the spectrogram, and then only the stretchable parts are modified. We conducted experiments to modify the tempo of piano sounds, and compared the result with the conventional time stretch methods.

  126. Conversion of Speaker's Face Image Using PCA and Animation Unit for Video Chatting 査読有り

    Yuki Saito, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    2015 INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING (IIH-MSP) 433-436 2015年

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2015.85  

    詳細を見る 詳細を閉じる

    Video chat is a good way of personal communication; however, there is a privacy issue in the video chat because we need to disclose one's identity such as face or voice when chatting. In this paper, we propose two methods by which face image of a speaker is converted into that of different person to conceal the speaker's identity. In the first method, we first prepare the speech and video data of the original and target speakers for training the conversion model. The face image features are calculated using the PCA to the whole pixels of the image. In the second method, the animation units extracted by Kinect are used as an intermediate feature, and we train a model that converts the animation unit to the target speaker's face image. In both methods, we used a neural network as the conversion model. We conducted experiments, and the first method could convert the whole shape of the speakers, while small movements such as mouth movement cannot be converted. The second method could convert both the whole shape of the face and mouth movement: however, the quality of face image was deteriorated.

  127. On Appropriateness and Estimation of the Emotion of Synthesized Response Speech in a Spoken Dialogue System 査読有り

    Taketo Kase, Takashi Nose, Akinori Ito

    HCI INTERNATIONAL 2015 - POSTERS' EXTENDED ABSTRACTS, PT I 528 747-752 2015年

    出版者・発行元:SPRINGER-VERLAG BERLIN

    DOI: 10.1007/978-3-319-21380-4_126  

    ISSN:1865-0929

    詳細を見る 詳細を閉じる

    Paralinguistic features such as emotion of an utterance is as important as its linguistic content for generating better response utterances in spoken dialog systems. In this research, we carried out an experiment to reveal the effect of emotional speech synthesis in a dialogue system, and investigated what method was effective for giving emotion to the synthetic speech. Firstly, we carried out an experiment where an agent with various emotional speech talked to the user, and the appropriateness of the emotion was evaluated. As expected, users had better impression on the agent when we added emotion appropriately. Next, we examined methods of automatic estimation of emotion for the system's response, and we found that the best method was to give the same emotion as the user's previous utterance regardless of the content of the system's utterance.

  128. Latent words recurrent neural network language models 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2015-January 2380-2384 2015年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    ISSN:2308-457X

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    Copyright © 2015 ISCA. This paper proposes a novel language modeling approach called latent word recurrent neural network language model, which solves the problems present in both recurrent neural network language models (RNNLMs) and latent word language models (LWLMs). The proposed model has a soft class structure based on a latent variable space as well as LWLM, where the latent variable space is modeled using RNNLM. From the viewpoint of RNNLMs, the proposed model can be considered as a soft class RNNLM with a vast latent variable space. In contrast, from the viewpoint of LWLMs, the proposed model can be considered as an LWLM that uses the RNN structure for latent variable modeling instead of the n-gram structure. This paper also details the parameter inference method and two kinds of usages for natural language processing tasks. Our experiments show effectiveness of the proposed model on a perplexity evaluation for the Penn Treebank corpus and an automatic speech recognition evaluation for Japanese spontaneous speech tasks.

  129. Combinations of various language model technologies including data expansion and adaptation in spontaneous speech recognition 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2015-January 463-467 2015年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    ISSN:2308-457X

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    Copyright © 2015 ISCA. This paper demonstrates combinations of various language model (LM) technologies simultaneously, not only modeling techniques but also those for training data expansion based on external language resources and unsupervised adaptation for spontaneous speech recognition. Although forming combinations of various LM technologies has been examined, previous works focused on only modeling techniques. In fact, the previous works did not consider other important functionalities in practical spontaneous language modeling; a use of external language resources and an unsupervised LM adaptation. There- fore, our examination employs not only manual transcriptions of target domain speech but also out-of-domain text resources for spontaneous language modeling. In addition, the unsupervised LM adaptation based on multi-pass decoding is aggres- sively introduced to the combination. Our experimental results show a significant word error rate reduction by combining various technologies compared to using each technology individu- ally in Japanese spontaneous speech recognition task. Further-more, we also reveal relationships between the technologies.

  130. Hierarchical latent words language models for robust modeling to out-of domain tasks 査読有り

    Ryo Masumura, Taichi Asami, Takanobu Oba, Hirokazu Masataki, Sumitaka Sakauchi, Akinori Ito

    Conference Proceedings - EMNLP 2015: Conference on Empirical Methods in Natural Language Processing 1896-1901 2015年

    出版者・発行元:The Association for Computational Linguistics

    DOI: 10.18653/v1/d15-1217  

    詳細を見る 詳細を閉じる

    © 2015 Association for Computational Linguistics. This paper focuses on language modeling with adequate robustness to support different domain tasks. To this end, we propose a hierarchical latent word language model (h-LWLM). The proposed model can be regarded as a generalized form of the standard LWLMs. The key advance is introducing a multiple latent variable space with hierarchical structure. The structure can flexibly take account of linguistic phenomena not present in the training data. This paper details the definition as well as a training method based on layer-wise inference and a practical usage in natural language processing tasks with an approximation technique. Experiments on speech recognition show the effectiveness of h-LWLM in out-of domain tasks.

  131. Entropy-based sentence selection for speech synthesis using phonetic and prosodic contexts 査読有り

    Takashi Nose, Yusuke Arao, Takao Kobayashi, Komei Sugiura, Yoshinori Shiga, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2015-January 3491-3495 2015年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    ISSN:2308-457X

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    Copyright © 2015 ISCA. This paper proposes a sentence selection method using a maxi- mum entropy criterion to construct recording scripts for speech synthesis. In the conventional corpus design of speech syn- thesis, a greedy algorithm that maximizes phonetic coverage is often used. However, for statistical parametric speech syn- thesis, phonetic and prosodic contextual balance is important as well as the coverage. To take account of both of the pho- netic and prosodic contextual balance in the sentence selection, we introduce and maximize the entropy of the phonetic and prosodic contexts, such as biphone, triphone, accent, and sen- tence length. The objective experimental results show that the proposed method achieves better coverage and balance of con- texts and reduces spectral and F0 distortions compared to the random and coverage-based sentence selection methods.

  132. Preface 査読有り

    Junzo Watada, Akinori Ito, Jeng Shyang Pan, Han Chieh Chao, Chien Ming Chen

    Proceedings - 2014 10th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2014 XXV 2014年12月24日

    DOI: 10.1109/IIH-MSP.2014.5  

  133. Analysis of english pronunciation of singing voices sung by Japanese speakers 査読有り

    Kazumichi Yoshida, Takashi Nose, Akinori Ito

    Proceedings - 2014 10th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2014 554-557 2014年12月24日

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2014.143  

    詳細を見る 詳細を閉じる

    © 2014 IEEE. Singing songs is one of the most popular amusements in Japan. We sing many kinds of songs at occasions such as karaoke. However, it is difficult for most of Japanese native speakers to sing English songs because of difference of phone inventory of the two languages. Nowadays, there are numerous studies of CALL (Computer Assisted Language Learning) systems including the training of English pronunciation, however, there is no system that evaluates English pronunciation of the sung English. We are now investigating how to develop such a system by analyzing English singing voice and the result of subjective evaluation. In this paper, we show the result of the subjective evaluation as well as the analysis results. As a result, we found that not only the number of mispronunciations but also other factors affect the perceived goodness of English pronunciation. We also found that pronunciation scores of the singing voice by singers with singing experience were higher than that of spoken speech, which might mean that the experience of singing improves the skill of English singing.

  134. Assessing the intended enthusiasm of singing voice using energy variance 査読有り

    Akinori Ito

    Proceedings - 2014 10th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2014 558-561 2014年12月24日

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2014.144  

    詳細を見る 詳細を閉じる

    © 2014 IEEE. Singing enthusiasm is a new concept to evaluate singing voice, and the perceived enthusiasm have been shown to be able to be estimated accurately. However, the intended enthusiasm is still difficult to estimate. In this paper, methods to discriminate intended enthusiasm are examined. First, a simple method using the features used for estimation of the perceived enthusiasm is tested, but the discrimination rate was low. Then a method to use temporal deviation of power distribution is examined, and 72% discrimination rate was obtained.

  135. Teaching a robot where objects are: Specification of object location using human following and human orientation estimation 査読有り

    Keisuke Sakai, Yutaka Hiroi, Akinori Ito

    World Automation Congress Proceedings 490-495 2014年10月24日

    出版者・発行元:IEEE

    DOI: 10.1109/WAC.2014.6936012  

    ISSN:2154-4824

    eISSN:2154-4832

    詳細を見る 詳細を閉じる

    © 2014 TSI Press. We propose a total method to specify object's position to a mobile robot using person-following. The user first moves toward the target object and the robot follows the person, recording the trajectory of the walk. After arriving at the target position, the robot identifies the position of the object by estimating the orientation of the person. Then the robot traces the trajectory from the origin to the target position, and finally the robot faces the target object. The estimation of the orientation of the person is performed by fitting an ellipse to the measurement of the laser range finder.

  136. Analysis of spectral enhancement using global variance in HMM-based speech synthesis 査読有り

    Takashi Nose, Akinori Ito

    Proceedings of Interspeech 2014年9月18日

  137. Accent type and phrase boundary estimation using acoustic and language models for automatic prosodic labeling 査読有り

    Tomoki Koriyama, Hiroshi Suzuki, Takashi Nose, Takahiro Shinozaki, Akinori Ito

    Proceedings of Interspeech 2014年9月17日

  138. Assessing the Intended Enthusiasim of Singing Voice Using Energy Variance 査読有り

    Akinori Ito

    Proceedings of International Conference on Intelligent Information Hiding and Multimedia Signal Processing 2014 2014年8月27日

    DOI: 10.13140/2.1.3659.2002  

  139. User modeling by using bag-of-behaviors for building a dialog system sensitive to the interlocutor's internal state 査読有り

    Yuya Chiba, Masashi Ito, Takashi Nose, Akinori Ito

    Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue 2014年7月18日

  140. TEMPO MODIFICATION OF MUSIC SIGNAL USING SINUSOIDAL MODEL AND LPC-BASED RESIDUE MODEL 査読有り

    Akinori Ito, Yuki Igarashi, Masashi Ito, Takashi Nose

    Proceedings of International Congress on Sound and Vibration 2014年7月13日

  141. User Modeling by Using Bag-of-Behaviors for Building a Dialog System Sensitive to the Interlocutor’s Internal State 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito, Masashi Ito

    Proceedings of 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue 74 2014年6月18日

  142. Packet loss concealment of voice-over IP packet using redundant parameter transmission under severe loss conditions 査読有り

    Takeshi Nagano, Akinori Ito

    Journal of Information Hiding and Multimedia Signal Processing 5 (2) 285-294 2014年4月

    ISSN:2073-4212

    eISSN:2073-4239

    詳細を見る 詳細を閉じる

    This paper describes an outline of a project for developing a VoIP codec that can be used under a very severe communication environment where half of the packets drop. The codec is based on G.729 CS-ACELP, and a packet loss concealment (PLC) methods with redundant information will be used for enhancing speech quality. First, we assessed the importance of G.729 parameters, where we found that parameters related to the spectral shape and gain were relatively important. Then we evaluated speech quality when those important parameters were redundantly transmitted. Next, we developed two methods to reduce bitrate of the redundant parameters: one is to use the bit-ip function, and the other one is to use a discriminative model. From the experimental result, we found that both of the methods gave similar results, where quality improvement is almost in proportion to the redundant bitrate. © 2014 ISSN 2073-4212.

  143. Modeling User's State During Dialog Turn Using HMM For Multi-modal Spoken Dialog System 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Proceedings of The Seventh International Conference on Advances in Computer-Human Interactions 343-346 2014年3月2日

  144. 低リソースな計算機による音声認識の検討

    長野 雄, 伊藤 彰則, 大河 雄一

    日本音響学会2014年春季研究発表会講演論文集 67-70 2014年3月

    出版者・発行元:日本音響学会

    ISSN:1880-7658

  145. Automatic evaluation of singing enthusiasm for karaoke 査読有り

    Ryunosuke Daido, Masashi Ito, Shozo Makino, Akinori Ito

    Computer Speech and Language 28 (2) 501-517 2014年3月

    出版者・発行元:ACADEMIC PRESS LTD- ELSEVIER SCIENCE LTD

    DOI: 10.1016/j.csl.2012.07.007  

    ISSN:0885-2308

    eISSN:1095-8363

    詳細を見る 詳細を閉じる

    Evaluation of singing skill is a popular function of karaoke machines. Here, we introduce a different aspect of evaluating the singing voice of an amateur singer: "singing enthusiasm". First, we investigated whether human listeners can evaluate singing enthusiasm consistently and whether the listener's perception matches the singer's intended enthusiasm. We then identified three acoustic features relevant to the perception of singing enthusiasm: A-weighted power, "fall-down", and vibrato extent. Finally, we developed a method for combining the selected three features to estimate the value of singing enthusiasm, and obtained a correlation coefficient of 0.65 between the estimated value and human evaluation. © 2013 Elsevier Inc. All rights reserved.

  146. Speech recognition in a home environment using parallel decoding with GMM-based noise modeling 査読有り

    Kohei Machida, Takashi Nose, Akinori Ito

    2014 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2014 2014年2月12日

    出版者・発行元:IEEE

    DOI: 10.1109/APSIPA.2014.7041622  

    詳細を見る 詳細を閉じる

    © 2014 Asia-Pacific Signal and Information Processing Ass. In this paper, we propose a method for noise-robust speech recognition in a home environment based on noise modeling and parallel decoding. There are three basic ideas of the proposed method. First, we model the noise signals observed in the environment using a GMM. Second, we generate multiple noise-reduced signals using the mean vectors of the GMM and decode the signals in parallel. Third, we choose the best recognition result from the multiple recognition results based on the confidence score. The proposed method is very simple and straightforward, yet effective compared with simple noise reduction. The experiments proved that the proposed method is effective for not only noise signals in the database but also for those in the real home environment.

  147. Controlling Switching Pause Using an AR Agent for Interactive CALL System 査読有り

    Naoto Suzuki, Takashi Nose, Akinori Ito, Yutaka Hiroi

    Communications in Computer and Information Science 435 PART II 588-593 2014年

    出版者・発行元:Springer Verlag

    DOI: 10.1007/978-3-319-07854-0_102  

    ISSN:1865-0929

    詳細を見る 詳細を閉じる

    We are developing a voice-interactive CALL (Computer-Assisted Language Learning) system to provide more opportunity for better English conversation exercise. There are several types of CALL system, we focus on a spoken dialogue system for dialogue practice. When the user makes an answer to the system's utterance, timing of making the answer utterance could be unnatural because the system usually does not make any reaction when the user keeps silence, and therefore the learner tends to take more time to make an answer to the system than that to the human counterpart. However, there is no framework to suppress the pause and practice an appropriate pause duration. In this research, we did an experiment to investigate the effect of presence of the AR character to analyze the effect of character as a counterpart itself. In addition, we analyzed the pause between the two person's utterances (switching pause). The switching pause is related to the smoothness of its conversation. Moreover, we introduced a virtual character realized by AR (Augmented Reality) as a counterpart of the dialogue to control the switching pause. Here, we installed the character the behavior of "time pressure" to prevent the learner taking long time to consider the utterance. To verify if the expression is effective for controlling switching pause, we designed an experiment. The experiment was conducted with or without the expression. Consequently, we found that the switching pause duration became significantly shorter when the agent made the time-pressure expression. © Springer International Publishing Switzerland 2014.

  148. Manipulation of vocal signal in mixed music signal using side information of F0 and backing spectrum 査読有り

    Akinori Ito, Yuto Sasaki

    International Conference on Signal Processing Proceedings, ICSP 2015-January (October) 605-609 2014年

    出版者・発行元:IEEE

    DOI: 10.1109/ICOSP.2014.7015075  

    ISSN:2164-5221

    詳細を見る 詳細を閉じる

    © 2014 IEEE. We have been developing a system that enables a listener of streaming audio to control the volume of independent part in a mixed audio signal in real-time. In the previous work, we proposed the basic framework of the system and proved the effectiveness of the proposed method. In this paper, we proposed a method to improve the quality of manipulated audio signal by improving the side information. The basic idea of the proposed method is to consider the ratio between the level of the signal to be manipulated and the backing signal. As an experimental result, we obtained that the proposed method improved the quality of the manipulated signal using 4 kbit/s side information.

  149. Analysis of spectral enhancement using global variance in HMM-based speech synthesis 査読有り

    Takashi Nose, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2917-2921 2014年

    ISSN:2308-457X

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    Copyright © 2014 ISCA. This paper analyzes the problem of the spectral enhancement technique using global variance (GV) in HMM-based speech synthesis. In the conventional GV-based parameter generation, spectral enhancement with variance compensation is achieved by considering a GV pdf with fixed parameters for every output utterances through the generation process. Although the spectral peaks of the generated trajectory are clearly emphasized and subjective clarity is improved, the use of the fixed GV parameters results in a much smaller variation of GVs among the synthesized utterances than that of the natural speech, which sometimes causes undesirable effect. In this paper, we examine the above problem in terms of multiple objective measures such as variance characteristics, spectral and GV distortions, and GV correlations and discuss the result. We propose a simple alternative technique based on an affine transformation that provides a closer GV distribution to the original speech and improves the correlation of GVs of generated parameter sequences. The experimental results show that the proposed spectral enhancement outperforms the conventional GV-based parameter generation in the objective measures.

  150. User modeling by using bag-of-behaviors for building a dialog system sensitive to the interlocutor's internal state 査読有り

    Yuya Chiba, Takashi Nose, Akinori Ito, Masashi Ito

    SIGDIAL 2014 - 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue, Proceedings of the Conference 74-78 2014年

    DOI: 10.3115/v1/w14-4310  

    詳細を見る 詳細を閉じる

    © 2014 Association for Computational Linguistics. When using spoken dialog systems in actual environments, users sometimes abandon the dialog without making any input utterance. To help these users before they give up, the system should know why they could not make an utterance. Thus, we have examined a method to estimate the state of a dialog user by capturing the user's non-verbal behavior even when the user's utterance is not observed. The proposed method is based on vector quantization of multi-modal features such as non-verbal speech, feature points of the face, and gaze. The histogram of the VQ code is used as a feature for determining the state. We call this feature "the Bagof-Behaviors." According to the experimental results, we prove that the proposed method surpassed the results of conventional approaches and discriminated the target user's states with an accuracy of more than 70%.

  151. Tempo modification of music signal using sinusoidal model and LPC-based residue model 査読有り

    Akinori Ito, Yuki Igarashi, Masashi Ito, Takashi Nose

    21st International Congress on Sound and Vibration 2014, ICSV 2014 1 928-935 2014年

    詳細を見る 詳細を閉じる

    Changing tempo of the music signal is one of the most basic signal processing applied to music signals. Traditional algorithms such as phase vocoder and PSOLA uniformly stretch and shrink the input signal. Therefore, those methods change not only the tempo but also the structure of the signal of the instrumental sound, such as attack and decay time, which changes the timbre of the instruments. To change the tempo of the music signal while keeping the Attack-Decay-Sustain-Release structure of the instruments, we need a non-linear modification of the time scale. To realize this, we propose a two-stage modeling of the music signal. The first stage models the music signal using the sinusoidal model that expresses the harmonic part of the signal using sum of sinusoids with temporally-variable amplitude and frequency. Because non-harmonic component of the signal cannot be modeled using the sinusoidal model, the residue of the sinusoidal model is analyzed using the linear-prediction coding (LPC) in the second stage, which expresses the reverberation of the impulsive sound. Then the residue of the LPC analysis is stretched or shrunk non-linearly according to the short-term power, where only the parts with small power are modified because the parts with larger power correspond to the attack parts. Finally, the modified residue is used to synthesis the modified signal using the LPC synthesis filter and sinusoidal synthesizer. We conducted experiments to modify the tempo of piano sounds, and compared the result with the conventional time stretch methods.

  152. Modeling user's state during dialog turn using HMM for multi-modal spoken dialog system 査読有り

    Yuya Chiba, Akinori Ito, Masashi Ito

    ACHI 2014 - 7th International Conference on Advances in Computer-Human Interactions 343-346 2014年

    詳細を見る 詳細を閉じる

    Copyright © IARIA, 2014. Conventional spoken dialog systems cannot estimate the user's state while waiting for an input from the user because the estimation process is triggered by observing the user's utterance. This is a problem when, for some reason, the user cannot make an input utterance in response to the system's prompt. To help these users before they give up, the system should handle the requests expressed by them unconsciously. Based on this assumption, we have examined a method to estimate the state of a user before making an utterance by using the non-verbal behavior of the user. The present paper proposes an automatic discrimination method by using time sequential non-verbal information of the user. In this method, the user's internal state is estimated using multi-modal information such as speech, facial expression and gaze, modeled using a Hidden Markov Model (HMM).

  153. Foreword to the special issue on the speech communication and its related technologies 査読有り

    Akinori Ito

    Acoustical Science and Technology 34 (2) 63 2013年

    DOI: 10.1250/ast.34.63  

    ISSN:1346-3969

    eISSN:1347-5177

  154. ASAHI: OK for failure a robot for supporting daily life, equipped with a robot avatar 査読有り

    Yutaka Hiroi, Akinori Ito

    ACM/IEEE International Conference on Human-Robot Interaction 141-142 2013年

    DOI: 10.1109/HRI.2013.6483541  

    ISSN:2167-2148

    eISSN:2167-2148

    詳細を見る 詳細を閉じる

    This paper introduces a daily-life-support robot, ASAHI. ASAHI is equipped with a robot avatar, which converses with the user using speech and gesture. He can perform a simple support task, such as bringing an object, as well as following the user to move around the floor. The feature of ASAHI is that it has an ability to recover from failures such as misrecognition of objects or losing the person it is following, by communicating with the user and expressing the robot's internal states. © 2013 IEEE.

  155. 拡張現実感を用いたロボットデザインの評価 査読有り

    廣井富, 伊藤彰則

    日本バーチャルリアリティ学会誌 18 (2) 161-170 2013年

    出版者・発行元:特定非営利活動法人 日本バーチャルリアリティ学会

    DOI: 10.18974/tvrsj.18.2_161  

    ISSN:1344-011X

    詳細を見る 詳細を閉じる

    We can make a robot suitable for users' preference by designing its appearance and interaction through subjective evaluation. However, for evaluating users' impressions using real robots, it is necessary to build many robots with various specifications such as height, which is time-consuming and costly. In this paper, we propose a robot design methodology based on augmented reality (AR). We conducted experiments to evaluate a robot's head size using both AR and real robots, and similar results were obtained from both evaluation experiments in an environment with simple background. Next, we conducted experiments to evaluate a robot's head size using both AR and real robots in a real environment, and similar results were obtained from both evaluation experiments. From these experiments, we can conclude that the CG-based robot evaluation is as effective as that using real robots. In addition, the AR technology enables us to evaluate the robot in a real environment, which realizes more realistic evaluation of robot design without building real robots.

  156. Estimation of User's State during a Dialog Turn with Sequential Multi-modal Features 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Communications in Computer and Information Science 374 (PART II) 572-576 2013年

    出版者・発行元:Springer Verlag

    DOI: 10.1007/978-3-642-39476-8_115  

    ISSN:1865-0929

    詳細を見る 詳細を閉じる

    Spoken dialog system (SDS) is a typical speech application and sometimes regarded as one of ideal interfaces. However, most of conventional SDSs cannot help their user while waiting for input utterance since they treat a user's utterance as a trigger of processing. This architecture is largely different from the manner of human-human interaction and factor that makes the user feel inconvenience when they cannot respond to the system's prompt appropriately. To solve this problem, the system should be able to estimate the internal state of the user before observing the user's input utterance. In present paper, we proposed twostep discrimination method using multi-modal information to estimate the user's state frame by frame. © Springer-Verlag Berlin Heidelberg 2013.

  157. Multi-modal voice activity detection by embedding image features into speech signal 査読有り

    Yohei Abe, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 271-274 2013年

    出版者・発行元:IEEE Computer Society

    DOI: 10.1109/IIH-MSP.2013.76  

    詳細を見る 詳細を閉じる

    Lip movement has a close relationship with speech because the lips move when we talk. The idea behind this work is to extract the lip movement feature from the facial video and embed the movement feature into speech signal using information hiding technique. Using the proposed framework, we can provide advanced speech communication only using the speech signal that includes lip movement features, without increasing the bitrate of the signal. In this paper, we show the basic framework of the method and apply the proposal method to multi-modal voice activity detection (VAD). As a result of detection experiment using the support vector machine, we obtained better performance than the audio-only VAD in a noisy environment. In addition, we investigated how data embedding into speech signal affects sound quality and detection performance. © 2013 IEEE.

  158. Acoustic features and auditory impressions of death growl and screaming voice 査読有り

    Keizo Kato, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 460-463 2013年

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2013.120  

    詳細を見る 詳細を閉じる

    In the contemporary music scene, the death growl and screaming voice are often used in the extreme metal, and have been one of the indispensable singing styles. In this study, we made an attempt to clarify the acoustic feature of the death growl and screaming voice. We chose jitter, shimmer and HNR as the acoustic features, and found that the death growl and screaming voice have much larger jitter and shimmer, lower HNR compared with the normal voice. Next, we investigated the relationship between subjective impression and acoustic feature, and found that the screaming voice has an optimum jitter. © 2013 IEEE.

  159. Speech recognition under noisy environments using multiple microphones based on asynchronous and intermittent measurements 査読有り

    Kohei Machida, Akinori Ito

    2013 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2013 1-4 2013年

    DOI: 10.1109/APSIPA.2013.6694362  

    詳細を見る 詳細を閉じる

    We propose a robust speech recognition method under noisy environments using multiple microphones based on asynchronous and intermittent observation. In asynchronous and intermittent observation, the noise spectrum is estimated by the environmental noise observed in fragments from multiple microphones, and spectral subtraction is performed by this estimated noise spectrum. In this paper, we consider the case of estimating the noise spectrum from the noise observed by another microphone just before speech input. However, the noise spectrum needs to be compensated because of the difference in the location of the microphone in this case. Then, we examined compensating the noise spectrum by using the estimated LSFL on the log spectrum. By compensating the noise spectrum, the recognition rate improved compared with the case without compensation. © 2013 APSIPA.

  160. ASAHI: OK for Failure A Robot for Supporting Daily Life, Equipped with a Robot Avatar 査読有り

    Yutaka Hiroi, Akinori Ito

    PROCEEDINGS OF THE 8TH ACM/IEEE INTERNATIONAL CONFERENCE ON HUMAN-ROBOT INTERACTION (HRI 2013) 141-+ 2013年

    出版者・発行元:IEEE

    DOI: 10.1109/HRI.2013.6483541  

    ISSN:2167-2121

    詳細を見る 詳細を閉じる

    This paper introduces a daily-life-support robot, ASAHI. ASAHI is equipped with a robot avatar, which converses with the user using speech and gesture. He can perform a simple support task, such as bringing an object, as well as following the user to move around the floor. The feature of ASAHI is that it has an ability to recover from failures such as misrecognition of objects or losing the person it is following, by communicating with the user and expressing the robot's internal states.

  161. A packet loss recovery of G.729 speech using discriminative model and N-gram 査読有り

    Takeshi Nagano, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 267-270 2013年

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2013.75  

    詳細を見る 詳細を閉じる

    In a VoIP application, packet losses degrade speech quality. Especially, IP network under a large-scale disaster should cause severe packet losses. We have investigated the relationship between parameter loss and speech quality for G.729 codec. In this paper, we propose packet loss recovery method under severe packet loss condition, where the relationship was modeled by Support Vector Machine (SVM). Compared with the 'repetition' method, the proposed method could improve speech quality. When we used both SVM and N-gram for concealing packet losses, we could obtain further improvement of speech quality. © 2013 IEEE.

  162. Evaluation of sinusoidal modeling for polyphonic music signal 査読有り

    Yuki Igarashi, Masashi Ito, Akinori Ito

    Proceedings - 2013 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIH-MSP 2013 464-467 2013年

    出版者・発行元:IEEE

    DOI: 10.1109/IIH-MSP.2013.121  

    詳細を見る 詳細を閉じる

    There are various kinds of sound signal analysis methods. Sinusoidal modeling, one of those signal analysis method, is based on the idea that all sound signal can be expressed as the sum of sinusoidal components of which instantaneous frequency and amplitude continuously vary with time. Sinusoidal modeling is known as a good model for sound signals, but it has been applied to the data which had only one sound source such as voiced speech or sounds of one instrument. In this paper, we applied sinusoidal modeling to polyphonic music signals and evaluated the accucary of the modeling. As a result, we found that sinusoidal modeling worked well even for polyphonic music signals as long as they do not contain noise-like sounds such as drums. © 2013 IEEE.

  163. A Mobile Robot System With Semi-Autonomous Navigation Using Simple And Robust Person Following Behavior 査読有り

    Yutaka Hiroi, Shohei Matsunaka, Akinori Ito

    Journal of Man, Machine and Technology 1 (1) 44-62 2012年12月

    DOI: 10.4156/jmmt.vol1.issue1.4  

  164. Packet Loss Concealment of VoIP Under Severe Loss Conditions 査読有り

    Akinori Ito, Takeshi Nagano

    International Symposium on Wireless Personal Multimedia Communication 2012年9月24日

  165. Advanced Information Hiding for G.711 Telephone Speech 査読有り

    Akinori Ito, Yoiti Suzuki

    Multimedia Information Hiding Technologies and Methodologies for Controlling Data 2012年9月23日

  166. 災害に役立つ情報通信サービス 招待有り

    庄司貞雄, 青木孝文, 伊藤彰則, 大町真一郎, 伊藤康一

    電子情報通信学会技術研究報告 112 (209) 69-70 2012年9月

    詳細を見る 詳細を閉じる

    NS2012-64,IN2012-62,CS2012-53

  167. Model shrinkage for discriminative language models 査読有り

    Takanobu Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

    IEICE Transactions on Information and Systems E95-D (5) 1465-1474 2012年5月

    出版者・発行元:IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG

    DOI: 10.1587/transinf.E95.D.1465  

    ISSN:0916-8532

    eISSN:1745-1361

    詳細を見る 詳細を閉じる

    This paper describes a technique for overcoming the model shrinkage problem in automatic speech recognition (ASR), which allows application developers and users to control the model size with less degradation of accuracy. Recently, models for ASR systems tend to be large and this can constitute a bottleneck for developers and users without special knowledge of ASR with respect to introducing the ASR function. Specifically, discriminative language models (DLMs) are usually designed in a high-dimensional parameter space, although DLMs have gained increasing attention as an approach for improving recognition accuracy. Our proposed method can be applied to linear models including DLMs, in which the score of an input sample is given by the inner product of its features and the model parameters, but our proposed method can shrink models in an easy computation by obtaining simple statistics, which are square sums of feature values appearing in a data set. Our experimental results show that our proposed method can shrink a DLM with little degradation in accuracy and perform properly whether or not the data for obtaining the statistics are the same as the data for training the model. Copyright © 2012 The Institute of Electronics, Information and Communication Engineers.

  168. 混合音響信号の正弦波モデルによる分析合成

    五十嵐 佑樹, 伊藤 仁, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 187-187 2012年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_187  

  169. 口唇画像情報の音声信号へのデータハイディング

    阿部 洋平, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 188-188 2012年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_188  

  170. 断片的な環境測定に基づく雑音除去の検討

    町田 晃平, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 184-184 2012年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_184  

  171. 人間共存型ロボットのための呼びかけ制御の検討

    戸塚 典子, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2012 149-149 2012年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2012.0_149  

  172. Effect of Linguistic Contents on Human Estimation of Internal State of Dialog System Users 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Proceedings of The Interdisciplinary Workshop on Feedback Behavior in Dialog 11-14 2012年

  173. Round-robin duel discriminative language models 査読有り

    Takanobul Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

    IEEE Transactions on Audio, Speech and Language Processing 20 (4) 1244-1255 2012年

    出版者・発行元:IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC

    DOI: 10.1109/TASL.2011.2174225  

    ISSN:1558-7916

    eISSN:1558-7924

    詳細を見る 詳細を閉じる

    Discriminative training has received a lot of attention from both the machine learning and speech recognition communities. The idea behind the discriminative approach is to construct a model that distinguishes correct samples from incorrect samples, while the conventional generative approach estimates the distributions of correct samples. We propose a novel discriminative training method and apply it to a language model for reranking speech recognition hypotheses. Our proposed method has round-robin duel discrimination (R2D2) criteria in which all the pairs of sentence hypotheses including pairs of incorrect sentences are distinguished from each other, taking their error rate into account. Since the objective function is convex, the global optimum can be found through a normal parameter estimation method such as the quasi-Newton method. Furthermore, the proposed method is an expansion of the global conditional log-linear model whose objective function corresponds to the conditional random fields. Our experimental results show that R2D2 outperforms conventional methods in many situations, including different languages, different feature constructions and different difficulties. © 2011 IEEE.

  174. Robust Transmission of Audio Signals over the Internet: An Advanced Packet Loss Concealment for MP3-Based Audio Signals 査読有り

    Akinori Ito, Kiyoshi Konno, Masashi Ito, Shozo Makino

    Interdisciplinary Information Sciences 18 (2) 99-105 2012年

    出版者・発行元:The Editorial Committee of the Interdisciplinary Information Sciences

    DOI: 10.4036/iis.2012.99  

    ISSN:1340-9050

    詳細を見る 詳細を閉じる

    This paper describes packet loss concealment methods for MP3 audio. The proposed methods are based on estimation of modified discrete cosine transform (MDCT) coefficients of the lost packets. The estimation of MDCT coefficients of lower dimensions is performed by switching two concealment methods: the sign correction method and the correlation-based method. The concealment methods are switched based on redundant side information calculated subband-by-subband for reducing MDCT prediction errors. Next, a method for improving estimation of MDCT coefficients of higher dimensions was proposed. The method estimates the absolute value and sign of an MDCT coefficient independently. The subjective evaluation experiment proved that both of the improvement methods for lower and higher dimensions effectively improved the subjective audio quality.

  175. Mobile Robot System With Semi-Autonomous Navigation Using Simple And Robust Person Following Behavior 査読有り

    Yutaka Hiroi, Shohei Matsunaka, Akinori Ito

    Journal of Man, Machine and Technology 1 (1) 44-62 2012年

  176. Spoken document retrieval by discriminative modeling in a high dimensional feature space 査読有り

    Takanobu Oba, Takaaki Hori, Atsushi Nakamura, Akinori Ito

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 5153-5156 2012年

    出版者・発行元:IEEE

    DOI: 10.1109/ICASSP.2012.6289080  

    ISSN:1520-6149

    詳細を見る 詳細を閉じる

    This paper proposes discriminative modeling in a high dimensional feature space for spoken document retrieval (SDR). To estimate the parameters of a high dimensional model properly, a large quantity of data is necessary, but there is no such large corpus for document retrieval. This paper employs two approaches to overcome this problem. One is a reranking approach. A baseline system first gives each document a score and then the score is compensated by employing a high dimensional model. The other approach is automatic query generation. A large number of queries are automatically generated and used for parameter estimation. Our experimental result shows that our proposed method can greatly improve SDR performance. © 2012 IEEE.

  177. Estimating a user's internal state before the first input utterance 査読有り

    Yuya Chiba, Akinori Ito

    Advances in Human-Computer Interaction 2012 2012年

    DOI: 10.1155/2012/865362  

    ISSN:1687-5893

    eISSN:1687-5907

    詳細を見る 詳細を閉じる

    This paper describes a method for estimating the internal state of a user of a spoken dialog system before his/her first input utterance. When actually using a dialog-based system, the user is often perplexed by the prompt. A typical system provides more detailed information to a user who is taking time to make an input utterance, but such assistance is nuisance if the user is merely considering how to answer the prompt. To respond appropriately, the spoken dialog system should be able to consider the users internal state before the users input. Conventional studies on user modeling have focused on the linguistic information of the utterance for estimating the users internal state, but this approach cannot estimate the users state until the end of the users first utterance. Therefore, we focused on the users nonverbal output such as fillers, silence, or head-moving until the beginning of the input utterance. The experimental data was collected on a Wizard of Oz basis, and the labels were decided by five evaluators. Finally, we conducted a discrimination experiment with the trained user model using combined features. As a three-class discrimination result, we obtained about 85 accuracy in an open test. Copyright © 2012 Yuya Chiba and Akinori Ito.

  178. Effect of robot height on comfortableness of spoken dialog 査読有り

    Yutaka Hiroi, Takayuki Nakayama, Hisanori Kuroda, Shinji Miyake, Akinori Ito

    International Conference on Human System Interaction, HSI 29-34 2012年

    出版者・発行元:IEEE

    DOI: 10.1109/HSI.2012.14  

    ISSN:2158-2246

    eISSN:2158-2254

    詳細を見る 詳細を閉じる

    We investigated the effect of height of a robot on comfortableness of spoken dialog with the robot. We created a robot that could change the height continuously, and carried out dialog experiment with 18 subjects changing the robot's height. From the experimental result revealed the two observations: the "comfortable height" of a robot was lower than the eye height of a subject, and the comfortableness of dialog reduced when the height of the robot changed by 200 mm from the comfortable height. © 2012 IEEE.

  179. Estimation of User’s Internal State before the User’s First Utterance Using Acoustic Features and Face Orientation 査読有り

    Yuya Chiba, Masashi Ito, Akinori Ito

    Proceedings of 5th International Conference on Human System Interaction 23-28 2012年

    出版者・発行元:None

    DOI: 10.1109/HSI.2012.13  

    ISSN:2158-2246

    eISSN:2158-2254

  180. Recognition of utterances with grammatical mistakes based on optimization of language model towards interactive CALL systems 査読有り

    Takuya Anzai, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

    出版者・発行元:IEEE

    詳細を見る 詳細を閉じる

    To realize a voice-interactive CALL system, it is necessary to recognize the learner's utterance correctly including the grammatical mistakes. In this paper, we proposed methods for improving recognition accuracy of speech with grammatical mistakes. The proposed method is based on the method that uses n-gram model trained from sentences that are generated using grammatical error rules. We introduced two improvements to the previous method: one is the utterance discrimination to avoid introducing errors into correct utterances, and the other one is optimization of language model where probability of grammatical mistakes in the generated training text is optimized using the score of utterance discrimination. As a result, we obtained 0.92 point improvement, which is 12% error reduction. © 2012 APSIPA.

  181. A Japanese lyrics writing support system for amateur songwriters 査読有り

    Chihiro Abe, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

    出版者・発行元:IEEE

    詳細を見る 詳細を閉じる

    In this paper, we propose a lyrics writing support system focused on the number of syllables, rhyme and word accent. The system generates candidate sentences that satisfy user-specified conditions based on N-gram, and presents them. Users can use the system like a dictionary, and write lyrics be choosing presented sentences. In our subjective evaluations, we have investigated how the system is utilized for writing lyrics actually. The log of using the system and the questionnaires showed that users want the system to present words suitable for their images, and they used the presented words as keywords of a lyrics rather than as they are. © 2012 APSIPA.

  182. A spoken dialogue system using virtual conversational agent with augmented reality 査読有り

    Shinji Miyake, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

    出版者・発行元:IEEE

    詳細を見る 詳細を閉じる

    We have developed a spoken dialogue system using virtual conversational agent with augmented reality. The proposed system has architecture based on question and answer database that contains many question and answer pairs. Additionally, we have developed two agents displayed using augmented reality, which behave as avatars of objects to be operated. We evaluated user's impression as well as response accuracy of our proposed system. As a result, the existence of an agent increased user's feeling of vividness of conversation and easiness to talk to the system. In addition, the system with an agent showed better response accuracy than the system without agents. © 2012 APSIPA.

  183. A packet loss recovery of G.729 speech under severe packet loss condition 査読有り

    Takeshi Nagano, Akinori Ito

    2012 Conference Handbook - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2012 2012年

    出版者・発行元:IEEE

    詳細を見る 詳細を閉じる

    In a VoIP application, packet losses degrade speech quality. Especially, IP network under a large-scale disaster should cause severe packet losses. We investigate influence of parameter loss to speech quality using G.729. And we investigated an effect of packet loss concealment method using redundant G.729 parameters. As compared with "repetition" method, the proposed method could improve speech quality. We also propose a bitrate reduction method by sending bit flip position instead of codebook index. © 2012 APSIPA.

  184. Automatic assessment of easiness of Japanese for writing aid of "Easy Japanese" 査読有り

    Meng Zhang, Akinori Ito, Kazuyuki Sato

    ICALIP 2012 - 2012 International Conference on Audio, Language and Image Processing, Proceedings 303-307 2012年

    DOI: 10.1109/ICALIP.2012.6376630  

    詳細を見る 詳細を閉じる

    In this paper, we developed a method to assess easiness of a Japanese sentence for a non-native speaker of Japanese. This method is intended to be used as a writing aid of Easy Japanese (EJ), which is used as a language to convey information to foreigners in Japan under emergency condition such as earthquake. We examined six features (number of words, nouns, verbs, phrases, and loanwords in the sentence, and the average grade of words in the sentence) as features, and used linear regression model to combine the features. As a result of evaluation experiment, we obtained correlation coefficient of 0.55 between the predicted scores and the easiness scores given by human subjects. © 2012 IEEE.

  185. Packet loss concealment of VoIP under severe loss conditions 査読有り

    Akinori Ito, Takeshi Nagano

    International Symposium on Wireless Personal Multimedia Communications, WPMC 489-490 2012年

    ISSN:1347-6890

    詳細を見る 詳細を閉じる

    This paper describes an outline of a project for developing a VoIP codec that can be used under a very severe communication environment where half of the packets drop. The codec is based on G.729 CS-ACELP, and a packet loss concealment (PLC) methods with redundant information will be used for enhancing speech quality. The result of a preliminary experiment for assessing importance of G.729 parameters is presented, where we found that parameters related to spectral shape and gain were relatively important. © 2012 NiCT.

  186. Influence of the Size Factor of a Mobile Robot Moving Toward a Human on Subjective Acceptable Distance 査読有り

    Yutaka Hiroi, Akinori Ito

    Mobile Robots - Current Trends 2011年10月26日

  187. A System for Evaluating Singing Enthusiasm for Karaoke 査読有り

    Ryunosuke Daido, Seong-Jun Hahm, Masashi Ito, Shozo Makino, Akinori Ito

    Proceedings of International Society of Music Information Retrieval Conference 31-36 2011年10月24日

  188. Find out what a user doing before the first utterance: discrimination of user's internal state using non-verbal information 査読有り

    Yuya Chiba, Akinori Ito

    Proceedings of Asian-Pacific Signal and Information Processing Association Annual Summit and Conference 2011年10月19日

  189. 統計的言語モデルを用いた作詞補助システム

    阿部 ちひろ, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 141-141 2011年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_141  

  190. 雑音環境下での頑健な単語検出

    藤田 一暁, 咸 聖俊, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 184-184 2011年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_184  

  191. 音声合成用コーパス作成方式に関する研究

    加藤 圭造, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 187-187 2011年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_187  

  192. 拡張現実感を用いたバーチャル対話エージェントに関する研究

    三宅 真司, 伊藤 彰則

    電気関係学会東北支部連合大会講演論文集 2011 77-77 2011年

    出版者・発行元:電気関係学会東北支部連合大会実行委員会

    DOI: 10.11528/tsjc.2011.0_77  

  193. Utterance classification for combination of multiple simple dialog systems 査読有り

    Seong Jun Hahm, Akinori Ito, Kentaro Awano, Masashi Ito, Shozo Makino

    Proceedings - 9th IEEE International Symposium on Parallel and Distributed Processing with Applications Workshops, ISPAW 2011 - ICASE 2011, SGH 2011, GSDP 2011 171-176 2011年

    出版者・発行元:IEEE

    DOI: 10.1109/ISPAW.2011.74  

    詳細を見る 詳細を閉じる

    This paper describes an utterance classification method for combining multiple dialog systems. For reducing effort of developing spoken dialog systems, several dialog systems have been proposed that do not require complicated dialog description. However, these systems are so simple that only very limited type of dialogs are accepted by these systems. We propose a spoken dialog development by combining these simple dialog systems for developing a dialog system that accepts more flexible dialogs. Combination of dialog systems is based on utterance classification. We conducted an utterance classification experiment, and 77.1% of the utterances including out-of-task utterances were correctly classified. © 2011 IEEE.

  194. Bit rate reduction of the MELP coder using Lempel-Ziv segment quantization 査読有り

    Minoru Kohata, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 5240-5243 2011年

    出版者・発行元:IEEE

    DOI: 10.1109/ICASSP.2011.5947539  

    ISSN:1520-6149

    詳細を見る 詳細を閉じる

    We previously proposed a new segment quantization method called Lempel-Ziv segment quantization (LZSQ), which is a modified version of Lempel-Ziv (LZ) coding that can be applied to a continuous information source. In the present paper, LZSQ is applied to the mixed excitation linear prediction (MELP) coder, which is a standardized vocoder-type speech coder that operates at 2.4 kbit/s, in order to reduce the bit rate to below 2.4 kbit/s, while preserving the quality of the coded speech. LZSQ is applied to six coding parameters of the MELP coder to reduce the total bit rate as much as possible. As a result, the total bit rate of the modified MELP coder was reduced to 1.57 kbit/s, while the subjective quality of the modified MELP coder is equivalent to that of the previous MELP coder. © 2011 IEEE.

  195. Round-robin duel discriminative language models in one-pass decoding with on-the-fly error correction 査読有り

    Takanobu Oba, Takaaki Hori, Akinori Ito, Atsushi Nakamura

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 5588-5591 2011年

    出版者・発行元:IEEE

    DOI: 10.1109/ICASSP.2011.5947626  

    ISSN:1520-6149

    詳細を見る 詳細を閉じる

    This paper focuses on discriminative n-gram language models for large vocabulary speech recognition. We have proposed a novel training method called the round-robin duel discrimination (R2D2) method. Our previous report showed that R2D2 outperforms conventional methods on word n-gram based discriminative language models (DLMs). In this paper, we achieve additional error reduction and one-pass decoding at the same time. The keys to achieving this are the use of morphological features and the on-the-fly composition of weighted finite-state transducers (WFSTs) that represent both word and morphological discriminative features. Our experimental results show that R2D2 can reduce recognition errors more effectively than conventional methods in the reranking of n-best hypotheses and one-pass decoding can be accomplished with an equivalent accuracy. © 2011 IEEE.

  196. Evaluation of Abnormal Sound Detection using Multi-stage GMM in Various Environments 査読有り

    Akinori Ito, Akihito Aiba, Masashi Ito, Shozo Makino

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 308-+ 2011年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    We have developed a method to automatically detect incidents by detecting abnormal sound events from audio signals recorded in real environments. The proposed method uses the multi-stage Gaussian Mixture Model (GMM), which learns rare sounds using multiple GMMs. In this work, we investigated the relationship between sound environment and detection performance, and found that the performance deteriorates in noisy environments, and that the performance largely depends on the SN ratio of the abnormal sounds. Next, we investigated methods for determining hyperparameters of the multi-stage GMM, which involves intermediate thresholds, numbers of mixtures of GMMs and the detection threshold. The experimental results showed that the combination of percentile-based threshold determination and Bayesian information criterion (BIC)-based mixture determination was most effective. However, when using the automatically-determined parameters, the detection performance deteriorated by up to 20%.

  197. Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 1465-1468 2011年

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    This paper describes a language modeling method using large-scale spoken language data retrieved from the Web for spontaneous speech recognition. We downloaded 15 million Web pages on a comprehensive range topics. Next, spoken language- like texts were selected from the downloaded Web data using the naïve Bayes classifier, and typical linguistic phenomena such as fillers and pauses were added using simulation models. A language model trained by the generated data gave as high performance as the large-scale spontaneous speech corpus (Corpus of Spontaneous Japanese, CSJ). By combining the generated data and CSJ, we improved word accuracy. Copyright © 2011 ISCA.

  198. Language model expansion using webdata for spoken document retrieval 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 2133-2136 2011年

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    In recent years, there has been increasing demand for ad hoc retrieval of spoken documents. We can use existing text retrieval methods by transcribing spoken documents into text data using a Large Vocabulary Continuous Speech Recognizer (LVCSR). However, retrieval performance is severely deteriorated by recognition errors and out-of-vocabulary (OOV) words. To solve these problems, we previously proposed an expansion method that compensates the transcription by using text data downloaded from the Web. In this paper, we introduce two improvements to the existing document expansion frame- work. First, we use a large-scale sample database of webdata as the source of relevant documents, thus avoiding the bias introduced by choosing keywords in the existing methods. Next, we use a document retrieval method based on a statistical language model (SLM), which is a popular framework in information retrieval, and also propose a new smoothing method considering recognition errors and missing keywords. Retrieval experiments show that the proposed methods yield a good results. Copyright © 2011 ISCA.

  199. Manipulating vocal signal in mixed music sounds using small amount of side information 査読有り

    Yuto Sasaki, Seong Jun Hahm, Akinori Ito

    Proceedings - 7th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIHMSP 2011 298-301 2011年

    DOI: 10.1109/IIHMSP.2011.21  

    詳細を見る 詳細を閉じる

    In this paper, we propose a method for manipulating vocal sound in mixed music signals using side information. In the proposed method, fundamental frequency (F0) of the vocal signal is used as side information. F0 information is estimated from the target signal before being mixed with backing track signals. After receiving the mixed music signal, vocal sound manipulation is performed using a comb filter using F0 information. The performance was evaluated using signal-to-noise ratio (SNR) as well as PEAQ. Then, we evaluated influence of quantization bit rate on average error of F0 information. © 2011 IEEE.

  200. Evaluation of abnormal sound detection using multi-stage GMM in various environments 査読有り

    Akinori Ito, Akihito Aiba, Masashi Ito, Shozo Makino

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 301-304 2011年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    eISSN:1990-9772

    詳細を見る 詳細を閉じる

    We have developed a method to automatically detect incidents by detecting abnormal sound events from audio signals recorded in real environments. The proposed method uses the multi-stage Gaussian Mixture Model (GMM), which learns rare sounds using multiple GMMs. In this work, we investigated the relationship between sound environment and detection performance, and found that the performance deteriorates in noisy environments, and that the performance largely depends on the SN ratio of the abnormal sounds. Next, we investigated methods for determining hyperparameters of the multi-stage GMM, which involves intermediate thresholds, numbers of mixtures of GMMs and the detection threshold. The experimental results showed that the combination of percentile-based threshold determination and Bayesian information criterion (BIC)-based mixture determination was most effective. However, when using the automatically-determined parameters, the detection performance deteriorated by up to 20%. Copyright © 2011 ISCA.

  201. Toward human-robot interaction design through human-human interaction experiment 査読有り

    Yutaka Hiroi, Akinori Ito

    Lecture Notes in Electrical Engineering 133 LNEE (VOL. 2) 127-130 2011年

    DOI: 10.1007/978-3-642-25992-0_18  

    ISSN:1876-1100

    eISSN:1876-1119

    詳細を見る 詳細を閉じる

    In this paper, we examined a possibility of assessing a human's impression of a behavior of a robot through a human-human interaction (HHI), that enables us to design a robot's behavior without actually implementing that behavior to the robot. Experiments were conducted for comparing users' impressions of human-robot interaction (HRI) and HHI. We employed paper-scissors-rock (janken) game as a task of interaction. Virtual reality technology was used for realizing the robot's behavior. From the experimental result, we observed significant difference for the impression of friendliness, but we could observe no significant difference for other items. The result suggests that the behavior of a robot can be assessed through HHI. © 2011 Springer-Verlag.

  202. Training a language model using webdata for large vocabulary Japanese spontaneous speech recognition 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 1476-1479 2011年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    This paper describes a language modeling method using large-scale spoken language data retrieved from the Web for spontaneous speech recognition. We downloaded 15 million Web pages on a comprehensive range topics. Next, spoken language-like texts were selected from the downloaded Web data using the naive Bayes classifier, and typical linguistic phenomena such as fillers and pauses were added using simulation models. A language model trained by the generated data gave as high performance as the large-scale spontaneous speech corpus (Corpus of Spontaneous Japanese, CSJ). By combining the generated data and CSJ, we improved word accuracy.

  203. A system for evaluating singing enthusiasm for karaoke 査読有り

    Ryunosuke Daido, Seong Jun Hahm, Masashi Ito, Shozo Makino, Akinori Ito

    Proceedings of the 12th International Society for Music Information Retrieval Conference, ISMIR 2011 31-36 2011年

    詳細を見る 詳細を閉じる

    Evaluation of singing skill is a popular function of karaoke machines. Here, we introduce a different aspect of evaluating the singing voice of an amateur singer: "enthusiasm". First, we investigated whether human listeners can evaluate enthusiasm consistently and whether the listener's perception matches the singer's enthusiasm. We then identified three acoustic features relevant to the perception of enthusiasm: A-weighted power, "fall-down", and vibrato extent. Finally, we developed a system for evaluating singing enthusiasm using these features, and obtained a correlation coefficient of 0.65 between the system output and human evaluation. © 2011 International Society for Music Information Retrieval.

  204. Language model expansion using webdata for spoken document retrieval 査読有り

    Ryo Masumura, Seongjun Hahm, Akinori Ito

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 2144-2147 2011年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    In recent years, there has been increasing demand for ad hoc retrieval of spoken documents. We can use existing text retrieval methods by transcribing spoken documents into text data using a Large Vocabulary Continuous Speech Recognizer (LVCSR). However, retrieval performance is severely deteriorated by recognition errors and out-of-vocabulary (OOV) words. To solve these problems, we previously proposed an expansion method that compensates the transcription by using text data downloaded from the Web. In this paper, we introduce two improvements to the existing document expansion framework. First, we use a large-scale sample database of webdata as the source of relevant documents, thus avoiding the bias introduced by choosing keywords in the existing methods. Next, we use a document retrieval method based on a statistical language model (SLM), which is a popular framework in information retrieval, and also propose a new smoothing method considering recognition errors and missing keywords. Retrieval experiments show that the proposed methods yield a good results.

  205. Find out what a user is doing before the first utterance: Discrimination of user's internal state using non-verbal information 査読有り

    Yuya Chiba, Seongjun Hahm, Akinori Ito

    APSIPA ASC 2011 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 2011 906-909 2011年

    詳細を見る 詳細を閉じる

    In this research, we propose a method for estimating user's internal state (thinking or embarrassed) before the utterance toward a spoken dialogue system. Modeling user's internal state such as belief, skill or familiarity and introducing these model to the dialogue system should be useful to make flexible responses. However, because conventional estimation of internal state is based on the linguistic information of the previous utterance, it cannot estimate a user's internal state before the user's first utterance. We focus on a user's multimodal features such as filler word, silence, or face direction before the user's input utterance in order to model the user's internal state. The dialogue data were collected on the Wizard of Oz basis as training and test materials. Finally, we conducted an experiment for discrimination with two classification schemes and the hierarchical method obtained higher discrimination accuracy than that of pair-wise method.

  206. Multiple description coding using time domain division for MP3 coded sound signal 査読有り

    Ho seok Wey, Akinori Ito, Takuma Okamoto, Yoiti Suzuki

    Journal of Information Hiding and Multimedia Signal Processing 1 (4) 269-285 2010年10月

    ISSN:2073-4212

    eISSN:2073-4239

    詳細を見る 詳細を閉じる

    In audio communications over a lossy packet network, packet loss conceal- ment techniques are needed to mitigate a user's frustration when perceiving the deterio- ration of the quality of the decoded signal. Multiple description coding (MDC) is a useful solution to this problem. In this paper, we describe an MDC method for concealing packet losses for wideband sound signal streaming based on the sample splitting method in the time domain and encoding by an MPEG-1 audio layer III (MP3) encoder. To enhance the quality of the restored signal, we applied a Wiener filter to the higher frequency part of the restored signal. Experiments were conducted to compare the proposed method with several conventional methods, conrming that the proposed method showed higher quality results than the conventional methods for a range of bit rates from 128 to 192 kbps when there were heavy packet losses. © 2010.

  207. Speech recognition under multiple noise environment based on multi-mixture HMM and weight optimization by the aspect model 査読有り

    Seong Jun Hahm, Yuichi Ohkawa, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEICE Transactions on Information and Systems E93-D (9) 2407-2416 2010年9月

    出版者・発行元:IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG

    DOI: 10.1587/transinf.E93.D.2407  

    ISSN:0916-8532

    eISSN:1745-1361

    詳細を見る 詳細を閉じる

    In this paper, we propose an acoustic model that is robust to multiple noise environments, as well as a method for adapting the acoustic model to an environment to improve the model. The model is called "the multi-mixture model," which is based on a mixture of different HMMs each of which is trained using speech under different noise conditions. Speech recognition experiments showed that the proposed model performs better than the conventional multi-condition model. The method for adaptation is based on the aspect model, which is a "mixture-of-mixture" model. To realize adaptation using extremely small amount of adaptation data (i.e., a few seconds), we train a small number of mixture models, which can be interpreted as models for "clusters" of noise environments. Then, the models are mixed using weights, which are determined according to the adaptation data. The experimental results showed that the adaptation based on the aspect model improved the word accuracy in a heavy noise environment and showed no performance deterioration for all noise conditions, while the conventional methods either did not improve the performance or showed both improvement and degradation of recognition performance according to noise conditions. Copyright © 2010 The Institute of Electronics, Information and Communication Engineers.

  208. Evaluation of head size of an interactive robot using augmented reality 査読有り

    Yutaka Hiroi, Shuhei Hisano, Akinori Ito

    Proceedings of International Symposium on Robotics and Automation 2010年9月

  209. An HMM‐based segment quantizer and its application to low bit rate speech coding 査読有り

    Motoyuki Suzuki, Masashi Adachi, Minoru Kohata, Akinori Ito, Shozo Makino, Fuji Ren

    Proceedings of International Congress on Acoustics 2010年8月

  210. Multiple description coding for MP3 coded sound signal 査読有り

    Ho-seok Wey, Akinori Ito, Takuma Okamoto, Yoiti Suzuki

    Proceedings of International Congress on Acoustics 2010年8月

  211. Improved reference speaker weighting using aspect model 査読有り

    Seong Jun Hahm, Yuichi Ohkawa, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEICE Transactions on Information and Systems E93-D (7) 1927-1935 2010年7月

    出版者・発行元:IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG

    DOI: 10.1587/transinf.E93.D.1927  

    ISSN:0916-8532

    eISSN:1745-1361

    詳細を見る 詳細を閉じる

    We propose an improved reference speaker weighting (RSW) and speaker cluster weighting (SCW) approach that uses an aspect model. The concept of the approach is that the adapted model is a linear combination of a few latent reference models obtained from a set of reference speakers. The aspect model has specific latent-space characteristics that differ from orthogonal basis vectors of eigenvoice. The aspect model is a "mixture-of-mixture" model. We first calculate a small number of latent reference models as mixtures of distributions of the reference speaker's models, and then the latent reference models are mixed to obtain the adapted distribution. The mixture weights are calculated based on the expectation maximization (EM) algorithm. We use the obtained mixture weights for interpolating mean parameters of the distributions. Both training and adaptation are performed based on likelihood maximization with respect to the training and adaptation data, respectively. We conduct a continuous speech recognition experiment using a Korean database (KAIST-TRADE). The results are compared to those of a conventional MAP, MLLR, RSW, eigenvoice and SCW. Absolute word accuracy improvement of 2.06 point was achieved using the proposed method, even though we use only 0.3 s of adaptation data. Copyright © 2010 The Institute of Electronics, Information and Communication Engineers.

  212. Information hiding for G.711 speech based on substitution of least significant bits and estimation of tolerable distortion 査読有り

    Akinori Ito, Shun'Ichiro Abe, Yôiti Suzuki

    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences E93-A (7) 1279-1286 2010年7月

    出版者・発行元:IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG

    DOI: 10.1587/transfun.E93.A.1279  

    ISSN:0916-8508

    eISSN:1745-1337

    詳細を見る 詳細を閉じる

    In this paper, we propose a novel data hiding technique for G.711-coded speech based on the LSB substitution method. The novel feature of the proposed method is that a low-bitrate encoder, G.726 AD-PCM, is used as a reference for deciding how many bits can be embedded in a sample. Experiments showed that the method outperformed the simple LSB substitution method and the selective embedding method proposed by Aoki. We achieved 4-kbit/s embedding with almost no subjective degradation of speech quality, and 10 kbit/s while maintaining good quality. Copyright © 2010 The Institute of Electronics, Information and Communication Engineers.

  213. 時間冗長性圧縮によるボコーダ型音声符号化の低ビットレート化 査読有り

    木幡 稔, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 93 (5) 588-597 2010年5月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    これまでに筆者らは,連続情報源に含まれる時間的な冗長性を圧縮符号化する方式として,新しいセグメント量子化法であるLempel-Ziv Segment Quantization(LZSQ)を提案した.これは,離散情報源用の圧縮法であるLZ符号化を連続情報源に適用できるように修正したものである.本論文ではLZSQをボコーダ型の低ビット音声符号化方式に適用し,時間冗長性を圧縮することにより,更なるビットレートの削減を試みる.ボコーダ型符号化においては音質を維持するためにはビットレートの下限が2.4kbit/s程度であるといわれているが,LZSQを適用することで,音質を維持しつつ更に低レート化することが可能となる.本論文では,標準化されているボコーダ型音声符号化方式の一つである2.4kbit/sMELP符号化の6個の符号化パラメータにLZSQを適用することにより,MELP符号化と同等の音質を維持しつつ極限までビットレートを削減することを試みた.その結果,総ビットレートを約1.57kbit/sまで低減することができた.

  214. Packet loss concealment for mdct-based audio codec using correlation-based side information 査読有り

    Akinori Ito, Toshiyuki Sakai, Kiyoshi Konno, Shozo Makino, Motoyuki Suzuki

    International Journal of Innovative Computing, Information and Control 6 (3) 1347-1361 2010年3月

    出版者・発行元:ICIC INT

    ISSN:1349-4198

    詳細を見る 詳細を閉じる

    In this paper, we investigate several methods for estimating the signal in lost packets of MPS audio using side information. First, we discuss packet loss concealment based on packet copy for an MDCT-based audio codec, and point out problems that deteriorate the quality of the restored signal. Then we propose a packet loss concealment 'method using sign correction. The proposed 'method uses signs of lower MDCT coefficients as redundant information, and the sign information is used when estimating the MDCT coefficients of the lost packets. Next, we propose a new method that uses the same side information as the sign correction method. Our method is a combination of one-bit quantization and sign correction, which has proved to be better than sign correction for improving the correlation between the original signal and the restored signal. The experimental results show that the proposed method outperforms the sign correction method. Next, we investigate several methods that use two bits for correcting one coefficient. The experimental results show that the combination of a two-bit correction and one-bit correction give the best result.

  215. Intonation evaluation of english utterances using synthesized speech for computer-assisted language learning 査読有り

    Akinori Ito, Tomoaki Konno, Masashi Ito, Shozo Makino, Motoyuki Suzuki

    International Journal of Innovative Computing, Information and Control 6 (3) 1501-1514 2010年3月

    出版者・発行元:ICIC INT

    ISSN:1349-4198

    詳細を見る 詳細を閉じる

    In this paper, we will describe a system for evaluating the intonation of English utterances made by Japanese native speakers using synthesized speech for the rapid development of a computer-assisted language learning (CALL) system. To evaluate the intonation of learners' utterances, reference utterances are needed, for which native English speakers' utterances should be used. However, it is costly to gather native speakers' utterances for all sentences in the system. Therefore, we examined an intonation evaluation method using synthesized speech generated by text-to-speech systems instead of real speech. The intonation evaluation system calculates scores between a learner's utterance and corresponding utterances by the teachers. We first compared the reliability of intonation evaluation using native and synthesized utterances, and found that the reliability of evaluation using synthesized utterances could be improved by using the weighted Ma-halanobis distance for calculating the evaluation score. Next, we investigated a method of combining multiple scores of different teachers. In addition, we incorporated a feature for evaluating rhythm into intonation evaluation. As a result, the correlation between scores by human evaluators and the system was improved. Furthermore, we analyzed the tendency of intonation evaluations made by the system through limiting the evaluation utterances to find out for degradation of the system's performance. © 2010 ISSN 1349-4198.

  216. ADPCM 出力とサンプルの絶対値を考慮したG.711 への固定ビットレート情報ハイディング 査読有り

    伊藤彰則, 半田浩規, 鈴木陽一

    電子情報通信学会論文誌(A) J93-A (2) 82-90 2010年2月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5707

    詳細を見る 詳細を閉じる

    本論文では,G.711符号化音声に対し,固定ビットレートで情報を埋め込むことのできる情報ハイディング法を提案する.従来我々が提案していた「ADPCMに基づくG.711への情報ハイディング法」は,埋め込むことのできる情報量が多く,ホスト音声信号の劣化も少ない方法であるが,ビットレートの厳密な制御ができないという欠点があった.そこで我々は,ADPCMに基づく情報ハイディング法と,青木によって提案された「選択的LSB置換法」とを組み合わせることによって固定ビットレートを実現する.提案法は,まずADPCMに基づく情報ハイディング法によって埋め込む情報量を計算し,目標ビットレートよりも多い場合には埋込情報を削り,足りない場合には選択的LSB置換法によってビットを追加する.埋込情報の削減には2種類の方法を試した.評価実験の結果,埋込ビットレートが4kbit/s以上の場合において提案法は選択的LSB置換法よりも有意に高品質であり,特に埋込ビットレートが8kbit/sの場合の性能向上が大きかった.

  217. Source-filter separation for nonstationary voiced speech based on sinusoidal representation 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    Acoustical Science and Technology 31 (2) 181-184 2010年

    DOI: 10.1250/ast.31.181  

    ISSN:1346-3969

    eISSN:1347-5177

  218. Designing side information of multiple description coding 査読有り

    Akinori Ito, Shozo Makino

    Journal of Information Hiding and Multimedia Signal Processing 1 (1) 10-19 2010年1月

    ISSN:2073-4212

    eISSN:2073-4239

    詳細を見る 詳細を閉じる

    In this paper we investigated methods for designing side information of multiple description coding when transmitting two values independently. For methods that use one bit, we investigated '1-bit quantization,' 'sign correction' and 'difference quantization' methods. For those that use two bits, we investigated '2-bit quantization,' 'sign correction+difference quantization' methods. From theoretical analysis and numerical experiments, it has been found that the quantization-based method is best when correlation of the original data is weak, while 'difference quantization' or combination of sign correction is better when the original data have strong correlation. Then we applied the methods to multiple description coding of speech signals. © 2010.

  219. Aspect-model-based reference speaker weighting 査読有り

    Seongjun Hahm, Yuichi Ohkawa, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 4302-4305 2010年

    出版者・発行元:IEEE

    DOI: 10.1109/ICASSP.2010.5495672  

    ISSN:1520-6149

    詳細を見る 詳細を閉じる

    We propose an aspect-model-based reference speaker weighting. The main idea of the approach is that the adapted model is a linear combination of a set of reference speakers like reference speaker weighting (RSW) and eigenvoices. The aspect model is the mixture model of speaker-dependent (SD) models. In this paper, aspect model weighting (AMW) is proposed for finding an optimal weighting of a set of reference speakers unlike RSW and the aspect model which is a kind of cluster models is trained based on likelihood maximization with respect to the training data. The number of adaptation parameters can also be reduced using aspect model approach. For evaluation, we carried out an isolated word recognition experiment on Korean database (KLE452). The results were compared to those of conventional MAP, MLLR, RSW, and eigenvoice. Even though we use only 0.5s of adaptation data, 27.24% relative error rate reduction in comparison with speaker-independent (SI) baseline performance was achieved. ©2010 IEEE.

  220. Document expansion using relevant web documents for spoken document retrieval 査読有り

    Ryo Masumura, Akinori Ito, Yu Uno, Masashi Ito, Shozo Makino

    Proceedings of the 6th International Conference on Natural Language Processing and Knowledge Engineering, NLP-KE 2010 612-619 2010年

    DOI: 10.1109/NLPKE.2010.5587854  

    詳細を見る 詳細を閉じる

    Recently, automatic indexing of a spoken document using a speech recognizer attracts attention. However, index generation from an automatic transcription has many problems because the automatic transcription has many recognition errors and Out-Of-Vocabulary words. To solve this problem, we propose a document expansion method using Web documents. To obtain important keywords which included in the spoken document but lost by recognition errors, we acquire Web documents relevant to the spoken document. Then, an index of the spoken document is generated by combining an index that generated from the automatic transcription and the Web documents. We propose a method for retrieval of relevant documents, and the experimental result shows that the retrieved Web document contained many OOV words. Next, we propose a method for combining the recognized index and the Web index. The experimental result shows that the index of the spoken document generated by the document expansion was closer to an index from the manual transcription than the index generated by the conventional method. Finally, we conducted a spoken document retrieval experiment, and the document-expansion-based index gave better retrieval precision than the conventional indexing method. ©2010 IEEE.

  221. An Effect of Formant Amplitude in Vowel Perception 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4 2494-+ 2010年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    A psycho-acoustical experiment was conducted using synthetic vowel-like stimuli to examine effect of formant amplitude in vowel perception. Nine combinations of formant frequencies were examined. For each combination, relative amplitude of the third to the second formants was modified in seven degrees. In eight of the nine combinations, perceived vowels were changed according to the formant amplitude although every formant frequency kept constant. Furthermore, this amplitude effect was observed even when frequency separation of the neighboring formants was greater than 3.5 Bark. The result suggested that formant amplitude is effective cue for vowel perception as well as formant frequency.

  222. Improvement of packet loss concealment for MP3 audio based on switching of concealment method and estimation of MDCT signs 査読有り

    Akinori Ito, Kiyoshi Konno, Masashi Itot, Shozo Makino

    Proceedings - 2010 6th International Conference on Intelligent Information Hiding and Multimedia Signal Processing, IIHMSP 2010 518-521 2010年

    DOI: 10.1109/IIHMSP.2010.132  

    詳細を見る 詳細を閉じる

    This paper describes packet loss concealment methods for MP3 audio. The proposed methods are based on estimation of modified discrete cosine transform (MDCT) coefficients of the lost packets. The estimation of MDCT coefficients of lower dimensions is performed by switching two concealment methods: the sign correction method and the correlation-based method. The concealment methods are switched based on redundant side information calculated subband-by-subband for reducing MDCT prediction errors. Next, a method for improving estimation of MDCT coefficients of higher dimensions was proposed. The method estimates the absolute value and sign of an MDCT coefficient independently. The subjective evaluation experiment proved that both of the improvement methods for lower and higher dimensions effectively improved the subjective audio quality. © 2010 IEEE.

  223. A query-by-humming music information retrieval from audio signals based on multiple F0 candidates 査読有り

    Akinori Ito, Yu Kosugi, Shozo Makino, Masashi Ito

    ICALIP 2010 - 2010 International Conference on Audio, Language and Image Processing, Proceedings 1-5 2010年

    DOI: 10.1109/ICALIP.2010.5685029  

    詳細を見る 詳細を閉じる

    In this paper, we propose a query-by-humming (QbH) system that retrieves musical pieces given as audio signals. Most conventional QbH systems assume that the symbolic melody information is given a priori, which is not always true. In our system, the database for retrieval is generated from 1ch audio signal that contains many sounds. We generate the database by estimating fundamental frequencies (F0) of the audio signals frame by frame. To improve the retrieval accuracy, we exploit multiple F0 candidates to absorb the impact of F0 estimation errors. From the experiment, we obtained about 15 points of improvement by using multiple F0 candidates, compared with the QbH system with only one F0 candidate . ©2010 IEEE.

  224. A spoken dialog system based on automatically-generated example database 査読有り

    Akinori Ito, Takahiro Morimoto, Shozo Makino, Masashi Ito

    ICALIP 2010 - 2010 International Conference on Audio, Language and Image Processing, Proceedings 732-736 2010年

    DOI: 10.1109/ICALIP.2010.5685069  

    詳細を見る 詳細を閉じる

    There have been proposed spoken dialog systems that utilizes simple database consisted of example sentences and the corresponding reply sentences. However, it is costly to prepare this database manually. In the present study, we propose a framework in which both the example and reply sentences are automatically generated from a database description table that describes minimum information for describing a task. Experimental results indicated that the system using the generated database performed as well as one using manually prepared database. Besides, performance of the system was further improved by the language model adaptation for the generated example sentences. ©2010 IEEE.

  225. Grammatical error detection from English utterances spoken by Japanese 査読有り

    Takuya Anzai, Seongjun Hahm, Akinori Ito, Masashi Ito, Shozo Makino

    APSIPA ASC 2010 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 482-485 2010年

    詳細を見る 詳細を閉じる

    This paper describes methods to recognize English utterances by Japanese learners as accurately as possible and detects grammatical errors from the transcription of the utterances. This method is a building block for the voice-interactive Computer-Assisted Language Learning (CALL) system that enables a learner to make conversation practice with a computer. A difficult point for development of such a system is that the utterances made by the learners contain grammatical mistakes, which are not assumed to happen in an ordinary speech recognizer. To realize generation of accurate transcription including grammatical mistakes, we employed a language model based on an N-gram trained by generated texts. The text generation is based on grammatical error rules that reflect tendency of grammatical mistakes made by Japanese learners. The experimental results showed that the proposed method improved recognition accuracy compared with the conventional recognition and error detection method.

  226. Speech recognition based on tree-structured clustering and aspect model in multiple noise environments 査読有り

    Seong Jun Hahm, Yuichi Ohkawa, Motoyuki Suzuki, Masashi Ito, Shozo Makino, Akinori Ito

    APSIPA ASC 2010 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference 454-457 2010年

    詳細を見る 詳細を閉じる

    In this paper, we propose speech recognition by using cluster-specific aspect model based on tree-structured clustering in multiple noise environments. Multi-condition hidden Markov model (MC-HMM) is one of the standard methods for speech recognition in noisy environment. While MC-HMM is pretty simple, it is known to be robust against various noises, thus this method is regarded as a "standard" of noise-robust acoustic model. However, it is difficult to train a model with large number of parameters to represent wide variabilities. We use tree-structured clustering method to avoid this problem. After training cluster models, cluster-specific aspect models are trained by using results of tree-structured clustering. Each cluster-specific aspect model can represent latent characteristic of specific noisy environments included in a certain cluster. The method for adaptation is based on the aspect model, which is a "mixture-of- mixture" model. To realize adaptation using extremely small amount of adaptation data (i.e., a few seconds), we first select the model according to the result of binary search of tree-structure and train a small number of mixture models which can be interpreted as models for "subclusters" of cluster models. The experimental results showed that the adaptation based on the cluster-specific aspect model improved the word accuracy in a heavy noise environment.

  227. Evaluation of head size of an interactive robot using an augmented reality 査読有り

    Yutaka Hiroi, Shuhei Hisano, Akinori Ito

    2010 World Automation Congress, WAC 2010 2010年

    詳細を見る 詳細を閉じる

    In this paper, we propose a design methodology of robots based on augmented reality (AR). While robot design based on subjective evaluation is useful, the problem of subject-based design is that the developer should prepare all variation of robots to be evaluated. Using AR, a developer can prepare robots using computer graphics. In addition, the AR technology makes it possible to evaluate a robot in an environment in which the robot is supposed to work. We conducted experiments to evaluate a robot's head size using both AR and real robots, and compared the evaluation results. As a result, similar evaluation results were obtained from both evaluation experiments, which showed a possibility of AR-based robot evaluation. © 2010 TSI Press.

  228. An effect of formant amplitude in vowel perception 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    Proceedings of the 11th Annual Conference of the International Speech Communication Association, INTERSPEECH 2010 2490-2493 2010年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    A psycho-acoustical experiment was conducted using synthetic vowel-like stimuli to examine effect of formant amplitude in vowel perception. Nine combinations of formant frequencies were examined. For each combination, relative amplitude of the third to the second formants was modified in seven degrees. In eight of the nine combinations, perceived vowels were changed according to the formant amplitude although every formant frequency kept constant. Furthermore, this amplitude effect was observed even when frequency separation of the neighboring formants was greater than 3.5 Bark. The result suggested that formant amplitude is effective cue for vowel perception as well as formant frequency. © 2010 ISCA.

  229. Multiple description coding for an MP3 coded sound signal 査読有り

    Ho Seok Wey, Akinori Ito, Takuma Okamoto, Yôiti Suzuki

    20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society 4 3081-3088 2010年

    詳細を見る 詳細を閉じる

    For audio communications over a lossy packet network, packet loss concealment techniques are needed. Multiple description coding (MDC) is a useful solution to this problem. This report describes an improvement of the MDC method for wideband audio streaming based on the sample splitting method in the time domain for a sound signal encoded by an MP3 encoder. We investigated the causes of deterioration associated with the conventional method. Using those findings, we propose a method to improve sound quality based on Wiener filtering and the use of a spectrum complement. Experiments were conducted to compare results obtained using the proposed method with those of the conventional method. Improvements of 0.12-1.65 in terms of Perceptual Evaluation of Audio Quality (PEAQ) were obtained over the conventional method. Copyright © (2010) by the International Congress on Acoustics.

  230. An HMM-based segment quantizer and its application to low bit rate speech coding 査読有り

    Motoyuki Suzuki, Masashi Adachi, Minoru Kohata, Akinori Ito, Shozo Makino, Fuji Ren

    20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society 5 3877-3880 2010年

    詳細を見る 詳細を閉じる

    Several speech coding systems employ a segment quantizer instead of a vector quantizer. One of the most important problems is how to construct a segment codebook. In this paper, a new speech coder based on the ML-BEATS is proposed. The ML-BEATS is one of the HMM-based segment quantizer. First, it splits a vector sequence into several sub-sequences, and then these sub-sequences are clustered in order to construct a codebook. Each cluster center is represented by a left-to-right HMM. In the encoding process, input speech is matched with HMMs in the codebook, and then HMM index and duration information are sent to the decoder. In the decoding process, a decoded sequence is generated from HMM parameters by applying the HMM-based speech synthesis method. From the experimental results, the HMM-based speech coder gave 1.13 dB spectral distortion with 5.83 bit/frame. It is 0.11 dB higher spectral distortion than that given by G.729 coder, but bit rate decreased only 32%. In order to consider a shifting problem of LSP dimensions, we also propose a new codebook construction method. Many training vectors are extracted from training samples by shifting dimensions, and all vectors are used for constructing a universal codebook. The universal codebook can deal with any shifted vectors because all possibilities are included in the training data. From the experimental results, the shifted vector method encoded an input speech with very low bit rate, but it gave higher spectral distortions.

  231. A speaker adaptation method for non-native speech using learners' native utterances for computer-assisted language learning systems 査読有り

    Yuichi Ohkawa, Motoyuki Suzuki, Hirokazu Ogasawara, Akinori Ito, Shozo Makino

    SPEECH COMMUNICATION 51 (10) 875-882 2009年10月

    出版者・発行元:ELSEVIER SCIENCE BV

    DOI: 10.1016/j.specom.2009.05.005  

    ISSN:0167-6393

    eISSN:1872-7182

    詳細を見る 詳細を閉じる

    In recent years, various CALL systems which can evaluate a learner's pronunciation using speech recognition technology have been proposed. In order to evaluate a learner's utterances and point out problems with higher accuracy, speaker adaptation is a promising technology. However, many learners who use the CALL system often have very poor speaking ability in the target language (L2), so conventional speaker adaptation methods have problems because they require the learners' correctly-pronounced L2 utterances for adaptation. In this paper, we propose two new types of speaker adaptation methods for the CALL system. The new methods only require the learners' utterances in their native language (L1) for adapting the acoustic model for L2. The first method is an algorithm to adapt acoustic models using a bilingual speaker's utterances. The speaker-independent acoustic models of L1 and L2 are adapted to the bilingual speaker once, then they are adapted to the learner again using the learner's L1 utterances. Using this method, we obtained about 5-point higher phoneme recognition accuracy than the baseline method. The second method is a training algorithm of a set of acoustic models based on speaker adaptive training. It can robustly train bilinguals' models using a few utterances in L1 and L2 uttered by bilingual speakers. Using this method, we obtained about 10-point higher phoneme recognition accuracy than the baseline method. (C) 2009 Elsevier B.V. All rights reserved.

  232. Multiple Description Coding of Flash Video based on Adaptive Allocation of DCT Coefficients 査読有り

    Akinori Ito, Takuya Kuraishi, Masashi Ito, Shozo Makino

    Proc. 1st Asian-Pacific Signal&Info. Proc. Assoc. Annual Summit & Conf. (APSIPA ASC 2009) 2009年10月

  233. 混合重み再学習を用いた単語モデルによる連続音声認識

    大越真裕美, 鈴木基之, 大河雄一, 伊藤彰則, 牧野正三

    日本音響学会 2009年春季研究発表会講演論文集,1-P-23 2009年3月

  234. Query-by-Humming based Music Information Retrieval System Based on Novel Tonal Feature and Statistical Modeling 査読有り

    Motoyuki Suzuki, Takuto Ichikawa, Akinori Ito, Shozo Makino

    IPSJ Journal 50 (3) 1100-1110 2009年3月

  235. Novel Tonal Feature and Statistical User Modeling for Query-by-Humming

    Suzuki Motoyuki, Ichikawa Takuto, Ito Akinori, Makino Shozo

    Information and Media Technologies 4 (2) 498-508 2009年

    出版者・発行元:Information and Media Technologies 編集運営会議

    DOI: 10.11185/imt.4.498  

    詳細を見る 詳細を閉じる

    This paper describes a query-by-humming (QbH) music information retrieval (MIR) system based on a novel tonal feature and statistical modeling. Most QbH-MIR systems use a pitch extraction method in order to obtain tonal features of an input humming. In these systems, pitch extraction errors inevitably occur and degrade the performance of the system. In the proposed system, a cross-correlation function between two logarithmic frequency spectra is calculated as a tonal feature instead of a difference of two successive pitch frequencies, and probabilistic models are prepared for all tone intervals existing in the database. The similarity scores between an input humming and musical pieces in a database are calculated using the probabilistic models. The advantages of this system are that it can obtain more appropriate tonal features than the pitch-based method, and it is also robust against inaccurate humming by the user thanks to its statistical approach. From experimental results, the top-1 retrieval accuracy given by the proposed method was 86.8%, which was more than 10 points higher than the conventional single pitch method. Moreover, several integration methods were applied to the proposed method with several conditions. The majority decision method showed the highest accuracy, and 5% reduction of retrieval error was obtained.

  236. Dictation of Japanese Speech based on Kana and Kanji Character String 査読有り

    Akinori Ito, Hiroaki Kinno, Masaharu Katoh, Tetsuo Kosaka, Masaki Kohda

    International Journal of Computer Processing of Languages 22 (1) 1-24 2009年

  237. Fast and Robust Training of a Probabilistic Latent Semantic Analysis Model by the Parallel Learning and Data Segmentation 査読有り

    Masaharu Kato, Tetsuo Kosaka, Akinori Ito, Shozo Makino

    Journal of Communication and Computer 6 (5) 28-35 2009年

  238. Evaluation of Robot-Avatar-based User-Familiarity Improvement for Elderly People 査読有り

    Yutaka Hiroi, Akinori Ito

    Kansei Engineering International 8 (1) 59-66 2009年1月

    DOI: 10.5057/ER080218-1  

  239. Effect of the Size Factor on Psychological Threat of a Mobile Robot Moving toward Human 査読有り

    Yutaka Hiroi, Akinori Ito

    Kansei Engineering International 8 (1) 51-58 2009年1月

    DOI: 10.5057/ER080206-1  

  240. Bit rate reduction of mixed excitation linear prediction coder by Lempel-Ziv segment quantization 査読有り

    Minora Kohata, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Acoustical Science and Technology 30 (2) 136-138 2009年

    DOI: 10.1250/ast.30.136  

    ISSN:1346-3969 1347-5177

    詳細を見る 詳細を閉じる

    Lempel-Ziv segment quantization (LZSQ) was applied to design segment quantizers for the coding parameters of mixed excitation linear prediction (MELP) coder. First of all, xmn is defined as the concatenation of p-dimensional vectors, where n and m represent the start and the end time indices of the subsequence, which is termed as sequence. MELP is a vocoder-type speech coder, which operates at 2.4 kbit/s, while preserving good subjective speech quality by using a mixed excitation of noise and an impulse train. Logarithmic pitch, gain, and line spectral pairs (LSP) coefficients were chosen out of the six coding parameters of MELP. A 10-dimensionless LSP vector was split into subvectors with dimensions of 2, 2, 3, and 3 to suppress the quantization distortion, then LZSQ was applied to each subvector. The pitch parameter in MELP corresponding to an unvoiced or silent period becomes zero, thus, temporal discontinuities are frequently caused for the pitch parameter compared with the gain parameter, which might decrease the efficiency of LZSQ.

  241. INFORMATION HIDING FOR G.711 SPEECH BASED ON SUBSTITUTION OF LEAST SIGNIFICANT BITS AND ESTIMATION OF TOLERABLE DISTORTION 査読有り

    Akinori Ito, Shun'ichiro Abe, Yoiti Suzuki

    2009 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1- 8, PROCEEDINGS 1409-+ 2009年

    出版者・発行元:IEEE

    DOI: 10.1109/ICASSP.2009.4959857  

    ISSN:1520-6149

    詳細を見る 詳細を閉じる

    In this paper, we propose a novel data hiding technique for G.711 speech based on the LSB substitution method. The novel feature of the proposed method is that a low-bitrate encoder, G.726 ADPCM, is used as a reference for deciding how many bits can be embedded in a sample. Experiments showed that the method outperformed the simple LSB substitution method and the selective embedding method proposed by Aoki. We achieved 4-kbit/s embedding with almost no subjective degradation of speech quality, and 10 kbit/s while keeping good quality.

  242. Detection of abnormal sound using multi-stage GMM for surveillance microphone 査読有り

    Akinori Ito, Akihito Aiba, Masashi Ito, Shozo Makino

    5th International Conference on Information Assurance and Security, IAS 2009 1 733-736 2009年

    出版者・発行元:IEEE COMPUTER SOC

    DOI: 10.1109/IAS.2009.160  

    詳細を見る 詳細を閉じる

    We developed a system that detects abnormal sound from sound signal observed by a surveillance microphone. Our system learns the "normal sound" from observation of the microphone, and then detects sounds never observed before as "abnormal sounds." To this end, we developed a technique that uses multiple GMMs for modeling different levels of sound events efficiently. We also consider how to determine thresholds of GMM switching and event detection. As a result, we obtained almost same detection performance using the percentile method to the manually optimized GMMs. Besides, we exploited the segment-based feature, which gave the best result among all methods. © 2009 IEEE.

  243. A band extension of G.711 speech with low computational cost for data hiding application 査読有り

    Akinori Ito, Hironori Handa, Yôiti Suzuki

    IIH-MSP 2009 - 2009 5th International Conference on Intelligent Information Hiding and Multimedia Signal Processing 491-494 2009年

    DOI: 10.1109/IIH-MSP.2009.69  

    詳細を見る 詳細を閉じる

    This paper describes a frequency band extension method using side information for narrowband speech coded using G.711 codec. The proposed method is based on a band extension method proposed by Kataoka et al., which uses 600 bit/s for conveying side information for band extension. One drawback of Kataoka's method is its computational cost. As we have been developed a data hiding method that enables as much as 2000 bit/s as a payload of side information, we developed a band extension method with low computational cost that uses 1125 bit/s of side information. Our method exploits scalar quantization for reducing computational cost. As a result, we obtained 3.27 MOS value using the proposed method. © 2009 IEEE.

  244. Data hiding is a better way for transmitting side information for MP3 bitstream 査読有り

    Akinori Ito, Shozo Makino

    IIH-MSP 2009 - 2009 5th International Conference on Intelligent Information Hiding and Multimedia Signal Processing 495-498 2009年

    DOI: 10.1109/IIH-MSP.2009.55  

    詳細を見る 詳細を閉じる

    In this paper, we propose a method to embed side information into MP3 bitstream using a data hiding technique. Usually, side information is transmitted in ancillary data field of an MP3 packet, which is independent of audio bitstream. When a certain amount of side information is packed into an ancillary data field, bitrate for the audio stream become smaller if we keep the total bitrate constant, which causes degradation of audio quality. We propose a new idea to embed side information into LSB of quantized MDCT coefficients. We could enhance the audio quality of the embedded signal by exploiting selective LSB substitution method. As an experimental result, we obtained better audio quality by the proposed method than simply embedding the side information into the ancillary data field. © 2009 IEEE.

  245. Relative importance of formant and whole-spectral cues for vowel perception 査読有り

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 132-+ 2009年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    Three psycho-acoustical experiments were carried out to investigate relative importance of formant frequency and whole spectral shape as cues for vowel perception. Four types of vowel-like signals were presented to eight listeners. The mean responses for stimuli including both formant and amplitude-ratio feature were quite similar to those for the stimuli including only formant peak feature. Nonetheless reasonable vowel changes were observed in responses for stimuli including only amplitude-ratio feature. The perceived vowel changes were also observed even for stimuli including neither of these features. The results suggested that perceptual cues were involved in various parts of vowel spectrum.

  246. Evaluation of English Intonation based on Combination of Multiple Evaluation Scores 査読有り

    Akinori Ito, Tomoaki Konno, Masashi Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 596-599 2009年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    In this paper, we proposed a novel method for evaluating intonation of an English utterance spoken by a learner for intonation learning by a CALL system. The proposed method is based on an intonation evaluation method proposed by Suzuki et al., which uses "word importance factors," which are calculated based on word clusters given by a decision tree. We extended Suzuki 's method so that multiple decision trees are used and the resulting intonation scores arc combined using multiple regression. As a result of an experiment, we obtained correlation coefficient comparable to the correlation between human raters.

  247. Detailed description of triphone model using SSS-free algorithm 査読有り

    Motoyuki Suzuki, Daisuke Honma, Akinori Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 1403-+ 2009年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    The triphone model is frequently used as an acoustic model. It is effective for modeling phonetic variations caused by coarticulation. However, it is known that acoustic features of phonemes are also affected by other factors such as speaking style and speaking speed. In this paper, a new acoustic model is proposed. All training data which have the same phoneme context are automatically clustered into several clusters based on acoustic similarity, and a "sub-triphones" is trained using training data corresponding to a cluster. In experiments, the sub-triphone model achieved about 5% higher phoneme accuracy than the triphone model.

  248. Relevant document retrieval using a spoken document 査読有り

    Akinori Ito, Yu Uno, Ryo Masumura, Masashi Ito, Shozo Makino

    2009 9th International Symposium on Communications and Information Technology, ISCIT 2009 1483-1488 2009年

    DOI: 10.1109/ISCIT.2009.5341051  

    詳細を見る 詳細を閉じる

    In this paper, we proposed a method of retrieving documents from the World Wide Web using a spoken document as a "key." This method can be viewed as a speech version of an ordinary relevant document retrieval, where a text document is used as a query of retrieval. Basically the retrieval is based on an automatic transcription of a spoken document using a speech recognizer. The difficult point of this task is that the automatic transcription contains many recognition errors, therefore we cannot trust keywords extracted from the automatic transcription using conventional method such as tf·idf. To solve this problem, we developed three methods. The first one is to measure relevance of a keyword to the spoken document by using Web documents retrieved using a Web search engine by specifying the keyword as a query. The second one is to compose a query from the selected keywords so that words derive from misrecognitions are excluded and similar words are gathered. The third one is to measure relevance of a downloaded Web document to the spoken document. The experimental results suggest that the proposed methods are promising for retrieving relevant documents of a spoken document. ©2009 IEEE.

  249. Multiple description coding for wideband audio signal transmission 査読有り

    Hoseok Wey, Akinori Ito, Yôiti Suzuki

    Proceedings of 2009 IEEE International Conference on Network Infrastructure and Digital Content, IEEE IC-NIDC2009 769-773 2009年

    出版者・発行元:IEEE

    DOI: 10.1109/ICNIDC.2009.5360882  

    詳細を見る 詳細を閉じる

    In audio communications over a lossy packet network, packet loss concealment techniques are needed to mitigate a user's frustration when perceiving the deterioration of the quality of the decoded signal. Multiple description coding (MDC) is a useful solution to this problem. In this paper, we describe an MDC method to conceal packet losses for wideband audio streaming based on the sample splitting method in the time domain and encoding by an MPEG-1 audio layer III (MP3) encoder. Experiments were conducted to compare the proposed method with several conventional methods, results confirming that our proposed method performs the playback of the decoded signal with sufficient quality for a range of bit rates from 160 to 320 kbps, even with a transmitted packet loss rate of 10%. ©2009 IEEE.

  250. Automatic query generation and query relevance measurement for unsupervised language model adaptation of speech recognition 査読有り

    Akinori Ito, Yasutomo Kajiura, Motoyuki Suzuki, Shozo Makino

    Eurasip Journal on Audio, Speech, and Music Processing 2009 2009年

    出版者・発行元:SPRINGER INTERNATIONAL PUBLISHING AG

    DOI: 10.1155/2009/140575  

    ISSN:1687-4714

    eISSN:1687-4722

    詳細を見る 詳細を閉じる

    We are developing a method of Web-based unsupervised language model adaptation for recognition of spoken documents. The proposed method chooses keywords from the preliminary recognition result and retrieves Web documents using the chosen keywords. A problem is that the selected keywords tend to contain misrecognized words. The proposed method introduces two new ideas for avoiding the effects of keywords derived from misrecognized words. The first idea is to compose multiple queries from selected keyword candidates so that the misrecognized words and correct words do not fall into one query. The second idea is that the number of Web documents downloaded for each query is determined according to the "query relevance". Combining these two ideas, we can alleviate bad effect of misrecognized keywords by decreasing the number of downloaded Web documents from queries that contain misrecognized keywords. Finally, we examine a method of determining the number of iterative adaptations based on the recognition likelihood. Experiments have shown that the proposed stopping criterion can determine almost the optimum number of iterations. In the final experiment, the word accuracy without adaptation (55.29) was improved to 60.38, which was 1.13 point better than the result of the conventional unsupervised adaptation method (59.25). © 2009 Akinori Ito et al.

  251. 音素トライフォンの混合重み再学習に基づく孤立単語認識

    大越真裕美, 鈴木基之, 大河雄一, 伊藤彰則, 牧野正三

    日本音響学会 2008年秋季研究発表会講演論文集 123-124 2008年9月

  252. Are Bigger Robots Scary? -The Relationship between Robot Size and Psychological Threat- 査読有り

    Yutaka Hiroi, Akinori Ito

    Proceedings of International Conference on Advanced Intelligent Mechatronics 540-545 2008年7月

  253. 人間共存型ロボットのためのロボットアバタを用いた親しみ感の向上 査読有り

    廣井 富, 伊藤 彰則, 中野 栄二

    日本感性工学会研究論文集 7 (4) 797-805 2008年4月

    出版者・発行元:Japan Society of Kansei Engineering

    DOI: 10.5057/jjske2001.7.797  

    ISSN:1346-1958

    詳細を見る 詳細を閉じる

    Familiarity is one of the most important requirements for human symbiosis robots such as care service robot. Many studies have been made to provide robots with the familiarity by improving their appearance, facial expression and smoothness of the movement. This paper presents a new concept, called a "robot avatar."A robot avatar is a small robot mounted on a main robot and equipped with minimum function to play some gestures according to every scene of the task execution of the main robot. By looking at the avatar, a user feels as if the avatar is controlling the main robot. Therefore a user is informed of the next behavior of the main robot by the avatar. A prototype of the avatar named CHIRIS is designed and installed to an intelligent service robot IRIS developed by the authors. IRIS can execute some simple tasks such as serving beverages by verbal request of the user. Utilizing CHIRIS, some psychological tests about the impression of IRIS during its task execution were carried out using video. Test results showed that CHIRIS is effective to give more familiar impression to the users.

  254. Multiple description coding of an audio stream by optimum recovery transforms 査読有り

    Akinori Ito, Shozo Makino

    Journal of Digital Information Management 6 (2) 189-195 2008年4月

  255. Selection of optimum vocabulary and dialog strategy for noise-robust spoken dialog systems 査読有り

    Akinori Ito, Takanobu Oba, Takashi Konashi, Motoyuki Suzuki, Shozo Makino

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E91D (3) 538-548 2008年3月

    出版者・発行元:IEICE-INST ELECTRONICS INFORMATION COMMUNICATIONS ENG

    DOI: 10.1093/ietisy/e9l-d.3.538  

    ISSN:0916-8532

    詳細を見る 詳細を閉じる

    Speech recognition in a noisy environment is one of the hottest topics in the speech recognition research. Noise-tolerant acoustic models or noise reduction techniques are often used to improve recognition accuracy. In this paper, we propose a method to improve accuracy of spoken dialog system from a language model point of view. In the proposed method, the dialog system automatically changes its language model and dialog strategy according to the estimated recognition accuracy in a noisy environment in order to keep the performance of the system high. In a noise-free environment, the system accepts any utterance from a user. On the other hand, the system restricts its grammar and vocabulary in a noisy environment. To realize this strategy, we investigated a method to avoid the user's out-of-grammar utterances through an instruction given by the system to a user. Furthermore, we developed a method to estimate recognition accuracy from features extracted from noise signals. Finally, we realized a proposed dialog system according to these investigations.

  256. 決定木を用いた単語クラスタリングによる英語韻律自動評価の高精度化 査読有り

    伊藤彰則, 今野樹, 鈴木基之, 牧野正三

    電子情報通信学会論文誌D J91-D (2) 358-366 2008年2月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    日本人の発声した英語音声のリズムとイントネーションの正しさを自動評価する手法を開発した.リズムに関しては,学習者音声と教師音声の単語持続時間の比,及び学習者音声と教師音声の単語のパワーパターンの距離を用い,ネイティブ評定者による評定値との相関-0.55を得た,イントネーションに関しては,基本周波数と対数パワーを特徴量とし,学習者音声と教師音声の距離を求めた.これに加えて,音声中における韻律の重要度の違いを表現するため,音声中の単語ごとに重要度係数を導入した韻律スコア算出法を提案した.音声中の単語と係数との最適な対応を求めるため,決定木を用いた単語クラスタリングを行う.イントネーションスコア計算に重要度係数を導入し,ネイティブ評定者による評定値との相関0.45を得た.これらの結果は,いずれも従来手法による相関と比較して有意な改善であった.

  257. 小型ロボットによる音声認識のための内部雑音抑圧法 査読有り

    伊藤彰則, 金山高志, 鈴木基之, 牧野正三

    ヒューマンインタフェース学会誌 10 (1) 1-10 2008年2月

  258. ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化(画像符号化,通信・ストリーム技術,一般)

    倉石 卓也, 伊藤 仁, 伊藤 彰則, 牧野 正三

    映像情報メディア学会技術報告 32 35-40 2008年

    出版者・発行元:一般社団法人 映像情報メディア学会

    DOI: 10.11485/itetr.32.56.0_35  

    詳細を見る 詳細を閉じる

    Multiple Description(MD)符号化はバースト欠落によるパケットロスを隠蔽する効果的な手法の一つである.この手法では入力情報を複数のストリームに分割し,それらの相関関係を冗長情報化して付与する処理を行う.パケットロスが発生した場合,冗長情報を利用してほとんどの入力情報を復元する事が可能である.この報告で我々はビットストリームパターンを考慮した適応的なFlash Video(FLV)のMD符号化を提案する.提案法のパケットロスに対する有効性は実動画像を用いて確かめられ,関連研究の方法と比べて大幅に低い冗長度で同等の品質を得られる事が確認された.

  259. Automatic Evaluation System of English Prosody Based on Word Importance Factor 査読有り

    Motoyuki Suzuki, Tatsuki Konno, Akinori Ito, Shozo Makino

    Journal of Systemics, Cybernetics and Informatics 6 (4) 2008年

  260. An unsupervised language model adaptation based on keyword clustering and query availability estimation 査読有り

    Akinori Ito, Yasutomo Kajiura, Shozo Makino, Motoyuki Suzuki

    2008 INTERNATIONAL CONFERENCE ON AUDIO, LANGUAGE AND IMAGE PROCESSING, VOLS 1 AND 2, PROCEEDINGS 1412-1418 2008年

    出版者・発行元:IEEE

    DOI: 10.1109/ICALIP.2008.4590103  

    詳細を見る 詳細を閉じる

    Language model adaptation using text data downloaded from the WWW is an efficient way to train a topic-specific LM We are developing an unsupervised LM adaptation method using data in the Web. The one key point of unsupervised Web-based LM adaptation is how to select keywords to compose the search query. In this paper, we propose a new method of selecting keywords from keyword candidates, which uses a keyword clustering technique based on word similarities. The other key point is how to determine the number of downloaded pages for each query. In this paper we propose a method to estimate "a query availability," which is based on a small number of downloaded Web pages. The experimental result showed that the determination of downloaded pages using the query availability was effective than the conventional methods that determined the number of pages empirically.

  261. Packet loss concealment for MDCT-based audio codec using correlation-based side information 査読有り

    Akinori Ito, Kiyoshi Konno, Shozo Makino, Motoyuki Suzuki

    2008 FOURTH INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, PROCEEDINGS 612-+ 2008年

    出版者・発行元:IEEE COMPUTER SOC

    DOI: 10.1109/IIH-MSP.2008.103  

    詳細を見る 詳細を閉じる

    In this paper we investigate several methods to estimate the signal in the lost packet of MP3 audio using side information. Our methods are based on a packet loss concealment method using sign correction proposed by Suzuki et al. Suzuki's method uses sign of lower MDCT coefficients as redundant information, and the sign information is used when estimating the MDCT coefficients of the lost packet. In this paper, we propose a new method to use the same side information as Suzuki's method. Our method is a combination of one-bit quantization and sign correction, which is proved to be better than sign correction for improving correlation between the original signal and the restored signal. The experimental result shows that the proposed method outperforms the sign correction method. Next, we investigated several methods to use two bits for correcting one coefficient. From the experimental results, the combination of two-bit correction and one-bit correction gave the best result.

  262. Discrimination of Task-Related Words for Vocabulary Design of Spoken Dialog Systems 査読有り

    Akinori Ito, Toyomi Meguro, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 207-+ 2008年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    This paper describes a method used to determine if a specific word is related to a certain spoken dialog task. In most ordinary spoken dialog systems, only the words that are actually used to achieve the task are included in the vocabulary. Therefore, the system cannot recognize utterances that contain OOV words that arc related to the task. Therefore, we developed a method for determining the words that are related to a specified task in order to augment the system's vocabulary. Our method is based on word similarity. We examined three similarities: word occurrence frequency on the Web, distance in a thesaurus and word similarity using LSA. The experiment revealed that the thesaurus-based and LSA-based methods have an OOV problem. To solve the problem, we developed a way to combine these two methods with the Web-based method. In addition, we tried combining the methods using the AdaBoost algorithm.

  263. A Fast Speaker Adaptation Method using Aspect Model 査読有り

    Seongjun Hahm, Akinori Ito, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 1221-1224 2008年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    We propose a fast speaker adaptation method using an aspect model. The performance of speaker independent (SI) model is very sensitive to environments such as microphones, speakers, and noises. Speaker adaptation techniques try to obtain near speaker dependent (SD) performance with only small amounts of specific data and are often based on initial SI model. One of the most important purposes for adaptation algorithms is to modify a large number of parameters with only a small amount of adaptation data. The number of free parameters to be estimated from adaptation data can be reduced by using aspect model. In this paper, we introduce an aspect model into an acoustic model for rapid speaker adaptation. A formulation of probabilistic latent semantic analysis (PLSA) is extended to continuous density HMM. We carried out an isolated word recognition experiment on Korean database, and the results are compared to those of conventional expectation maximization (EM) algorithm, maximum a posteriori (MAP) and maximum likelihood linear regression (MLLR).

  264. Recognition of English Utterances with Grammatical and Lexical Mistakes for Dialogue-based CALL System 査読有り

    Akinori Ito, Ryohei Tsutsui, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 2819-2822 2008年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    Our goal is to develop a voice-interactive CALL system which enables language learners to practice words, phrases, and grammars interactively. Such a system must be able to recognize learner's utterances correctly. To enable the recognition of utterances containing grammatical mistakes, we used an n-gram language model trained from generated text. The proposed model achieved recognition performance similar to that of a language model based on a finite-state automaton and manual error rules. We then introduced two error correction techniques to improve recognition performance. One method used the Levenshtein distance between the target sentence and the recognized sentence. The other method used an error-corrective model based on POS n-gram features. The experimental results showed that both methods were able to improve recognition performance.

  265. Intonation Evaluation of English Utterances using Synthesized Speech for Computer-Assisted Language Learning 査読有り

    Tomoaki Konno, Masashi Ito, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEEE NLP-KE 2008: PROCEEDINGS OF INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND KNOWLEDGE ENGINEERING 202-+ 2008年

    出版者・発行元:IEEE

    DOI: 10.1109/NLPKE.2008.4906807  

    詳細を見る 詳細を閉じる

    In this paper, we describe a system for intonation evaluation of English utterance by Japanese native speakers using synthesized speech for rapid development of a CALL system. To evaluate the intonation of learners' utterance, we need reference utterances, for which English native speakers' utterances should be used. However, it is costly to gather native speakers' utterances for all sentences in the system. Therefore, we examined an intonation evaluation method using synthesized speech generated by text-to-speech systems instead of real speech. Intonation evaluation system calculates scores between a learner's utterance and corresponding utterances by the teachers. We investigated a method of combining multiple scores. In addition, we incorporated a feature for rhythm evaluation into intonation evaluation. As a result, we obtained improvement of correlation between scores by human evaluators and the system. Furthermore, we analyzed a tendency of intonation evaluation by the system through limiting evaluation utterances to find out what degrades the system performance.

  266. 28.LogPCMおよびADPCMへのMultiple Descriptionスカラー量子化の適用 査読有り

    魏浩石, 西村竜一, 伊藤彰則, 小林まおり, 鈴木陽一

    電子情報通信学会論文誌A J90-A (12) 918-921 2007年12月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5707

    詳細を見る 詳細を閉じる

    音声通信のように実時間性が要求される通信では,パケットロスの発生は受信側での著しい品質劣化へつながる問題になる.本論文では,このような問題の回避法として情報源を複数の部分情報に分け,どの部分情報から復元してももとの品質よりは低いものの一定の品質が確保でき,すべての部分情報を集めるともとの品質を完全に再現できる"Multiple Description (MD)"符号化技術に基づいた量子化手法を,音声符号化手法へ適用することを試みた.別々の部分情報を複数の経路で伝送することで,パケットロスに頑健にできると考えられる.SN比とケプストラム距離,DMOS値を測定して性能を評価し,有効性を確認した.

  267. 複数パスを有する音素モデル連結のためのパス間接続確率の平滑化法の検討

    本間大輔, 大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    日本音響学会2007年秋季研究発表会講演論文集 135-136 2007年9月

  268. Reduction Method of Side Information for Packet Loss Concealment Based on Spectrum Striping Coding 査読有り

    Motoyuki Suzuki, Toshiyuki Sakai, Akinori Ito, Shozo Makino

    Proceedings of 19th International Congress of Acoustics 2007年9月

  269. Detection and Direction Estimation of Calling Voice 査読有り

    Akinori Ito, Kota Kitadate, Motoyuki Suzuki, Shozo Makino

    Proceedings of 19th International Congress of Acoustics 2007年9月

  270. Packet Loss Concealment of an Audio Stream by Time Domain and Frequency Domain Multiple Description 査読有り

    Akinori Ito, Toshiyuki Sakai, Motoyuki Suzuki, Shozo Makino

    Proceedings of Japan-China Joint Conference on Acoustics 2007年6月

  271. Application of Multiple Description (MD) scalar quantization to speech codec 査読有り

    Ho seok Wey, Ryouichi Nishimura, Akinori Ito, Maori Kobayashi, Yoiti Suzuki

    Proceedings of Japan-China Joint Conference on Acoustics 2007年6月

  272. A new segment quantization using Lempel-Ziv algorithm and its application to quantization of line spectral frequencies 査読有り

    Minoru Kohata, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    IEEE TRANSACTIONS ON COMMUNICATIONS 55 (4) 661-664 2007年4月

    出版者・発行元:IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC

    DOI: 10.1109/TCOMM.2007.894090  

    ISSN:0090-6778

    詳細を見る 詳細を閉じる

    A new segment quantization method using the Lempel-Ziv algorithm is proposed, and it is applied to quantize line spectral frequency parameters in speech codec. The proposed segment quantizer can save four bits per frame, compared with the ITU-T G.729 speech codec (18 bits/frame), without degradation of subjective or objective speech quality.

  273. HMnetのパス接続確率を利用した音素認識の検討

    本間大輔, 大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    日本音響学会2007年春季研究発表会講演論文集 53-54 2007年3月

  274. Music information retrieval from a singing voice using lyrics and melody information 査読有り

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito

    Eurasip Journal on Advances in Signal Processing 2007 2007年

    DOI: 10.1155/2007/38727  

    ISSN:1110-8657 1687-0433

    詳細を見る 詳細を閉じる

    Recently, several music information retrieval (MIR) systems which retrieve musical pieces by the user's singing voice have been developed. All of these systems use only melody information for retrieval, although lyrics information is also useful for retrieval. In this paper, we propose a new MIR system that uses both lyrics and melody information. First, we propose a new lyrics recognition method. A finite state automaton (FSA) is used as recognition grammar, and about 86% retrieval accuracy was obtained. We also develop an algorithm for verifying a hypothesis output by a lyrics recognizer. Melody information is extracted from an input song using several pieces of information of the hypothesis, and a total score is calculated from the recognition score and the verification score. From the experimental results, 95.0% retrieval accuracy was obtained with a query consisting of five words.

  275. Automatic evaluation system of English prosody for Japanese learner's speech 査読有り

    Motoyuki Suzuki, Tatsuki Konno, Akinori Ito, Shozo Makino

    IMSCI '07: INTERNATIONAL MULTI-CONFERENCE ON SOCIETY, CYBERNETICS AND INFORMATICS, VOL 1, PROCEEDINGS 48-53 2007年

    出版者・発行元:INT INST INFORMATICS & SYSTEMICS

    詳細を見る 詳細を閉じる

    Prosody plays an important role in speech communication between humans. Several computer-assisted language learning (CALL) systems with utterance evaluation have been developed so far; however, accuracy of their prosody evaluation is still poor. In this paper, we develop new methods to evaluate rhythm and intonation of English sentence uttered by Japanese learners. The new points of our work axe that (1) new prosodic features are added to traditional features, and (2) word importance factors axe introduced in the calculation of intonation score. The word importance score is automatically estimated using the ordinary least squares method, and optimized based on word clusters generated by a decision tree. The rhythm evaluator uses two acoustic features, time duration ratio of each word and normalized log-power. From the experiments, correlation coefficient (+/- 1.0 denotes the best correlation) between the rhythm score given by native speakers and the system was -0.55. On the other hand, a conventional feature (pause insertion error rate) gave only -0.11. The intonation evaluator uses four acoustic features, pitch, normalized log-power, and first-order regression coefficients of those two features. From the experiments, correlation coefficient between the intonation score given by native speakers and the system was 0.45.

  276. Increasing correlation using a few bits for multiple description coding 招待有り 査読有り

    Akinori Ito, Shozo Makino

    2007 THIRD INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, VOL II, PROCEEDINGS 259-262 2007年

    出版者・発行元:IEEE COMPUTER SOC

    DOI: 10.1109/IIHMSP.2007.4457700  

    詳細を見る 詳細を閉じる

    In this paper we investigated methods that increase correlation between two values using one or two bits of extra information. For methods that use one bit, we investigated V-bit quantization,' 'sign correction' and 'difference quantization' methods. For those that use two bits, we investigated '2-bit quantization,' 'sign correction + difference quantization' and '2-bit difference quantization' methods. From theoretical analysis and numerical experiments, it has been found that the quantization-based method is best when correlation of the original data is weak, while 'difference quantization' or combination of sign correction is better when the original data have strong correlation. Then we applied the methods to multiple description coding of speech signals.

  277. Music information retrieval from a singing voice using lyrics and melody information 査読有り

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito, Shozo Makino

    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2007年

    出版者・発行元:SPRINGER INTERNATIONAL PUBLISHING AG

    DOI: 10.1155/2007/38727  

    ISSN:1687-6180

    詳細を見る 詳細を閉じる

    Recently, several music information retrieval (MIR) systems which retrieve musical pieces by the user's singing voice have been developed. All of these systems use only melody information for retrieval, although lyrics information is also useful for retrieval. In this paper, we propose a new MIR system that uses both lyrics and melody information. First, we propose a new lyrics recognition method. A finite state automaton (FSA) is used as recognition grammar, and about 86 % retrieval accuracy was obtained. We also develop an algorithm for verifying a hypothesis output by a lyrics recognizer. Melody information is extracted from an input song using several pieces of information of the hypothesis, and a total score is calculated from the recognition score and the verification score. From the experimental results, 95.0 % retrieval accuracy was obtained with a query consisting of five words. Copyright (c) 2007 Motoyuki Suzuki et al.

  278. Pronunciation error detection for computer-assisted language learning system based on error rule clustering using a decision tree 査読有り

    Akinori Ito, Yen-Ling Lim, Motoyuki Suzuki, Shozo Makino

    Acoustical Science and Technology 28 (2) 131-133 2007年

    DOI: 10.1250/ast.28.131  

    ISSN:1346-3969 1347-5177

    詳細を見る 詳細を閉じる

    A pronunciation error detection method based on pronunciation error clustering is proposed for computer-assisted language learning (CALL) systems. The method uses a decision-tree-based clustering algorithm, which automatically generates a decision tree from a large number of speech samples, in the mispronunciation rules. The acoustic analysis is conducted by using English and Japanese hidden Markov models (HMM), both of them are gender-dependent monophones with single Gaussian distribution functions. The method, by using different threshold for each cluster, provides marked improvement in pronunciation error detection.

  279. 発話速度と言語的特徴による変動を考慮した音素持続時間モデルを用いた音声認識 査読有り

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    情報処理学会論文誌 47 (12) 3380-3391 2006年12月

  280. Music Information Retrieval from a Singing Voice Based on Verification of Recognized Hypotheses 査読有り

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito, Shozo Makino

    Proceedings of 11th International Conference on Music Information Retrieval 168-171 2006年10月

  281. 発話速度と言語的特徴の影響を考慮した持続時間モデルを用いた音声認識に関する研究

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    東北大学電気通信研究所 音響工学研究会 344-1 2006年8月

  282. Lempel-Ziv符号化を用いたLSP係数のセグメント量子化 査読有り

    木幡 稔, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会論文誌 D J89-D (7) 1504-1513 2006年7月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    本論文ではLempel-Ziv符号化のアルゴリズムを応用することにより新しいセグメント量子化法(SQ)を提案し,これを音声符号化に用いられるパラメータの一つであるLSP係数の量子化に適用する.提案方式はセグメント量子化器のコードブックを学習するための一手法であり,提案方式によるコードブックを使用することで通常のVQと比較して,より良いレート-ひずみ特性を得ることを目的とする.本論文では,連続情報源に拡張したLempel-Ziv符号化に一般化Lloyd-Max法による再学習を導入することにより,レート-ひずみ特性の改善を試み,更に提案方式を適用したLSP量子化器と他の実用化されているLSPの量子化方式との性能比較を行った.その結果,同一スペクトルひずみを達成するために必要な情報量として,MELP符号化に使用されている多段VQ(25bit/frame)と比較してフレーム当り9ビット,またG.729符号化に使用されているMA予測VQ(18bit/frame)と比較してフレーム当り4ビットの情報量削減を達成することができた.

  283. Evaluation of multiple PLSA adaptation based on separation of topic and style words 招待有り 査読有り

    Akinori Ito, Naoto Kuriyama, Motoyuki Suzuki, Shozo Makino

    Proceedings of 9th Western-Pacific Acoustic Conference 2006年6月

  284. Packet loss concealment of audio stream based on multiple description by spectrum striping 招待有り 査読有り

    Motoyuki Suzuki, Toshiyuki Sakai, Jie Liu, Akinori Ito, Shozo Makino

    Proceedings of 9th Western-Pacific Acoustic Conference 2006年6月

  285. An effective music information retrieval method using three-dimensional continuous DP 査読有り

    SP Heo, M Suzuki, A Ito, S Makino

    IEEE TRANSACTIONS ON MULTIMEDIA 8 (3) 633-639 2006年6月

    出版者・発行元:IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC

    DOI: 10.1109/TMM.2006.870717  

    ISSN:1520-9210

    詳細を見る 詳細を閉じる

    This paper describes a music information retrieval system that uses humming as the key for retrieval. Humming is an easy way for a user to input a melody. However, there are several problems with humming that degrade the retrieval of information. One problem is the human factor. Sometimes, people do not sing accurately, especially if they are inexperienced or unaccompanied. Another problem arises from signal processing. Therefore, a music information retrieval method should be sufficiently robust to surmount various humming errors and signal processing problems. A retrieval system has to extract the pitch from the user's humming. However, pitch extraction is not perfect. It often captures half or double pitches, which are harmonic frequencies of the true pitch, even if the extraction algorithms take the continuity or the pitch into account. Considering these problems, we propose a system that takes multiple pitch candidates into account. In addition to the frequencies of the pitch candidates, the confidence measures obtained from their powers are taken into consideration as well. We also propose the use of an algorithm with three dimensions that is an extension of the conventional Dynamic Programming (DP) algorithm, so that multiple pitch candidates can be treated. Moreover, in the proposed algorithm, DP paths are changed dynamically to take deltaPitches and IOIratins (inter-onset-interval) of input and reference notes into account in order to treat notes being split or unified. We carried out an evaluation experiment to compare the proposed system with a conventional system [6]. When using three-pitch candidates with conference measure and 101 features, the top-ten retrieval accuracy was 94.1%. Thus, the proposed method gave a better retrieval performance than the conventional system.

  286. 音素持続時間予測モデルを用いたリスコアリングによる自然発話音声認識

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    日本音響学会2006年春季研究発表会講演論文集 1207-1208 2006年3月

  287. A grammatical error detection method for dialogue-based CALL system

    Kweon Oh-pyo, Ito Akinori, Suzuki Motoyuki, Makino Shozo

    Information and Media Technologies 1 (1) 391-410 2006年

    出版者・発行元:Information and Media Technologies 編集運営会議

    DOI: 10.11185/imt.1.391  

    詳細を見る 詳細を閉じる

    This paper describes a method to detect grammatical errors from a non-native speaker's utterance for a dialogue-based CALL (Computer Assisted Language Learning) system. For conversation exercises, several dialogue-based CALL systems were developed. However, one of the problems in conventional dialogue-based CALL systems is that a learner is usually assigned a passive role. The goal of our system is to allow a learner to compose his/her own sentences freely in a role-playing situation. One of the biggest problems in realizing the proposed system is that the learner's utterance inevitably contains pronunciation, lexical and grammatical errors. In this paper, we focus on the correction of the lexical and grammatical errors. To correct these errors, we propose two methods to detect lexical/grammatical errors in an utterance. The conventional methods are to write a grammar that accepts the errors manually. The proposed methods 1 and 2 use the `error rules' that are independent of the recognition grammar. The method 1 uses only correct system grammar and extends the recognition results using the `error rules'. The method 2 uses a general grammar (which does not consider the relationship between verb, particle and each noun) to recognize the learner's utterance and check acceptance of each N-best result and searches the learner's utterance. The grammar error detection experiment proved that the method 2 performs as well as the conventional method.

  288. Unsupervised language model adaptation based on automatic text collection from WWW 査読有り

    Motoyuki Suzuki, Yasutomo Kajiura, Akinori Ito, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 2202-2205 2006年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    An n-gram trained by a general corpus gives high performance. However, it is well known that a topic-specialized n-gram gives higher performance than that of the general n-gram. In order to make a topic specialized n-gram, several adaptation methods were proposed. These methods use a given corpus corresponding to the target topic, or collect documents related to the topic from a database. If there is neither the given corpus nor the topic-related documents in the database, the general n-gram cannot be adapted to the topic-specialized n-gram. In this paper, a new unsupervised adaptation method is proposed. The method collects topic-related documents from the world wide web. Several query terms are extracted from recognized text, and collected web pages given by a search engine are used for adaptation. Experimental results showed the proposed method gave 7.2 points higher word accuracy than that given by the general n-gram.

  289. A User Simulator based on VoiceXML for evaluation of spoken dialog systems 査読有り

    Akinori Ito, Keisuke Shimada, Motoyuki Suzuki, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 1045-1048 2006年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    This paper describes a user simulator based on analysis of VoiceXML description. A user simulator is a method to evaluate a spoken dialog system without the use of human evaluators. The new feature of our simulator is that it uses a VoiceXML description that describes the dialog system's behavior. By using the VoiceXML description, the proposed simulator can be used for any dialog system that works with VoiceXML. We constructed a prototype of the user simulator and carried out an evaluation experiment. The experimental result showed that the dialog between the simulator and the dialog system had similar properties to that between human subjects and the dialog system.

  290. Multiple description coding of an audio stream by optimum recovery transform 招待有り 査読有り

    Akinori Ito, Shozo Makino

    IIH-MSP: 2006 INTERNATIONAL CONFERENCE ON INTELLIGENT INFORMATION HIDING AND MULTIMEDIA SIGNAL PROCESSING, PROCEEDINGS 19-+ 2006年

    出版者・発行元:IEEE COMPUTER SOC

    DOI: 10.1109/IIH-MSP.2006.265110  

    詳細を見る 詳細を閉じる

    In this paper, we discuss the mathematical fundamentals of splitting one audio stream into two equal-quality streams. From a trivial consideration, it is found that the sum of errors of two recovered signals is equal to the power of the original signal if the orthogonal recovery is carried out. Next, we describe the optimum recovery transform. This method utilizes the covariance matrix of the signal. We carried out some experiments to recover a signal from one of the split signals. From the results of four kinds of split methods used, the correlating transform of the spectrum gave the best performance.

  291. Automatic detection of English mispronunciation using speaker adaptation and automatic assessment of English Intonation and rhythm 査読有り

    Akinori Ito, Tadao Nagasawa, Hirokazu Ogasawara, Motoyuki Suzuki, Shozo Makino

    Educational Technology Research 29 (1) 13-23 2006年

    出版者・発行元:日本教育工学会

    DOI: 10.15077/etr.KJ00004963297  

    ISSN:0387-7434

    詳細を見る 詳細を閉じる

    This paper describes evaluation methods of English utterances by Japanese speaker. The proposed methods consist of the following two methods: a pronunciation evaluation method and a prosody evaluation method. The pronunciation evaluation method detects phoneme-level mispronunciations, and the prosody evaluation method treats intonation and rhythm of the speech. The pronunciation evaluation method exploits VFS speaker adaptation technique to improve precision of phoneme labeling. On the adaptation, we developed a new adaptation scheme that uses Japanese utterance to adapt English acoustic models. This method enables speaker adaptation for speakers who are not good at English pronunciation. The prosody evaluation method compares the pitch pattern of native speakers' utterances and that of a learner's one, and returns a score that reflects the utterance's naturalness. Besides intonation, the method compares the rhythm of utterances between native speakers' speech and the learner's one. Evaluation experiments are carried out to compare native speakers' evaluation scores and the system's one against Japanese speakers' utterances, and we obtained significant correlation between the two evaluations.

  292. Pronunciation Error Detection Method Based on Error Rule Clustering Using a Decision Tree 査読有り

    Akinori Ito, Yenling Lim, Motoyuki Suzuki, Shozo Makino

    Proceeding of European Conference on Speech Communication and Technology 173-176 2005年9月

  293. Construction Method of Acoustic Models Dealing with Various Background Noises Based on Combination of HMMs 査読有り

    Motoyuki Suzuki, Yusuke Kato, Akinori Ito, Shozo Makino

    Proceeding of European Conference on Speech Communication and Technology 973-976 2005年9月

  294. Internal Noise Suppression for Speech Recognition by Small Robots 査読有り

    Akinori Ito, Takashi Kanayama, Motoyuki Suzuki, Shozo Makino

    Proceeding of European Conference on Speech Communication and Technology 2685-2688 2005年9月

  295. Lyrics Recognition From A Singing Voice Based On Finite State Automaton For Music Information Retrieval 査読有り

    Toru Hosoya, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceedings of the 6th International Conference on Music Information Retrieval 532-535 2005年9月

  296. A Grammatical Error Detection Method for Dialogue-based CALL system 査読有り

    Oh-Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    自然言語処理 12 (4) 137-156 2005年8月

    出版者・発行元:言語処理学会

    DOI: 10.5715/jnlp.12.4_137  

    ISSN:1340-7619

  297. Fast optimization of language model weight and insertion penalty from n-best candidates 査読有り

    Akinori Ito, Masaki Kohda, Shozo Makino

    Acoustical Science and Technology 26 (4) 384-387 2005年7月

    DOI: 10.1250/ast.26.384  

    ISSN:1346-3969

    詳細を見る 詳細を閉じる

    A new idea for preselecting n-best candidates to make n-best-based parameter optimization faster was described. The method enables the number of n-best candidates to be reduced by more than 90% and makes the optimization process about 9-28 times faster. An algorithm for preselection of n-best candidates was proposed. The use of this algorithm makes the optimization time 9-28 times faster without changing the optimization result. The optimum candidate among n-best candidates was determined. The optimization time with preselection was about 9 times faster than that without preselection under the 100-best condition, and 28 times faster under the 1,000-best condition. N-best candidates are reduced to the number of points on the surface of the polyhedron.

  298. A new design concept of robotic interface for the improvement of user familiarity 査読有り

    Y Hiroi, E Nakano, T Takahashi, A Ito, K Kotani, N Takatsu

    ICMIT 2005: CONTROL SYSTEMS AND ROBOTICS, PTS 1 AND 2 6042 (604230) 1-4 2005年

    出版者・発行元:SPIE-INT SOC OPTICAL ENGINEERING

    DOI: 10.1117/12.664685  

    ISSN:0277-786X

    詳細を見る 詳細を閉じる

    Familiarity is the crucial requirement for the human symbiosis robot. This paper presents a new concept of a robot avatar to increase familiarity of a care service robot. The robot avatar is a small robot mounted on a main robot and equipped with minimum function to play some gestures during task execution of the main robot. By looking at the avatar, user feels as if it is controlling the main robot. A prototype of the avatar (CHIRIS) is developed and installed to a service robot IRIS. Several psychological tests about the impression of IRIS were carried out using video. Test results showed that CHIRIS is effective to give more familiar impression to the users. It is also shown that CHIRS is useful to announce IRIS's following behavior to the user preliminarily.

  299. Smile and laughter recognition using speech processing and face recognition from conversation video 査読有り

    A Ito, XY Wang, M Suzuki, S Makino

    2005 INTERNATIONAL CONFERENCE ON CYBERWORLDS, PROCEEDINGS 437-444 2005年

    出版者・発行元:IEEE COMPUTER SOC

    DOI: 10.1109/CW.2005.82  

    詳細を見る 詳細を閉じる

    This paper describes a method to detect smiles and laughter sounds from the video of natural dialogue. A smile is the most common facial expression observed in a dialogue. Detecting a user's smiles and laughter sounds can be useful for estimating the mental state of the user of a spoken-dialogue-based user interface. In addition, detecting laughter sound can be utilized to prevent the speech recognizer from wrongly recognizing the laughter sound as meaningful words. In this paper, a method to detect smile expression and laughter sound robustly by combining an image-based facial expression recognition method and an audio-based laughter sound recognition method. The image-based method uses a feature vector based on feature point detection from face images. The method could detect smile faces by more than 80% recall and precision rate. A method to combine a GMM-based laughter sound recognizer and the image-based method could improve the accuracy of detection of laughter sounds compared with methods that use image or sound only. As a result, more than 70% recall and precision rate of laughter sound detection was obtained from the natural conversation videos.

  300. Noise Adaptive Spoken Dialog System based on Selection of Multiple Dialog Strategies 査読有り

    Akinori Ito, Takanobu Oba, Takashi Konashi, Motoyuki Suzuki, Shozo Makino

    Proceedings of International Conference on Spoken Language Processing 1 193-196 2004年10月

  301. A Japanese dialogue-based CALL system with mispronunciation and grammar error detection 査読有り

    Oh Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    Proceedings of International Conference on Spoken Language Processing 3 1833-1836 2004年10月

  302. Speaker Adaptation Method for CALL Systems Using Bilingual Speakers’ Utterances 査読有り

    Motoyuki Suzuki, Hirokazu Ogasawara, Akinori Ito, Yuichi Ohkawa, Shozo Makino

    Proceedings of International Conference on Spoken Language Processing 4 2929-2932 2004年10月

  303. Comparison of Features for DP-matching based Query-by-humming System 査読有り

    Akinori Ito, Sung-Phil Heo, Motoyuki Suzuki, Shozo Makino

    Proceedings of the 5th International Conference on Music Information Retrieval 297-302 2004年10月

  304. A spoken dialog system based on automatic grammar generation and template-based weighting for autonomous mobile robots 査読有り

    Takashi KONASHI, Motoyuki SUZUKI, Akinori ITO, Shozo MAKINO

    Proceedings of International Conference on Spoken Language Processing 1 189-192 2004年10月

  305. 再学習とモデル選択の反復によるマルチパス音響モデルの最適化

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    日本音響学会2004年秋季研究発表会講演論文集 I 77-78 2004年9月

  306. A dialogue-based CALL system for Japanese conversation 査読有り

    Oh-Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    Proceedings of the 18th International Congress on Acoustics 3 2015-2018 2004年4月

  307. Language Modeling using Stochastic Switching N-gram 査読有り

    Takeshi Nagano, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceedings of the 18th International Congress on Acoustics 5 3697-3700 2004年4月

  308. Language Modeling by an Ergodic HMM based on an N-gram 査読有り

    Takeshi Nagano, Motoyuki Suzuki, Akinori Ito, Shozo Makino, Masaharu Katoh, Masaki Kohda

    Proceedings of the 18th International Congress on Acoustics 5 3701-3704 2004年4月

  309. オールスターモデル選択法による自然発話音声音響モデル学習の検討

    大河雄一, 伊藤彰則, 鈴木基之, 牧野正三

    日本音響学会2004年春季研究発表会講演論文集 I 101-102 2004年3月

  310. SATを用いた二言語混合音響モデルの話者適応

    小笠原洋一, 伊藤彰則, 鈴木基之, 牧野正三, 大河雄一

    日本音響学会2004年春季研究発表会講演論文集 I 179-180 2004年3月

  311. An evaluation method of Japanese pronunciation for Korean native speakers 査読有り

    Oh Pyo Kweon, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Educational Technology Research 27 (1) 1-8 2004年1月

    出版者・発行元:日本教育工学会

    DOI: 10.15077/etr.KJ00003899214  

    ISSN:0387-7434

    詳細を見る 詳細を閉じる

    This paper describes an analysis of pronunciation problems in Japanese utterances by Korean speakers, and evaluation methods of a CALL (Computer Assisted Language Learning) system for teaching Japanese pronunciation to Korean speakers. To develop a CALL system, the pronunciation problems of Koreans must be understood. Firstly, Japanese utterances by adult Korean speakers were evaluated by Japanese native speakers. Then, the Japanese pronunciation problems of Korean speakers were analyzed. Finally, evaluation methods were developed. Speech recognition technology was used to compare Japanese utterances by a learner with that by a native speaker. With the proposed methods, intelligibility scores which indicate the similarity between the learner's speech and the Japanese native's speech are automatically calculated.

  312. A Patient Care Service Robot System Based on a State Transition Architecture 査読有り

    Yutaka Hiroi, Eiji Nakano, Takayuki Takahashi, Shozo Makino, Akinori Ito, Koji Kotani, Nobuo Takatsu, Tadahiro Ohmi

    Proceedings of the 2nd International Conference on Mechatronics and Information Technology 231-236 2003年12月

  313. 自然発話音声認識のための高精度な音響モデル学習法の検討

    大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    東北大学電気通信研究所 音響工学研究会327-1 2003年11月

  314. Three dimensional continuous DP algorithm for multiple pitch candidates in music information retrieval system 査読有り

    Sung-Phil Heo, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceedings of 4th International Symposium on Music Information Retrieval 235-236 2003年10月

  315. 学習話者の異なる複数言語の音響モデルの話者適応の検討

    小笠原洋一, 鈴木基之, 伊藤彰則, 牧野正三, 大河雄一

    日本音響学会 2003年秋季研究発表会講演論文集 I 109-110 2003年9月

  316. Multiple pitch candidate based music information retrieval method for query-by-humming 査読有り

    Sung-Phil Heo, Motoyuki Suzuki, Akinori Ito, Shozo Makino, Hyunyeol Chung

    Proceeding of 1st International Workshop on Adaptive Multimedia Retrieval 189-200 2003年9月

  317. マルチパス音響モデルによる自然発話音声の認識に関する研究

    大河雄一, 吉田明弘, 鈴木基之, 伊藤彰則, 牧野正三

    東北大学電気通信研究所 音響工学研究会 325-1 2003年7月

  318. Analysis of pronunciation errors in Japanese speech uttered by Korean towards development of Japanese CALL system 査読有り

    Oh-Pyo Kweon, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceedings of Oriental COCOSDA 185-192 2003年6月

  319. A Portable spoken dialog system for autonomous robots 査読有り

    Takashi Konashi, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    Proceeding of 1st International Workshop on Language Understanding and Agents for Real-world Interaction 79-84 2003年5月

  320. Construction and evaluation of language models based on stochastic context-free grammar for speech recognition

    Chiori Hori, Masaharu Katoh, Akinori Ito, Masaki Kohda

    Systems and Computers in Japan 33 (13) 48-59 2002年11月30日

    DOI: 10.1002/scj.1172  

    ISSN:0882-1666

    詳細を見る 詳細を閉じる

    This paper deals with the use of a stochastic context-free grammar (SCFG) for large vocabulary continuous speech recognition in particular, an SCFG with phrase-level dependency rules is built. Unlike n-gram models, the SCFG can describe not only local constraints but also global constraints pertaining to the sentence as a whole, thus making possible language models with great expressive power. However, the inside-outside algorithm must be used for estimation of the SCFG parameters, which involves a great amount of calculation, proportional to the third power of the number of nonterminal symbols and of the input string length. Hence, due to problems in dealing with extensive text corpora, the SCFG has hardly been applied as a language model for very large vocabulary continuous speech recognition. The proposed phrase-level dependency SCFG allows a significant reduction of the computational load. In experiments with the EDR corpus, the proposed method proved effective. In experiments with the Mainichi corpus, a large-scale phrase-level dependency SCFG was built for a very large vocabulary continuous speech recognition system. Speech recognition tests with a vocabulary of about 5000 words showed that the proposed method could not compare with the trigram model in performance however, when it was used in combination with a trigram model, the error rate was reduced by 14% compared to the trigram model alone.

  321. 適応学習における話者適応法の比較

    大河雄一, 鈴木基之, 伊藤彰則, 牧野正三

    日本音響学会 2002年秋季研究発表会講演論文集 I 113-114 2002年9月

  322. 尤度差に基づくn-gram言語モデル評価のための指標 査読有り

    伊藤 彰則, 好田 正紀

    情報処理学会論文誌 43 (7) 2055-2064 2002年7月

  323. 音声認識のための確率文脈自由文法に基づく言語モデルの構築と評価 査読有り

    堀 智織, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J83-D-II (11) 2407-2417 2000年11月

  324. N-gram出現回数の混合によるタスク適応の性能解析 査読有り

    伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J83-D-II (11) 2418-2427 2000年11月

  325. Language modeling by stochastic dependency grammar for Japanese speech recognition 査読有り

    Akinori Ito, Chiori Hori, Masaharu Katoh, Masaki Kohda

    Proceeding of International Conference on Spoken Language Processing 2000年10月

  326. Free Software Toolkit for Japanese large vocabulary continuous speech recognition 査読有り

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Shigaki Sagayama, Katsunobu Itoh, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    Proceeding of International Conference on Spoken Language Processing 476-479 2000年10月

  327. A new metric for stochastic language model evaluation 査読有り

    Akinori Ito, Masaki Kohda

    Proceeding of European Conference on Speech Communication and Technology 4 1591-1594 1999年9月

  328. 大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討 査読有り

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    情報処理学会論文誌 40 (4) 1365-1373 1999年4月

  329. 状態クラスタリングによるHM-Netの構造決定法の検討 査読有り

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J81-D-II (10) 2239-2248 1998年10月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0915-1923

    詳細を見る 詳細を閉じる

    隠れマルコフ網(HM-Net)は, 音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり, 高精度かつ頑健な音声認識を実現する音響モデルとして有効であることが示されている[8].HM-Netを生成する方法として, これまで逐次状態分割法(Successive State Splitting:SSS)やその改良[9]〜[11]が提案されているが, これらの手法は学習サンプルを用いて状態分割とパラメータ推定を繰り返す手法であるため, 不特定話者の大量の学習データ(数千〜数万文)を利用する場合には計算量が膨大になるという問題がある.通常, HM-Netは特定話者のデータ(数百文または数千単語)によって構造決定され, 各状態の分布のみが不特定話者の大量データによって再推定される.しかし, 構造決定に用いる学習データが特定話者の限られたデータであると, 大語い連続音声認識などに用いる大規模なHM-Netの構造が得られない, 本論文では大語い連続音声認識のための好精度なHM-Netを作成する手法として, 状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した.同じ学習サンプルセットを用いた場合に, 本手法が従来と同等以上のHM-Netを高速に生成可能であることが音素認識実験により示された.

  330. 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価

    河原, 達也, 李, 晃伸, 小林, 哲則, 武田, 一哉, 峯松, 信明, 伊藤, 克亘, 伊藤, 彰則, 山本, 幹雄, 山田, 篤, 宇津呂, 武仁, 鹿野, 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理 98 (49) 91-96 1998年5月

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

  331. A study on HM-Nets using decision tree-based successive state splitting 査読有り

    Takaaki Hori, Masaharu Katoh, Akinori Ito, Masaki Kohda

    Proceeding of IEEE International Conference on Speech Processing 1 383-387 1998年5月

  332. Common Platform of Japanese Large Vocabulary Continuous Speech Recognizer Assessment -- Proposal and Initial Results -- 査読有り

    T.Kawahara, A.Lee, T.Kobayashi, K.Takeda, N.Minematsu, K.Itou, A.Ito, M.Yamamoto, A.Yamada, T.Utsuro, K.Shikano

    Proc. Oriental-COCOSDA Workshop 117-122 1998年

  333. 音素決定木に基づく逐次状態分割法によるHM-Netの検討 査読有り

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J80-D-II (10) 2645-2654 1997年10月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0915-1923

    詳細を見る 詳細を閉じる

    限られた学習サンプルを用いて高精度かつ頑健なコンテクスト依存モデルを生成するために重要なことは, パラメータの共有関係をどのように決定するか, 未知コンテクストをどのように扱うかである. 鷹見らによって提案された逐次状態分割法(SSS)[4]は, ゆう度最大化を基準にモデルの状態共有関係を自動的に決定する優れた手法であるが, 未知コンテクストの扱いが十分ではなく, 状態分割時の分布の分割法にも問題がある. 本論文では, 逐次状態分割法のコンテクスト方向の状態分割過程に, 音素決定本に基づくコンテクストクラスの分割法を導入し, 同時に分布の分割法も改良したDT-SSSアルゴリズム(Decision Tree-based Successive State Splitting)を提案する. この手法により, 高精度かつあらゆるコンテクストを表現可能なHM-Netの自動生成が可能となる. 特定話者/不特定話者連続音素認識実験より, 従来のSSSによるHM-Netと同等以上の音素正解率が得られた. 特に未知コンテクストを含む音声における誤りの削減が大きく, 本手法の有効性が示された.

  334. N-gram language model adaptation using small corpus for spoken dialog recognition 査読有り

    Akinori Ito, Hideyuki Saitoh, Masaharu Katoh, Masaki Kohda

    Proceeding of European Conference on Speech Processing 2735-2738 1997年9月

  335. かな・漢字文字列の連鎖統計による言語モデル 査読有り

    伊藤 彰則, 好田 正紀

    電子情報通信学会論文誌(D-II) J79-D-II (12) 2062-2069 1996年12月

  336. The performance prediction on sentence recognition using a finite state word automaton 査読有り

    T Otsuki, A Ito, S Makino, T Ohtomo

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E79D (1) 47-53 1996年1月

    出版者・発行元:IEICE-INST ELECTRON INFO COMMUN ENG

    ISSN:0916-8532

    詳細を見る 詳細を閉じる

    This paper presents the performance prediction method on sentence recognition system which uses a finite state word automaton. When each word is uttered separately, the relationship between word recognition score and sentence recognition score can be approximated using the number of word sequences at a minimum distance From each sentence in the task. But it is not clear that how we get this number when the finite state word automaton is used as linguistic information. Therefore, we propose the algorithm to calculate this number in polynomial time. Then we carry out the prediction using this method and the simulation to compare with the prediction on the task of Japanese text editor commands. And it is shown that our method approximates the lower limit of sentence recognition score.

  337. Language modeling by string pattern N-gram for Japanese speech recognition 査読有り

    A Ito, M Kohda

    ICSLP 96 - FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, PROCEEDINGS, VOLS 1-4 490-493 1996年

    出版者・発行元:I E E E

    詳細を見る 詳細を閉じる

    This paper describes a new powerful statistical language model based on N-gram model for Japanese speech recognition. In English, a sentence is written word-by-word On the other hand a sentence in Japanese has no word boundary character. Therefore. a Japanese sentence requires word segmentation by morphemic analysis before the construction of word N-gram. We propose an N-gram based language model which requires no word segmentation. This model uses character string patterns as units of N-gram. The string patterns are chosen from the training text according to a statistical criterion. We carried out several experiments to compare perplexities of the proposed and the conventional models. which showed the advantage of our model.

  338. A NEW HMNET CONSTRUCTION ALGORITHM REQUIRING NO CONTEXTUAL FACTORS 査読有り

    M SUZUKI, S MAKINO, A ITO, H ASO, H SHIMODAIRA

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E78D (6) 662-668 1995年6月

    出版者・発行元:IEICE-INST ELECTRON INFO COMMUN ENG

    ISSN:0916-8532

    詳細を見る 詳細を閉じる

    Many methods have been proposed for constructing context-dependent phoneme models using Hidden Markov Models (HMMs) to improve performance. These conventional methods require previously defined contextual factors. If these factors are deficient, the method exhibit poor recognition performance. In this paper, we propose a new construction algorithm for HMnet which does not require pre-defined contextual factors. Experiments demonstrated that the new algorithm could construct the HMnet even for the case that the Successive State Splitting (SSS) algorithm could not. The new algorithm produced better phoneme recognition characteristics than the SSS algorithm.

  339. 拡張RHA法による連続音声認識のための単語予備選択 査読有り

    伊藤 彰則, 牧野 正三

    電子情報通信学会論文誌(D-II) J78-D-II (3) 400-408 1995年3月

  340. 単語の出現確率を用いた単語認識の性能予測 査読有り

    大槻 恭士, 伊藤 彰則, 牧野 正三, 大友 照彦

    電子情報通信学会論文誌(A) J77-A (2) 274-281 1994年2月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5707

    詳細を見る 詳細を閉じる

    自然言語では単語ごとに出現確率が異なるため,出現確率が一様な場合に比べて,単語の出現という事象によって得られる情報量が大きい,つまり,認識の際に単語の出現確率を用いることは有効であり,その誤り訂正能力の評価は有用である.本論文では単語認識の際に単語の出現確率を用いた場合の,音素・文字認識率と単語認識率の関係を推定する方法を提案する.従来の単語認識率の評価式を導出する際には,単語の出現確率を全単語で一定と仮定し,無視していた.そこで,単語の出現確率を考慮しながら評価式を導出した.その評価式により推定された値と単語認識のシミュレーションの値とを比較したところ,近似による誤差が大きくなり,音素認識率80%で約10%単語認識率の推定値が低く見積もられた.そこで,近似方法を変え,補正係数の入った評価式を導出した.補正された評価式による推定値とシミュレーションの値との差は,音素認識率80%で約5%以下となり,精度の向上が確かめられ,単語の出現確率を用いたときの単語認識率を精度良く推定することができることが示された.

  341. A continuous speech recognition system using a modified LVQ2 method and a dependency grammar with semantic constraints 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    J. Pattern Recognition and Artificial Intelligence 8 (1) 197-213 1994年1月

    DOI: 10.1142/S0218001494000097  

  342. THE PERFORMANCE PREDICTION METHOD ON SENTENCE RECOGNITION SYSTEM USING A FINITE STATE AUTOMATON 査読有り

    T OTSUKI, A ITO, S MAKINO, T OTOMO

    ICASSP-94 - PROCEEDINGS, VOL 1 397-400 1994年

    出版者・発行元:I E E E

  343. A Fast Word Pre-Selection Based on Speech Fragments for Continuous Speech Recognition

    Akinori Ito, Shozo Makino

    Proceeding of International Workshop on Speech Processing 107-112 1993年11月

  344. 音素・文字間の遷移情報を用いた単語認識の性能予測 査読有り

    大槻 恭士, 伊藤 彰則, 牧野 正三, 曽根 敏夫

    電子情報通信学会論文誌(D-II) J76-D-Ii (6) 1090-1096 1993年6月

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0915-1923

    詳細を見る 詳細を閉じる

    本論文では,音素・文字のセグメンテーションが完全で音素・文字間の遷移の有無を用いた単語認識における,音素・文字認識率と単語認識率の関係を,タスクの近距離単語数を用いて理論的に推定する方法を提案する.単語辞書を用いた場合の単語認識率は,辞書中の近距離単語数を用いた評価式により推定することができる.しかし,従来の単語認識率の評価式では,音素・文字認識率が低くなるにつれて,また,近距離単語数が増加するにつれて,推定精度が急激に劣化する.そこで,本論文では推定精度を高めた新評価式を提案する.また,本論文では遍移情報によって生成可能な系列を単語辞書の項目とみなしているが,その数は長さに対して指数関数的に増加し,近距離単語数を求めるのは困難である.そこで,本論文ではそれを多項式時間で計算するアルゴリズムを提案する.音素の三つ組(trigram)を用いた場合の,日本語重要語約5,000語における音素認識率90%での推定単語認識率は,本方法で約72%,従来法で約66%,シミュレーションでの単語認識率は約78%であり,本方法が従来法よりも良い近似を与えることが明らかになった.

  345. Speech to Text Conversion System Based on Phoneme Recognition 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'ichi Kido

    応用情報学研究年報 18 (1-2) 51-66 1993年3月

  346. A NEW WORD PRESELECTION METHOD BASED ON AN EXTENDED REDUNDANT HASH ADDRESSING FOR CONTINUOUS SPEECH RECOGNITION 査読有り

    A ITO, S MAKINO

    ICASSP-93 : 1993 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5 B299-B302 1993年

    出版者・発行元:I E E E

  347. Word pre-selection using a redundant hash addressing method for continuous speech recognition 査読有り

    Akinori Ito, Shozo Makino

    Proceeding of the International Conference on Spoken Language Processing 309-312 1992年10月

  348. 機能語予測CYK法による日本語文音声の統語処理 査読有り

    伊藤 彰則, 牧野 正三, 城戸 健一

    電子情報通信学会論文誌(D-II) J74-D-II (9) 1147-1155 1991年9月

    出版者・発行元:電子情報通信学会情報・システムソサイエティ

    ISSN:0915-1923

  349. A JAPANESE TEXT DICTATION SYSTEM BASED ON PHONEME RECOGNITION AND A DEPENDENCY GRAMMAR 査読有り

    S MAKINO, A ITO, M ENDO, K KIDO

    IEICE TRANSACTIONS ON COMMUNICATIONS ELECTRONICS INFORMATION AND SYSTEMS 74 (7) 1773-1782 1991年7月

    出版者・発行元:IEICE-INST ELECTRON INFO COMMUN ENG

    ISSN:0917-1673

    詳細を見る 詳細を閉じる

    This paper describes an overview of Japanese text dictation system composed of an acoustic processor and a linguistic processor. The system deals with 843 conceptual words and 431 functional words. The phoneme recognition is carried out using a modified LVQ2 method which we propose. The phoneme recognition score was 86.1% for 226 sentences uttered by two male speakers. The linguistic processor is composed of a processor for spotting Bunsetsu-units and a syntactic processor. The structure of the Bunsetsu-unit is effectively described by a finite-state automation. The test-set perplexity of the finite-state automation is 230. In the processor for spotting Bunsetsu-units, using a syntax-driven continuous-DP matching algorithm, the Bunsetsu-units are spotted from a recognized phoneme sequence and then a Bunsetsu-unit lattice is generated. In the syntactic processor, the Bunsetsu-unit lattice is parsed based on the dependency grammar. The dependency grammar is expressed as the correspondence between a FEATURE marker in a modifier-Bunsetsu and a SLOT-FILLER marker in a head-Bunsetsu. The recognition scores of the Bunsetsu-unit and conceptual words were 73.2% and 85.7% for 226 sentences uttered by the two male speakers.

  350. Parsing of spoken Japanese sentences using the functional word prediction CYK algorithm 査読有り

    Akinori Ito, Shozo Makino, Ken'iti Kido

    Proc. Korea-Japan Joint Symposium on Acoustics 218-221 1991年7月

  351. A JAPANESE TEXT DICTATION SYSTEM BASED ON PHONEME RECOGNITION AND A DEPENDENCY GRAMMAR 査読有り

    S MAKINO, A ITO, M ENDO, K KIDO

    ICASSP 91, VOLS 1-5 273-276 1991年

    出版者・発行元:I E E E

  352. A Japanese Text Dictation System Based on Phoneme Recognition Using a Modified LVQ2 Method 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    Proceeding of the International Conference on Spoken Language Processing 241-244 1990年11月

  353. 生態概日周期活動の長期自動記録とその解析システム 査読有り

    磯野 邦夫, 尾田 善治, 伊藤 彰則, 本郷 哲, 宮内 雅夫, 原田 敦, 武蔵 昭一, 塚原 保夫

    応用情報学研究年報 15 (1) 155-166 1990年3月

  354. Linguistic Processing in Japanese Dictation System 査読有り

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    Preprints of The Third Symposium on Advanced Man-Machine Interface Through Spoken Language 25-1-25-10 1989年12月

  355. Bunsetsu-spotting Based Linguistic Processing for a Japanese Dictation System 査読有り

    Shozo Makino, Akinori Ito, Yoichi Ogawa, Michio Okada, Ken'iti Kido

    Preprints of The Second Symposium on Advanced Man-Machine Interface Through Spoken Language 29-1-29-10 1988年11月

  356. 文節スポッティングに基づく日本語文音声の認識 査読有り

    岡田 美智男, 松尾 広, 伊藤 彰則, 小川 洋一, 牧野 正三, 城戸 健一

    電気学会論文誌 108-C (10) 826-833 1988年10月

    DOI: 10.1541/ieejeiss1987.108.10_826  

  357. 構文駆動型連続DP法による連続音声中からの活用語のスポッティング 査読有り

    岡田 美智男, 伊藤 彰則, 牧野 正三, 城戸 健一

    電子情報通信学会論文誌 D 情報・システム 70 (12) p2479-2490 1987年12月

    出版者・発行元:電子情報通信学会

    ISSN:0913-5731

︎全件表示 ︎最初の5件までを表示

MISC 351

  1. 人と並んだ状態で人追従可能なロボットシステムに関する基礎的検討

    廣井富, 朝倉大裕, 中田海地, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2020 2020年

    ISSN:2424-3124

  2. 人追従時における追従対象者と非追従対象者の切り分け手法の実装

    中田海地, 朝倉大裕, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 20th 2019年

  3. 2台のLRFを用いた人追跡手法の提案-鬼ごっこロボットの開発-

    池本瑚幸, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 20th 2019年

  4. テレプレゼンスロボットのための操作者の顔提示機能の開発

    野阪百穂, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2019 2019年

    ISSN:2424-3124

  5. 人追従時における追従対象者と非追従対象者の切り分けに関する基礎的検討

    中田海地, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2019 2019年

    ISSN:2424-3124

  6. Preface

    Jeng Shyang Pan, Akinori Ito, Pei Wei Tsai, Lakhmi C. Jain

    Smart Innovation, Systems and Technologies 109 V-VI 2019年

    ISSN:2190-3018

    eISSN:2190-3026

  7. デモンストレーションを指向したロボットの原点復帰の提案-「だるまさんが転んだ」を行うロボットの開発-

    中森裕子, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 36th 2018年

  8. 操作者の顔を再現するテレプレゼンスロボットの提案

    野阪百穂, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 19th 2018年

  9. 「だるまさんが転んだ」の鬼役ロボットのためのタッチ機能の開発

    中森裕子, 廣井富, 田中翔吾, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 19th 2018年

  10. RGB-DカメラとLaser Range Finderを用いた障害物回避に関する基礎的検討

    宮内雄大, 廣井富, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 19th 2018年

  11. 正面から接近する歩行者に対するロボットの事前回避手法の開発

    廣井富, 宮内雄大, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2018 2018年

    ISSN:2424-3124

  12. OpenPoseを用いた人の振り返り検出手法の開発-「だるまさんが転んだ」を行うロボットの開発-

    廣井富, 小田垣成伸, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2018 2018年

    ISSN:2424-3124

  13. ポスター講演 読み上げ音声を利用したニューラルネットワークに基づく歌唱者非依存歌声変換の検討 (音声)

    小池 治憲, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (414) 17-22 2017年1月21日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  14. OpenPoseとLRFを用いた群衆回避手法の試み

    森下康平, 廣井富, 宮内雄大, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 18th 2017年

  15. RGB-Dカメラを用いた床面上の小物体回避に関する基礎的検討

    宮内雄大, 廣井富, 今西天希, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 18th 2017年

  16. LRFとビジョンの併用による群衆通り抜け時における人追跡手法の開発

    宮内雄大, 廣井富, 西口敏司, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2017 2017年

    ISSN:2424-3124

  17. LRFを用いた「だるまさんが転んだ」における「幅判定手法」の効果

    中森裕子, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2017 2017年

    ISSN:2424-3124

  18. ポスター講演 日本語テキスト音声合成のためのアクセント辞典に基づくアクセント結合規則の改良 (音声) -- (第18回音声言語シンポジウム)

    青山 紘人, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 31-36 2016年12月20日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  19. ポスター講演 Kaldiの音声認識エンジンをJulius互換にするためのインタフェースの開発 (音声) -- (第18回音声言語シンポジウム)

    山田 裕介, 能勢 隆, 千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 49-51 2016年12月20日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  20. ポスター講演 DNN音声合成における差分特徴量のモデル化を利用したF0制御 (音声) -- (第18回音声言語シンポジウム)

    山田 修平, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (378) 37-42 2016年12月20日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  21. WOZシステムとの対話におけるユーザの対話意欲の段階識別と特徴量の分析 (第7回対話システムシンポジウム)

    千葉 祐弥, 伊藤 彰則

    言語・音声理解と対話処理研究会 78 7-12 2016年10月5日

    出版者・発行元:人工知能学会

    ISSN:0918-5682

  22. Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (ライフインテリジェンスとオフィス情報システム)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (220) 67-72 2016年9月15日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  23. Animation Unitを用いたHMM・DNNによるテキストからのフォトリアリスティック顔動画像合成におけるカラー化の検討 (メディア工学)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    映像情報メディア学会技術報告 = ITE technical report 40 (31) 67-72 2016年9月

    出版者・発行元:映像情報メディア学会

    ISSN:1342-6893

  24. 顔特徴量を用いたテキストからのフォトリアリスティック顔動画像生成の検討 (情報理論)

    佐藤 一樹, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 116 (33) 43-48 2016年5月19日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  25. 円形回避領域を用いた群衆回避手法の提案

    森下康平, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 34th 2016年

  26. RGB-Dセンサを用いた指差し認識に関する研究-位置誤差に関する一考察-

    津田剛志, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 34th 2016年

  27. 複数台の道案内ロボットのための人位置情報の引き継ぎ手法の提案

    田中佑季, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 34th 2016年

  28. 複数台の手すりを移動する道案内ロボットによる人位置情報の引き継ぎ手法の実装

    田中佑季, 廣井富, 伊藤彰則

    日本感性工学会大会予稿集(CD-ROM) 18th 2016年

  29. 子どもと外遊びを行うテレプレゼンスロボットの提案

    廣井富, 中森裕子, 森下康平, 伊藤彰則

    計測自動制御学会システムインテグレーション部門講演会(CD-ROM) 17th 2016年

  30. 移動ロボット接近時における動作予告を用いた恐怖感低減に関する検討

    廣井富, 前田彰大, 田中佑季, 松丸隆文, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2016 2016年

    ISSN:2424-3124

  31. 拡張現実感を用いた恐怖感低減手法に関する検討

    廣井富, 前田彰大, 田中佑季, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2016 2016年

    ISSN:2424-3124

  32. ユーザの対話意欲推定のための人対人対話データの分析とWOZシステムの検討 (音声) -- (第17回音声言語シンポジウム)

    千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (346) 117-122 2015年12月2日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  33. HMM音声合成におけるモデル学習の高速化の検討 (音声)

    山田 修平, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (253) 27-32 2015年10月15日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  34. ビットエラー耐性ベクトル量子化を用いたMultiple Descriptionベクトル量子化 (ライフインテリジェンスとオフィス情報システム)

    伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (219) 33-38 2015年9月10日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  35. ビットエラー耐性ベクトル量子化を用いたMultiple Descriptionベクトル量子化 (メディア工学)

    伊藤 彰則

    映像情報メディア学会技術報告 = ITE technical report 39 (32) 33-38 2015年9月

    出版者・発行元:映像情報メディア学会

    ISSN:1342-6893

  36. 地域情報の音声認識のための固有名詞省略表現の自動生成 (音声)

    志賀 健太, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115 (184) 7-12 2015年8月21日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  37. HMM音声合成におけるアクセントラベリング基準が合成音声に与える影響の分析

    高橋 遼太, 能勢 隆, 伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (1) 1-6 2015年5月18日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本論文では,従来の HMM 音声合成において曖昧であったアクセントラベリング基準について検討を行い,合成音声への影響を調べる.具体的には,アクセント型の表現およびアクセント句境界の基準について検討する.アクセント型については,尾高型が 0 型とモーラ長型の 2 通りの表現があることに着目し,それらを用いた場合に合成音声の F0 がどのような影響を受けるかについて客観評価を行う.また,2 段階クラスタリングを用いる効果についても検証する.アクセント句境界については,アクセント句によっては 0 型と 1 型の 2 つのアクセント句で表現する場合と,それらを結合し 1 つのアクセント句として表現する場合があり,これらの違いが合成音声に与える影響を調べる.またこれらの評価において,日本語アクセントの高低の誤りを客観的指標として導入し,この指標の有効性について分析を行う.

  38. 日本人のための音声対話による英会話学習システム

    伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (12) 1-6 2015年5月18日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    筆者のグループがこれまで研究してきた,音声対話を利用した英会話のための CALL システムに関する技術について述べる.音声認識技術を利用した現状の CALL システムは,発音やイントネーションなど,1 つの発話に含まれる要素を採点するものが多い.それも重要ではあるが,英会話学習には 「実際に使われる表現を何度も繰り返して練習する」 ということも必要である.この考えに基づき,筆者のグループではこれまで 「対話に基づく CALL システム」 について研究してきた.本稿では,対話音声からの韻律評価,文法誤り検出および応答タイミング制御練習のためのシステムについて述べる.

  39. シナリオ対話における感情音声合成を用いた対話システムの評価と感情付与方法の検討

    加瀬 嵩人, 能勢 隆, 千葉 祐弥, 伊藤 彰則

    情報処理学会研究報告. SLP, 音声言語情報処理 2015 (9) 1-7 2015年5月18日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    近年,非タスク指向型の音声対話システムへの需要が拡大しており,様々な研究がされている.それらほとんどの研究は言語的な観点から適切な応答の生成を目指したものである.一方で人間同士の会話においては,感情表現や発話様式などのパラ言語情報を効果的に利用することにより,対話を円滑に進めることができると考えられる.そこで我々はシステムの応答の内容ではなく,応答の仕方に着目し,感情音声合成を対話システムに用いることを試みる.本研究ではまず,適切な感情付与を人手により与えた場合に実際に対話システムの質が向上するかを複数のシナリオを作成して主観基準により評価する.次に,感情付与を自動化するために,システム発話に応じた付与とユーザ発話に協調した付与の 2 つの手法について検討を行う.評価結果から,感情を自動付与することで対話におけるユーザの主観評価スコアが向上すること,またユーザ発話に協調した感情付与がより効果的であることを示す.

  40. ユーザの対話意欲自動推定を目標とした対話データの分析と音声画像特徴量の検討

    千葉 祐弥, 能勢 隆, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2015 (10) 1-6 2015年2月20日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    対話型システムがユーザに適応して話題の提供や情報推薦を行うためには,ユーザの情報を効率的に獲得できることが望ましい.本研究では,ユーザに対して積極的に質問するインタビュー型の音声対話システムを想定する.このようなシステムとの対話では,ユーザが話したいと思う話題に関してはより詳細な情報が得られる可能性がある一方,ユーザが話したくない話題に関しては有益な情報が得られない可能性が高いと考えられるため,システムはユーザの対話意欲を考慮して質問や話題の選択を行う必要がある.本稿では,ユーザの対話意欲を自動推定するための初期検討として,人間同士のインタビュー対話の分析とその自動識別を行った.分析から,対話者自身が自分の対話意欲の高低を自覚できている場合,70~80% 程度の精度で第三者にあたる評価者が対話意欲を判断できることが示唆された.また,評価者のアンケートに挙げられたマルチモーダル情報を利用することで,人間と同程度の精度で自動識別できることが示された.

  41. Waveletを用いた特徴量抽出法とその高精度化手法の評価

    松井 清彰, 能勢 隆, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2015 (5) 1-6 2015年2月20日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    音声認識の普及のために,より安価な音声認識システムの実現が必要である.音声認識の低演算量化に関しては様々な先行研究が行われているが,特徴量抽出処理に関しては研究が不十分である.そのため我々は,Wavelet 変換を用いた新しい低演算量特徴量抽出法およびその高精度化手法について提案してきた.本論文では,Haar Wavelet 及び Daubechies Wavelet の 2 種類の Wavelet を用いて特徴量抽出を行い,その性能を MFCC と比較した.その結果,高精度化手法を用いることで,若干の認識率の向上が見られた.また,フレーム間の動的特徴量である Δ 特徴量及び MFCC と同様に,DCT 出力の高次削減によって,さらに認識率を向上させることができた.一方,計算時間に関しては,最もシンプルな Wavelet を用いることで,MFCC の 5 倍以上の計算速度を確保できることが分かった.

  42. 英会話学習システムの複数回使用時における学習者の交替潜時の変化に関する検討

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2015 2015年

    ISSN:1880-7658

  43. 英会話学習システムにおける応答タイミング練習方法の有効性の検証

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    情報処理学会研究報告(Web) 2015 (SLP-105) 2015年

  44. 空き缶を拾うロボット-物体の傾き推定に関する一手法-

    二上啓大, 廣井富, 西口敏司, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 33rd 2015年

  45. 荷物の運搬支援のための台車の開発-台車の自走を可能にする着脱式駆動ユニット-

    坂井奎亮, 廣井富, 伊藤克明, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN:2424-3124

  46. ロボットとの「だるまさんがころんだ」の提案

    廣井富, 坂井奎亮, 立田裕記, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN:2424-3124

  47. 拡張現実感を用いた生活支援ロボットの恐怖感低減手法の評価-ロボットサイズに関する実験-

    廣井富, 森奨平, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN:2424-3124

  48. 人の少し前を移動するコミュニケーションロボットの評価-手すり上を移動するコミュニケーションロボットの開発-

    田中佑季, 廣井富, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN:2424-3124

  49. 拡張現実感を用いた生活支援ロボットの恐怖感低減手法の評価-ロボットの色に関する実験-

    廣井富, 森奨平, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2015 2015年

    ISSN:2424-3124

  50. 会員数から見る日本音響学会の現在と未来

    伊藤 彰則

    日本音響学会誌 71 (1) 5-6 2014年12月25日

    出版者・発行元:一般社団法人日本音響学会

    ISSN:0369-4232

  51. 自己組織化マップに基づくビットエラー耐性のある量子化法 (応用音響)

    伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (315) 19-24 2014年11月20日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    ディジタル通信においては,通信路におけるビットエラーが不可避である.通常のパケット通信ではパケット内でビットエラーが発生した場合にはパケットごと廃棄するが,音声や画像などのマルチメディア通信ではビットエラーが致命的でない場合があり得る.そこで,ビットエラーを訂正しないマルチメディア通信を想定し,ビットエラーがメディアデータ品質にどう影響するか考察した.その際,ベクトル量子化はスカラー量子化に比べてビットエラーの影響を受けやすいことから,ビットエラーの影響を受けにくいベクトル量子化法を考案した.提案法は自己組織化マップ(Self-Organizing Map, SOM)に基づき,符号間のハミング距離と符号に対応するセントロイド間距離の相関が高くなるようにコードブックを設計する.シミュレーション実験の結果から,提案法は通常のk-means法によるコードブックよりもビットエラーによる品質劣化が少ないことが明らかとなった.

  52. 日本人による英語歌唱音声の発音評価手法の検討

    吉田一道, 能勢隆, 伊藤彰則

    研究報告音楽情報科学(MUS) 2014 (9) 1-6 2014年11月13日

    詳細を見る 詳細を閉じる

    我々は日本人による英語歌唱音声の英語発音の自動評価を目指している.本研究では,日本人による英語歌詞朗読音声,歌唱音声のデータベースを構築し,英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った.また,英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し,歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された.さらに,HMM による英語歌唱の自動発音評価手法について検討し,日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った.その結果,発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により,更に検出精度を向上させられる可能性がある事を論じた.

  53. 日本人による英語歌唱音声の発音評価手法の検討

    吉田一道, 能勢隆, 伊藤彰則

    研究報告デジタルコンテンツクリエーション(DCC) 2014 (9) 1-6 2014年11月13日

    詳細を見る 詳細を閉じる

    我々は日本人による英語歌唱音声の英語発音の自動評価を目指している.本研究では,日本人による英語歌詞朗読音声,歌唱音声のデータベースを構築し,英語ネイティブ話者と日本語ネイティブ話者による主観評価を行った.また,英語ネイティブ話者と日本語ネイティブ話者による英語歌詞朗読音声と英語歌唱音声の評価を比較し,歌唱音声では発話音声と比較して伸ばすフレーズに発音誤りが生じやすいということが示唆された.さらに,HMM による英語歌唱の自動発音評価手法について検討し,日米 2 言語のネイティブ話者による発話音声から学習した HMM を用いた簡単な発音誤り判定実験を行った.その結果,発音誤り判定時の尤度差の閾値や歌唱時に伸ばすフレーズの発音誤りの検討により,更に検出精度を向上させられる可能性がある事を論じた.

  54. Kinectによる顔特徴量を利用した合成音声の感情表現・発話様式の直観的制御の検討 (音声) -- (オーガナイズドセッション「文脈や状況に合った発声を実現する音声合成技術及び周辺技術」)

    畢 煜, 能勢 隆, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (303) 25-30 2014年11月13日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,テキスト音声合成においてユーザが容易に合成音声の感情表現・発話様式(スタイル)を変更できる手法として,Kinectによる顔特徴量を利用した重回帰隠れマルコフモデル(HSMM)に基づくスタイル制御法を提案する.提案法では,学習データに含まれるスタイルとその表出度合をユーザの顔特徴量であるAnimation Unit(AU)を説明変数とした重回帰により表現する.具体的にはHSMMの各分布の平均パラメータがAUパラメータによる重回帰で表されると仮定する.この際,元のAUパラメータ間の相関が問題となるため,主成分分析により直交化および次元削減を行う.合成時には顔の表情を所望のスタイルに応じて変化させることで,それに応じた合成音声を生成することができる.本稿では,適切なAUパラメータの次元数やユーザの違いによる性能の違いについて評価を行った結果を報告する.

  55. ユーザの対話意欲を考慮したユーザプロファイリング対話システムのためのインタビュー対話の分析 (ヒューマンコミュニケーション基礎)

    千葉 祐弥, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 114 (273) 43-48 2014年10月23日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    対話型システムがユーザに適応して話題の提供や情報推薦を行うためには,ユーザの情報を効率的に獲得できることが望ましい.本研究では,ユーザに対して積極的に質問するインタビュー型の音声対話システムを想定する.このようなシステムとの対話では,ユーザが話したいと思う話題に関してはより詳細な情報が得られる可能性がある一方,ユーザが話したくない話題に関しては有益な情報が得られない可能性が高いと考えられるため,システムはユーザの対話意欲を考慮して質問や話題の選択を行う必要がある.本稿では,ユーザの対話意欲を自動推定するための初期検討として,人間同士のインタビュー対話の分析を行った.分析から,同じ話題が継続する程度の比較的長い対話については,対話者自身が自分の対話意欲の高低を自覚できている場合,70〜80%程度の精度で第三者にあたる評価者が対話意欲を判断できること,対話データを質問応答レベルに細分化すると判断は難しくなるが評価者の判定には相関が見られることが示された.また,対話意欲の判断に関しては音声情報,表情,ジェスチャ,視線といった様々なマルチモーダル情報が関与していることが示された.

  56. コンピュータが声を聴く : 機械による音声の認識 (特集 きく)

    伊藤 彰則

    高翔 : 自動車技術会関東支部報 (62) 16-19 2014年7月

    出版者・発行元:自動車技術会関東支部

  57. 音声言語情報処理研究会の20年―歴代主査による研究レビュー―

    新田 恒雄, 小林 哲則, 中村 哲, 武田 一哉, 河原 達也, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2014 (5) 1-6 2014年1月24日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本稿では,20 年間の音声言語情報処理研究会のレビューを通して,音声言語研究のこれまでの動向を俯瞰する.最初に全体のファクトについて述べ,次に主査ごとの任期における研究動向をレビューする.最後に,今後の研究会活動への提言を述べて結びとする.This report reviews researches presented in 20-year of SlG-SLP meetings and overlooks the trends of spoken language processing research. First, the facts of papers presented in SIG-SLP are described. Then we present chair-by-chair trends of spoken language research, and finally we make suggestions to promote spoken language research of the next decade.

  58. パケットロスに頑健なVoIPのためのパケット欠落隠蔽法における遅延と品質の主観評価

    岡本 雅仁, 伊藤 彰則, 長野 雄

    日本音響学会研究発表会講演論文集 日本音響学会 編 389-392 2014年

    出版者・発行元:日本音響学会

    ISSN:1880-7658

  59. 複素分析窓を用いた正弦波モデルに基づく混合音声の分析

    伊藤 仁, 伊藤 彰則

    日本音響学会研究発表会講演論文集 日本音響学会 編 319-322 2014年

    出版者・発行元:日本音響学会

    ISSN:1880-7658

  60. 歌声分析のエンターテイメント応用 : 音楽検索からカラオケまで

    伊藤 彰則

    日本音響学会研究発表会講演論文集 日本音響学会 編 1033-1036 2014年

    出版者・発行元:日本音響学会

    ISSN:1880-7658

  61. LRFによる人追従を考慮した障害物回避手法の提案

    坂井奎亮, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 32nd 2014年

  62. 手すり上を移動するコミュニケーションロボットの開発-伸びる手を用いた道案内の評価-

    藤原祐磨, 廣井富, 鈴木直人, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 32nd 2014年

  63. 英会話学習システムにおけるCGキャラクタの効果と学習者の発話タイミング制御のための付加表現に関する検討

    鈴木直人, 廣井富, 藤原祐磨, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

    ISSN:1880-7658

  64. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 能勢隆, 伊藤彰則

    日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年

    ISSN:1880-7658

  65. 指差しと音声対話併用による床面上の物体回収手法の提案

    二上啓大, 廣井富, 黒田尚孝, 鈴木直人, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN:2424-3124

  66. LRFを用いた人追従時の移動軌跡の記録と軌道追従に関する基礎的検討

    坂井奎亮, 廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN:2424-3124

  67. 手すり上を移動するコミュニケーションロボットの開発-伸びる手を用いた道案内の提案-

    藤原祐磨, 廣井富, 川崎成人, 黒田尚孝, 鈴木直人, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN:2424-3124

  68. 日常生活支援移動ロボットASAHI2013の開発

    廣井富, 坂井奎亮, 二上啓大, 藤原祐磨, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2014 2014年

    ISSN:2424-3124

  69. 音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析(音声対話,第15回音声言語シンポジウム)

    戸塚 典子, 伊藤 彰則

    電子情報通信学会技術研究報告. SP, 音声 113 (366) 59-64 2013年12月12日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると,ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある.我々は,そのような動作が発生した際に迅速に修正する手法として,ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し,これらをロボットの制御に応用することを提案する.本研究では,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数(FO),インテンシティに変化が表れるかどうか分析を行った.

  70. 音声操作ロボットの意図せぬ動作に対するユーザ発話のパラ言語的特徴に関する分析

    戸塚典子, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2013 (10) 1-6 2013年12月12日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声操作インタフェースがロボットなど移動機構を持つ機器に搭載されると,ユーザが音声によってロボットをリアルタイムで操作するという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図せぬ動作をする可能性がある.我々は,そのような動作が発生した際に迅速に修正する手法として,ユーザの意図せぬロボット動作が発生した際のユーザ発話のパラ言語的特徴に着目し,これらをロボットの制御に応用することを提案する.本研究では,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数 (F0),インテンシティに変化が表れるかどうか分析を行った.

  71. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2013 (9) 1-6 2013年12月12日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    英会話練習をする際は対話相手が必要であり,相手との会話がテンポ良く行えるようになる練習が求められる.CALL (Computer-Assited Language Learning) システムにおいて,学習者の応答のタイミングを向上させるような枠組みは無いのが現状である.英会話練習の際には発話内容を想起し,それを英語で表現する 2 重の認知的負荷がかかるため,交代潜時が長くなりがちであるが,対話の最初から意識的に交代潜時を短くしていくためには学習者に対して明示的な方法を用いるべきである.そこで本研究では対話相手として AR (Augmented Reality) キャラクタを設定し,タイムプレッシャー表現をかけたときに応答タイミングの練習として有効であるかどうかを実験により検証することを試みた.実験参加者にはタイムプレッシャーの有無で 2 通りの対話を行い,最後に主観評価のアンケートを行った.本稿では以上の結果と主観評価を踏まえた考察を報告する.

  72. 局所区間のマルチモーダル情報を用いたユーザ状態の推定に関する検討 (音声)

    千葉 祐弥, 伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (220) 27-32 2013年9月18日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    従来の音声対話システムの研究では,ユーザ発話の音声認識結果を処理することによって応答を決定するという対話システムの性質上,言語的情報の処理に重点が置かれることが多かった.しかしながら,実環境下においては,そもそも入力が観測できないという状況が度々起こるため,言語的情報のみに依存した対話制御では不十分である.このような状況でユーザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた「発話を行う前のユーザ状態」を考慮する必要がある.我々は,発話前のユーザ状態を 2 種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダルな情報を用いることで対象とするユーザの状態をある程度推定できることが示唆されている.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,ユーザの状態を推定する手法について検討を行う.ここでは,新たにマルチモーダルな特徴系列をクラスタリングして Bag-of-Words 的に扱う方法を提案する.提案手法では,2 つのユーザ状態を 70% 以上の精度で識別できることが確認できた.

  73. 複素時間窓を利用した混合音声の分析手法の検討

    伊藤 仁, 伊藤 彰則

    聴覚研究会資料 = Proceedings of the auditory research meeting 43 (6) 473-478 2013年8月9日

    出版者・発行元:日本音響学会

    ISSN:1346-1109

  74. 複素時間窓を利用した混合音声の分析手法の検討 (応用音響)

    伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (177) 1-6 2013年8月9日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    有声音声や楽器音などの音響特性を,振幅と周波数が滑らかに時間変化する正弦波の和として近似する正弦波モデルは,音声の分析や合成など幅広い分野への応用が期待されている.一般に音声信号は基本周波数や声道伝達特性が時間変化する非定常信号であり,この様な信号を高い精度で再現する正弦波パラメータの推定は容易ではない.本稿では理論的な検討により,このパラメータ推定の障害を個々の正弦波成分のスペクトル歪みと,周波数軸上で近接する成分間の干渉の二つに分類した.このうち前者に対しては局所変化率変換を,後者に対しては複素窓関数を用いることで,非定常信号の正弦波パラメータを推定する新たな音響分析手法を提案した.音声信号や楽器音を入力とした性能評価実験の結果は,提案手法の有効性を支持するものであった.また,これらの混合音の分析結果から,複数の音響信号が混在する場合の正弦波パラメータ推定において提案手法が重要な基礎となる可能性が示唆された.

  75. 断片的な環境測定に基づく雑音除去の検討 (音声)

    町田 晃平, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (161) 1-6 2013年7月25日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    実環境における遠隔発話音声認識において,環境雑音の存在は音声認識の性能を著しく劣化させる.これまで,環境雑音に対して複数マイクロホンを用いた手法が提案されてきたが,マイクロホンの同期・常時観測を前提としており,大きなコストを要した.そこで,本稿ではそのような前提を必要としない非同期・間欠観測に基づく雑音下音声認識を提案する.本手法では,部屋の中の様々な場所に設置されたマイクロホンが間欠的に音の観測を行い,観測した音をGMMによりモデル化する.入力音声に対しては,あらかじめモデル化しておいた各雑音クラスに対し,雑音除去と音声認識を並列に行う.そして,各認識結果を統合することで最終的な認識結果を出力する.実験では,モデル化された各雑音クラスを個別に適用した場合でそれぞれの認識率を比較したところ,適用する雑音クラスによって認識率に差がみられた.また,付加された雑音が変わると最適な雑音クラスも変わることを明らかにした.さらに,認識結果を統合することにより,通常のスペクトル減算法と比べて2〜5 %の認識率の向上が得られた.

  76. 音声操作ロボットの動作とユーザ発話の音響的特徴との関係の分析 (音声)

    戸塚 典子, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (161) 57-62 2013年7月25日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声操作インタフェースが移動機構を持つロボットなどに搭載されると,ユーザが音声によってロボットをリアルタイムで動作させるという状況が考えられる.しかしこのような場合,ユーザの言い間違えやシステムの誤認識などによってロボットがユーザの意図しない動作をする可能性がある.我々は,そのような動作を迅速に修正するために,ユーザの意図しないロボット動作が発生した際のユーザ発話の音響的特徴に着目し,これらをロボットの制御に応用することを提案する.そこで,被験者実験によって実際にロボットを操作している音声を収集し,ロボットがユーザの意図通りに動作している時とそうでない時で発話速度,基本周波数(F0),インテンシティ,発話間隔にどのような変化が出るのか比較を行った.その結果,ロボットがユーザの意図しない動作をした際,ユーザ発話は発話速度が速く,発話間隔が短くなるという傾向が見られたが,F0 とインテンシティに関しては大きな変化が見られないことが明らかとなった.

  77. 質問応答データベースに基づくマルチタスク音声対話システムのタスク作成実験 (音声)

    三宅 真司, 伊藤 彰則

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 113 (161) 31-36 2013年7月25日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    スマートホームや家庭内ロボットなどによる生活支援のための音声対話システムを作成している.このシステムは,発話用例データベースと応答候補文を列挙するだけで対話システムが作成できるため,対話システム開発に熟練していなくても作成可能であり,また各サブシステムを独立に開発して最後に合わせることで複数のタスクの併用が可能である.本稿では,実際に音声対話タスクを作成したことがない未経験者にタスクを記述させる実験を行い,タスク記述経験者の作成したタスクと比較実験を行った.その結果,作成したタスクの規模は経験者と未経験者でほぼ同じであり,実際に対話を行った場合のユーザの印象評価でも差は見られなかった.しかし,タスク達成率やユーザ発話のタスク識別率においては差がみられた.

  78. グロウル・スクリーム歌唱音声の音響的特徴と聴覚印象の考察 (音声)

    加藤 圭造, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (422) 43-48 2013年1月30日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    エクストリームメタルで頻繁に用いられるグロウル・スクリームといった歌唱法は、エクストリームメタルだけに留まらず広く用いられており、現代の音楽シーンに必須の歌唱法の一つである。本研究ではこれらの歌唱音声が持つ音響的特徴量と聴覚印象の関連を考察することで、これらの歌唱音声に必要な音響的特徴がどの様なものであるかを明らかにすることを試みる。

  79. 音声信号への口唇画像情報ハイディングによるマルチモーダル情報処理の検討 (マルチメディア情報ハイディング・エンリッチメント)

    阿部 洋平, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (420) 1-5 2013年1月29日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    人間は発話の際に口を動かすため、口唇動作と発話の間には密接な関係がある。我々は音声信号のみを伝送・保存する環境においても画像情報を用いたマルチモーダル情報処理を実現するため、口唇画像から抽出した特徴量を音声信号に埋め込むことを提案する。本稿では提案手法の概要を示すとともに、マルチモーダルVADへの応用を検討する。SVMを用いた発話検出実験の結果、雑音環境において画像情報を組み合わせることで音響情報のみを用いたVADよりも高い精度が得られた。また、データの埋め込みによる音質および精度への影響の調査実験を行い、大きな影響は出ないことを確認した。

  80. 対話中のユーザ状態逐次推定のための多段階識別手法に関する検討

    千葉祐弥, 伊藤仁, 伊藤彰則

    研究報告ヒューマンコンピュータインタラクション(HCI) 2013 (21) 1-6 2013年1月25日

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話の音声認識結果を基準として処理を行うため,ユーザの入力を待機している間にユーザの状態を推定することはできなかった.しかしながら,実環境下においては,ユーザがシステムのプロンプトに戸惑ってしまうなどで,入力を行うことができないという状況が度々起こる.こういったユーザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた 「発話を行う前のユーザ状態」 を考慮する必要がある.我々は,発話前のユーザ状態を 2 種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダル情報を用いることで対象とするユーザの状態がある程度推定できることを結論づけた.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,逐次的にユーザの状態を推定する手法について検討を行う.

  81. 対話中のユーザ状態逐次推定のための多段階識別手法に関する検討

    千葉祐弥, 伊藤仁, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2013 (21) 1-6 2013年1月25日

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話の音声認識結果を基準として処理を行うため,ユーザの入力を待機している間にユーザの状態を推定することはできなかった.しかしながら,実環境下においては,ユーザがシステムのプロンプトに戸惑ってしまうなどで,入力を行うことができないという状況が度々起こる.こういったユーザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた 「発話を行う前のユーザ状態」 を考慮する必要がある.我々は,発話前のユーザ状態を 2 種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダル情報を用いることで対象とするユーザの状態がある程度推定できることを結論づけた.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,逐次的にユーザの状態を推定する手法について検討を行う.

  82. 手すりを移動するコミュニケーションロボット-道案内方法の比較-

    廣井富, 黒田尚孝, 藤原祐磨, 戸塚典子, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 31st 2013年

  83. ロボットアバタを用いた指差し行為の実装-人間による指差し認識の調査-

    黒田尚孝, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 31st 2013年

  84. ARキャラクタを用いた音声対話による英会話学習システムの検討-タイムプレッシャー導入の効果-

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 伊藤彰則

    日本バーチャルリアリティ学会大会論文集(CD-ROM) 18th 2013年

    ISSN:1349-5062

  85. ARキャラクタとの英会話練習時における交替潜時のタイムプレッシャーによる制御

    鈴木直人, 廣井富, 藤原祐磨, 黒田尚孝, 戸塚典子, 千葉祐弥, 伊藤彰則

    電子情報通信学会技術研究報告 113 (366(SP2013 82-95)) 2013年

    ISSN:0913-5685

  86. 対話ターン中のユーザ状態の推定に有用なモダリティの分析 (音声・第14回音声言語シンポジウム)

    千葉 祐弥, 伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (369) 35-40 2012年12月20日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話を基準として処理を決定しているため,入力を待機している間にユーザの状態を推定することはできない.しかしながら,実環境下においてはユーザがシステムのプロンプトに戸惑ってしまい,入力をすることができない状況が度々起こる.このような場合,一定時間おきに同一内容のプロンプトを提示することが一般的であるが,この補助は入力内容を考えているユーザにとっては非常にわずらわしいものである.これらのユーザに対して適切な応答を行うためには,発話を行う前のユーザ状態を推定できる必要がある.以前行なっていた検討では,様々な影響を切り分けた分析を行わずに自動推定を試みていたため,どの情報がユーザの状態の推定に必要なのかが不明瞭であった.そこで,本稿ではあらためてデータの収集と被験者による評価実験を行い,より詳しい分析を行った.

  87. トピック関連語推定とSTDによる未知語推定の評価 (音声・第14回音声言語シンポジウム)

    佐藤 壮一, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 112 (369) 143-147 2012年12月20日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,音声認識結果から関連する単語を推定するトピック関連語推定と,発話中にある単語が含まれているかどうかを見る検索語検出(SpokenTermDetection:STD)を用いて,音声認識における未知語を推定した.トピック関連語推定のみを用いた場合,STDのみを用いた場合,両方を用いた場合について,それぞれ比較し検討を行った.その結果,両方を用いた場合に推定語数が多い状況で,トピック関連語推定のみの場合に推定語数が少ない状況で最も良い再現率を得られることがわかった.また,トピック関連語推定の再現率が高い状態でSTDを利用することで,トピック関連語推定のみの場合よりも高い適合率を得ることができることもわかった.

  88. 対話ターン中のユーザ状態の推定に有用なモダリティの分析

    千葉祐弥, 伊藤仁, 伊藤彰則

    研究報告音声言語情報処理(SLP) 2012 (7) 1-6 2012年12月13日

    詳細を見る 詳細を閉じる

    従来の音声対話システムは,ユーザが入力した発話を基準として処理を決定しているため,入力を待機している間にユーザの状態を推定することはできない.しかしながら,実環境下においてはユーザがシステムのプロンプトに戸惑ってしまい,入力をすることができない状況が度々起こる.このような場合,一定時間おきに同一内容のプロンプトを提示することが一般的であるが,この補助は入力内容を考えているユーザにとっては非常にわずらわしいものである.これらのユーザに対して適切な応答を行うためには,発話を行う前のユーザ状態を推定できる必要がある.以前行なっていた検討では,様々な影響を切り分けた分析を行わずに自動推定を試みていたため,どの情報がユーザの状態の推定に必要なのかが不明瞭であった.そこで,本稿ではあらためてデータの収集と被験者による評価実験を行い,より詳しい分析を行った.

  89. 補助情報による音響信号の価値創造

    伊藤 彰則

    電子情報通信学会技術研究報告. EA, 応用音響 112 (292) 87-92 2012年11月9日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    補助情報を使って音響信号に様々な機能や付加価値を加える方法について,筆者の研究内容を中心に述べる.従来の多くの音響信号処理では,信号中で失われてしまった情報の推定がテーマとなっているが,このようなタスクに補助情報を導入することで,高品質な信号操作が容易に可能となる.本稿では,まず最初に補助情報を用いた信号推定の原理について概略を述べる.次に具体的な応用として,オーディオ信号のパケットロス隠蔽,混合音楽信号の操作,電話音声の帯域拡張の3つのテーマについて述べる.

  90. 災害に役立っ情報通信サービス(ポストIPネットワーキング,新世代ネットワーク,ネットワークモデル,インターネットトラピック,TCP/IP,マルチメディア通信,ネットワーク管理,リソース管理,プライベートネットワーク,NW安全性及び一般)

    庄司 貞雄, 青木 孝文, 伊藤 彰則, 大町 真一郎, 伊藤 康一

    電子情報通信学会技術研究報告. NS, ネットワークシステム 112 (208) 71-72 2012年9月13日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    大規模災害時などにおいて移動通信ネットワークで輻輳が発生する場合に,ネットワークを動的に制御することによって輻輳を回避する技術研究が行なわれている.この際に,災害時の安全確保や情報の共有に役立つサービスのあり方と,必要となる実現技術について研究を進めている.

  91. 非言語情報を用いたHMMによるユーザ発話前内部状態の推定

    千葉 祐弥, 伊藤 仁, 伊藤 彰則

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 111 (430) 7-12 2012年2月2日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,音声対話システムにおけるユーザの発話前内部状態を推定する手法について述べる.実環境におけるシステム主導型対話システムのプロンプトは,たびたびユーザを混乱させる.一般的な対話システムは入力に時間か掛かっているユーザに対してより詳細な内容の情報を提示するなどの補助を行うが,これらの補助はプロンプトに対する入力を考えているユーザにとってはわずらわしいものとなる.適切な応対を行うためには,システムは発話前のユーザ内部状態を考慮できなくてはならない.従来のユーザモデル研究は発話の言語的な情報に注目してきた.このアプローチの問題の一つはユーザの内部状態が人力発話の終了まで待たないと推定できないことである.したがって,本研究ではユーザ発話が起こる前のフィラーや無音区間,頭部運動などのユーザの非言語的な情報に着目する.本稿では,これまで検討してきた固定長の特徴量を時系列特徴として構築し直し,隠れマルコフモデルによってユーザモデルの推定を行う.被験者に対してopenな識別実験を行ったところ,79.6%の識別精度を得た.

  92. アマチュア歌唱エンタテインメントのための熱唱度評価システムSEES

    大道 竜之介, 伊藤 仁, 牧野 正三, 伊藤 彰則

    研究報告音楽情報科学(MUS) 2012 (2) 1-7 2012年1月27日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本研究の目標は,歌唱の熱唱度を自動的に評価するシステムを開発することである.カラオケの採点システムに代表されるように,歌唱音声の自動評価によってアマチュア歌唱エンタテインメントに付加価値をもたらそうとする研究が盛んに行われてきた.しかしほとんどの研究において,その評価しようとする側面は歌唱のうまさである.本研究では歌唱のうまさではなく熱唱度に着目し,その知覚に関する基本的な特性を明らかにするとともに,自動評価システムの開発を目指す.またこれを用いた新しい形態のアマチュア歌唱エンタテインメントを提案する.The goal of our research is to develop a system for evaluating singing enthusiasm. As evaluation systems for karaoke represent, many researchers have worked on automatic evaluation methods of singing voice to make additional value on amateur singing entertainment. However most of the researches try to evaluate only singing skill. In our research, the point of interest is not singing skill but singing enthusiasm. We describe in this paper our attempt to develop an automatic evaluation system of singing enthusiasm through analyses of principles on human perception of it. Moreover we propose a new style of amateur singing entertainment with our system.

  93. グロウル及びスクリーム歌唱の合成に向けた音響的特徴の分析

    加藤 圭造, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2012 (14) 1-6 2012年1月27日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本研究ではデスメタル,メタルコアなどエクストリームメタルと言われるジャンルで頻繁に用いられる,グロウル及びスクリーム歌唱について音響的特徴の分析を行った.先行研究で特殊な発声の音響的な特徴として示されたサブハーモニクスの存在や macro pulse 構造の調査,病的音声の分析になどに使われる jitter,shimmer,HNR の値について測定を行った.In this study, we analized acoustic feauture of growl and scream singing voices used in extream metal music, such as death metal, metal core, and so on. We observed sub-harmonics and macro pulse structures those are reported as accoustic features of rough voice. We also measured jitter, shimmer, and HNR values.

  94. patissier-アマチュア作詞家のための作詞補助システム-

    阿部 ちひろ, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2012 (17) 1-6 2012年1月27日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    本稿では,音節数や韻,単語のアクセントに着目した作詞支援システム 「patissier」 を提案する.システムは Ngram 言語モデルをもとに,ユーザの指定した条件を満たす歌詞候補文を生成し,提示する.ユーザはシステムを辞書のように用い,提示文から主体的に言葉を選び作詞を進めることができる.主観評価実験では,被験者がシステムを用いて作詞を行い,システムが実際の作詞においてどのように使われるのかを調査した.システムの使用ログと被験者アンケートから,ユーザはシステムに自身が持つ歌詞のイメージに合うような候補の提示を求めていることがわかった.また,提示された単語は直接用いられるよりも,歌詞のストーリーを組み立てる手がかりとして用いられることが多いという傾向が明らかになった.In this paper, we propose a lyrics writing support system focused on the number of syllables, rhyme and word accent. The system generates candidate sentences that satisfy user-specified conditions based on Ngram, and presents them. Users can use the system like a dictionary, and write lyrics be choosing presented sentences. In our subjective evaluations, we have investigated how the system is utilized for writing lyrics actually. The log of using the system and the questionnaires showed that users want the system to present words suitable for their images, and they used the presented words as keywords of a lyrics rather than as they are.

  95. 手すりを移動するコミュニケーションロボット-全体コンセプト-

    廣井富, 内田裕二, 西村駿宏, 中山貴之, 黒田尚孝, 三宅真司, 戸塚典子, 伊藤彰則

    ヒューマンインタフェースシンポジウム論文集(CD-ROM) 2012 2012年

    ISSN:1345-0794

  96. ロボットアバタを用いた指差し行為の実現-ロボットアバタへの実装-

    黒田尚孝, 廣井富, 三宅真司, 伊藤彰則

    日本感性工学会大会予稿集(CD-ROM) 14th 2012年

  97. ロボットアバタを用いた指差し行為の移動ロボットへの実装

    黒田尚孝, 廣井富, 三宅真司, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 30th 2012年

  98. 質問応答データベースを用いた聞き返し発話の検出に関する検討

    三宅真司, 廣井富, 伊藤彰則

    情報処理学会研究報告(CD-ROM) 2012 (2) 2012年

    ISSN:2186-2583

  99. ロボットの動作によって人間の発話開始時間を制御できるか?

    中山貴之, 廣井富, 黒田尚孝, 三宅真司, 伊藤彰則

    情報処理学会研究報告(CD-ROM) 2012 (2) 2012年

    ISSN:2186-2583

  100. 日常生活支援移動ロボットASAHIの開発-全体構想とハードウェア構成-

    廣井富, 黒田尚孝, 内藤圭祐, 高田晶太, 松井一馬, 井上駿, 林和孝, 中山貴之, 松中翔平, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2012 2012年

    ISSN:2424-3124

  101. 一つのLRFを用いた人追跡に関する一考察

    松中翔平, 廣井富, 内藤圭祐, 井上駿, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2012 2012年

    ISSN:2424-3124

  102. ロボットアバタを用いた指差し行為の実現-基本コンセプトと予備実験-

    黒田尚孝, 廣井富, 松井一馬, 三宅真司, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2012 2012年

    ISSN:2424-3124

  103. 付加情報を用いたボーカル音声操作システムにおける伴奏情報の適用方法の検討 (マルチメディア情報ハイディング・エンリッチメント)

    佐々木 勇翔, 咸 聖俊, 伊藤 彰則

    電子情報通信学会技術研究報告 : 信学技報 111 (287) 47-52 2011年11月14日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    ストリーミング配信されている楽曲信号に対し,付加情報を与える事でボーカルパートの音量のみを操作可能にするシステムを検討している.付加情報としてミックス前の信号から抽出した基本周波数,及び伴奏信号の情報を用いた.伴奏信号の考慮方法が異なる三種の櫛形フィルタをそれぞれ実装し,その情報量と操作精度の評価を行った.また,混合音中のターゲット信号の強調処理について,これらのフィルタで操作を行った場合と既存の音声符号化方式を用いた場合の情報効率の比較を行った.

  104. 東日本大震災 危機発生時の対応について考える:12.東日本大震災時の東北大学工学研究科の対応

    伊藤 彰則, 馬場 博子, 安斎 浩一

    情報処理 52 (9) 1084-1085 2011年8月15日

    詳細を見る 詳細を閉じる

    東北大学工学研究科(青葉山キャンパス)には,工学部・工学研究科の広報活動と情報システム運用を担うため,研究科長直属の組織として情報広報室が設置されている.今回のような広域災害の場合,震災後に学生・教職員の安否に関する情報収集,大学の現状や今後の予定などを伝える情報発信がきわめて重要であり,これらの両方をリアルタイムに行う必要がある.本稿の目的は,震災直後の数日に何が起こったのか,それに対して工学部・工学研究科の情報収集・発信体制がどうだったのかを振り返り,今後の災害時情報収集・発信体制の改善への手がかりとすることである.

  105. 統計的言語モデルを用いた作詞補助システム

    阿部 ちひろ, 伊藤 彰則

    研究報告音楽情報科学(MUS) 2011 (9) 1-6 2011年7月20日

    詳細を見る 詳細を閉じる

    本稿では,音節数と韻に着目した作詞支援システムを提案する.システムは Ngram 言語モデルをもとに,ユーザの指定した音節数と韻の条件を満たす歌詞候補文を生成し,提示する.ユーザはシステムを辞書のように用い,提示文から主体的に言葉を選び作詞を進めることができる.我々は GUI を備えた作詞補助システムを実装し,提示文とシステムの主観評価実験を行った.In this paper, we propose a lyrics writing support system focused on the number of syllables and rhyme. The system generates candidate sentences that satisfy user-specified conditions based on Ngram, and presents them. A user can use the system like a dictionary, and write lyrics be choosing presented words. We have implemented a system with GUI, and subjective evaluations of the statements and proposed system were conducted.

  106. 音声対話システムのための非言語情報を用いた発話前状態の推定

    千葉 祐弥, 咸 聖俊, 伊藤 彰則

    電子情報通信学会技術研究報告. SP, 音声 111 (153) 23-28 2011年7月14日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    対話型のインターフェースでは,多様なユーザの挙動にも柔軟に応対できることが望まれる.音声対話システムはハンズフリーで操作でき,訓練も必要ない反面,そういった要求の重要性はさらに大きいものと思われる.これまで,入力された言語情報から適応的に応対を生成する研究は盛んに行われてきたが,ユーザが発話を行う前の情報からシステムの対話制御を決定する研究はあまりなされていない.本研究では,対話中のユーザの非言語情報に注目し,ユーザの発話が行われる前に対話補助を行うことのできる対話システムの構築を目指す.ここでは,特に音声の時間的な情報及び,ユーザの顔向きをYaw,Roll,Pitchの3回転方向の動きに分けて分析を行い,SVMによる識別実験を行った.

  107. 移動ロボット減速時におけるロボットアバタを用いた動作予告法の実装と評価

    中山貴之, 廣井富, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 29th 2011年

  108. 10日間で作るロボット音声対話システム

    三宅真司, 廣井富, 伊藤彰則

    ヒューマンインタフェースシンポジウム論文集(CD-ROM) 2011 2011年

    ISSN:1345-0794

  109. ロボットの主観評価における身体と拡張現実感

    廣井富, 伊藤彰則

    電子情報通信学会技術研究報告 110 (459(HCS2010 56-69)) 2011年

    ISSN:0913-5685

  110. ロボットアバタを用いた日常生活支援ロボットの親しみ感の向上-非ヒューマノイド型ロボットへの適用-

    廣井富, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2011 2011年

    ISSN:2424-3124

  111. 日常生活支援移動ロボットGoyaneの開発-高さ変更可能な機構の提案-

    廣井富, 篠原達也, 兼次一喜, 岩本昂, 中山貴之, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2011 2011年

    ISSN:2424-3124

  112. 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討 (音声)

    増村 亮, 咸 聖俊, 伊藤 彰則

    電子情報通信学会技術研究報告 110 (357) 109-114 2010年12月20日

    出版者・発行元:電子情報通信学会

    ISSN:0913-5685

  113. 確率的言語モデルに基づく音声ドキュメント検索のためのWebを利用したモデル拡張の検討

    増村 亮, 咸聖俊, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2010 (20) 1-6 2010年12月13日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    音声ドキュメントのアドホック検索に対する需要が近年増加している.音声認識を利用して音声ドキュメントをテキストへ変換することで既存のテキスト検索の技術が利用可能であるが,音声認識誤りにより,検索性能が大きく劣化することが知られている.この問題を解決するために,以前我々は認識誤りによって欠落してしまった単語を対象音声に関連する Web 文書を利用して補間する方法を提案した.本稿では新たに情報検索モデルとして近年注目されている確率的言語モデルに焦点を当てる.Web を利用した補間のアイデアを確率的言語モデルを利用する枠組みに組み込むために,我々は Web 検索ヒット数を用いた新たなスムージング方法,および Web 関連文書を用いた混合モデル化による文書モデル拡張手法を提案する.In recent years, there has been more and more demands for ad hoc retrieval of spoken documents. We can use existing text retrieval method by trascribing the spoken document into text using a Large Vocabulary Continuous Speech Recognizer (LVCSR). However, it is well known that the retrieval performance deteriorates severely by recognition errors. To solve this problem, we previously proposed a method which interpolate lacked words using relevant Web documents to the target spoken document. In this paper, we newly focus on probabilistic language model which is attracted attention as a information retrieval model. To introduce Web-based interpolation idea into language modeling approach, we propose new smoothing method using Web hit counts and mixture modeling method using relevant Web documents.

  114. 監視マイクロホンのための多段GMMを用いた異常音検出手法

    伊藤 彰則, 相場 亮人, 伊藤 仁, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 110 (220) 1-6 2010年10月1日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    筆者らは,マイクロホンで観測した環境音中から異常な音を自動検出する手法として,複数のGMMを併用することで出現頻度の少ない正常音を学習する「多段GMM」をこれまで提案してきた.本稿では,多段GMMを用いたときの異常音検出性能と,監視環境での背景音の関係について検討した.その結果,高騒音下では検出性能が低下し,検出性能は背景音と異常音のSN比に依存することが明らかとなった.また,提案法では複数のしきい値やGMM混合数などのパラメータが必要であるため,観測データから最適なパラメータを推定する手法について検討した.Ptile法による閾値決定とBICによる混合数決定が有効であったが,パラメータを自動推定した場合には20%程度の性能低下が見られた.

  115. 局所変化率変換と時間軸変換に基づく有声音声の正弦波モデル

    伊藤 仁, 伊藤 彰則

    電子情報通信学会論文誌. D, 情報・システム = The IEICE transactions on information and systems (Japanese edition) 93 (9) 1745-1754 2010年9月1日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:1880-4535

    詳細を見る 詳細を閉じる

    音声信号を振幅と周波数が時間変化する正弦波成分の和として近似する正弦波モデルでは,非定常部でのパラメータ推定精度が問題となる.本論文では,音声信号の時間軸を第1調波成分の位相軸に置き換える時間軸変換と,正弦波成分の振幅と周波数の非定常性を単純な時変関数で近似する局所変化率変換に基づく正弦波パラメータ推定法を提案する.成人男女75名が発話した900個の単語音声を用いた性能評価実験により,提案法の推定精度を二つの既存手法と比較した.各手法の推定精度は,パラメータから再合成した信号に基づいて入力対残差パワー比(S/R)として定量化した.提案法の平均S/Rは28.4dBで,時間軸変換を行わずパワースペクトルの局所ピークを用いるPeak-picking法(14.4dB)や,正弦波成分の振幅の非定常性を考慮しないIF-attractor法(23.4dB)より高かった.この推定精度の差は,特に入力音声の非定常性が高い場合に大きくなった.これらの結果から,非定常部を含む有声音声の正弦波パラメータの高精度推定において,時間軸変換と局所変化率変換を統合した提案法の有効性が確認された.

  116. 教師なし言語モデル適応のためのWeb Documentを用いた単語のトピック表現

    増村 亮, 咸 聖俊, 伊藤 彰則

    研究報告音声言語情報処理(SLP) 2010 (18) 1-6 2010年7月15日

    出版者・発行元:情報処理学会

    ISSN:1884-0930

    詳細を見る 詳細を閉じる

    我々は,Web 上の言語データを利用した言語モデル教師なし適応の高精度化を目指している.教師なし適応の場合,音声認識結果から話題に関連した検索クエリを作成することで Web 上から言語データをダウンロードする方法が一般的である.しかし,間接的な検索クエリを使用して未知語を含む言語データをダウンロードすることは非常に困難であった.そこで我々は,ある単語が出現する際の文脈を利用できるように,単語をクエリとして Web からダウンロードできる言語データを事前に単語と対応付ける方法を提案する.我々は形態素解析器が持つ全ての名詞に対して,事前に単語のトピックを表現した.この枠組みを利用して教師なしで適応実験を行い,本手法の有効性を確認した.We are developing a method of Web-based unsupervised language model adapatation. In the previous Web-based LM adaptation, search queries are composed from the automatic transcription of the input speech. However, it is difficult to gather documents that contain OOV words because the search queries do not contain any OOV words. For selecting relevant keywords from the transcription, we propose a method that associate each noun in the vocabulary with Web documents downloaded by that word. The downloaded documents are used to estimate the topic of the transcription. From the unsupervised LM adaptation method, we confirmed the effectiveness of the proposed method.

  117. Quinphone HM-Net を用いた単語グラフ統合に基づく講演音声認識

    加藤 正治, 小坂 哲夫, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 110 (81) 37-42 2010年6月10日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    書き言葉においては高い認識精度が達成されているが,話し言葉では言い淀み,フィラー,不明瞭な発声などなどさまざまな問題があり,未だ十分な性能は達成されていない.特に調音結合など音響的な変動が大きく問題となっている.この問題を解決するためにtriphoneやquinphoneなど環境依存モデルが提案されている.しかし,話し言葉においてはこの調音結合の程度も変動する.このため本研究では単語グラフ統合を用い,多くの音響モデルで作成した単語グラフを統合することにより認識性能の向上を図った.

  118. 歌唱の「熱唱度」評価の検討

    大道 竜之介, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音楽情報科学(MUS) 2010 (10) 1-6 2010年5月20日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    歌唱音声の新たな評価指標として 「熱唱度」 の導入を提案する.聴取実験の結果から,歌唱音声中のビブラートおよび呼吸音が,熱唱の知覚に関与することがわかった.本稿では, 歌唱音声におけるビブラート,有声呼吸音,声門破裂の 3 つの特徴を挙げ,これらを定量化する音響特徴量について検討する.34 名の歌唱音声に対する聴取実験から得た,熱唱度の聴取実験スコアと,複数の音響特徴量との重回帰分析を行い,それらの間に重相関係数 0.45 を得た.We propose introducing "enthusiasm" as a novel index of singing voice. The result of the listening experiment by human subjects suggests that both vibrato and breath sounds in singing voice concern human perception of enthusiasm. This paper describes our experiments to quantify 3 features in singing voice; vibrato, voiced breath sounds and glottal plosion. As a result of the multiple linear regression analysis between perceived enthusiasm score evaluated by the listening experiment with singing voice recordings of 34 people and some quantified acoustic features, we reached multiple correlation coefficient of 0.45.

  119. 生活支援ロボットの実用化を目指して

    廣井富, 伊藤彰則

    電子情報通信学会技術研究報告 109 (457(HCS2009 64-88)) 2010年

    ISSN:0913-5685

  120. 拡張現実感を用いた日常生活支援移動ロボットへの位置の指示方法の提案

    去来川勇樹, 廣井富, 榊洋祐, 二神龍平, 中山貴之, 伊藤彰則

    バイオメカニズム学術講演会予稿集 31st 2010年

  121. 日常生活支援移動ロボットGoyaneの開発

    廣井富, 後藤基允, 山本祐三, 山根佑介, 稲田遥一, 大原達哉, 木村昭太, 久野修平, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2010 2010年

    ISSN:2424-3124

  122. 日常生活支援移動ロボットのためのロボットアバタを用いた動作予告法の比較

    廣井富, 大原達哉, 木村昭太, 久野修平, 伊藤彰則

    日本機械学会ロボティクス・メカトロニクス講演会講演論文集(CD-ROM) 2010 2010年

    ISSN:2424-3124

  123. 音声認識における言語モデル

    伊藤彰則

    日本音響学会誌 66 (1) 32-35 2010年1月

    DOI: 10.20697/jasj.66.1_32  

  124. マルチタスク型音声対話システムの対話制御のための発話識別 (言語理解とコミュニケーション)

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 109 (355) 37-42 2009年12月21日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

  125. WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価 (言語理解とコミュニケーション)

    増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 109 (355) 183-188 2009年12月21日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

  126. WWWを利用したトピック関連語推定に基づく言語モデル教師なし適応の性能評価

    増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三

    音声言語情報処理(SLP) 2009 (32) 1-6 2009年12月14日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識の高精度化のために,WWW 上から認識対象のトピックに関連したテキストを収集し,言語モデル適応を行う.我々は,認識対象の音声認識結果から全自動で検索クエリを生成する教師なしの方法に焦点を当てる.本稿では,WWW を利用して単語の関連性を表す特徴ベクトルを抽出することで,適切にトピック関連語およびサブトピックを推定する方法を提案した.そして,音声認識実験を行うことで提案法の有効性を確認した.To improve the accuracy of an LVCSR system, we gather topic-related documents from WWW, and adapt the language model. We focus on an unsupervised method that automatically generate search queries from an automatic transcription by a speech recognizer. In this paper, we proposed a new method to estimate topic-related word and sub-topic by extracting feature vectors from WWW, which express relevance between the words. We carried out a speech recognition experiment. The experimental result showed effectiveness of the proposed method.

  127. マルチタスク型音声対話システムの対話制御のための発話識別

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    音声言語情報処理(SLP) 2009 (7) 1-6 2009年12月14日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では容易に設計できるマルチタスク型音声対話システムを目的とし,そのシステムにおける対話制御と対話制御に必要な発話識別の方法を検討した.システム内では,確認応答型システムと一問一答型システムをサブシステムとして用いた.対話制御は発話識別部分と個々のサブシステムの対話制御部分で構成される.発話識別は話者の最初の発話に対する識別と,2 回目の発話に対する識別の 2 種類がある.音声認識結果とテキスト入力で識別実験を行ったところ,最初の発話に対する識別ではテキスト入力で 80% 以上の識別率が得られた.また 2 回目の発話に対する識別では音声入力で 100% 近くの識別率が得られた.We studied dialog control and a method of utterance discrimination for a multi-task spoken dialog system that combines multiple dialog systems. Framebased and example-based systems are used as subsystems for combination. Dialog control is composed of utterance discrimination and dialog controls which are used by each subsystem. The utterance discrimination was applied to both of first utterance and second utterance. We conducted a discrimination experiment. As a result, we obtained more than 80% accuracy in first discrimination and near 100% accuracy in second discrimination.

  128. 時間冗長性圧縮によるボコーダ型音声符号化の低ビット化

    木幡 稔, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 109 (308) 7-12 2009年11月19日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    これまでに筆者らは,連続情報源に含まれる時間的な冗長性を圧縮符号化する方式として,新しいセグメント量子化法であるLempel-Ziv Segment Quantization(LZSQ)を提案した.これは,離散情報源用の圧縮法であるLZ符号化を連続情報源に適用できるように修正したものである.本稿ではLZSQをボコーダ型の低ビット音声符号化方式に適用し,時間冗長性を圧縮することにより,さらなるビットレートの削減を試みる.標準化されているボコーダ型音声符号化方式の1つである2.4kb/sMELP符号化の6個の符号化パラメータにLZSQを適用し,MELP符号化と同等の音質を維持しつつ極限までビットレートを削減することを試みた.その結果,総ビットレートを約1.57kbit/sまで低減することができた.

  129. この曲、何だっけ? 歌で音楽を探す「歌声検索」

    伊藤彰則, 鈴木基之, 牧野正三

    DTM Magazine 16 (11) 100-101 2009年11月

    出版者・発行元:寺島情報企画

  130. An algorithm for fast calculation of back-off n-gram probabilities with unigram rescaling

    Masaharu Kato, Tetsuo Kosaka, Akinori Ito, Shozo Makino

    IAENG International Journal of Computer Science 36 2009年11月1日

    ISSN:1819-656X

    詳細を見る 詳細を閉じる

    Topic-based stochastic models such as the probabilistic latent semantic analysis (PLSA) are good tools for adapting a language model into a specific domain using a constraint of global context. A probability given by a topic model is combined with an n-gram probability using the unigram rescaling scheme. One practical problem to apply PLSA to speech recognition is that calculation of probabilities using PLSA is computationally expensive, that prevents the topic-based language model from incorporating that model into decoding process. In this paper, we proposed an algorithm to calculate a back-off n-gram probability with unigram rescaling quickly, without any approximation. This algorithm reduces the calculation of a normalizing factor drastically, which only requires calculation of probabilities of words that appears in the current context. The experimental result showed that the proposed algorithm was more than 6000 times faster than the naive calculation method.

  131. RE-005 局所変化率変換に基づく有声音声の正弦波モデル(自然言語・音声・音楽,査読付き論文)

    伊藤 仁, 伊藤 彰則

    情報科学技術フォーラム講演論文集 8 (2) 43-48 2009年8月20日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  132. 多段GMMおよびセグメントモデルを用いた異常音検出の検討

    相場 亮人, 伊藤 仁, 伊藤 彰則

    聴覚研究会資料 39 (5) 401-405 2009年8月3日

    出版者・発行元:日本音響学会聴覚研究委員会

    ISSN:1346-1109

  133. MP3パケットロス隠蔽における音質の客観評価に関する検討

    今野 清志, 伊藤 仁, 伊藤 彰則

    聴覚研究会資料 39 (5) 367-372 2009年8月3日

    出版者・発行元:日本音響学会聴覚研究委員会

    ISSN:1346-1109

  134. MP3パケットロス隠蔽における音質の客観評価に関する検討

    今野 清志, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. EA, 応用音響 109 (166) 37-42 2009年7月27日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,パケットロス隠蔽を適用したMP3音楽に対して有効な客観評価法について検討を行う.広帯域音楽信号の音質を客観的に評価する従来法としてはITU-R BS.1387で勧告されているPEAQがある.しかしながら,PEAQは主な劣化要因としてオーディオ圧縮コーデックによる劣化を対象にしており,パケットロス隠蔽音楽に対する評価性能は十分でない.そこで,PEAQにおける部分評価値であるMOVに対して重回帰分析を行い,パケットロス隠蔽音楽の音質予測に対して重要な要素を検討した.さらに,局所的に急激な劣化が発生した場合の音質への影響を反映するために,サブバンド毎のSNRの分散を評価指標に含めることで予測精度が向上した.これらの評価項目についてCross-Validationを行った結果,平均で約0.84の相関係数を得た.

  135. 多段GMMおよびセグメントモデルを用いた異常音検出の検討

    相場 亮人, 伊藤 仁, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. EA, 応用音響 109 (166) 71-75 2009年7月27日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本研究では,監視マイクロフォンのための異常音検出システムを提案する.提案システムは実際に監視場所で発生した日常音を学習したモデルを用いて,学習されていない音を異常音として検出する.これによって,検出対象を特定のイベントに限定しない,あらゆる異常に対応可能なシステムとなる.ここでは実環境の音を用いて実験を行い,提案システムの検出性能を評価した.発生率が小さい日常音をモデル化するために多段GMMの手法を用いると,システムの検出性能を向上させることができた.さらに,セグメント特徴量を用いて音響特徴量の動的変化を考慮することを検討した.

  136. 新博士によるパネルディスカッションIII 「私のための研究・価値を生み出す研究」

    伊藤 彰則, 安藤 大地, ルルー・ジョナトン, 中野 倫靖, 吉井 和佳

    研究報告音楽情報科学(MUS) 2009 (7) 1-5 2009年7月22日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    「新博士によるパネルディスカッション」は,最近博士号を取得した若い研究者の皆さんを集め,これまでの研究の紹介をしてもらうと同時に,音楽情報処理研究について若い視点からの議論を交す試みであり,今回で3回目になる.今年は,4名のパネリストに研究を熱く語っていただく.This event, "Panel Discussion Featuring Newly Honored Doctors" is to introduce young scholars' research, and to discuss various issues on music information science from young researchers' point of view. This year, we have four young researchers as panelists.

  137. 複数の音声対話システム併用のための発話識別

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告自然言語処理(NL) 2009 (15) 1-6 2009年5月14日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では複数の音声対話システムを併用することを目的とし,そのために必要な発話識別の方法を検討した.併用するシステムとして,確認応答型システムと一問一答型システムを用いた.識別の特徴量として発話の各タスクらしさを表すスコアと音声認識結果の尤度を用いた.発話識別は特徴量の大小比較とニューラルネットで行った.音声認識結果が1-best時とN-best時の両方で識別実験を行ったところ,80%以上の正解率を得るとともにN-best時の方が正解率が向上することが分かった.We studied a method of utterance discrimination for a spoken dialog system that combines multiple dialog systems. Frame-based and example-based systems are used as systems for combination. We used similarities to tasks and likelihood obtained by a speech recognizer as features for the discrimination. A discrimination function is composed by a neural network. We conducted a discrimination experiment using 1-best and n-best recognition results of the speech recognizer. As a result, we obtained more than 80% accuracy, and the result by the n-best candidates was better than that by the 1-best candidate.

  138. 複数の音声対話システム併用のための発話識別

    粟野 健太郎, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音声言語情報処理(SLP) 2009 (15) 1-6 2009年5月14日

    出版者・発行元:情報処理学会

    ISSN:1884-0930

    詳細を見る 詳細を閉じる

    本稿では複数の音声対話システムを併用することを目的とし,そのために必要な発話識別の方法を検討した.併用するシステムとして,確認応答型システムと一問一答型システムを用いた.識別の特徴量として発話の各タスクらしさを表すスコアと音声認識結果の尤度を用いた.発話識別は特徴量の大小比較とニューラルネットで行った.音声認識結果が1-best時とN-best時の両方で識別実験を行ったところ,80%以上の正解率を得るとともにN-best時の方が正解率が向上することが分かった.We studied a method of utterance discrimination for a spoken dialog system that combines multiple dialog systems. Frame-based and example-based systems are used as systems for combination. We used similarities to tasks and likelihood obtained by a speech recognizer as features for the discrimination. A discrimination function is composed by a neural network. We conducted a discrimination experiment using 1-best and n-best recognition results of the speech recognizer. As a result, we obtained more than 80% accuracy, and the result by the n-best candidates was better than that by the 1-best candidate.

  139. WWW を利用した言語モデル適応のための検索クエリ構成の検討

    増村 亮, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音声言語情報処理(SLP) 2009 (10) 1-8 2009年5月14日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において,高精度な認識を実現する有効な手段として,認識対象にマッチしたテキストを収集し,認識対象に適応した言語モデルを作成する方法がある.この言語モデル適応のために,WWW (World Wide Web) から自動的に認識対象にマッチしたテキストの収集を行う.WWW からテキストを得るには,検索のためのクエリを構成する必要がある.本研究では,認識対象の未知語を獲得するような検索クエリの自動構成方法について検討を行った.To improve the accuracy of an LVCSR system, it is effective to gather text data related to the topic of the input speech and adapts the language model using the text data. To create an adapted language model, we collect topicrelated text automatically from the WWW(World Wide Web). Search query is necessary for retrieving topic-related text from the WWW. In this paper, we investigate automatic composition of a search query to acquire out-of-vocabulary words of the input speech.

  140. 複数 F0 候補データベースによる歌声楽曲検索の検討

    小杉 優, 伊藤 仁, 伊藤 彰則, 牧野 正三

    研究報告音楽情報科学(MUS) 2009 (6) 1-6 2009年5月14日

    出版者・発行元:情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では,複数 F0 候補を持つデータベースを用いた歌声楽曲検索について検討する.ここでは,CD 等の音響信号から自動的にメロディーラインの基本周波数 (F0) 候補を複数選択し,データベースとして保持する.上記データベースに対し,楽曲検索を行う手法について検討した.その結果,F0 候補を複数個使用することによって,単独 F0 を用いた場合の 1 位正解率を,29.2% から 41.7%,10 位以内正解率を 58.3% から 70.8% まで改善することができ,F0 候補を複数個持つことの優位性が確かめられた.In this paper, we propose a melody-based music information retrieval that uses a database with multiple F0 candidates. This database contains multiple F0 candidates of melody lines extracted from acoustic signals such as CDs, automatically. We conducted an experiment of music retrieval using the proposed database. The experimental result showed that the retrieval accurary of the top candidate was improved from 29.2% to 41.7%, and that of the top 10 candidates was improved from 58.3% to 70.8%. This result proved the effectiveness of the proposed method.

  141. ビットストリームパターン再構成によるFlash Videoの適応的Multiple Description符号化

    倉石 卓也, 伊藤 仁, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 71 275-276 2009年3月10日

  142. ハミング楽曲検索のための音響信号からのデータベース生成の検討

    小杉 優, 伊藤 仁, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 71 237-238 2009年3月10日

  143. DS-3-8 ADPCMを利用した情報ハイディングのビットレート制御(DS-3.マルチメディア情報ハイディング,シンポジウムセッション)

    半田 浩規, 伊藤 彰則, 鈴木 陽一

    電子情報通信学会総合大会講演論文集 2009 (2) "S-33"-"S-34" 2009年3月4日

    出版者・発行元:一般社団法人電子情報通信学会

  144. 日常生活支援型移動ロボットのためのロボットアバタを用いた動作予告の実装

    廣井富, 後藤基允, 山本祐三, 大原達哉, 木村昭太, 伊藤彰則

    日本ロボット学会学術講演会予稿集(CD-ROM) 27th 2009年

  145. Novel tonal feature and statistical user modeling for query-by-humming

    Motoyuki Suzuki, Takuto Ichikawa, Akinori Ito, Shozo Makino

    Journal of Information Processing 17 95-105 2009年

    出版者・発行元:Information Processing Society of Japan

    DOI: 10.2197/ipsjjip.17.95  

    ISSN:1882-6652 0387-5806

    詳細を見る 詳細を閉じる

    This paper describes a query-by-humming (QbH) music information retrieval (MIR) system based on a novel tonal feature and statistical modeling. Most QbH-MIR systems use a pitch extraction method in order to obtain tonal features of an input humming. In these systems, pitch extraction errors inevitably occur and degrade the performance of the system. In the proposed system, a cross-correlation function between two logarithmic frequency spectra is calculated as a tonal feature instead of a difference of two successive pitch frequencies, and probabilistic models are prepared for all tone intervals existing in the database. The similarity scores between an input humming and musical pieces in a database are calculated using the probabilistic models. The advantages of this system are that it can obtain more appropriate tonal features than the pitch-based method, and it is also robust against inaccurate humming by the user thanks to its statistical approach. From experimental results, the top-1 retrieval accuracy given by the proposed method was 86.8%, which was more than 10 points higher than the conventional single pitch method. Moreover, several integration methods were applied to the proposed method with several conditions. The majority decision method showed the highest accuracy, and 5% reduction of retrieval error was obtained.

  146. Evaluation of English Intonation based on Combination of Multiple Evaluation Scores

    Akinori Ito, Tomoaki Konno, Masashi Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 596-599 2009年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    In this paper, we proposed a novel method for evaluating intonation of an English utterance spoken by a learner for intonation learning by a CALL system. The proposed method is based on an intonation evaluation method proposed by Suzuki et al., which uses "word importance factors," which are calculated based on word clusters given by a decision tree. We extended Suzuki 's method so that multiple decision trees are used and the resulting intonation scores arc combined using multiple regression. As a result of an experiment, we obtained correlation coefficient comparable to the correlation between human raters.

  147. Relative importance of formant and whole-spectral cues for vowel perception

    Masashi Ito, Keiji Ohara, Akinori Ito, Masafumi Yano

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 132-+ 2009年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    Three psycho-acoustical experiments were carried out to investigate relative importance of formant frequency and whole spectral shape as cues for vowel perception. Four types of vowel-like signals were presented to eight listeners. The mean responses for stimuli including both formant and amplitude-ratio feature were quite similar to those for the stimuli including only formant peak feature. Nonetheless reasonable vowel changes were observed in responses for stimuli including only amplitude-ratio feature. The perceived vowel changes were also observed even for stimuli including neither of these features. The results suggested that perceptual cues were involved in various parts of vowel spectrum.

  148. Detailed description of triphone model using SSS-free algorithm

    Motoyuki Suzuki, Daisuke Honma, Akinori Ito, Shozo Makino

    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 1403-+ 2009年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    The triphone model is frequently used as an acoustic model. It is effective for modeling phonetic variations caused by coarticulation. However, it is known that acoustic features of phonemes are also affected by other factors such as speaking style and speaking speed. In this paper, a new acoustic model is proposed. All training data which have the same phoneme context are automatically clustered into several clusters based on acoustic similarity, and a "sub-triphones" is trained using training data corresponding to a cluster. In experiments, the sub-triphone model achieved about 5% higher phoneme accuracy than the triphone model.

  149. Multiple description coding of flash video based on adaptive allocation of DCT coefficients 査読有り

    Akinori Ito, Takuya Kuraishi, Masashi Ito, Shozo Makino

    APSIPA ASC 2009 - Asia-Pacific Signal and Information Processing Association 2009 Annual Summit and Conference 453-456 2009年

    詳細を見る 詳細を閉じる

    In this paper, we propose a method for multiple description coding (MDC) of Flash Video stream (FLV). Our target codec of FLV is Sorenson H.263. Conventional MDC methods had disadvantages that they required large redundancy. We proposed a method that considers "patterns" of a macroblock, and it changes how to treat DCT coefficients of a macroblock according to the pattern. As an experimental result, we could reduce redundancy of the encoded stream while keeping the video quality.

  150. PLSA言語モデル適応におけるアニーリングスケジュールの評価

    加藤正治, 小坂 哲夫, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (123) 49-53 2008年12月2日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    潜在的意味解析 (PLSA) の学習においてアニーリングを行うことは局所最適解に陥ることを防ぐ意味で重要である.本報告では,アニーリングスケジュールを連続関数で定義することで明確化し網羅的な比較検討をする.提案法を 「日本語話し言葉コーパス (CSJ) 」 の講演音声で評価しところ,増加関数に基づくアニーリングスケジュールで作成した言語モデルは, 28.7% のパープレキシテイ削減と 5.3% の単語誤り率の改善を得た.Probabilistic Latent Semantic Analysis (PLSA) is a powerful statistical laguage model. However the PLSA has the local maxima problem. To overcame this problem, the EM annealing algorithm has been proposed. In this paper, we designed annealing schedule /3 with some continuous functions. As a result, we found that increas ing functions and square root functions are the best for annealing schedule. In the experiment, we obtain 28.7% perplexity reduction and 5.3% word error rate reduction.

  151. 質問応答データベースの自動作成に基づく音声対話システムの評価

    森本 高弘, 伊藤 仁, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108 (337) 267-272 2008年12月2日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    一問一答形式の音声対話システムにおいて質問応答データベースを用いた用例ベースの応答生成は様々な発話に頑強だが,新たなシステム設計はコストが大きい.本研究ではコスト削減のため,用例の種類ごとに用意されたテンプレートを用いて質問応答データベースを自動作成する方法について検討,評価を行う.結果,人手で作成した質問応答データベースを用いた場合と自動作成した質問応答データベースを用いた場合でとほぼ同様の性能を示すができた.また,F値を用いたスコアリング方法を提案し,従来法を用いた場合よりも応答正解率が改善した.

  152. PLSA言語モデル適応におけるアニーリングスケジュールの評価

    加藤 正治, 小坂 哲夫, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 108 (337) 49-53 2008年12月2日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    潜在的意味解析(PLSA)の学習においてアニーリングを行うことは局所最適解に陥ることを防ぐ意味で重要である.本報告では,アニーリングスケジュールを連続関数で定義することで明確化し網羅的な比較検討をする.提案法を「日本語話し言葉コーパス(CSJ)」の講演音声で評価しところ,増加関数に基づくアニーリングスケジュールで作成した言語モデルは,28.7%のパープレキシティ削減と5.3%の単語誤り率の改善を得た。

  153. 質問応答データベースの自動作成に基づく音声対話システムの評価

    森本 高弘, 伊藤仁, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (123) 267-272 2008年12月2日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    一問一答形式の音声対話システムにおいて質問応答データベースを用いた用例ベースの応答生成は様々な発話に頑強だが,新たなシステム設計はコストが大きい本研究ではコスト削減のため,用例の種類ごとに用意されたテンプレートを用いて質問応答データベースを自動作成する方法について検討,評価を行う結果,人手で作成した質問応答データベースを用いた場合と自動作成した質問応答データベースを用いた場合でとほぼ同様の性能を示すができた.また, F 値を用いたスコアリング方法を提案し,従来法を用いた場合よりも応答正解率が改善した.A question-and-answer style spoken dialog system based on example-based answer generation is known to be robust against variation of user utterances. However, it is costly to create QA database for a new task. In this paper, we proposed a method to reduce cost of preparing the database by generating the database automatically from templates. As a result, we obtained almost same performance using the automatically generated QA database compared with the manually prepared database. In addition, we propose a new scoring method to choose an answer based on F-measure,which improved the accuracy of answer selection.

  154. Multiple description coding of an audio stream by optimum recovery transforms

    Akinori Ito, Shozo Makino

    Journal of Digital Information Management 6 189-195 2008年12月1日

    ISSN:0972-7272

    詳細を見る 詳細を閉じる

    In this paper, we discuss a method of splitting one audio stream into two equal-quality streams and recover the original audio stream from only one of the split streams. From a mathematical consideration, it is found that the sum of errors of two recovered signals is equal to the power of the original signal if simple recovery is carried out. Next, we describe the optimum recovery transform. This method utilizes the covariance matrix of the signal to minimize the error of the recovered signal. We carried out several experiments to recover a signal from one of the split signals. The result showed that the optimum recovery transform gave better results than the simple recovery, while the best splitting transform differed according to the signal to be processed.

  155. I-021 動き情報を用いたビットストリームパターン推定によるFlash VideoのMultiple Description符号化(グラフィクス・画像,一般論文)

    倉石 卓也, 伊藤 仁, 伊藤 彰則, 牧野 正三, 鈴木 基之

    情報科学技術フォーラム講演論文集 7 (3) 241-242 2008年8月20日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  156. 正弦波モデルに基づく高品質音声変調の検討

    伊藤 仁, 小原 桂二, 伊藤 彰則

    聴覚研究会資料 38 (5) 513-518 2008年8月4日

    出版者・発行元:日本音響学会聴覚研究委員会

    ISSN:1346-1109

  157. 正弦波モデルに基づく高品質音声変調の検討

    伊藤 仁, 小原 桂二, 伊藤 彰則, 矢野 雅文

    電子情報通信学会技術研究報告. EA, 応用音響 108 (179) 41-46 2008年7月28日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    有声音声は音源信号と声道フィルタの畳み込みとして表現できるが、音声の非定常部においては特に声道フィルタの位相特性を正確に推定することが困難である。この問題に対応するために、正弦波モデルに基づいて基本周波数と声道フィルタの振幅・位相特性を推定する音響分析手法を提案する。この手法は、正弦波パラメータの推定、基本周波数の推定、声道フィルタ特性の補間という3段階の処理で構成され、各段階における分析精度を調べるために3つの心理物理実験を行った。実験IとIIの結果から、提案手法は入力音声の正弦波パラメータと基本周波数を知覚的に十分な精度で推定できることが分かった。また実験IIIの結果から、入力音声の調波構造の谷に対応する周波数において位相特性の知覚的な補間精度が十分ではないことが明らかになった。従って、提案手法により推定されたパラメータは、高品質の話速変換には応用可能だがピッチ変換への応用は困難であると結論付けられる。

  158. 合成音声と評価スコア統合に基づく英語のイントネーション評価

    今野 智明, 伊藤 仁, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 108 (142) 37-42 2008年7月12日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本報告では,CALLシステムにおける合成音声を用いた英語のイントネーション評価システムについて述べる.学習者発話のイントネーションを評価するためには,その教師となる母語話者の発話を用いる必要がある.しかしながら,システムで使う全ての文に対してその母語話者音声を収集するのはコストがかかってしまう.そこで,その教師音声としてTTSシステムによって生成された合成音声を用いることにした.イントネーション評価システムでは,学習者発話とそれに対応する複数の教師発話との間でそれぞれ評価スコアを求めるが,それら複数のスコアを統合する方法について検討した.また,リズムを表すような特徴量をイントネーション特徴量に統合してイントネーションを評価することについて検討を行った.その結果として,人間による評定値とシステムによるスコアとの相関の改善が得られた.さらに,システム性能を高めるため,評価対象発話を各種条件で制限して,どのような発話には精度良く評価できるかということについて分析した.

  159. 統計的言語モデル : 何が問題なのか?

    伊藤 彰則

    情報処理学会研究報告音声言語情報処理(SLP) 2008 (68) 43-46 2008年7月11日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    統計的言語モデルは,連続音声認識のための言語モデルとして広く用いられている.特に back-off n-gram は連続音声認識の言語モデルの標準といっても良い一方,n-gram を超える言語モデルは多数提案されてきたが,n-gram (特に trigram) を大きく凌ぐ言語モデルはまだ発見されていない.本稿では,n-gram が持つ問題点,それに対するいくつかの提案について述べ,現在の統計的言語モデルに足りないもの,それを補うかもしれないものについて議論する.Statistical language models are widely used as language models for large vocabulary continuous speech recognition. Above all, a back-off n-gram is a de facto standard as a language model for speech recognition. Number of models have been proposed so far for overcoming the back-off n-gram, but none of them has achieved large improvement over the back-off trigram. In this paper, various language models are briefly reviewed, and I give some suggestions what is needed for current language models, and discuss possibilities of improving language models.

  160. Multiple Description符号化を用いたFlash Videoストリーミングのパケットロス補償に関する検討

    倉石 卓也, 鈴木 基之, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 70 (0) 107-108 2008年3月13日

  161. DS-4-3 ADPCMを規範に用いたlogPCMへの下位ビット置換法の提案(DS-4. マルチメディア情報ハイディング,シンポジウムセッション)

    阿部 俊一郎, 伊藤 彰則, 鈴木 陽一

    電子情報通信学会総合大会講演論文集 2008 (2) "S-23"-"S-24" 2008年3月5日

    出版者・発行元:一般社団法人電子情報通信学会

  162. 複数の音程特徴量によるハミング入力楽曲検索システムの高精度化

    市川 拓人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音楽情報科学(MUS) 2008 (12) 7-12 2008年2月8日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では,基本周波数(F0)の抽出を行わないハミング入力楽曲検索システムについて検討する.F0の抽出は,どれほど高精度なものでも抽出誤りを避けることが完全にはできず,検索精度を低下させる原因となっている.また,F0の抽出は適切に抽出されても,歌唱者の音高自体が誤っていることで,検索性能が低下するという問題も存在する.これらの問題に対し我々は以前,2つの対数周波数領域パワースペクトルの相互相関関数を音程特徴量として提案し,F0の代わりに音程特徴量,さらには音程特徴量の確率モデルを用いたハミング検索システムを構築した.検索実験の結果,提案手法を用いることで検索システムが高精度化することが確かめられた.本稿では前述の相互相関関数のピーク音程を音程特徴量として抽出し,検索システムの性能をさらに向上させることを検討する.また,以前に提案した音程特徴量,今回提案する音程特徴量それぞれを用いた時の検索結果を統合することで,それぞれの検索誤りを補正することを検討する.そして実際に検索実験により提案手法を導入した検索システムは,F0を用いた時の検索精度を13.2%回る結果となった.This paper describes a query-by-humming (QbH) music information retrieval (MIR) system without F0 extraction. In F0 extraction based system, F0 extraction errors inevitably occur that degrades performance of the system. Furthermore, errors in pitch of sung data degrade performance of the system, too. To improve these problems, we have propose an MIR system that used a musical interval feature and probabilistic models. The performance of the proposed system exceeded the system based F0 extraction. In this paper, we use peak interval of the cross-correlation function as a tonal feature to improve performance of the system. In addition, we integrated multiple retrieval result to obtain better recognition result. From an experimented result, the top retrieval accuracy given by the proposed method have exceeded the system based F0 extraction by 13.2%.

  163. 正弦波モデルに基づく高品質音声変調の検討

    伊藤仁, 小原桂二, 伊藤彰則, 矢野雅文

    信学技報 EA2008-52 (15067) 2008年

  164. 正弦波モデルに基づく非定常音声の分析と変調

    伊藤仁, 小原桂二, 伊藤彰則, 矢野雅文

    日本音響学会秋季研究発表会講演論文集 3-4-5. 2008年

  165. Are Bigger Robots Scary? - The Relationship Between Robot Size and Psychological Threat -

    Yutaka Hiroi, Akinori Ito

    2008 IEEE/ASME INTERNATIONAL CONFERENCE ON ADVANCED INTELLIGENT MECHATRONICS, VOLS 1-3 546-551 2008年

    出版者・発行元:IEEE

    DOI: 10.1109/AIM.2008.4601719  

    ISSN:2159-6255

    詳細を見る 詳細を閉じる

    Human symbiosis service robots of various sizes have already been developed. However, few quantitative investigations have been made concerning the influence of the size of a robot on a user's impression. We focused on the height of a robot (robot size), investigating the effect of robot size on the anxiety or threat felt by a human to be caused by a robot and the appropriate human-robot distance. We prepared three mobile robots that were 0.6 m, 1.2 m and 1.8 m tall. One of these robots approached a male subject from a distance of 3 m, at a maximum speed of 0.4 m/s, and the subject stopped the robot using a switch when he began to feel anxious. We measured the distance between the human and the robot when the subject stopped the robot. Then, we asked the subject to complete a questionnaire to evaluate differences in anxiety levels caused by robots of different sizes. As a result of the experiment based on 19 subjects, we were able to observe a tendency for the human-robot distance to increase along with the size of the robot. From the questionnaires, we found that the subjects felt most anxious with the 1.8-m-tall robots, but that some subjects also experienced anxiety with the 0.6-m-tall robots. Considering both the experimental results and the questionnaires, we conclude that 1.2 m is better than other two sizes.

  166. A Fast Speaker Adaptation Method using Aspect Model

    Seongjun Hahm, Akinori Ito, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 1221-1224 2008年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    We propose a fast speaker adaptation method using an aspect model. The performance of speaker independent (SI) model is very sensitive to environments such as microphones, speakers, and noises. Speaker adaptation techniques try to obtain near speaker dependent (SD) performance with only small amounts of specific data and are often based on initial SI model. One of the most important purposes for adaptation algorithms is to modify a large number of parameters with only a small amount of adaptation data. The number of free parameters to be estimated from adaptation data can be reduced by using aspect model. In this paper, we introduce an aspect model into an acoustic model for rapid speaker adaptation. A formulation of probabilistic latent semantic analysis (PLSA) is extended to continuous density HMM. We carried out an isolated word recognition experiment on Korean database, and the results are compared to those of conventional expectation maximization (EM) algorithm, maximum a posteriori (MAP) and maximum likelihood linear regression (MLLR).

  167. Recognition of English Utterances with Grammatical and Lexical Mistakes for Dialogue-based CALL System

    Akinori Ito, Ryohei Tsutsui, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 2819-2822 2008年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    Our goal is to develop a voice-interactive CALL system which enables language learners to practice words, phrases, and grammars interactively. Such a system must be able to recognize learner's utterances correctly. To enable the recognition of utterances containing grammatical mistakes, we used an n-gram language model trained from generated text. The proposed model achieved recognition performance similar to that of a language model based on a finite-state automaton and manual error rules. We then introduced two error correction techniques to improve recognition performance. One method used the Levenshtein distance between the target sentence and the recognized sentence. The other method used an error-corrective model based on POS n-gram features. The experimental results showed that both methods were able to improve recognition performance.

  168. Discrimination of Task-Related Words for Vocabulary Design of Spoken Dialog Systems

    Akinori Ito, Toyomi Meguro, Shozo Makino, Motoyuki Suzuki

    INTERSPEECH 2008: 9TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2008, VOLS 1-5 207-+ 2008年

    出版者・発行元:ISCA-INT SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    This paper describes a method used to determine if a specific word is related to a certain spoken dialog task. In most ordinary spoken dialog systems, only the words that are actually used to achieve the task are included in the vocabulary. Therefore, the system cannot recognize utterances that contain OOV words that arc related to the task. Therefore, we developed a method for determining the words that are related to a specified task in order to augment the system's vocabulary. Our method is based on word similarity. We examined three similarities: word occurrence frequency on the Web, distance in a thesaurus and word similarity using LSA. The experiment revealed that the thesaurus-based and LSA-based methods have an OOV problem. To solve the problem, we developed a way to combine these two methods with the Web-based method. In addition, we tried combining the methods using the AdaBoost algorithm.

  169. Automatic Clustering of Part-of-speech for Vocabulary Divided PLSA Language Model

    Motoyuki Suzuki, Naoto Kuriyama, Akinori Ito, Shozo Makino

    IEEE NLP-KE 2008: PROCEEDINGS OF INTERNATIONAL CONFERENCE ON NATURAL LANGUAGE PROCESSING AND KNOWLEDGE ENGINEERING 289-+ 2008年

    出版者・発行元:IEEE

    DOI: 10.1109/NLPKE.2008.4906747  

    詳細を見る 詳細を閉じる

    PLSA is one of the most powerful language models for adaptation to a target speech. The vocabulary divided PLSA language model (VD-PLSA) shows higher performance than the conventional PLSA model because it can be adapted to the target topic and the target speaking style individually. However, all of the vocabulary must be manually divided into three. categories (topic, speaking style, and general category). In this paper, an automatic method for clustering parts-of-speech (POS) is proposed for VD-PLSA. Several corpora with different styles are prepared, and the distance between corpora in terms of POS is calculated. The "general tendency score" and "style tendency score" for each POS are calculated based on the distance between corpora. All of the POS are divided into three categories using two scores and appropriate thresholds. Experimental results showed the proposed method formed appropriate clusters, and VD-PLSA with acquired categories gave the highest performance of all other models. We applied the VD-PLSA into large vocabulary continuous speech recognition system. VD-PLSA improved the recognition accuracy for documents with lower out-of-vocabulary ratio, while other documents were not improved or slightly descended the accuracy.

  170. 音声対話システムにおけるタスク外発話処理の高度化に関する研究

    目黒 豊美, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 283-287 2007年12月21日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    音声対話システムにおいて,従来のように記述文法で受理できる文章か受理できない文章かという識別だけでは,柔軟な対応をするためには不十分である.そこで,本研究では、意味的にタスクに沿っている文章かそうでない文章か識別することを目的とする.まず,記述文法を用いた音声認識と大語彙連続音声認識のスコアを用いて,受理可能な文と,受理不可能な文の識別を行ない,正解率 98%という高い確率で識別することを確認した.続いて,受理不可能な文がタスク内の発話かタスク外の発話かを識別するため,受理可能文と比較し,単語の意味的距離を調べ,意味が似ていればタスク内,意味が似ていなければタスク外とする手法を検討した.複数の単語類似度を比較し,平均して 90%程度の正解率を得ることができた.しかし,コーパス等に収録されていない単語については値を与えることができないなど,課題が残った.In a small task, to be able to do more flexible processing, the utterance that relates to the task is recognized by the written grammar and the utterance that did not relate to the task is recognized by a large vocabulary speech recognition. Then, the technique for identifying sentences that do not relate to sentences that relate to the task by using semantic distance between words of the noun is examined in this paper.

  171. Aspect モデルを用いた話者と環境適応音声認識システムの検討

    咸聖俊, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 115-118 2007年12月20日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    適応アルゴリズムで重要な点の1つとして,少ない適応データを利用して多くのパラメタを推定することがある.話者適応では,少量の発話を話者独立システムに組み込んで,その性能を話者依存システムに近づけることを目指す.本研究では,aspect model に基づく音響モデルを用いて話者適応を行うことを目指す.言語モデルに用いられる PLSA と類似の方法を音響モデルについて定式化し,これを用いて話者適応を行った.提案法を代表的な話者適応方法である MAP 推定法と MLLR 法と比較検討し,孤立単語認識での結果を比較分析する.One of the key issues for adaptation algorithms is to modify a large number of parameters with only a small amount of adaptation data. Speaker adaptation techniques try to obtain near speaker dependent (SD) performance with only small amounts of specific data and are often based on initial speaker independent (SI) recognition systems. In this paper, we introduce an aspect model into an acoustic model for rapid speaker and environment adaptation. A formulation of probabilistic latent semantic analysis (PLSA) is extended to continuous density HMM. We carried out isolated word recognition experiment, and the results was compared to that of MAP and MLLR.

  172. 生成したテキストの Ngram を用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化

    筒井 良平, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 125-130 2007年12月20日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    英語学習者がコンピュータを利用して対話練習をできるようなシステムを構築するには,学習者の音声を発話した通りに認識することが必要である.そこで,ここでは,対話時の日本人英語を高精度に認識する方法を検討する.まず,音響モデルに関して検討を行い,よく用いられる3状態 HMM よりも4状態 HMM や5状態 HMM の方が性能がよくなることがわかった.さらに,自動生成したテキストから学習した Ngram を言語モデルとして用いて音声認識を行うことで,オートマトンを用いた方法に比べ認識性能が向上した.また,正解文との距離を用いてスコアの再計算を行う手法を提案し,これによって認識率が改善した.Our goal is to develop a voice interactive CALL system which enables langage learners to practice words, phrases, and grammars interactively. In order to develop such a system, it is necessary to recognize learner's utterances correctly. We found that 4 or 5 states HMM works better than 3 states HMM in the case of recognition of English spoken by Japanese native speakers. Ngram language model trained from generated text achieves heigher speech recognition accuracy than FSA(Finite States Automata) language model.

  173. パス数削減や平滑化法を用いた SSS-free による音素認識の高精度化

    本間 大輔, 大河雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2007 (129) 131-135 2007年12月20日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    SSS-free で構築された HMnet に基づく音響モデルの各パスは,音素環境,話速等の何らかの環境を表している.しかし SSS-free は構築後の各パスがどの環境に対応したモデルかが分からないという問題点があるため,認識実験に用いる場合には何らかの工夫が必要となる.そこで学習データにおけるパスの接続からパス間に接続確率を与え実験を行ったところ,接続確率の学習データへの特化が原因で認識率にあまり改善が見られなかった.そこで本報告では,クラス N-gram による接続確率の平滑化法,SSS-mix によるパス数削減法を提案した.特定話者における音素認識実験において,提案した両手法は接続確率分布の特化をある程度防ぐことができ,従来法よりも良い結果を出すことができた.When carrying out phoneme recognition with SSS-free HMnet's path connection probability, as probability is specialization for training data, phoneme accuracy don't improve. In this paper, We propose smoorhing method and cutting number of paths Method. In phoneme recognition for specific speaker, as a result both of methods prevent connection probability's specialization, phoneme accuracy improve better than conventonal method.

  174. パス数削減や平滑化法を用いた SSS-free による音素認識の高精度化

    本間 大輔, 大河 雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 131-135 2007年12月13日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    SSS-freeで構築されたHMnetに基づく音響モデルの各パスは,音素環境,話速等の何らかの環境を表している.しかしSSS-freeは構築後の各パスがどの環境に対応したモデルかが分からないという問題点があるため,認識実験に用いる場合には何らかの工夫が必要となる.そこで学習データにおけるパスの接続からパス間に接続確率を与え実験を行ったところ,接続確率の学習データへの特化が原因で認識率にあまり改善が見られなかった,そこで本報告では,クラスN-gramによる接続確率の平滑化法,SSS-mixによるパス数削減法を提案した.特定話者における音素認識実験において,提案した両手法は接続確率分布の特化をある程度防ぐことができ,従来法よりも良い結果を出すことができた.

  175. Aspect モデルを用いた話者と環境適応音声認識システムの検討

    咸 聖俊, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 115-118 2007年12月13日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    適応アルゴリズムで重要な点の1つとして,少ない適応データを利用して多くのパラメタを推定することがある.話者適応では, 少量の発話を話者独立システムに組み込んで,その性能を話者依存システムに近づけることを目指す.本研究では,aspect modelに基づく音響モデルを用いて話者適応を行うことを目指す.言語モデルに用いられるPLSAと類似の方法を音響モデルについて定式化し,これを用いて話者適応を行った.提案法を代表的な話者適応方法であるMAP推定法とMLLR法と比較検討し,孤立単語認識での結果を比較分析する.

  176. 音声対話システムにおけるタスク外発話処理の高度化に関する研究

    目黒 豊美, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 283-287 2007年12月13日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声対話システムにおいて,従来のように記述文法で受理できる文章か受理できない文章かという識別だけでは,柔軟な対応をするためには不十分である.そこで,本研究では、意味的にタスクに沿っている文章かそうでない文章か識別することを目的とする.まず,記述文法を用いた音声認識と大語彙連続音声認識のスコアを用いて,受理可能な文と,受理不可能な文の識別を行ない,正解率98%という高い確率で識別することを確認した.続いて,受理不可能な文がタスク内の発話かタスク外の発話かを識別するため,受理可能文と比較し,単語の意味的距離を調べ,意味が似ていればタスク内,意味が似ていなければタスク外とする手法を検討した.複数の単語類似度を比較し,平均して90%程度の正解率を得ることができた.しかし,コーパス等に収録されていない単語については値を与えることができないなど,課題が残った.

  177. 生成したテキストの Ngram を用いた英語学習者による文法誤りを含んだ発話の音声認識の高精度化

    筒井 良平, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (406) 125-130 2007年12月13日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    英語学習者がコンピュータを利用して対話練習をできるようなシステムを構築するには,学習者の音声を発話した通りに認識することが必要である.そこで,ここでは,対話時の日本人英語を高精度に認識する方法を検討する.まず,音響モデルに関して検討を行い,よく用いられる3状態HMMよりも4状態HMMや5状態HMMの方が性能がよくなることがわかった.さらに,自動生成したテキストから学習したNgramを言語モデルとして用いて音声認識を行うことで,オートマトンを用いた方法に比べ認識性能が向上した.また,正解文との距離を用いてスコアの再計算を行う手法を提案し,これによって認識率が改善した.

  178. 「おかしな言語」の楽しみ(ちょっとしたエッセイ,コーヒーブレーク)

    伊藤 彰則

    日本音響学会誌 63 (11) 696-696 2007年11月1日

    出版者・発行元:一般社団法人日本音響学会

    ISSN:0369-4232

  179. 1〜2ビットで相関を増やすには?

    伊藤 彰則, 牧野 正三

    聴覚研究会資料 37 (7) 509-514 2007年8月9日

    出版者・発行元:日本音響学会聴覚研究委員会

    ISSN:1346-1109

  180. 1-2ビットで相関を増やすには?

    伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. EA, 応用音響 107 (186) 1-6 2007年8月2日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,2つの値に1〜2ビットの情報を付加することにより,2つの値の相関を高める方法について検討する.1ビットを用いる方法については,「1ビット量子化」「符号訂正」「差の1ビット量子化」の3つの方法を検討する.また,2ビットを用いる場合は,「2ビット量子化」「符号訂正+差の1ビット量子化」「差の2ビット量子化」などの方法を検討する.理論的な検討およびシミュレーション実験により,元の値の相関が低い場合には量子化に基づく方法がよく,元の値の相関が高い場合には「差の量子化」に基づく方法の性能がよいことが示唆された.また,PCM符号化された音楽信号のMD符号化に本手法を適用し,その性能を評価した.

  181. 音程特徴量の確率分布を考慮したハミング入力楽曲検索システム

    市川 拓人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音楽情報科学(MUS) 2007 (81) 33-38 2007年8月1日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では,ピッチ抽出を行わないハミング入力楽曲検索システムについて検討する.ピッチ抽出は,どれほど高精度なものでもピッチ抽出誤りを避けることができず,検索精度を低下させる原因となっている.本システムでは,従来用いられているデルタピッチの代わりに,2つの対数周波数領域パワースペクトルの相互相関関数を音程特徴量として用い,さらに楽曲中に存在しているであろう全音程の確率モデルを用意しておく.連続する2つの音符が観測された時,この特徴量と確率モデルを用いて,全音程についての尤度を計算する.このシステムの利点は,統計的なモデル化を行うことにより,ピッチ抽出誤りのような致命的な誤りを起こしにくいということである.そして実際に検索実験を行ったところ,ピッチによる検索精度を最大4.9%上回る結果となった.This paper describes a query-by-humming (QbH) music information retrieval (MIR) system without pitch extraction. In pitch extraction based system, pitch extraction errors inevitably occur that degrades performance of the system. In this system, a cross-correlation function between two logarithmic frequency spectra is extracted as a tonal feature instead of deltaPitch, and probabilistic models are prepared for all tone intervals assumed to exist in the music. When two signals corresponding to two contiguous notes are given, likelihoods are calculated for all possibility of tone intervals. The advantage of this system is that it is hard to occur a fatal error such as a pitch extraction error because extracted features are modeled stochastically. From a experimented result, the top retrieval accuracy given by the proposed method have exceeded the system based pitch extraction by 4.9 %.

  182. 雑音環境下における呼びかけ音声の検出と到来方向の同定

    鈴木 基之, 北舘 航太, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 107 (116) 67-72 2007年6月21日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声などを含む雑音環境下において,特定の「呼びかけ語」が話された時にそれを検出し,同時にその到来方向を推定するシステムを提案する。様々な方向に対し,遅延和アレイを用いて到来する音信号を抽出し,連続DPとFrame Relation Matrixを組み合わせて呼びかけ語の検出を行う。その後それぞれの方向における音のパワーと呼びかけ語の検出スコアを考慮して到来方向の推定を行う。複数のスピーカーを用い,3モーラの呼びかけ語と音楽や朗読音声などの雑音を0〜20dBで同時に再生させた条件において,再現率95%,適合率96%程度の精度で呼びかけ語の検出と方向同定を行うことができた。

  183. 情報量基準を用いた語彙分割PLSA言語モデルの評価

    栗山 直人, 鈴木 基之, 伊藤 彰則

    音声ドキュメント処理ワークショップ講演論文集 1 103-108 2007年2月26日

    出版者・発行元:[豊橋技術科学大学メディア科学リサーチセンター]

  184. WWWを用いた言語モデルの教師なし反復適応法

    梶浦 泰智, 鈴木 基之, 伊藤 彰則

    音声ドキュメント処理ワークショップ講演論文集 1 109-114 2007年2月26日

    出版者・発行元:[豊橋技術科学大学メディア科学リサーチセンター]

  185. ディスジョイントパスルーティングによる高秘話 高音質音響通信システム

    榎本敦之, 北村 強, 岩田 淳, 谷 英明, 阿部 俊一郎, 西村 竜一, 鈴木 陽一, 坂井 俊之, 伊藤 彰則, 牧野 正三

    2007信学総大, Mar. 82-82 2007年

    出版者・発行元:一般社団法人電子情報通信学会

  186. 音声符号化へのMD量子化の適用に関する基礎的検討

    WEY H., 西村竜一, 伊藤彰則, 小林まおり, 鈴木陽一

    日本音響学会研究発表会講演論文集(CD-ROM) 2007 2007年

    ISSN:1880-7658

  187. Automatic evaluation system of English prosody for Japanese learner's speech

    Motoyuki Suzuki, Tatsuki Konno, Akinori Ito, Shozo Makino

    IMSCI '07: INTERNATIONAL MULTI-CONFERENCE ON SOCIETY, CYBERNETICS AND INFORMATICS, VOL 1, PROCEEDINGS 1 48-53 2007年

    出版者・発行元:INT INST INFORMATICS & SYSTEMICS

    詳細を見る 詳細を閉じる

    Prosody plays an important role in speech communication between humans. Several computer-assisted language learning (CALL) systems with utterance evaluation have been developed so far; however, accuracy of their prosody evaluation is still poor. In this paper, we develop new methods to evaluate rhythm and intonation of English sentence uttered by Japanese learners. The new points of our work axe that (1) new prosodic features are added to traditional features, and (2) word importance factors axe introduced in the calculation of intonation score. The word importance score is automatically estimated using the ordinary least squares method, and optimized based on word clusters generated by a decision tree. The rhythm evaluator uses two acoustic features, time duration ratio of each word and normalized log-power. From the experiments, correlation coefficient (+/- 1.0 denotes the best correlation) between the rhythm score given by native speakers and the system was -0.55. On the other hand, a conventional feature (pause insertion error rate) gave only -0.11. The intonation evaluator uses four acoustic features, pitch, normalized log-power, and first-order regression coefficients of those two features. From the experiments, correlation coefficient between the intonation score given by native speakers and the system was 0.45.

  188. Analysis of cell wall polysaccharides during storage of a local melon accession 'Wasada-uri' compared to the melon cultivar 'Prince'

    T. Nishizawa, A. Ito

    Journal of Horticultural Science and Biotechnology 82 (2) 227-234 2007年

    出版者・発行元:Headley Brothers Ltd

    DOI: 10.1080/14620316.2007.11512224  

    ISSN:1462-0316

    詳細を見る 詳細を閉じる

    Changes in cell wall polysaccharides associated with fruit softening under storage conditions at 20°C were compared between 'Wasada-uri' (a "five-carpel-type" melon accession) and 'Prince' (a "three-carpel-type" melon cultivar). Ethylene production in 'Prince' showed a peak on day-2 and decreased rapidly thereafter, while that of 'Wasada-uri' remained low until day-10. Carbon dioxide production in both varieties was highest at fruit harvest, and decreased rapidly during storage. Although flesh firmness in both varieties decreased continuously during storage, a distinct difference was observed, resulting in the firmness of 'Prince' flesh decreasing to between 16- 44% that of 'Wasada-uri'. In the "water- soluble" pectin fraction, uronic acid concentrations in 'Prince' increased linearly until day-5, while those of 'Wasada-uri' remained low. In the "Na2CO3-soluble" fraction, uronic acid concentrations in 'Wasada-uri' increased from day-3 to day-5, while those of'Prince' decreased from day-2 to day-10. Neutral sugar concentrations in the "Na2CO3-soluble" fraction decreased during storage, but there was no apparent difference between 'Wasada-uri' and 'Prince' melons.Inthe"Na2CO3-soluble "fraction, 'Wasada-uri' showed higher galactose, but lower arabinose concentrations compared to those of 'Prince'. Cellulose concentrations in 'Wasada-uri' were 15-43% higher than those of 'Prince', but the values changed slightly during storage. These results suggest that the long shelf-life of 'Wasada-uri' melon is due to the maintenance of cell wall integrity in the covalently-bound pectin polymers, and/or in the abundance of cellulosic polysaccharides.

  189. 情報量基準で語彙分割した PLSA 言語モデルによる話題・文型適応

    栗山 直人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2006 (136) 233-238 2006年12月22日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    PLSA は言語モデルの文脈適応に一般的に用いられる手法である。この PLSA の新しい利用方法を提案する。PLSA 言語モデルの語彙を「話題語」「文型語」「汎用語」の3クラスに分割し、話題語 PLSA モデルと文型語 PLSA モデルを別々に学習・適応した後に3つのモデルを統合する。また新聞記事と CSJ 間での品詞分類の出現パターン変化に基づいた、語彙分割基準の自動生成を提案する。評価実験では話題と文型の特徴が学習データで共起していないテキストについて、従来の PLSA 言語モデルと比べ15.48%の perplexity 削減が得られた。PLSA (Probabilistic Latent Semantic Analysis) is one of promising language model adaptation methods. We propose a new way to combine PLSA and N-gram models by separating the vocabulary into three classes -'topic'-related, 'style'-related and 'general'-related words. This method trains topic vocabulary PLSA model, style vocabulary PLSA model, and general vocabulary unigram model independently, and combines the three models. And we propose an automatic composing method of vocabulary divide criterion, using pattern of word-Class occurrence between newspaper and CSJ. The experimental result showed that the proposed method achieves 15.48% perplexity reduction than conventional PLSA model, about testset of which topic and style feature are not happen together in the training data.

  190. WWW を利用した言語モデル教師なしタスク適応における有効探索クエリ決定法

    梶浦 泰智, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2006 (136) 131-135 2006年12月21日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において高精度な認識を実現する有効な手段として、認識対象にマッチしたテキストを収集し、認識対象に対応した言語モデルを作成する方法があるが、このテキスト収集作業は非常にコストの高い作業である。この問題を解決する手法として、我々は WWW(World Wide Web)から自動で対象マッチしたテキストを収集する方法が提案してきた[1]。このような手法において、検索クエリは認識結果文から構成するのが一般的であるが、認識結果中には誤認識単語など検索に悪影響を及ぼす単語が存在している。本研究ではこれらの問題を改善するため、有効な検索クエリを決定する方法を提案する。我々が提案した手法により、5000ページ収集時の単語正解精度で人手による検索クエリ決定とほぼ同等の結果が得られた。To improve the accuracy of an LVCSR system, it is effective to gather text data related to the topic of the input speech and adapts the language model using the text data. However, collecting topic-related text manually requires much effort. To automate the text collection, we have proposed a method to create an adapts language model by collecting topic-related text from World Wide Web. In this paper, we propose the method of deciding available search query using similarities between words and calculating query's availability using small WWW texts. This method reachs same performance as selected query by human.

  191. 情報量基準で語彙分割したPLSA言語モデルによる話題・文型適応

    栗山 直人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (444) 55-60 2006年12月15日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    PLSAは言語モデルの文脈適応に一般的に用いられる手法である.このPLSAの新しい利用方法を提案する.PLSA言語モデルの語彙を「話題語」「文型語」「汎用語」の3クラスに分割し,話題語PLSAモデルと文型語PLSAモデルを別々に学習・適応した後に3つのモデルを統合する.また新聞記事とCSJ間での品詞分類の出現パターン変化に基づいた,語彙分割基準の自動生成を提案する.評価実験では話題と文型の特徴が学習データで共起していないテキストについて,従来のPLSA言語モデルと比べ15.48%のperplexity削減が得られた.

  192. WWWを利用した言語モデル教師なしタスク適応における有効検索クエリ決定法

    梶浦 泰智, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (443) 131-135 2006年12月14日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において高精度な認識を実現する有効な手段として,認識対象にマッチしたテキストを収集し,認識対象に適応した言語モデルを作成する方法があるが,このテキスト収集作業は非常にコストの高い作業である.この問題を解決する手法として,我々はWWW(World Wide Web)から自動で対象マッチしたテキストを収集する方法が提案してきた[1].このような手法において,検索クエリは認識結果文から構成するのが一般的であるが,認識結果中には誤認識単語など検索に悪影響を及ぼす単語が存在している.本研究ではこれらの問題を改善するため,有効な検索クエリを決定する方法を提案する.我々が提案した手法により,5000ページ収集時の単語正解精度で人手による検索クエリ決定とほぼ同等の結果が得られた.

  193. Music information retrieval from a singing voice based on verification of recognized hypotheses

    Motoyuki Suzuki, Toru Hosoya, Akinori Ito, Shozo Makino

    ISMIR 2006 - 7th International Conference on Music Information Retrieval 168-171 2006年12月1日

    詳細を見る 詳細を閉じる

    Several music information retrieval (MIR) systems have been developed which retrieve musical pieces by the user's singing voice. All of these systems use only melody information for retrieval, although lyrics information is also useful for retrieval. In this paper, we propose an MIR system that uses both melody and lyrics information in the singing voice. The MIR system verifies hypotheses output by a lyrics recognizer from a melodic point of view. Each hypothesis has time alignment information between the singing voice and recognized text, and the boundaries of each note can be estimated using the information. As a result, melody information is extracted from the singing voice. On the other hand, the melody information can be calculated from the musical score of the song because the recognized text must be a part of the lyrics of the song. The hypothesis is verified by calculating the similarity between the two types of melody information. From the experimental results, the verification method increased the retrieval accuracy. Especially, it was very effective when the number of words in the user's singing voice was small. The proposed method increased the retrieval accuracy from 81.3% to 87.4% when the number of words was only three. © 2006 University of Victoria.

  194. 多様な発音変形を考慮した音素環境依存 HMnet の構築

    鈴木 基之, 坂本 創, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (123) 37-41 2006年6月16日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    現在の音声認識システムでは,音響モデルとしてtriphoneのような音素環境依存HMMがよく用いられている。これはひとつの音素を前後の音素環境ごとに別々にモデル化することで調音結合による音響的な変形をうまく吸収している。しかし音声は前後の音素環境以外の様々な要因によっても変形しているため,音素環境依存HMMでは十分にモデル化できるとはいえない。そこで本報告では,音素環境依存HMMの構築アルゴリズムのひとつであるSSSと,様々な音素の変形要因を考慮することができるSSS-freeを組み合わせ,コンパクトで高い認識性能を持つHMnet構築法を提案する。この方法では,状態分割ごとにどちらのアルゴリズムで分割すべきかを尤度をもとに判定する。簡単な音素認識実験を行った結果,SSSやSSS-freeによるHMnetに比べて音素正解精度で1%あまり向上した。

  195. Web テキストを利用した言語モデル教師なし適応

    梶浦 泰智, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 106 (123) 43-47 2006年6月16日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    大語彙連続音声認識において高精度な認識を実現する有効な手段として,認識対象にマッチしたテキストを収集し,そこから認識対象に適応した言語モデルを作成する方法があるが,このテキスト収集作業は人手で行うには非常にコストの高い作業である.この問題を解決する手法として,我々はこれまでWWW(World Wide Web)から自動で対象マッチしたテキストを収集し,適応言語モデルを作成する方法を提案してきた[1].今回我々は,この手法をさらに改善する方法を提案する.一つは複数の単語を用いた検索クエリ構成法であり,この方法によって1000ページのWebテキスト収集時の単語正解精度が従来法より2.2ポイント改善した.さらに検索クエリに認識誤り単語が選択されることを回避する方法を提案した.この方法によって,検索クエリ候補に存在する認識誤り単語を4%にまで減少させた.

  196. 「人はなぜコンピューターを人間として扱うか『メディアの等式』の心理学」, バイロン・リーブズ, クリフォード・ナス著, 細馬宏通訳, 翔泳社, 2001年(私のすすめるこの一冊,コーヒーブレーク)

    伊藤 彰則

    日本音響学会誌 62 (6) 473-474 2006年6月1日

    出版者・発行元:一般社団法人日本音響学会

    ISSN:0369-4232

  197. A-19-15 手の回転に頑健な指文字認識のための特徴ベクトルの補間法(A-19.福祉情報工学,一般講演)

    大里 宗之, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会総合大会講演論文集 2006 333-333 2006年3月8日

    出版者・発行元:一般社団法人電子情報通信学会

  198. PLSA言語モデルの学習最適化と語彙分割に関する検討

    栗山 直人, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2006 (12) 37-42 2006年2月4日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    PLSAは,文章の特徴「話題」を反映した言語モデルを構築する手法である.このPLSA言語モデルの拡張を提案する.前半ではPLSA言語モデルの学習について,既存の複数の方法を比較し,EMアルゴリズムのアニーリングスケジュール最適化についての検討を行う.後半ではPLSA言語モデルを内容語モデルと機能語モデルに分割し,話題(トピック)と話し方(スタイル)を,別々に学習・適応することで従来のPLSA言語モデルよりもより柔軟な言語モデル適応を試みる.その結果学習最適化についてはβを1.0 から特定の値に向けて減少させるアニーリングスケジュールが最適という結果が得られた.内容語・機能語に分割したモデルについてはtrigramに対するPerplexityが従来のPLSA言語モデルの83.90% から82.23% へ改善した.PLSA is a method of composing language model which can reflect the global charactetistics of linguistic context as "topic". We propose more extention of PLSA language model. First, we compare the conventional learning methods of PLSA language model, and examine the optimization of EM annealing schedule. As a result, we found that the best method is to reduce β from 1.0 to some special value. Next, we compose a PLSA language model whose vocabulary set is divided, into content words and function words. Then training and adaptation to topic or style are performed separately. In the experiment, we acheived 82.23% perplexity reduction against conventional way 83.90%.

  199. 2項 音響工学研究会(3節 工学研究会,第5章 国際会議・シンポジウム等)

    鈴木 陽一, 坂本 修一, 伊藤 彰則

    東北大学電気通信研究所研究活動報告 13 278-278 2006年1月1日

  200. ロボットアバタを用いたユーザ親和性向上手法の高齢者による評価

    廣井富, 伊藤彰則, 高津宣夫, 中野栄二

    情報科学技術フォーラム FIT 2006 2006年

  201. Unsupervised language model adaptation based on automatic text collection from WWW

    Motoyuki Suzuki, Yasutomo Kajiura, Akinori Ito, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 5 2202-2205 2006年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    An n-gram trained by a general corpus gives high performance. However, it is well known that a topic-specialized n-gram gives higher performance than that of the general n-gram. In order to make a topic specialized n-gram, several adaptation methods were proposed. These methods use a given corpus corresponding to the target topic, or collect documents related to the topic from a database. If there is neither the given corpus nor the topic-related documents in the database, the general n-gram cannot be adapted to the topic-specialized n-gram. In this paper, a new unsupervised adaptation method is proposed. The method collects topic-related documents from the world wide web. Several query terms are extracted from recognized text, and collected web pages given by a search engine are used for adaptation. Experimental results showed the proposed method gave 7.2 points higher word accuracy than that given by the general n-gram.

  202. A User Simulator based on VoiceXML for evaluation of spoken dialog systems

    Akinori Ito, Keisuke Shimada, Motoyuki Suzuki, Shozo Makino

    INTERSPEECH 2006 AND 9TH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, VOLS 1-5 2 1045-1048 2006年

    出版者・発行元:ISCA-INST SPEECH COMMUNICATION ASSOC

    詳細を見る 詳細を閉じる

    This paper describes a user simulator based on analysis of VoiceXML description. A user simulator is a method to evaluate a spoken dialog system without the use of human evaluators. The new feature of our simulator is that it uses a VoiceXML description that describes the dialog system's behavior. By using the VoiceXML description, the proposed simulator can be used for any dialog system that works with VoiceXML. We constructed a prototype of the user simulator and carried out an evaluation experiment. The experimental result showed that the dialog between the simulator and the dialog system had similar properties to that between human subjects and the dialog system.

  203. Lyrics recognition from a singing voice based on finite state automaton for music information retrieval

    Toru Hosoya, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    ISMIR 2005 - 6th International Conference on Music Information Retrieval 532-535 2005年12月1日

    詳細を見る 詳細を閉じる

    Recently, several music information retrieval (MIR) systems have been developed which retrieve musical pieces by the user's singing voice. All of these systems use only the melody information for retrieval. Although the lyrics information is useful for retrieval, there have been few attempts to exploit lyrics in the user's input. In order to develop a MIR system that uses lyrics and melody information, lyrics recognition is needed. Lyrics recognition from a singing voice is achieved by similar technology to that of speech recognition. The difference between lyrics recognition and general speech recognition is that the input lyrics are a part of the lyrics of songs in a database. To exploit linguistic constraints maximally, we described the recognition grammar using a finite state automaton (FSA) that accepts only lyrics in the database. In addition, we carried out a "singing voice adaptation" using a speaker adaptation technique. In our experimental results, about 86% retrieval accuracy was obtained. © 2005 Queen Mary, University of London.

  204. Construction method of acoustic models dealing with various background noises based on combination of HMMs

    Motoyuki Suzuki, Yusuke Kato, Akinori Ito, Shozo Makino

    9th European Conference on Speech Communication and Technology 973-976 2005年12月1日

    詳細を見る 詳細を閉じる

    Background noise is one of the biggest problem for speech recognition systems in real environments. In order to achieve high recognition performance for corrupted speech, we proposed a new construction method of HMMs dealing with various kinds of background noise. At first, each HMM dealing with a single noise is trained for each background noise, and then all Gaussian components of those HMMs are combined into a "multi-mixture HMM". From the experimental results, the multi-mixture HMM gave the highest recognition performance for any kind of noise and any variation of SNR. Although the multi-mixture HMMs has high performance, it has a huge number of Gaussian components that makes the speech recognition slower. In order to solve the problem, we also proposed a reduction method of Gaussian components. It can decrease the number of Gaussian components with slight deterioration of recognition performance.

  205. Pronunciation error detection method based on error rule clustering using a decision tree

    Akinori Ito, Yen Ling Lim, Motoyuki Suzuki, Shozo Makino

    9th European Conference on Speech Communication and Technology 173-176 2005年12月1日

    詳細を見る 詳細を閉じる

    We are developing a CALL system to train English pronunciation for Japanese native speakers. However, the precision of the error detection was not very high because the threshold for the detection was not optimum. To improve the detection accuracy, we propose a new method to optimize the thresholds of error detection. The proposed method makes several clusters of the pronunciation error rules, and the thresholds are determined for each cluster. An experiment was carried out to investigate the performance of the proposed method. As a result, about 90% of detection rate was obtained, which is a remarkable improvement from the conventional method.

  206. Internal noise suppression for speech recognition by small robots

    Akinori Ito, Takashi Kanayama, Motoyuki Suzuki, Shozo Makino

    9th European Conference on Speech Communication and Technology 2685-2688 2005年12月1日

    詳細を見る 詳細を閉じる

    Speech recognition by a small robot is difficult because the robot makes noise itself. In this paper, two new methods are proposed that suppresses internal noise of the small robots. These methods are based on spectral subtraction (SS). The difference of the proposed methods from the original SS is that the proposed methods use the estimated noise spectrum dependent on the motion of the robot. One method, called MDSS, prepares the noise spectrums for all motions. Another method, called NPSS, predicts the noise spectrum from angular velocities of all joints of the robot using a neural network. From the results of the comparison between the original SS and the proposed methods, the proposed methods outperformed the conventional SS. The NPSS worked well even when the noise of the motion was unstable, while the MDSS method gave good result when the noise in one motion was stable.

  207. カラーグローブを用いた指文字認識における特徴量の統合法

    大里 宗之, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 105 (375) 73-78 2005年10月28日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    聴覚障害者と健聴者の間のコミュニケーション支援を目的とした指文字認識の実現へ向けて, カメラで撮影された画像の色情報を利用する従来研究で用いられている特徴量と, 指文字の認識に有効と思われる特徴量について述べ, 比較実験により認識に有効な特徴量を検討する.各特徴量での認識において生じる誤りを, 複数の特徴量を利用して訂正すれば, 認識精度が向上すると考えられる.そこで, それら特徴量の統合方法について比較実験を行った結果, ベクトルの合成による統合と事後確率による統合の融合により, 各特徴量での認識に比べて8%正解率が向上したので, これを報告する.

  208. SN比に頑健なマルチミクスチャーHMMの性能評価(耐雑音, 音源分離, ロボット)

    鈴木 基之, 加藤 裕介, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 105 (133) 25-30 2005年6月17日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声認識システムの実用化に向けて, 雑音対策は大きな課題のひとつである。様々な雑音環境下でも高精度な認識を可能とするため, 雑音重畳マルチミクスチャーモデルを提案した。このモデルは, 単一の雑音を重畳させた音声を用いて学習したHMMを複数集め, 対応する状態の出力分布を混合分布としてひとつにまとめることで構築される。本報告では, 様々なSN比に対しても同様に対処することで, 複数雑音, 複数SN比に対応した雑音重畳マルチミクスチャーモデルを構築し, その性能を評価した。その結果, 既知, 未知いずれのSN比においても, マルチコンディションモデルに比べて高い認識性能を示した。また, このモデルに対して分布数の削減を行ったところ, 分布数を25%程度まで削減しても, 認識率は1ポイント程度の低下にとどまっていることがわかった。

  209. 動作雑音推定に基づく小型ロボットの内部雑音対策の検討(耐雑音, 音源分離, ロボット)

    伊藤 彰則, 金山 高志, 鈴木 基之, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 105 (133) 43-48 2005年6月17日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    小型ロボットで音声認識を行う場合、ロボット自身が発生する雑音のため、高精度な認識を行うことは難しい。本稿では、小型ロボットが発生させる雑音を抑圧するための方法を二つ提案する。提案法は、スペクトル減算法(SS)に基づく方法である。通常のSS法と提案法の大きな違いは、提案法においてはロボットの動作に依存した雑音のスペクトルを推定し、それを雑音スペクトルとして用いる点である。一つ目の方法(動作依存SS法、MDSS)は、ロボットが行なうすべての動作について、あらかじめ雑音スペクトルを用意しておく方法である。もう一つの方法(ニューラルネット推定SS法, NPSS)は、ロボットの全ての関節の角速度のデータから、ニューラルネットワークを用いて雑音のスペクトルを推定する方法である。通常のSS法と提案法の比較実験の結果から、提案法はロボットの内部雑音に対して通常のSS法よりも良い性能を与えることが確かめられた。また、ロボットの動作における雑音が定常である場合にはMDSS法が有効であり、一方NPSS法は動作に伴なう雑音が非定常である場合においても有効であった。

  210. SSS-free を併用した音素環境依存HMnet学習法の検討

    坂本 創, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 31-32 2005年3月8日

    出版者・発行元:日本音響学会

    ISSN:1340-3168

  211. 対話システム評価のための擬似対話エージェントの構築

    島田 啓佑, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 69-70 2005年3月8日

    ISSN:1340-3168

  212. 複数の雑音重畳モデルを合成した複数の雑音及びSN比に頑健な音響モデルの検討

    加藤 裕介, 伊藤 彰則, 鈴木 基之, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 83-84 2005年3月8日

    ISSN:1340-3168

  213. KL展開を用いたオーディオ信号の次元圧縮に関する検討

    原田 昌治, 伊藤 彰則, 鈴木 基之, 木幡 稔, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 199-200 2005年3月8日

    ISSN:1340-3168

  214. 自然対話映像における表情認識を利用した笑い認識に関する研究

    王 欣悦, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 217-218 2005年3月8日

    ISSN:1340-3168

  215. 対話型CALLシステムのための文法誤り検出法

    權 五杓, 伊藤 彰則, 鈴木 基之, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 303-304 2005年3月8日

    ISSN:1340-3168

  216. 楽曲検索のための有限状態文法を用いた歌詞認識に関する検討

    細谷 徹, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 603-604 2005年3月8日

    ISSN:1340-3168

  217. 内部雑音合成に基づく小型ロボットにおける内部雑音対策

    金山 高志, 伊藤 彰則, 鈴木 基之, 牧野 正三

    日本音響学会研究発表会講演論文集 2005 (1) 659-660 2005年3月8日

    ISSN:1340-3168

  218. 色情報を利用した指文字認識のための特徴量に関する検討

    大里宗之, 鈴木 基之, 伊藤 彰則, 牧野 正三

    信学総大, 2005 342-342 2005年

    出版者・発行元:一般社団法人電子情報通信学会

  219. 自律移動ロボットのためのフレームベース音声対話システム

    牧野 正三, 小梨 貴史, 伊藤 彰則, 鈴木 基之

    情報処理学会研究報告自然言語処理(NL) 2004 (108) 141-146 2004年11月5日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    我々は自律移動型ロボットと人間とのインターフェイスとしての音声対話システムを開発している.従来の音声対話システムは,文法記述や対話の流れの記述が必要であり,開発は容易ではなかった.本報告で提案する対話システムは,意味フレームに基づいて認識のための文法を自動的に生成する.システムは唯一対話タスクのための意味フレームの記述を要求するだけなので,別タスク向けのシステムを開発するのも極めて容易である.また文節クラスに基づく文重み付けを提案し,実験によってその有効性を確認した.平均2.44発話でタスクを達成できた.We have been developing a spoken dialog system. Conventional spoken dialog systems need grammar descriptions and scripts of a dialog, that are difficult to develop. The system proposed in this paper is based on semantic frames, and the system generates the recognition grammar from the frames automatically. As the system requires only a frame-based description for a task of dialog, the system can be easily applied to different kinds of tasks. Moreover, the recognition accuracy is improved by sentence weighting based on phrase class template. We evaluated the system by experiments. The system reached the goal with 2.44 user's utterances in average.

  220. 自律移動ロボットのためのフレームベース音声対話システム

    牧野 正三, 小梨 貴史, 伊藤 彰則, 鈴木 基之

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 104 (417) 65-70 2004年10月29日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    我々は自律移動型ロボットと人間とのインターフェイスとしての音声対話システムを開発している.従来の音声対話システムは,文法記述や対話の流れの記述が必要であり,開発は容易ではなかった.本報告で提案する対話システムは,意味フレームに基づいて認識のための文法を自動的に生成する.システムは唯一対話タスクのための意味フレームの記述を要求するだけなので,別タスク向けのシステムを開発するのも極めて容易である.また文節クラスに基づく文重み付けを提案し,実験によってその有効性を確認した.平均2.44発話でタスクを達成できた.

  221. I-069 Smile and Laugh Recognition from Natural Conversation Video

    Xinyue Wang, Suzuki Motoyuki, Ito Akinori, Makino Shozo

    情報科学技術フォーラム一般講演論文集 3 (3) 163-164 2004年8月20日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  222. G-014 鼻歌入力による音楽検索のための特徴量の比較(G.音声・音楽)

    伊藤 彰則, 許 盛弼, 鈴木 基之, 牧野 正三

    情報科学技術フォーラム一般講演論文集 3 (2) 373-374 2004年8月20日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  223. I-009 全方位ステレオによる環境マップ生成に関する検討(I.画像認識・メディア理解)

    後藤 望, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報科学技術フォーラム一般講演論文集 3 (3) 19-20 2004年8月20日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  224. 複数の雑音重畳モデルの合成による 複数雑音環境に頑健な音響モデルの検討

    加藤裕介, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2004 (57) 1-6 2004年5月27日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    複数雑音環境に頑健なモデルの作成法として,単一の雑音を重畳させた音声で学習したHMMを複数組み合わせる方法を提案する.複数のHMMを組み合わせる方法として,それぞれをマルチパスでつなぐ方法,またそれぞれのHMMを各状態別に分布を混合分布として統合する方法について検討する.提案した2つのモデルでは,従来法と同等かそれよりも良い認識精度が得られた.また複数のHMMを組み合わせるためモデル自体の規模は大きくなる.そこでモデルの規模を小さくするためモデル内の分布を分布間距離などを用いて統合することについても検討する.This paper describes methods to compose an HMM robust under multiple noise conditions. The methods are based on combination of several HMMs trained under different noise conditions. We propose two combination methods. The first one combines multiple HMMs into a multi-path HMM. The second one combines comsponding states of each HMM into one state by mixing the output probability distributions onto one mixture distribution. The recognition experiment revealed that HMMs composed by the proposed methods shows similar or better results than conventional multi-condition model. One drawback of the model composed by tha proposed methods is that it has large number of distributions. To reduce the number of distributions, we examined several methods to unify distributions.

  225. 複数の雑音重畳モデルの合成による複数雑音環境に頑健な音響モデルの検討

    加藤 裕介, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 104 (86) 1-6 2004年5月20日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    複数雑音環境に頑健なモデルの作成法として,単一の雑音を重畳させた音声で学習したHMMを複数組み合わせる方法を提案する.複数のHMMを組み合わせる方法として,それぞれをマルチパスでつなぐ方法,またそれぞれのHMMを各状態別に分布を混合分布として統合する方法について検討する.提案した2つのモデルでは,従来法と同等かそれよりも良い認識精度が得られた.また複数のHMMを組み合わせるためモデル自体の規模は大きくなる.そこでモデルの規模を小さくするためモデル内の分布を分布間距離などを用いて統合することについても検討する.

  226. 音声認識に関する最近の話題

    伊藤彰則

    情報・システムソサイエティ誌 9 (1) 14-21 2004年5月1日

    出版者・発行元:電子情報通信学会

  227. 対話型CALLシステムに関する検討

    權 五杓, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 103 (633) 19-24 2004年1月23日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    近年の音声認識技術の発展により,新しい概念に基づく外国語教育システム開発の期待が高まってきてあり,様々なシステムが提案されている.しかし,従来のほとんどのシステムは,発音とリスニングの練習システムであり,システムが見せる文章を,学習者が発声するか聞きとるものでする.学習者の目的がコミュニケーション能力を向上させることである場合,ミニマルペアなどの発音とリスニング練習だけでは十分ではない.例えば,実際の外国語クラスで行われる言語教育方法では教師と学習者が対話しながら,自然に発音イントネーションや文法を学習している.提案するシステムは,外国語クラスで行われる言語教育方法と似ている対話型CALLシステムである.学習者が対話練習を行うとき,学習者が自分で能動的に様々な文章を作成し,作成した文章によって対話の流れが変化することが可能なシステムである.さらにシステムは学習者が発声した文章の発音や文法の誤りを検出しfeedbackすることで学習者のコミュニケーション能力を向上することが可能だと考えられる.

  228. Noise adaptive spoken dialog system based on selection of multiple dialog strategies

    Akinori Ito, Takanobu Oba, Takashi Konashi, Motoyuki Suzuki, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 193-196 2004年1月1日

    詳細を見る 詳細を閉じる

    Speech recognition under noisy environment is one of the hottest topic in the speech recognition research. In this paper, we propose a method to improve accuracy of spoken dialog system from a dialog strategy point of view. In the proposed method, the dialog system automatically changes its dialog strategy according to the estimated recognition accuracy in noisy environment in order to keep the performance of the system constant. In a noisy environment, the system restricts its grammar and vocabulary to improve recognition accuracy. On the other hand, the system accepts any utterance from a user in a noise-free environment. To realize this strategy, we investigated a method to avoid user's out-of-grammar utterances through an instruction given by the system to a user. Furthermore, we developed a method to estimate recognition accuracy from features extracted from noise signal. Finally, we constructed a proposed dialog system and confirmed its effectiveness.

  229. A Japanese dialogue-based CALL system with mispronunciation and grammar error detection

    Oh Pyo Kweon, Akinori Ito, Motoyuki Suzuki, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 1833-1836 2004年1月1日

    詳細を見る 詳細を閉じる

    This paper describes a dialogue-based CALL (Computer Assisted Language Learning) system. One of the major problems in CALL systems is that learners are usually assigned a passive role. Learners have no practices in composing their own utterances. The other major problem is that lots of conventional CALL systems are pronunciation exercise systems. However, pronunciation exercise is only a part of exercise needed to increase a learner's communication skill. In this paper, we propose a dialogue-based CALL system of new concept that enables exercise of composition, grammar and conversation in addition to pronunciation.

  230. A spoken dialog system based on automatic grammar generation and template-based weighting for autonomous mobile robots

    Takashi Konashi, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 189-192 2004年1月1日

    詳細を見る 詳細を閉じる

    We have been developing a spoken dialog system. Conventional spoken dialog systems need grammar descriptions and scripts of a dialog, that are difficult to develop. The system proposed in this paper is based on semantic frames, and the system generates the recognition grammar from the frames automatically. As the system requires only a frame-based description for a task of dialog, the system can be easily applied to different kinds of tasks. Moreover, the recognition accuracy is improved by sentence weighting based on phrase class template. We evaluated the system by experiments. The system reached the goal with 2.44 user's utterances in average.

  231. Speaker adaptation method for call systems using bilingual speakers' utterances

    Motoyuki Suzuki, Hirokazu Ogasawara, Akinori Ito, Yuichi Ohkawa, Shozo Makino

    8th International Conference on Spoken Language Processing, ICSLP 2004 2929-2932 2004年1月1日

    詳細を見る 詳細を閉じる

    Several CALL systems have two acoustic models to evaluate a learner's pronunciation. In order to achieve high performance for evaluation, speaker adaptation method is introduced in CALL system. It requires adaptation data of a target language, however, a learner cannot pronounce correctly. In this paper, we proposed two types of new speaker adaptation methods for CALL system. The new methods only require learner's utterance of the native language for adaptation. The first method is an algorithm to adapt acoustic models using bilingual's utterances. The speaker-independent acoustic models of native and target languages are adapted to a bilingual speaker once, then they are adapted to the learner again using the learner's speech of the native language. Phoneme recognition accuracy is about 5% higher than the baseline method. The second method is a training algorithm of an acoustic model. It can robustly train bilinguals' model from a few bilinguals' utterances. Phoneme recognition accuracy is about 10% higher than the baseline method.

  232. Error tolerant melody matching method in music information retrieval

    SP Heo, M Suzuki, A Ito, S Makino, HY Chung

    ADAPTIVE MULTIMEDIA RETRIEVAL 3094 212-227 2004年

    出版者・発行元:SPRINGER-VERLAG BERLIN

    ISSN:0302-9743

    詳細を見る 詳細を閉じる

    This paper describes a music information retrieval system which uses humming as the key for retrieval. Humming is an easy way for the user to input a melody. However, there are several problems with humming that degrade the retrieval of information. One problem is a human factor. Sometimes people do not sing accurately, especially if they are inexperienced or unaccompanied. Another problem arises from signal processing. Therefore, a music information retrieval method should be sufficiently robust to surmount various humming errors and signal processing problems. A retrieval system has to extract pitch from the user's humming. However, pitch extraction is not perfect. It often captures half or double pitches, even if the extraction algorithms take the continuity of pitch into account. Considering these problems, we propose a system that takes multiple pitch candidates into account. In addition to the frequencies of the pitch candidates, the confidence measures obtained from their powers are taken into consideration as well. We also propose the use of a query, engine with three dimensions that is an extension of the conventional DP algorithm, so that multiple pitch candidates can be treated. Moreover, in the proposed algorithm, DP paths are changed dynamically to take relative spans and pitches of input and reference notes into account in order to treat split or union of notes. In an evaluation experiment, in which the performance of a conventional system was compared with that of the proposed system, better retrieval results were obtained for the latter. Finally, we implemented a GUI based music information retrieval system.

  233. 様々な雑音環境での音声対話における文法と認識精度の関係の分析 (第5回音声言語シンポジウム)

    大庭 隆伸, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 103 (517) 133-138 2003年12月18日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声認識において,雑音下での認識精度の改善は重要な課題の一つとなっている.そのために,音響モデルや雑音除去法の改善など様々な研究が行われているが,本稿では,対話の立場からの精度改善を試みる.具体的には,音声認識にとって不利な雑音環境になるのにあわせ,認識対象とする語彙・侯補数を削減した文法に変更し音声認識を行う.これにより,雑音の影響が小さい場合には,ユーザの自由な発話を認識できる枠組みを残しつつ,雑音下でも一定の認識精度を維持して対話を行うことが可能となる.これを実現するためには,まず,語彙・侯補数を削減した際に,認識側で認識対象としていない語彙や文法を含むユーザ発話が増加してしまうが,そのための対策が必要となる.また,認識文法を環境にあわせて変更させるには,ある雑音下で対話を行った場合に,認識精度がどの程度になるかを推定する必要があり,これをどのように実現するかが課題となる.前者については,システムの質問提示方法を工夫することにより対策を行い,後者については,雑音・文法と認識精度の関係をニューラルネット学習により推定可能か検討する.

  234. バイリンガル話者音声に基づく二言語混合音響モデルの話者適応法の検討 (第5回音声言語シンポジウム)

    小笠原 洋一, 大河 雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告 103 (517) 85-90 2003年12月18日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,外国語発音学習システムに用いる二言語混合音響モデルの話者適応法について検討する.学習者は外国語を発音する際,母国語の適当な音素に置換して発音する傾向にあることから,認識の際には学習対象と母国語の二言語混合の音響モデルを用いる.音響モデルの精度向上のために話者適応が行われるが,通常,ある言語の音響モデルの話者適応を行うにはその言語の発声データを用いる必要がある.しかし,外国語発音学習システムにおいては学習する言語の正しい発声を得ることができない.そこで,本研究では学習者の母国語の発音データを用いた二言語混合音響モデルの話者適応方法を提案した.本報告ではさらに認識率の向上を目指し,二言語のバイリンガル話者の発声データを利用した話者適応方法を検討し,その評価を行った.評価実験の結果,従来の話者適応方法よりも高い性能が得られた.

  235. バイリンガル話者音声に基づく 二言語混合音響モデルの話者適応法の検討

    小笠原 洋一, 大河雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (124) 85-90 2003年12月18日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では,外国語発音学習システムに用いる二言語混合音響モデルの話者適応法について検討する.学習者は外国後を発音する際,母国語の適当な音素に置換して発音する傾向にあることから,認識の際には学習対象と母国語の二言語混合の音響モデルを用いる.音響モデルの精度向上のために話者適応が行われるが.通常,ある言語の音響モデルの話者適応を行うにはその言語の発音データを用いる必要がある。しかし,外国語発音学習システムにおいては学習する言語の正しい発音を得ることができない.そこで,本研究では学習者の母国語の発音データを用いた二言語混合音響モデルの話者適応方法を提案した.本報告ではさらに認識率の向上を目指し,二言語のバイリンガル話者の発音データを利用した話者適応方法を検討し,その評価を行った.評価実験の結果,従来の話者適応方法よりも高い性能が得られた.In this paper, we investigate a method of speaker adaptation of bilingual phone models to improve precision of non-native speech recognition system. Non-native speakers tend to substitute native-language's phones for non-native phones, therefore the recognition system must use bilingual phone models consist of all phones in non-native and native languages. Speaker adaptation, generally, use utterance of the same language as the phone model. However, non-native speaker can't speak well to use speaker adaptation. In order to adapt bilingual phone models, we propose a speaker adaptation method of bilingual phone models using native speaker's utterance. To improve bilingual phone models, we propose a method using bilingual speakers' speech. Experiments showed that the bilingual phone models adapted by the proposed method outperformed the models adapted by conventional methods.

  236. 様々な雑音環境での音声対話における文法と認識精度の関係の分析

    大庭 隆伸, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (124) 133-138 2003年12月18日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    音声認識において,雑音下での認識精度の改善は重要な課題の一つとなっている.そのために,音響モデルや雑音除去法の改善など様々な研究が行われているが,本稿では,対話の立場からの制度改善を試みる.具体的には,音声認識にとって不利な雑音環境になるのにあわせ,認識対象とする語彙・候補数を削除した文法に変更し音声認識を行う.これにより,雑音の影響が小さい場合には,ユーザの自由な発話を認識できる枠組みを残しつつ,雑音下でも一定の認識精度を維持して対話を行うことが可能となる.これを実現するためには,まず,語彙・候補数を削減した際に,認識側で認識対象としていない語彙や文法を含むユーザ発話が増加してしまうが,そのための対策が必要となる.また,認識文法を環境にあわせて変更させるには,ある雑音下で対話を行った場合に,認識精度がどの程度になるかを推定する必要があり,これをどのように実現するかが課題となる.前者については,システムの質問提示方法を工夫することにより対策を行い,後者については,雑音・文法と認識精度の関係をニューラルネット学習により推定可能か検討する.Speech recognition under noisy environment is one of the hottest topic in the speech recognition research. Noise-tolerant acoustic models or noise reduction techniques are often used to improve the recognition accuracy. In this paper, we propose a method to improve accuracy of spoken dialog system from a dialog strategy point of view. In the proposed method, the dialog system automatically changes its dialog strategy according to the estimated recognition accuracy in noisy environment in order to keep the performance of the system constant. In a noise-free environment, the system accepts any utterance from a user. On the other hand, the system restricts its grammar and vocabulary in a noisy environment. To realize this strategy, we investigated a method to avoid user's out of grammar utterances through an instruction given by the system to a user. Furthermore, we developed a method to estimate recognition from features extracted from noise signal.

  237. ジェスチャ認識システムに向けた顔検出法の検討

    小野寺 美枝子, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 103 (453) 25-30 2003年11月21日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本稿では,ジェスチャ認識システムに人の正面向きの顔検出を組み合わせることを想定し,ジェスチャ認識のための顔検出法を検討する.ジェスチャ認識において,対象人物とカメラとが離れていると,画像中に写る顔は小さく,その部品(目・ロ等)や輪郭がはっきりしないことが考えられる.そこで,HMM(隠れマルコフモデル:Hidden Markov Model)を用いて,小さい顔も検出可能な顔検出法を検討する.HMMとは時系列信号の確率モデルであり,これを用いることで空間的伸縮の吸収が可能になると考えられる.このとき,どのような特徴ベクトルとHMMトポロジーを用いれば小さい顔の検出が可能となるかを検討した.また,検出する顔の大きさの違いに対してそれらがどのように影響するか考察した.

  238. 連続音声認識コンソーシアム2002年度版ソフトウェアの概要

    河原 達也, 住吉 貴志, 李晃伸, 坂野秀樹, 武田 一哉, 三村正人, 伊藤 克亘, 伊藤彰則, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (104) 1-6 2003年10月17日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで活動を行なっている。本稿では、2002年度(2002年10月-2003年9月)において開発されたソフトウエアの概要を述べる。大語藁彙連続音声認識エンジンJuliusの機能拡張・安定性向上とWindowsSAPI対応を行なうとともに、多様な入力環境に対応した音響モデル、及び幅広いカバレージを実現する言語も出るの整備などを行なった。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the third year (Oct. 2002 - Sep. 2003) is given in this report. The LVCSR (large vocabulary continuous speech recognition) engine Julius has been improved both in functionality and stability, and ported to Windows in compliance with SAPI (Speech API). A variety of acoustic and language models are set up to realize wider coverage of input speech. The software package is currently available by contacting the address below.

  239. HSn - gramの学習法の検討

    長野 雄, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 2003 (104) 35-40 2003年10月17日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    N-gramをHMMに拡張した言語モデルにHSn-gramがある.HSn-gramは,N-gramを決定性有限状態オートマトンとみなし,各状態を複数の状態に分割することで非決定性有限状態オートマトンに拡張したものである.HSn-gramの問題点として,状態数の増加に伴って状態遷移の数が膨大になり,モデルの推定が困難になることがあげられる.本稿ではこの問題点に対処するために,HSn-gram以外のモデルで学習を行い,ある程度パラメータ数を削減した後にHSn-gramの学習を行った.その結果,通常HSn-gramを学習するよりも約5%低いパープレキシティを得ることができた.HSn-gram is a language model which extends an N-gram to Ergodic HMM. HSn-gram regards an N-gram as deterministic finite-state automata, and it extends the FSA into a non-deterministic finite-state automata by dividing each state into two or more states. A problem of learning HSn-gram is that estimation of the model is difficult, because the number of state and the number of state transition becomes large. In this paper, we propose a learning method of an HSn-gram that uses a set of parameters obtained from SSn-gram (the other HMM-based language model) as an initial parameter set. This method reduces the number of parameters, in order to cope with this problem. Consequently, the perplexity is reduced by 5% comparing to that normally learned HSn-gram.

  240. 雑音マルチパスモデルによる非定常雑音下音声認識の検討

    伊藤 彰則, 喜嶋 朋令, 鈴木 基之, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 103 (93) 1-6 2003年5月29日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    異なる雑音を重畳した音声で学習したHMMを並列に接続したHMM(雑音マルチパスHMM)を用いて,非定常雑音に頑健な音響モデルを作成する方法について検討する.マルチパス音響モデルは既存のHMMを並列に接続したトポロジを持つHMMである.デコーディングの際には複数の経路のうち最尤の経路を選択して認識を行うため,発話中に環境が変化した場合でも頑健な認識が可能である.本稿ではこれを非定常雑音の認識に応用することについて検討を行った.実験には白色雑音をベースとした非定常雑音を用い,複数のSN比での白色雑音付加音声で学習した雑音マルチパスHMMを用いて認識を行った.その結果,定常雑音に対しては雑音マルチパスHMMの性能はマッチドモデルと同等であり,非定常雑音に対しては単一のHMMよりも高い性能が得られた.

  241. デコーダパラメータ設定の有意性の検証

    伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 147-148 2003年3月18日

    ISSN:1340-3168

  242. 持続時間制御機能を持ったマルチパスHMM

    大河 雄一, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 1-2 2003年3月18日

    ISSN:1340-3168

  243. 韓国人が発声した日本語の評価と分析

    權 五杓, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 361-362 2003年3月18日

    ISSN:1340-3168

  244. 複数の音高値候補を用いた楽曲検索システムの性能評価

    許 盛弼, 鈴木 基之, 伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 2003 (1) 847-848 2003年3月18日

    ISSN:1340-3168

  245. 複数の音高候補値を用いた楽曲検索システムの構築

    許盛弼, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報処理学会研究報告音楽情報科学(MUS) 2003 (16) 85-90 2003年2月21日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本報告では,ハミング入力による楽曲検索システムの構築を行ったので報告する.システムでは音長や音高を特徴量として,ハミングと楽曲とのマッチングを連続DPによって行う.このうち音高については,従来の方法ではピッチ抽出を行うことで1つの音高を決めていたが,本システムではピッチ抽出の誤りを考慮してピッチ抽出の際の複数の音高候補値と信頼度を用いる.複数の音高候補値をことで,用いない場合と比べて検索性能が向上した.また,実験で同様のシステムとの検索性能の比較を行った結果,提案するシステムは同様の楽曲検索システムと比べよい検索性能を示した.Users do not sing accurately, especially if they are inexperienced or an accompanied; even skilled musicians have difficultly in maintaining the correct pitch of a song. Moreover errors may occur when a musical retrieval system extracts pitch from humming. Consider of these problems, we propose to extract multiple pitch candidates. This method has shown that multiple pitch candidates are important features in determining melodic similarity, but it is also clear that reliability information which obtained from power is important as well. In the experiment, we compared to search efficiency of the similar system. Proposed method showed good retrieval result compared with the similar system.

  246. 音声認識を利用した韓国人のための日本語発音学習システム

    權 五杓, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (618) 19-24 2003年1月23日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本研究では,音声認識技術を利用した韓国人向け日本語発音学習システムに関する検討を行なった.まず,韓国語話者が日本語のどの音素を,どのような音素環境で,どのように誤るかなどの分析を行なった.この分析結果を基にして,韓国語話者のための日本語発音教育システムを構築した.構築した発音教育システムは韓国語話者が発声した入力音声について間違った場合にはどのぐらい間違ったか,正しい場合にはどのぐらい正しいかを自動的に評価する.また,学習者が間違って発声したと評価された場合にはどう直せばいいかも教示している.

  247. 3116 人間の手助けとなる機能を有するロボット IRIS の開発

    廣井 富, 庄司 道彦, 鄭 聖熹, 工藤 雅, 高橋 亮介, 小梨 貴史, 田嶋 誠, 大庭 隆伸, 陳 キュウ, 中野 栄二, 高橋 隆行, 牧野 正三, 伊藤 彰則, 大見 忠弘, 小谷 光司, 高津 宣夫, 鈴木 基之

    年次大会講演論文集 2003 (0) 231-232 2003年

    出版者・発行元:一般社団法人 日本機械学会

    DOI: 10.1299/jsmemecjo.2003.5.0_231  

    詳細を見る 詳細を閉じる

    An intelligent service robot named IRIS (Interactive, Robust and Intelligent Patient Care System) has been developed with the aim to be used mainly in a sickroom of hospital. IRIS is composed of the speaker direction identification system, the dialog system with the patient, the face recognition system, the safety manipulator and the omni-directional vehicle (ODV). It is able to recognize the patient's face, to dialogue with someone, and to execute some simple tasks such as serving a drink safely by request. The hardware system of IRIS is mainly presented in this paper.

  248. An optimized multi-duration HMM for spontaneous speech recognition

    Yuichi Ohkawa, Akihiro Yoshida, Motoyuki Suzuki, Akinori Ito, Shozo Makino

    EUROSPEECH 2003 - 8th European Conference on Speech Communication and Technology 485-488 2003年1月1日

    詳細を見る 詳細を閉じる

    In spontaneous speech, various speech style and speed changes can be observed, which are known to degrade speech recognition accuracy. In this paper, we describe an optimized multi-duration HMM (OMD). An OMD is a kind of multi-path HMM with at most two parallel paths. Each path is trained using speech samples with short or long phoneme duration. The thresholds to divide samples of phonemes are determined through phoneme recognition experiment. Not only the thresholds but also topologies of HMM are determined using the recognition result. Next, we parallelize OMD model with ordinary HMM trained by spontaneous speech and HMM trained by read speech in parallel. Using this 'all-parallel' model, 19.3% reduction of word error rate was obtained compared with the ordinary HMM trained with spontaneous speech.

  249. かな・漢字文字列を単位とした言語モデルの検討

    金野弘明, 加藤正治, 小坂 哲夫, 好田 正紀, 伊藤 彰則

    情報処理学会研究報告音声言語情報処理(SLP) 2002 (121) 165-170 2002年12月16日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本研究では、形態素解析された単語を単位とせず、文字単位でN-gram言語モデルを作成した。また、文字単位は言語制約が弱くなるため、評価基準に基づいて文字列を選択し、文字と文字列によるN-gram言語モデルも作成した。文字列の選択基準としては、高頻度の文字列を選択する方法、出現頻度を考慮した相互情報量の値の高いものを文字列を選択する方法、の2つを試みた。毎日新聞テキストコーパスJNASの音声データベースを用いて、パープレキシティおよび連続音声認識実験における文字誤り率(CER)を評価した。選択基準としては、相互情報量の方が性能は向上した。単語単位のものと比較してみると性能の改善は見られなかったが、文字単位よりも文字列単位の方が性能が向上した。また、語彙サイズを比較すると、文字、文字列単位は単語単位のものよりも50%減少している。This paper describes a character-based n-gram model. The proposed model is based on Kanji and Kana character instead of word or morpheme determined by morphemic analysis. To exploit stronger constraint, charachter strings are used in addition to single characters as basic units of the model. We examined two methods to choose character strings. One method is based on frequency in the training corpus, and the other is based on mutual information as well as the frequency. We carried out experiments to compare perplexities and character error rates (CER) between the proposed model and conventional (word or character based) n-gram model. The results showed that the mutual information based method gave the better performance. Although the proposed model was not superior to the word-based model, it was better than the character-based one. The vocabulary size of the proposed model was about 50% smaller than that of word-based model.

  250. かな・漢字文字列を単位とした言語モデルの検討

    金野 弘明, 加藤 正治, 小坂 哲夫, 好田 正紀, 伊藤 彰則

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 102 (528) 1-6 2002年12月13日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本研究では、形態素解析された単語を単位とせず、文字単位でN-gram言語モデルを作成した。また、文字単位は言語制約が弱くなるため、評価基準に基づいて文字列を選択し、文字と文字列によるN-gram言語モデルを作成した。文字列の選択基準としては、高頻度の文字列を選択する方法、出現頻度を考慮した相互情報量の値の高いものを文字列と選択する方法、の2つを試みた。毎日新聞テキストコーパスとJNASの音声データベースを用いて、パープレキシティおよび連続音声認識実験における文字誤り率(CER)を評価した。選択基準としては、相互情報量の方が性能は向上した。単語単位のものと比較してみると性能の改善は見られなかったが、文字単位よりも文字列単位の方が性能が向上した。また、語彙サイズを比較すると、文字、文字列単位は単語単位のものよりも50%減少している。

  251. 連続音声認識コンソーシアム2001年度版ソフトウエアの概要

    河原 達也, 住吉 貴志, 李晃伸, 坂野秀樹, 武田 一哉, 三村正人, 山田 武志, 西浦 敬信, 伊藤 克亘, 伊藤彰則, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 2002 (98) 13-18 2002年10月25日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会音声言語情報処理研究会のもとで活動を行っている。本稿では、2001年度(2001年10月-2002年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジンJuliusのWindowsSAPI対応を行うとともに、多様な話者層や入力環境に対応した音響モデルの整備などを行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC)was founded under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project.An overview of the software developed in the second year (Oct.2001 -Sep. 2002)is given in this report.The LVCSR (large vocabulary continuous speech recognition) engine Julius is ported to Windows and compliance with SAPI (Speech API).A variety of acoustic models are set up to cover wider user generations and speech-input environments. The software is currently available by contacting the address below.

  252. LZ符号化を利用した音声符号化

    木幡 稔, 三ッ屋 郁哉, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (335) 7-12 2002年9月17日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声符号化に用いられるパラメータには時間的な冗長性が多く含まれている.これらの時間的冗長性を除去することにより,さらに低ビットでの音声符号化が可能であると予測される.本稿では,ユニバーサル符号化の1つであるLZ符号化を利用することにより,音声符号化パラメータを効率的に圧縮符号化する方法を提案する.まず,提案方式を線形予測係数に適用することを試みた結果,Split-VQや多段VQまたMA予測VQといった汎用的な量子化法に比べ,歪み/符号化速度の観点から大幅な性能改善が得られた.さらに,F0とゲインから成る音源情報にも提案方法を適用し,1.9kbit/sの符号化システムを構築し,2.4kbit/sのFS-MELPとの比較を行った結果,ほぼ同等の主観評価結果を得ることができた.

  253. 複数マイクロホンを用いた簡易な呼びかけ音方向同定システム

    田嶋 誠, 鈴木 基之, 伊藤 彰則, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (335) 19-24 2002年9月17日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    自律移動ロボットのための呼びかけ音方向同定システムを作成した.我々が検討しているロボットは,ユーザの呼びかけによって起動し,画像処理によって顔認識を行い,呼びかけをした人を同定するが,画像処理を行うにはカメラの視野角に呼びかけをした人が入るようにしなければならない.そのために,本研究では呼びかけ音を認識し,到来方向を45度の範囲に絞り込む事を目的とする.また,ロボット搭載ということを考慮すると,ハードウェアの制約の中で少ない計算資源によって実時間処理を実現しなければならない.本研究では,少ない計算資源での実時間処理を前提として,複数の指向性マイクロホンを用いた簡易的な呼びかけ音の方向同定システムを構築した.また,システムの評価は複数のしきい値での再現率と適合率により行い,話者,キーワードのモーラ長,SN比という条件から,最も評価に影響するものがモーラ長であるという事を示した.さらに,モーラ長ごとに分析した結果,モーラ長ごとの適切なしきい値の設定がシステムの精度を向上させる可能性があることを確認した.最終的に,さまざまな話者・SN比のデータに対して,再現率・適合率共に80%以上という結果が得られた.

  254. I-41 2次元ワープ法を用いた動画像中の動きベクトルの抽出(ステレオ・オプティカルフロー,I.画像認識・メディア理解)

    斎藤 敦子, 鈴木 基之, 伊藤 彰則, 牧野 正三

    情報科学技術フォーラム一般講演論文集 2002 (3) 81-82 2002年9月13日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  255. I-43 領域分割を用いたDPマッチングによるステレオ画像からの対応点検出(ステレオ・オプティカルフロー,I.画像認識・メディア理解)

    倉本 健介, 伊藤 彰則, 鈴木 基之, 牧野 正三

    情報科学技術フォーラム一般講演論文集 2002 (3) 85-86 2002年9月13日

    出版者・発行元:FIT(電子情報通信学会・情報処理学会)運営委員会

  256. 日本語音声による話者適応を用いた英語韻律学習システム

    伊藤 彰則, 長沢 忠郎, 鈴木 基之, 牧野 正三

    電子情報通信学会技術研究報告. SP, 音声 102 (159) 19-24 2002年6月20日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    音声認識技術を用いた,日本語を母語とする話者のための英語学習システムについて述べる.本システムは,発音誤りを考慮した自動ラベリングによる発音評価システムと,イントネーションおよびリズムを評価する韻律評価システムからなる.発音評価システムでは,ラベリング精度の向上のため,VFS法による話者適応を用いた.この際,英語用の音響モデルを適応させるために,日本語の音声を用いる手法を提案する.これによって,英語の発音に慣れていない話者についても話者適応を行なうことができる.また,韻律評価システムでは,発話のピッチおよび持続時間に基づいて学習者の発話を評価する.評価実験として,英語を母語とする話者とシステムがそれぞれ日本語話者の英語を評価し,その評価値の相関を調べた.その結果,システムの評価と英語母語話者の評価との間に相関が見られ,本システムが有効である可能性が示唆された.

  257. 最大エントロピー法によるトリガー言語モデルの評価

    岸本 将伸, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2002 (1) 157-158 2002年3月18日

    ISSN:1340-3168

  258. かな・漢字文字列を単位とした音声認識の検討

    金野 弘明, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2002 (1) 155-156 2002年3月18日

    ISSN:1340-3168

  259. 対話音声認識におけるMLLR適応の評価

    加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2002 (1) 135-136 2002年3月18日

    ISSN:1340-3168

  260. Erratum: Language modeling by stochastic dependency grammar for Japanese speech recognition (Systems and Computers in Japan (November 15, 2001) 32:12 (10-15))

    Akinori Ito, Akinori Ito, Chiori Hori, Chiori Hori, Masaharu Katoh, Masaharu Katoh, Masaki Kohda, Masaki Kohda

    Systems and Computers in Japan 33 74 2002年3月1日

    DOI: 10.1002/scj.1115  

    ISSN:0882-1666

  261. Continuous speech recognition consortium -An open repository for CSR tools and models

    Akinobu Lee, Tatsuya Kawahara, Kazuya Takeda, Masato Mimura, Atsushi Yamada, Akinori Ito, Katsunobu Itou, Kiyohiro Shikano

    Proceedings of the 3rd International Conference on Language Resources and Evaluation, LREC 2002 1438-1441 2002年1月1日

    詳細を見る 詳細を閉じる

    Continuous Speech Recognition Consortium (CSRC) was founded on 2000 to promote sharable high-quality platform for research and development of speech recognition. It is a continued work of the former Japanese Dictation Toolkit project from 1997 to 2000. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this paper. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as tools are being set up. Currently over 50 companies and academic institutes are joining. The software is available by contacting the address csrc@astem.or.jp.

  262. Piecewise linear two-dimensional warping

    Akinori Ito, Chiori Hori, Masaharu Katoh, Masaki Kohda

    Systems and Computers in Japan 32 (12) 1-9 2001年11月15日

    DOI: 10.1002/scj.1072  

    ISSN:0882-1666

    詳細を見る 詳細を閉じる

    As a novel elastic image matching technique, piecewise linear 2D warping (PL2DW) is investigated. In PL2DW, the mapping of each row of one image to another image is given by the linear interpolation of the mapping of several points, called pivots, prepared on the row. The linearization realizes a dynamic programming (DP)-based algorithm with feasible computational complexity, although many DP-based algorithms for elastic image matching are intractable. Experimental results show the effectiveness, and particularly the computational feasibility, of PL2DW.

  263. 連続音声認識コンソーシアム2000年度版ソフトウエアの概要と評価

    河原 達也, 住吉 貴志, 李晃伸, 武田 一哉, 三村正人, 伊藤彰則, 伊藤 克亘, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 2001 (100) 37-42 2001年10月19日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    連続音声認識コンソーシアム(CSRC)は、IPAプロジェクトで開発された「日本語ディクテーション基本ソフトウェア」の維持・発展をめざして、情報処理学会 音声言語情報処理研究会のもとで活動を行っている。本稿では、2000年度(2000年10月-2001年9月)において開発されたソフトウエアの概要を述べる。今回、大語彙連続音声認識エンジン Julius の機能拡張、大規模なデータベースを用いた音響モデルの作成、種々の音響・言語モデル及びツール群の整備を行った。本ソフトウエアは現在、有償で頒布している。Continuous Speech Recognition Consortium (CSRC) was founded last year under IPSJ SIG-SLP for further enhancement of Japanese Dictation Toolkit that had been developed by the IPA project. An overview of the software developed in the first year (Oct. 2000 - Sep. 2001) is given in this report. We have revised the LVCSR (large vocabulary continuous speech recognition) engine Julius, and constructed new acoustic models using very large speech corpora. Moreover, a variety of acoustic and language models as well as toolkits are being set up. The software is currently available.

  264. 声道長正規化による大語彙連続音声認識の性能改善の検討

    藤田 大祐, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2001 (2) 3-4 2001年10月1日

    ISSN:1340-3168

  265. 単語およびクラス n-gram 作成のための統計的言語モデルツールキット

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2001 (1) 77-78 2001年3月1日

    ISSN:1340-3168

  266. 日本語ディクテーション基本ソフトウェア 99年度版

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 嵯峨山茂樹, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌 57 (3) 210-214 2001年3月1日

    出版者・発行元:日本音響学会

    DOI: 10.20697/jasj.57.3_210  

    ISSN:0369-4232

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデル及び日本語形態素解析・読み付与ツール等から構成される。99年度版では更なる高精度化・高速化そして大語彙化がなされた。本稿ではその仕様を述べると共に, 20, 000語彙及び60, 000語彙のディクテーションタスクにおける要素技術の評価を報告する。本ツールキットは, 無償で一般に公開されている。

  267. New state clustering of hidden markov network with Korean phonological rules for speech recognition

    SJ Oh, HY Chung, CJ Hwang, BK Kim, A Ito

    2001 IEEE FOURTH WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING 39-44 2001年

    出版者・発行元:IEEE

    詳細を見る 詳細を閉じる

    In this paper, we adopted the Korean phonological rules to state clustering of contextual domain for representing the unknown contexts and tying the model parameters of new states in state clustering of SSS (Successive State Splitting). We used the Decision Tree-based Successive State Splitting (DT-SSS) algorithm, which splits the state of contexts based on phonetic knowledge. The SSS algorithm proposed by Sagayama is a powerful technique, which designed topologies of tied-state HMMs automatically, but it doesn't generate unknown contexts adequately. In addition it has some problem in the contextual splits procedure. In this paper, the speaker independent Korean isolated word and sentence recognition experiments are carried out. In word recognition experiments, this method shows an average of 6.3% higher word recognition accuracy than the conventional HMMs. And in sentence recognition experiments, it shows an average of 90.9% recognition accuracy.

  268. 単語グラフ生成における パラメータ最適化の検討

    加藤正治, 斎院 俊典, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 2000 (119) 107-112 2000年12月21日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本報告では,マルチパスサーチに基づく音声認識における,単語グラフ生成のためのパラメータ推定法について検討する.種々の条件を単語グラフを利用して,仮想的に表現することで,言語重み・挿入ナルテイ,ビーム幅などのパラメータを効率よく推定することができる.ビーム幅を固定した場合,第1パスと同じ条件で単語グラフをリスコアすることで1,2回の繰り返し操作で最適な言語重み・挿入ペナルティを求められる.ビーム幅を含めた最適化では,あらかじめ,大きなサイズのグラフを用意することでパラメータを最適化する.提案法を新聞記事読み上げ音声に適応したところ,開発用650文で作成したパラメータは,評価用100文で作成したものよりも良好な良好が得られた.Language model weight and insertion penalty greatly affects the recognition preformance of LVCSR system. In the multi-pass LCVSR system that uses word graphas an intermediate data structure, theses decorder parameter should be optimized in order to generate a good word graph. We proposed the rescoring based method that uses bigram LM insted of generating many word graphs for each parameter setting. As the rescoring is much faster than the re-generation of a word graph, the optimization time of the proposed method is much shorter. In this paper, we tested proposed method on Japanese News Article Sentences (ASJ-JNAS). When obtaied enough development data, the recognition performance is improved.

  269. 単語およびクラス n-gram 作成のためのツールキット

    伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 100 (521) 67-72 2000年12月15日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    単語n-gramとクラスn-gramが作成可能なツールキットを作成した.このツールキットは, CMU-Cambridge SLM Toolkitとコマンドレベルで互換性があり, ARPA言語モデルを作成することができる.また, n-gram出現回数の混合による言語モデルや, 線形結合による言語モデルの組み合わせをサポートしている.言語モデルの組み合わせはAPIレベルでサポートされているので, 本ツールキットのライブラリを利用すれば, 組み合わせ言語モデルを使ったシステムを手軽に作ることができる.本ツールを使った実験として, 毎日新聞6年分を用いた言語モデルの評価実験を行った.単語モデルと品詞モデルのさまざまな組み合わせを比較した結果, 単語trigramに品詞trigramを組み合わせることで, パープレキシティが若干改善できることがわかった.

  270. 単語グラフ生成におけるパラメータ最適化の検討

    加藤 正治, 斎院 俊典, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 100 (520) 107-112 2000年12月14日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本報告では, マルチパスサーチに基づく音声認識における, 単語グラフ生成のためのパラメータ推定法について検討する.種々の条件を単語グラフを利用して, 仮想的に表現することで, 言語重み・挿入ナルティ, ビーム幅などのパラメータを効率よく推定することができる.ビーム幅を固定した場合, 第1パスと同じ条件で単語グラフをリスコアすることで1, 2回の繰り返し操作で最適な言語重み・挿入ペナルティを求められる.ビーム幅を含めた最適化では, あらかじめ, 大きなサイズのグラフを用意することでパラメータを最適化する.提案法を新聞記事読み上げ音声に適応したところ, 開発用650文で作成したパラメータは, 評価用100文で作成したものよりも良好な良好が得られた.

  271. Changes in fruit quality as influenced by shading of netted melon plants (Cucumis melo L. 'Andesu' and 'Luster')

    T. Nishizawa, A. Ito, Y. Motomura, M. Ito, M. Togashi

    Journal of the Japanese Society for Horticultural Science 69 563-569 2000年10月26日

    ISSN:1882-3351

    詳細を見る 詳細を閉じる

    Biochemical changes in ripening netted melon fruits (Cucumis melo L. 'Andesu' and 'Luster') as influenced by shading were determined. Shading resulted in a rapid loss of flesh firmness in both cultivars which was positively correlated with ethylene production. The rapid accumulation of sucrose observed by sun-exposed plants was significantly inhibited by shading. Almost no significant difference, however, occurred in glucose and fructose concentrations between shaded and unshaded plants. Shading accelerated the formation of the 'water-soaked' symptom in the flesh. Our results show that sunlight for netted melon plants during fruit maturation is important not only for sucrose accumulation but also for the maintenance of fruit firmness.

  272. 単語グラフ生成におけるパラメータ最適化の検討

    加藤 正治, 斎院 俊典, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (2) 33-34 2000年9月1日

    ISSN:1340-3168

  273. ページャ兼テキストベースWWWブラウザ“w3m”

    伊藤彰則

    bit 32 (9) 28-33 2000年9月

    出版者・発行元:共立出版

    ISSN:0385-6984

  274. 話者照合におけるMLLRベースの話者モデル作成の検討

    加藤 正治, 加納 淳也, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 100 (137) 25-32 2000年6月16日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本論文では, テキスト指定型の話者照合について検討する.主張話者モデルの作成は, 音声認識で用いられる最尤線形回帰(MLLR)ベースの話者適応を利用する.回帰クラスを増やす方法として木構造クラスタリングを利用する.クラスは学習データ量に基づき自動選択される.選択基準にはフレームしきい値の他にMDL基準に基づく方法についても検討する.さらに, より詳細な適応としてMAP法を併用する場合について調査した.また, MLLR法の発展であるSAT法の適用についても報告する.話者照合実験により, MLLR適応MDL基準にMAP法を併用することによる性能改善が顕著に現れた.また, SATコンパクトモデルは, 発生時期差のある場合に有効である.

  275. N-gram に基づくエルゴディックHMMによる言語モデル

    伊藤 彰則, 斎藤 秀樹, 加藤 正治, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 100 (137) 67-74 2000年6月16日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    N-gramをHMMに拡張した言語モデルについて検討する.このモデルは, N-gramを決定性有限オートマトンとみなし, 各状態を複数の状態に分割することで, これを非決定性有限オートマトンに拡張するものである.拡張されたモデルは, 一種のエルゴディックHMMになる.これを本稿ではHS-ngramと呼ぶ.BigramおよびTrigramからエルゴディックHMMを生成する実験を行い, 提案モデルが元のN-gramよりも低いパープレキシティを与えることを確認した.また, 連続音声認識結果のリスコアリンダ実験により, trigramとHS-trigramの比較を行った.その結果, HS-trigramはtrigramよりも若干良い結果となった.

  276. 単語グラフ生成の言語重み・挿入ペナルティ最適化の検討

    斎院 俊典, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 100 (137) 75-82 2000年6月16日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において, 単語グラフ生成のパラメータの良否はシステムの性能に大きく影響する.本報告では, 初期単語グラフのbigramによるリスコアリングに基づく, 単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討する.本手法は, 第一パスWERが最小になるようなパラメータ設定法であり, 第二パスWERの改善に繋がるが検討項目となる.従来の処理量の大きな単語グラフ生成を繰り返したパラメータ設定に比べて, 処理量の小さなリスコアリングを利用することで短時間でパラメータの最適化ができる.新聞記事読み上げ文に対する認識実験の結果, 本手法によって得られたパラメータは多くの場合で第二パスWERの改善に繋がっており, さらには従来のパラメータ設定による認識結果に比較し同等かそれ以上の性能を示すことに成功した.

  277. 2000-NL-137-7 / 2000-SLP-31-2 日本語ディクテーション基本ソフトウェア(99年度版)の性能評価

    河原 達也, 李 晃伸, 小林 哲則, 武田 一哉, 峯松 信明, 嵯峨山 茂樹, 伊藤 克亘, 伊藤 彰則, 山本 幹雄, 山田 篤, 宇都呂 武仁, 鹿野 清宏

    情報処理学会研究報告. SLP, 音声言語情報処理 2000 (54) 9-16 2000年6月2日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は、大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは、標準的な認識エンジン・日本語音響モデル・日本語言語モデル及び日本語形態素解析・読み付与ツール等から構成される。99年度版ではさらなる高精度化・高速化そして大語彙化がなされた。本稿ではその仕様を述べるとともに、20000語彙及び60000語彙のディクテーションタスクにおける要素技術の評価を報告する。本ツールキットは、無償で一般に公開されている。

  278. Trigramに基づくErgodic HMMによる言語モデルの検討

    斎藤 秀樹, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 51-52 2000年3月1日

    ISSN:1340-3168

  279. 単語グラフ生成の言語重み・挿入ペナルティ最適化の検討

    斎院 俊典, 岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 47-48 2000年3月1日

    ISSN:1340-3168

  280. 品詞と高頻度単語のN-gramを使用したタスク適応の検討

    小笠原 教充, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 75-76 2000年3月1日

    ISSN:1340-3168

  281. MLLR適応におけるMDL基準に基づく回帰クラスタ設定の検討

    加納 淳也, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 2000 (1) 103-104 2000年3月1日

    ISSN:1340-3168

  282. Language modeling by stochastic dependency grammar for Japanese speech recognition

    Akinori Ito, Chiori Hori, Masaharu Kotow, Masaki Kohda

    6th International Conference on Spoken Language Processing, ICSLP 2000 2000年1月1日

    詳細を見る 詳細を閉じる

    This paper describes a language modeling technique using a kind of stochastic context free grammar (stochastic dependency grammar, SDG). In this work, two improvements are done upon the general CFG based SCFG model. The first improvement is to use a restricted grammar instead of general CFG. The dependency grammar used here is a restricted CFG that expresses modification between two words or phrases. The derivation probabilities are estimated by inside-outside algorithm. The computational complexity of the estimation is reduced from 0(N3L3) to 0(N2L3), where N and L means the number of nonterminals and length of a sentence respectively. Second, word grouping is introduced for further reduction of the estimation time. The basic idea is that regular grammar is applied within a group and CFG is used to express intergroup relationship. To achieve the idea, a new algorithm is introduced. When a group have two words in average, the learning time becomes about one-eighth. Two experiments were carried out to investigate the performance of the proposed model. In the first experiment, various kinds of SCFGs were compared using perplexity. From the result, it was found that the proposed model have much lower PP than the original model. As for the training speed, restricted grammar made training process twenty times faster, and the word grouping made it eight times faster. In the second experiment, the proposed model was used as a language model of LVCSR. The result showed that the proposed model was as good as bigram and trigram, and that the combination of trigram and the proposed model achieved further improvement of WER.

  283. IPA Japanese dictation free software project

    Katsunobu Itou, Kiyohiro Shikano, Tatsuya Kawahara, Kazuya Takeda, Atsushi Yamada, Akinori Ito, Takehito Utsuro, Tetsunori Kobayashi, Nobuaki Minematsu, Mikio Yamamoto, Shigeki Sagayama, Akinobu Lee

    2nd International Conference on Language Resources and Evaluation, LREC 2000 2000年1月1日

    詳細を見る 詳細を閉じる

    Large vocabulary continuous speech recognition (LVCSR) is an important basis for the application development of speech recognition technology. We had constructed Japanese common LVCSR speech database and have been developing sharable Japanese LVCSR programs/models by the volunteer-based efforts. We have been engaged in the following two volunteer-based activities. a) IPSJ (Information Processing Society of Japan) LVCSR speech database working group. b) IPA (Information Technology Promotion Agency) Japanese dictation free software project. IPA Japanese dictation free software project (April 1997 to March 2000) is aiming at building Japanese LVCSR free software/models based on the IPSJ LVCSR speech database (JNAS) and Mainichi newspaper article text corpus. The software repository as the product of the IPA project is available to the public. More than 500 CD-ROMs have been distributed. The performance evaluation was carried out for the simple version, the fast version, and the accurate version in February 2000. The evaluation uses 200 sentence utterances from 46 speakers. The gender-independent HMM models and 20k/60k language models are used for evaluation. The accurate version with the 2000 HMM states and 16 Gaussian mixtures shows 95.9 % word correct rate. The fast version with the phonetic tied mixture HMM and the 1/10 reduced language model shows 92.2 % word correct rate and realtime speed. The CD-ROM with the IPA Japanese dictation free software and its developing workbench will be distributed by the registration to http://www.lang.astem.or.jp/dictation-tk/or by sending e-mail to dictation-tk-request@astem.or.jp.

  284. Free software toolkit for Japanese large vocabulary continuous speech recognition

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Shigeki Sagayama, Katsunobu Itou, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    6th International Conference on Spoken Language Processing, ICSLP 2000 2000年1月1日

    詳細を見る 詳細を閉じる

    A sharable software repository for Japanese LVCSR (Large Vocabulary Continuous Speech Recognition) is introduced. It is designed as a baseline platform for research and developed by researchers of different academic institutes under a governmental support. The repository consists of a recognition engine (Julius), Japanese acoustic models and statistical language models as well as Japanese morphological analysis tools. These modules can be easily integrated and replaced under a plug-and-play framework, which makes it possible to fairly evaluate components and to develop specific application systems. Assessment of these modules and systems in a 20000-word dictation task is reported. The software repository is freely available to the public.

  285. 音素グラフに基づく仮説制限法を用いた大語彙連続音声認識の検討

    岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 99 (524) 67-72 1999年12月21日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本報告では,大語臭連続音声認識のための高速な手法一音素グラフに基づく仮説制限法一について検討する.提案法は,認識の前処理として音素グラフを生成し,この音素グラフに含まれる情報を利用して,効率的に探索手法を狭める手法であり,5000語の語粟タスクにおいて誤り率を増加させることなく処理時間の約70%が削減可能であると報告してきた.本報告では,音素グラフ生成の際に,FastMatcllモデルを用いて1音素先読みを行うことで,音素グラフ生成自体の処理量削減をはかる,さらに,言語モデルにおける学習データの違いによる認識結果の違いについても検討する6語粟サイズ20000の新聞記事読み上げ文音声で評価し,音素グラフに基づく仮説制限法の導入は,単語誤り率をほとんど増加させることなく処理時間の約60%を削減できることを示す.

  286. 音素グラフに基づく仮説制限法を用いた 大語彙連続音声認識の検討

    岡 直生, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (108) 199-204 1999年12月20日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本報告では,大語彙連続音声認識のための高速な手法?音素グラフに基づく仮説制限法?について検討する.提案法は,認識の前処理として音素グラフを生成し,この音素グラフに含まれる情報を利用して,効率的に探索手法を狭める手法であり,5000語の語彙タスクにおいて誤り率を増加させることなく処理時間の約70%が削減可能であると報告してきた.本報告では,音素グラフ生成の際に,Fast Matchモデルを用いて1音素先読みを行うことで,音素グラフ生成自体の処理量削減をはかる.さらに,言語モデルにおける学習データの違いによる認識結果の違いについても検討する.語彙サイズ20000の新聞記事読み上げ文音声で評価し,音素グラフに基づく仮説制限法の導入は,単語誤り率をほとんど増加させることなく処理時間の約60%を削減できることを示す.In this paper, we study about fast search strategies for large vocabulary continuous speech recognition (LVCSR). Many fast search strategies have been proposed until. In [2], we proposed a new search strategy with a phoneme graph based hypothesis retriction, which efficiently reduces the search space. For 5000-word task, exprimental results showed that the method can reduce 70 % of the elapsed time without any error increasing. For further faster search, we incorporated 1-phoneme look-ahead technique into phoneme graph generation. We evaluate the proposed method with 20000-word Japanese newspaper task. Expremental results show that the method can reduce about 60 % of the elapsad time without error rate increasing.

  287. 話者照合における話者モデルのMLLR適応の検討

    加納 淳也, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (108) 55-60 1999年12月20日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本報告では,学習データ量に応じた回帰クラスタ設定にMDL基準を用いる方法を提案する.話者モデルは,隠れマルコフモデル(HMM : Hidden Markov Model)で表し,主張話者モデルをMLLR適応により作成する.回帰クラスを設定するために,音響的な距離を基準にtop-down clusteringで作成した木構造を用いる,木構造を用いた回帰クラスタの自動設定には,次の3通りを実験する.MDL基準を用いる場合,フレーム数を用いる場合,回帰クラスタを固定する場合.発声内容指定型話者照合で実験した結果,MDL基準を用いる方法は,クラスタ分割を抑制し,学習データ量に応じた最適なクラスタ数を選択できる可能性が得られた.In this paper, we propose a method to make automatically the regression cluster corresponding to the amount of adaptation data by MDL criterion. Claimant speaker models are made by MLLR adaptation. To increase the number of regression clusters, we use a tree structure. It is made with top-down clustering based on acoustic distance. The MDL criterion is compared with the frame threshold criterion and fixed regression clusters criterion. In the experiment on the text-prompted speaker verification, MDL criterion becomes the repression of cluster division, and the most suitable number of cluster corresponding to the amount of adaptation data is chosen.

  288. 話者照合における話者モデルのMLLR適応の検討

    加納 淳也, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 99 (523) 55-60 1999年12月20日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    本報告では,学習データ量に応じた回帰クラスタ設定にMDL基準を用いる方法を提案する.話者モデルは,隠れマルコフモデル(HMM:HiddenMarkovModel)で表し,主張話者モデルをMLLR適応により作成する.回帰クラスを設定するために,音響的な距離を基準にtop-downclusteringで作成した木構造を用いる.木構造を用いた回帰クラスタの自動設定には,次の3通りを実験する.MDL基準を用いる場合,フレーム数を用いる場合,回帰クラスタを固定する場合.発声内容指定型話者照合で実験した結果,MDL基準を用いる方法は7クラスタ分割を抑制し,学習データ量に応じた最適なクラスタ数を選択できる可能性が得られた

  289. N - best候補からの言語重みと挿入ペナルティの最適化に関する検討

    伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (91) 35-40 1999年10月29日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識システムには,最適化すべき多くのパラメータがある.本稿では,その中で言語重みと挿入ペナルティの設定について考察する.まず,実際に言語重みと挿入ペナルティの値を変えながら認識実験を行った結果から,三つの重要な観察事実を得た.一つ目は,これらのパラメータの最適値が,最適化に用いたテストセットに依存するという点である.二つ目は,これらのパラメータと単語エラー率の関係は複雑で,大域的な最適解を得るためには,パラメータ空間を全探索しなければならないという点である.三つ目は,ある程度最適な領域における単語エラ一率の変動は2%程度という点である,これらの事実を踏まえて,パラメータ最適化のための新しい手法を三つ提案する.最初に,n-best候補のりスコアリングに基づいてパラメータを最適化する場合に,そのn-best候補を予備選択する方法を提案する.この方法を使えば,最適化結果をまったく変えずに,n-best候補の数を大幅に削減することができる.二つ目に,より頑健なパラメータの設定値を探す方法を提案する.この方法は,パラメータ最適化のためのテストセットをいくつかに分割し,あるパラメータ設定における単語エラー率の平均と分散を考慮するという方法であり,bigram言語モデルを用いた場合には,ある程度の頑健性の改善が得られている.最後に,近隣サーチに基づいて,準最適なパラメータ設定を高速に探索する手法を提案する.An LVCSR system has many parameters to be optimized. In this paper, we investigate several issues about language model weight and word insertion penalty. From recognition results obtained by changing these parameters, we found three important observations. The first one was that the optimum point of these parameter values depended to the test set for the optimization. The second one was that the parameter space had many local optimum, which meant that one had to try all points in the parameter space to find the global optimum point. The third one was that the potential increment of WER in suboptimum region of the parameter space was about 2%. Based on these observations, We propose three new methods to optimize language model weight and insertion penalty. Firstly, a new method is proposed to preselect n-best candidates for n-best rescoring based parameter optimization. Secondly, a method to choose robust parameter setting is proposed. This method splits a development test set into several sets. Accoding to the optimization results for each set, This method choosed the optimum point by considering the average of WER as well as its variances. Finally, a method to find sub-optimum parameter setting is proposed. This optimization is based on neighborhood search, and it finds a parameter setting rapidly.

  290. Eurospeech99 IEEE MMSP99会議報告

    中村 哲, 大川 茂樹, 伊藤 彰則, 田本 真詞, 水野 秀之, 鵜木 祐史, 徳田 恵一, 鏑木 時彦, 畑岡 信夫

    情報処理学会研究報告音声言語情報処理(SLP) 1999 (91) 21-28 1999年10月29日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本稿では,1999年9月5日から9日にハンガリーのブタペストで開催されたESCAのEurospeech99および9月13日から15日にかけてデンマークのへルシンガーで開催されたIEEE Multimedia Signal Processing Workshopの報告を行う.This paper summarizes the topics in ESCA Eurospeech99 held at Budapest, Hungary, from Sep. 5 to Sep. 9, 1999 and in IEEE Multimedia Signal Processing Workshop held at Helsinger, Denmark, from Sep. 13 to Sep. 15, 1999.

  291. 話者照合における話者モデルのMLLR適応の検討

    加納 淳也, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 49-50 1999年9月1日

    ISSN:1340-3168

  292. N-best候補からの高速な言語重み・挿入ペナルティの最適化法

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 65-66 1999年9月1日

    ISSN:1340-3168

  293. 複数の認識出力の統合による性能改善の検討

    加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 85-86 1999年9月1日

    ISSN:1340-3168

  294. 尤度差に基づくn-gram言語モデル評価基準の検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 73-74 1999年9月1日

    ISSN:1340-3168

  295. bigramに基づくergodicHMMによる言語モデルの検討

    斎藤 秀樹, 伊藤 彰則, 加藤 正治, 好田 正紀

    日本音響学会研究発表会講演論文集 1999 (2) 101-102 1999年9月1日

    ISSN:1340-3168

  296. 尤度差に基づく n-gram 言語モデル評価のための指標

    伊藤 彰則, 好田 正紀, オステンドルフ M.

    電子情報通信学会技術研究報告. SP, 音声 99 (121) 95-102 1999年6月18日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    N-gramをはじめとする統計的言語モデルの評価尺度として,パープレキシティがこれまで広く用いられてきた.しかし,ドメイン外テキストを併用する言語モデルや混合言語モデルなどの複雑な言語モデルに関しては,認識システムの単語エラー率とパープレキシティとの相関が悪いという結果が近年報告されている.本稿では,n-gram言語モデルに代わりうる評価尺度について検討した結果を報告する.パープレキシティが評価テキストの単語の出現確率のみを用いるのに対して,ここで提案する指標は,評価テキストに出現する単語の言語尤度と,その単語が出現した文脈における最大言語尤度との差に基いている.この尤度差に対してシグモイド状の非線型関数を適用した後,言語毎の平均を算出する.非線型関数を適用することにより,認識結果の改善に寄与しない言語スコアの変動の影響を抑えることができる.音声認シミュレーション実験および実音声認識実験の結果と,ここで提案した指標との相関を調べてみたところ,パープレキシティに比べて高い相関を示すことが確認された.

  297. 確率文脈自由文法を用いた言語モデルの構築と音声認識実験による評価

    堀 智織, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 99 (121) 79-86 1999年6月18日

    出版者・発行元:一般社団法人電子情報通信学会

    ISSN:0913-5685

    詳細を見る 詳細を閉じる

    確率文脈自由文法(Stochastic Context Free Grammar:SCFG)は,N-pramのような局所的な制約だけでなく,文全体に渡る大局的な制約をも記述できることから,非常に表現力の高い言語モデルとして知られている.しかし,SCFGのパラメータ推定にはInside-Outsideアルゴリズムを用いる必要があり,非終端記号数の3乗,かつ入力系列長の3乗に比例する莫大な計算量を要する.そのため,これまでSCFGが音声認識用の言語モデルとして利用されることはほとんどなかった.そこで本研究では,Inside-Outsideアルゴリズムの計算量を削除するために,文節単位の係受け文法を適用したSCFGを提案する.EDRコーパスを用いた実験では,提案法を含む各種SCFGの性能とパラメータ推定に要する処理量を比較し,提案法の計算量削除の効果を示す.そして,毎日新聞コーパスを用いて大規模な文節単位の係受けSCFGを構築し,大語彙連続音声認識システムに実装して,Trigramとの認識性能の比較を行った結果について報告する.

  298. 日本語ディクテーション基本ソフトウェア 97年度版

    河原達也, 李晃伸, 小林哲則, 武田一哉, 峯松信明, 伊藤克亘, 伊藤彰則, 山本幹雄, 山田篤, 宇津呂武仁, 鹿野清宏

    日本音響学会誌 55 (3) 175-180 1999年3月1日

    出版者・発行元:日本音響学会

    DOI: 10.20697/jasj.55.3_175  

    ISSN:0369-4232

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は, 大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。このプラットフォームは, 標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは, 日本音響学会の音声データベースを用いて学習し, monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は, 毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは, 音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して, 5,000語彙の日本語ディクテーションシステムを作成し, 種々の要素技術の評価を行った。本ツールキットは, 無償で一般に公開されている。

  299. Japanese Dictation Toolkit -1997 version

    Tatsuya Kawahara, Akinobu Lee, Tetsunori Kobayashi, Kazuya Takeda, Nobuaki Minematsu, Katsunobu Itou, Akinori Ito, Mikio Yamamoto, Atsushi Yamada, Takehito Utsuro, Kiyohiro Shikano

    Journal of the Acoustical Society of Japan (E) (English translation of Nippon Onkyo Gakkaishi) 20 (3) 233-239 1999年

    DOI: 10.1250/ast.20.233  

    ISSN:0388-2861

    詳細を見る 詳細を閉じる

    The Japanese Dictation Toolkit has been designed and developed as a baseline platform for Japanese LVCSR (Large Vocabulary Continuous Speech Recognition). The platform consists of a standard recognition engine, Japanese phone models and Japanese statistical language models. We set up a variety of Japanese phone HMMs from a context-independent monophone to a triphone model of thousands of states. They are trained with ASJ (The Acoustical Society of Japan) databases. A lexicon and word N-gram (2-gram and 3-gram) models are constructed with a corpus of Mainichi newspaper. The recognition engine JULIUS is developed for evaluation of both acoustic and language models. As an integrated system of these modules, we have implemented a baseline 5,000-word dictation system and evaluated various components. The software repository is available to the public. © 1999, Acoustical Society of Japan. All rights reserved.

  300. 大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討

    堀 貴明, 岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 98 (461) 25-32 1998年12月11日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    本報告では, 大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition : LVCSR)のための高速な探索手法について検討し, 効果的に探索空間を狭める新しい手法-音素グラフに基づく仮説制限法-を提案する.本手法は, 認識の前処理として音素グラフを生成し, 認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する.音素グラフによる仮説制限は, 音素境界制限とForward-Backward Pruningからなり, これらは探索空間の大幅な削減を可能にする.語彙サイズ5000の新聞記事読み上げ音声を用いた認識実験において, 本手法が誤り率を増加させることなく処理時間の約70%を削減可能であることを示す.

  301. 大語彙連続音声認識のための音素グラフに基づく仮説制限法の検討

    堀 貴明, 岡 直生, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1998 (114) 113-120 1998年12月10日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    本報告では,大語彙連続音声認識(Large Vocabulary Continuous Speech Recognition : LVCSR)のための高速な探索手法について検討し,効果的に探索空間を狭める新しい手法?音素グラフに基づく仮説制限法?を提案する.本手法は,認識の前処理として音素グラフを生成し,認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する.音素グラフによる仮説制限は,音素境界制限とForward-Backward Pruningからなり,これらは探索空間の大幅な削減を可能にする.語彙サイズ5000の新聞記事読み上げ音声を用いた認識実験において,本手法が誤り率を増加させることなく処理時間の約70%を削減可能であることを示す.In this paper, we study about fast search strategies for Large Vocabulary Continuous Speech Recognition (LVCSR), and propose a new method - a phoneme-graph-based hypothesis restriction, which effectually prunes the search space. In the proposed method, a phoneme graph is generated at the pre-processing stage, and then the best word sequence is searched while restricting expansion of hypotheses using the information of the phoneme graph at the main recognition stage. The phoneme-graph-based restriction consists of the limitation of phoneme boundaries and the Forward-Backward Pruning, which enable to reduce the search space dramatically. The proposed method was tested on a 5,000-word Japanese newspaper reading task. The experimental results show that this method can reduce about 70% of the elapsed time without any error increasing.

  302. 状態クラスタリングによるHM-Netを用いた大語彙連続音声認識システムの検討

    堀 貴明, 岡 直生, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (2) 95-96 1998年9月1日

    ISSN:1340-3168

  303. 新聞記事コーパスから作成した各種N-gram言語モデルの音声認識実験による評価

    亀山 誠裕, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (2) 73-74 1998年9月1日

    ISSN:1340-3168

  304. ここまでできるぞ音声/言語処理技術 : 音声編

    新田恒雄, 小林哲則, 鹿野清宏, 武田一哉, 河原達也, 伊藤克亘, 峯松信昭, 伊藤彰則, 宇津呂武仁, 山本幹雄, 山田篤, 西村雅史, 甲斐充彦, 中川聖一, 服部浩明, 阿部匡伸, 松浦博

    情報処理学会研究報告. SLP, 音声言語情報処理 98 (49) 9-16 1998年5月28日

    出版者・発行元:社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    マルチメディア時代が到来し, 様々なサービス提供が始まっている。本報告では, 今後, ますます重要性を増す音声インタフェース技術に焦点をあて, 音声認識および音声合成を中心とした最新技術を紹介している。内容は, 音声認識技術として, 日本語ディクテーションソフトウエア, Web検索ソフトウエア, 大語彙音声認識チップを, また音声合成技術として, 音声コンテンツ制作支援ツール, テキスト-音声変換ソフトウエアから成る。

  305. SIG - SLP/SIG - NL合同セッション ここまでできるぞ音声/言語処理技術 -音声編-

    新田 恒雄, 小林 哲則, 鹿野 清宏, 武田 一哉, 河原 達也, 伊藤 克亘, 峯松 信昭, 伊藤 彰則, 宇津呂 武仁, 山本 幹雄, 山田 篤, 西村 雅史, 甲斐 充彦, 中川 聖一, 服部 浩明, 阿部 匡伸, 松浦 博

    情報処理学会研究報告自然言語処理(NL) 1998 (48) 9-16 1998年5月28日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    マルチメディア時代が到来し,様々なサービス提供が始まっている。本報告では,今後,ますます重要性を増す音声インタフェース技術に焦点をあて,音声認識および音声合成を中心とした最新技術を紹介している。内容は,音声認識技術として,日本語ディクテーションソフトウエア,Web検索ソフトウエア,大語彙音声認識チップを,また音声合成技術として,音声コンテンツ制作支援ツール,テキスト‐音声変換ソフトウエアから成る。

  306. 日本語ディクテーション基本ソフトウェア(97年度版)の性能評価

    河原 達也, 李晃伸, 小林 哲則, 武田 一哉, 峯松 信明, 伊藤 克亘, 伊藤 彰則, 山本 幹雄, 山田 篤, 宇津呂 武仁, 鹿野 清宏

    情報処理学会研究報告自然言語処理(NL) 1998 (48) 109-114 1998年5月28日

    出版者・発行元:一般社団法人情報処理学会

    詳細を見る 詳細を閉じる

    「日本語ディクテーション基本ソフトウェア」は、大語彙連続音声認識(LVCSR)研究・開発の共通プラットフォームとして設計・作成された。これは、複数の大学・公的研究機関の研究者の協力プロジェクトの成果である。このプラットフォームは、標準的な認識エンジン・日本語音響モデル・日本語言語モデルから構成される。音響モデルは、日本音響学会の音声データベースを用いて学習し、monophoneから数千状態のtriphoneまで用意した。語彙と単語N-gram(2-gramと3-gram)は、毎日新聞記事データベースを用いて構築した。認識エンジンJULIUSは、音響モデル・言語モデルとのインタフェースを考慮して開発された。これらのモジュールを統合して、5000語彙の日本語ディクテーションシステムを作成し、種々の要素技術の評価を行なった。本ツールキットは、無償で一般に公開されている。The project of developing LVCSR (Large Vocabulary Continuous Speech Recognition) platform is introduced. It is a collaboration of researchers of different academic institutes and intended to develop a sharable software repository of not only databases but also models and programs. The platform consists of a standard recognition engine, Japanese phone models and Japanese statistical language models. As an integrated system of these modules, we have implemented a baseline 5000-word dictation system and evaluated various components. The software repository is available to the public.

  307. N-gramタスク適応の認識実験による評価

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (1) 43-44 1998年3月1日

    ISSN:1340-3168

  308. 言語モデル作成におけるカットオフおよび時期差の検討

    亀山 誠裕, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1998 (1) 49-50 1998年3月1日

    ISSN:1340-3168

  309. 音素連接HMMを用いた尤度正規化に基づくワードスポッティングの検討

    加藤 正治, 堀 貴明, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 97 (440) 9-14 1997年12月12日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    近年の音声認識では, 確率モデルに基づく隠れマルコフモデル(HMM)が広く利用されている. 連続音声認識では, 仮説の長さや位置が異なるためにHMMの尤度スコアを直接用いることには問題がある. 本研究では, 確率論的な考えに基づいて音素HMMの尤度を正規化する手法について検討する. 具体的には, 日本語の任意の音素並びを表現できる音素連接HMMを用いて, HMMの尤度を正規化する. 音素連接HMMに基づく手法は, 特別なモデルを作成する必要がなく, 認識システムの枠組にとり込める, といった特徴がある. 本研究で提案する手法をワードスポッティングに適用しその効果を評価する.

  310. 状態クラスタリングによるHM - Netの構造決定法の検討

    堀 貴明, 加藤正治, 伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (120) 47-52 1997年12月11日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    隠れマルコフ網 (M?Ne) は,音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり,高精度かつ頑健な音声認識を実現する音響モデルとして有効であることが示されている.HM?Netを生成する方法として,これまで逐次状態分割法 (uccessive State Splitting:SS) やその改良が提案されているが,これらの手法は学習サンプルを用いて状態分割とパラメータ推定を繰り返す手法であるため,大量の学習サンプルを利用する場合には計算量が膨大になるという問題がある.通常,HM?Netは少量のサンプルによって構造決定され,各状態の分布のみが多量のサンプルによって再推定される.しかし,少量のサンプルでは大語彙連続音声認識などに用いる大規模なHM?Netの構造が得られない.本報告では大語彙連続音声認識のための高精度なHM?Netを作成する手法として,状態クラスタリングに基づく高速なHM?Netの構造決定法を提案する.同じ学習サンプルセットを用いた場合に,本手法が高速かつ従来と同等のHM?Netを生成可能であることを連続音素認識実験により示す.A Hidden Markov Network (HM-Net) is a highly accurate and robust acoustic model which represents a tied-state structure of context dependent Hidden Markov Models as a network. A Successive State Splitting (SSS) method and its improved ones have been already proposed to generate HM-Nets. However, there is a common problem in these algorithms. The problem is that much amount of computation is required when large amount of training data is used, because state splitting and parameter estimation are repeated using the training data. Although topologies of HM-Nets are usually designed with a part of training data and then only their output density distributions are estimated with all of the data, HM-Nets with large-scale topologies for large vocabulary continuous speech recognition (LVCSR) cannot be derived. In this paper, we propose a state clustering-based rapid topology design method to generate high accuracy HM-Nets for LVCSR. In continuous phoneme recognition experiments, it is shown that the proposed method is a fast algorithm and can generate HM-Nets equivalent to ones designed by conventional methods when the same training data is used.

  311. 大語彙日本語連続音声認識研究基盤の整備 -評価用連続音声認識プログラムの開発-

    河原 達也, 李晃伸, 伊藤 克亘, 小林 哲則, 伊藤 彰則, 宇津呂 武仁, 清水 徹, 田本 真詞, 荒井 和博, 峯松 信明, 山本 幹雄, 竹沢 寿幸, 武田 一哉, 松岡 達雄, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (101) 1-6 1997年10月24日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識研究の推進のためには、データベースと共に、標準 (ベースライン) となるソフトウェア (言語モデル・音響モデル・認識プログラム) が必要であり、著者らはその基盤整備を進めている。本稿では、認識プログラムについて、その仕様 (案) と基本的なアルゴリズムを説明する。For Japanese large vocabulary continuous speech recognition (LVCSR) research, we are developing standard baseline software repository that includes language models, acoustic models and recognition engines. In this report, specifications and algorithms of the speech recognizer currently designed are described.

  312. 大語彙日本語連続音声認識研究基盤の整備 -学習・評価テキストコーパスの作成-

    伊藤 克亘, 伊藤 彰則, 宇津呂 武仁, 河原 達也, 小林 哲則, 清水 徹, 田本 真詞, 荒井 和博, 峯松 信明, 山本 幹雄, 竹沢 寿幸, 武田 一哉, 松岡 達雄, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (101) 7-12 1997年10月24日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識研究の推進のためには、標準 (ベースライン) となるコーパス (音声、テキスト) やソフトウェア (言語モデル・音響モデル・認識プログラム) が必要であり、著者らはその基盤整備を進めている。本稿では、システム評価のためのテキストコーパスについて設計方法とその諸元を述べる。For Japanese large vocabulary continuous speech recognition (LVCSR) research, we are developing standard baseline software repsitory that includes language models, acoustic models and recognition engines. In this report, design and specification of the text corpus are described.

  313. 大語彙日本語連続音声認識研究基盤の整備 -汎用音素モデルの作成-

    武田 一哉, 峯松 信明, 伊藤 彰則, 伊藤 克亘, 宇津呂 武仁, 河原 達也, 小林 哲則, 清水 徹, 田本 真詞, 荒井 和博, 山本 幹雄, 竹沢 寿幸, 松岡 達雄, 鹿野 清宏

    情報処理学会研究報告音声言語情報処理(SLP) 1997 (101) 13-18 1997年10月24日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    大語彙連続音声認識研究の推進のためには、データベースと共に、標準 (ベースライン) となるソフトウェア (言語モデル・音響モデル・認識プログラム) が必要であり、著者らはその基盤整備を進めている。本稿では、音響モデルの構築について述べる。For Japanese large vocabulary continuous speech recognition (LVCSR) research, we are developing standard baseline software repository that includes language models, acoustic models and recognition engines. In this report, construction of acoustic models 13 discussed.

  314. 係り受け文法による確率文脈自由文法を用いた言語モデルの検討

    柳沼 正宣, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 97 (330) 33-40 1997年10月17日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    確率文脈自由文法 (SCFG) を用いて音声認識のための言語モデルを構築する。SCFGの学習にはIn side-Outside (I/O) アルゴリズムが用いられるが、本研究では係り受け文法を適用させるためにそれを改良した。それは, テキスト (EDRコーパス) 中の単語を機能語 (助詞, 助動詞など) と実質語 (機能語以外) に分けて適用する。比較対象としては、オリジナルのI/Oアルゴリズムを用いてSCFGを学習したモデル (Normal SCFG)、N-gram (bigram、trigram) である。提案法を用いることで計算コストをO(N^3) からO(N^2) のオーダに削減でき、また性能面 (Perplexity評価) においてもはるかに改善され、非終端記号数を12以上にすることによりtrigramを上回った。さらに、計算時間短縮、性能向上を目指すため初期値の検討を行った。

  315. 重みつき平均によるN-gramタスク適応における語彙の設定法と評価

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (2) 61-62 1997年9月1日

    ISSN:1340-3168

  316. 確率文脈自由文法を用いた言語モデルにおける初期値の検討

    柳沼 正宣, 加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (2) 51-52 1997年9月1日

    ISSN:1340-3168

  317. 音素連接HMMに基づく尤度正規化を用いたワードスポッティングの検討

    加藤 正治, 堀 貴明, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (2) 79-80 1997年9月1日

    ISSN:1340-3168

  318. N-gram のタスク適応における語彙の設定法の検討

    伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 97 (115) 51-58 1997年6月20日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    あるタスクについてN-gram言語モデルを作成するには, そのタスクに属する言語資料を大量に集めなければならない. 本稿では, 大量の一般的な言語資料(大量テキスト)と, 小量の特定タスクのサンプル(適応テキスト)から, 特定タスク向きのN-gramを作成する「タスク適応」について述べる. ここで用いているタスク適応法は, 大量テキストと適応テキストとを重みつきで混合するという方法である. まず, この手法とMAP推定, Bayes推定との関係を明らかにする. 次に, 適応時のモデルの語婁の設定法について検討する. 一般的な言語資料には目的のタスクと無関係な単語が多く含まれるため, これらを未知諸として語彙から除外することにより, モデルの精度を高めることができる. 本稿では, 大量テキストと適応テキストの語彙を独立に設定することで, モデルのバープレキシティが低減できることを示す.

  319. N-gramを用いた言語コーパスへの読みの付与

    伊藤 彰則, 萬崎 弘, 加藤 正治, 好田 正紀

    日本音響学会研究発表会講演論文集 1997 (1) 9-10 1997年3月1日

    ISSN:1340-3168

  320. 音素決定木に基づく逐次状態分割法による HM-Net の性能改善の検討

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 96 (420) 17-24 1996年12月13日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    限られた学習サンプルから高精度かつ頑健な音素環境依存モデルを生成するためには,パラメータの共有関係をどのように決定するか,未知の音素環境をどのように扱うかが重要である.このような観点から,我々は音素決定木に基づく逐次状態分割法 (Decsion Tree-based Successive State Splitting:DT-SSS) を提案し,この手法によって自動生成された HM-Net が高精度かつあらゆる音素環境を表現可能であることを示した[13].しかし, DT-SSS には時間方向の状態分割が組み込まれておらず,この手法によって生成された HM-Net は SSS の特徴を十分に反映したモデルではなかった.本報告では, DT-SSS の性能改善のために時間方向の状態分割を導入し,様々な初期モデルからの状態分割を試みて,連続音素認識実験により性能を比較する.また,頑健性向上とパラメータ数削減のために,過度に分割が行われた状態の再共有化についても検討する.

  321. HMMの状態系列に基づく単語予備選択法の検討

    加藤 正治, 堀 貴明, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (2) 87-88 1996年9月1日

    ISSN:1340-3168

  322. 小量テキストによる言語モデルのタスク適応の検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (2) 37-38 1996年9月1日

    ISSN:1340-3168

  323. 音素決定木に基づく逐次状態分割法による HM-Net の検討

    堀 貴明, 加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 96 (93) 15-22 1996年6月14日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    限られた学習サンプルを用いて高精度かつ頑健なコンテキスト依存モデルを生成するために重要なことは,パラメータの共有関係をどのように決定するか,未知コンテキストをどのように扱うかである.逐次状態分割法(SSS)は,モデルの状態共有関係を自動的に決定する優れた手法であるが,未知コンテキストの扱いが十分ではなく,コンテキスト方向の分割にも問題がある.本報告では,逐次状態分割法のコンテキスト方向の状態分割過程に,音素決定木に基づくコンテキストクラスの分割を導入した新しいアルゴリズムを提案する.この手法により,高精度かつあらゆるコンテキストを表現可能なHM-Netの自動生成が可能となる.特定話者/不特定話者連続音素認識実験より,本手法の有効性を示す.

  324. 最適音素系列に基づく単語予備選択法の検討

    加藤 正治, 伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. SP, 音声 96 (92) 9-14 1996年6月13日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    HMMに基づく単語音声認識を高速に行なうための単語予備選択法について検討する.この方法では,音素対文法に基づくネットワークから最適音素列を求め,これに基づき候補単語を選択する.候補単語の推定には音素DPを利用する.約15,000語の辞書を用いた単語音声認識実験で評価を行なった結果,辞書の1%にあたる150単語を候補とした場合,そのなかに正解が含まれている割合は99%以上であった.このときの計算量は,全数探索と比較してCPUtimeで4.6%,漸化式の比較回数で8.6%となった.また,HMM出力確率を簡略化するモデルとの併用についても検討する.

  325. 大語彙言語データベースからのN - gram構築とタスク適応の検討

    伊藤 彰則, 代島 直人, 丸山 敦, 加藤正治, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1996 (55) 25-30 1996年5月27日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    比較的規模の大きいコーパスであるEDRコーパスを用いて,N?gramの構築実験を行った.このとき,学習テキストの大きさを50万?500万単語のあいだで変化させ,語彙数・カットオフ条件などを変えて実験を行い,それぞれの場合の最適値を見出すことができた.また,EDRコーパスを学習テキストとしてタスク適応の実験を行った.適応タスクとして音響学会データベースの対話データを用い,さまざまなタスク・適応データ量・学習データ量について実験を行った.その結果,適応がない場合と比較してperplexityを1/3程度に減少させることが可能になった.N-gram language models were constructed from EDR corpus, 5-million-word Japanese corpus. The models were investigated under various conditions about training text size, vocabulary and cut-off condition. The result of the experiments clarified the optimum condition under a certain training text size. We carried out another experiments about task adaptation. An N-gram model from a dialog was mixed with the N-gram from EDR corpus, which made about 60% reduction of perplexity.

  326. 文字列パターンとパターンクラスのN-gramの検討

    伊藤 彰則, 好田 正紀

    電子情報通信学会総合大会講演論文集 1996 (1) 345-346 1996年3月11日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    現在我々は文節構造をベースとした対話音声認識を目指して研究を進めている.その一環として,これまで人間同士の対話から文節構造モデルを構築するという研究を行ってきた.しかし,単純な有限オートマトンによる文法では認識に用いる際の制約能力が不十分であることから,N-gramなどの確率モデルの利用を検討している.N-gramによる確率モデルを日本語に適用する際に問題になるのは,何をモデルの単位とするかである.英語の場合には学習用のテキストが単語ごとにわかち書きされているので単語単位のN-gramが容易に構成できるが,日本語の場合には事前に形態素解析が必要である.しかし,従来の形態素解析システムを用いて会話文のような文章を解析するのは難しく,正確な解析は望めない.文字などの単位を用いた確率モデルを使うこともできるが,N-gramの単位が短いため,制約が弱い.そこで本稿では,次のような手法によって自動的にN-gramを生成する方法について検討する.1.「単語単位」と「文字単位」の中間的な単位として,学習テキストから自動的に抽出できる単位を用いて確率モデルを構成する.2.学習テキストの文字列を何らかの基準でクラスに分け,そのクラスと文字のN-gramを構成する.3.学習テキストに対して文節数最小基準による形態素解析を行い,その結果からN-gramを生成する.今回は,文節単位のデータを用いてN-gramを構成し,マルコフモデルによる文節モデルを構築している.

  327. 最適音素系列に基づく単語予備選択法の検討

    加藤 正治, 伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (1) 79-80 1996年3月1日

    ISSN:1340-3168

  328. 文字列パターンとパターンクラスのN-gramによる文節モデルの検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1996 (1) 193-194 1996年3月1日

    ISSN:1340-3168

  329. 対話音声認識のための事前タスクの適応の検討

    伊藤彰則

    信学技報,SP96-81 1996年

  330. The performance prediction on sentence recognition using a finite state word automaton

    T Otsuki, A Ito, S Makino, T Ohtomo

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E79D (1) 47-53 1996年1月

    出版者・発行元:IEICE-INST ELECTRON INFO COMMUN ENG

    ISSN:0916-8532

    詳細を見る 詳細を閉じる

    This paper presents the performance prediction method on sentence recognition system which uses a finite state word automaton. When each word is uttered separately, the relationship between word recognition score and sentence recognition score can be approximated using the number of word sequences at a minimum distance From each sentence in the task. But it is not clear that how we get this number when the finite state word automaton is used as linguistic information. Therefore, we propose the algorithm to calculate this number in polynomial time. Then we carry out the prediction using this method and the simulation to compare with the prediction on the task of Japanese text editor commands. And it is shown that our method approximates the lower limit of sentence recognition score.

  331. Language modeling by string pattern N-gram for Japanese speech recognition

    A Ito, M Kohda

    ICSLP 96 - FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, PROCEEDINGS, VOLS 1-4 1 490-493 1996年

    出版者・発行元:I E E E

    詳細を見る 詳細を閉じる

    This paper describes a new powerful statistical language model based on N-gram model for Japanese speech recognition. In English, a sentence is written word-by-word On the other hand a sentence in Japanese has no word boundary character. Therefore. a Japanese sentence requires word segmentation by morphemic analysis before the construction of word N-gram. We propose an N-gram based language model which requires no word segmentation. This model uses character string patterns as units of N-gram. The string patterns are chosen from the training text according to a statistical criterion. We carried out several experiments to compare perplexities of the proposed and the conventional models. which showed the advantage of our model.

  332. 文字列パターンの N-gram による文節モデルの検討

    伊藤 彰則, 好田 正紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション 95 (429) 19-24 1995年12月15日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    日本語文/対話音声認識において, N-gramに代表される統計的言語モデルを用いようとした場合,その単位が問題となる。英語の場合には単語を単位としたN-gramを用いるのが一般的であるが,日本語の場合には単語に分かち書きされないため,事前に形態素解析が必要となる。しかし,対話などの場合は従来のシステムによる形態素解析が難しい。そこで本稿では,形態素解析を行なわずに性能の良いN-gramを作るための手法,誤りを含んだ形態素解析によるN-gram,さらに文字列パターンのクラス化によるN-gramについて検討を行なった。その結果,パターンクラスによる方法で人手による形態素解析を越える結果を得ることができた。

  333. 文字列パターンのN - gramによる文節モデルの検討

    伊藤 彰則, 好田 正紀

    情報処理学会研究報告音声言語情報処理(SLP) 1995 (120) 105-112 1995年12月14日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    日本語文/対話音声認識において,N?gramに代表される統計的言語モデルを用いようとした場合,その単位が問題となる.英語の場合には単語を単位としたN?gramを用いるのが一般的であるが,日本語の場合には単語に分かち書きされないため,事前に形態素解析が必要となる.しかし,対話などの場合は従来のシステムによる形態素解析が難しい.そこで本稿では,形態素解析を行なわずに性能の良いN?gramを作るための手法,誤りを含んだ形態素解析によるN?gram,さらに文字列パターンのクラス化によるN?gramについて検討を行なった.その結果,パターンクラスによる方法で人手による形態素解析を越える結果を得ることができた.Markov model based language models (N-gram) are popular among sentence/dialog speech recognition. On applying these models to Japanese speech recognition, one has to dicide what to be a unit of N-gram. As Japanese sentence is not divided into words, the morphemic analysis is required before word-by-word processing. But it is difficult to get the precise analysis automatically for spontaneous speech transcription. In this paper, we propose several language models which enable fully automatic construction of the model. We examined three types of models: N-gram by string pattern, N-gram by automatic morphemic analysis and string pattern class N-gram. These models were compared by perplexity. From the experimental results, the string pattern class N-gram got better performance than morpheme N-gram.

  334. 文節構造モデルの自動生成の検討

    伊藤 彰則, 好田 正紀

    日本音響学会研究発表会講演論文集 1995 (2) 19-20 1995年9月1日

    ISSN:1340-3168

  335. サブギガネットワークでマルチメディア・アプリケーションを実現する東北大学「SuperTAINS」

    亀山幸義, 伊藤彰則, 小林広明

    コンピュータ&ネットワークLAN 13 (6) 114-120 1995年6月

    出版者・発行元:オーム社

  336. A NEW HMNET CONSTRUCTION ALGORITHM REQUIRING NO CONTEXTUAL FACTORS

    M SUZUKI, S MAKINO, A ITO, H ASO, H SHIMODAIRA

    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E78D (6) 662-668 1995年6月

    出版者・発行元:IEICE-INST ELECTRON INFO COMMUN ENG

    ISSN:0916-8532

    詳細を見る 詳細を閉じる

    Many methods have been proposed for constructing context-dependent phoneme models using Hidden Markov Models (HMMs) to improve performance. These conventional methods require previously defined contextual factors. If these factors are deficient, the method exhibit poor recognition performance. In this paper, we propose a new construction algorithm for HMnet which does not require pre-defined contextual factors. Experiments demonstrated that the new algorithm could construct the HMnet even for the case that the Successive State Splitting (SSS) algorithm could not. The new algorithm produced better phoneme recognition characteristics than the SSS algorithm.

  337. 音声認識のための文節構造モデルとその制約について

    伊藤 彰則, 牧野 正三

    情報処理学会研究報告音声言語情報処理(SLP) 1995 (51) 43-50 1995年5月25日

    出版者・発行元:一般社団法人情報処理学会

    ISSN:0919-6072

    詳細を見る 詳細を閉じる

    音声対話処理など,自由発話を主に扱うタスクに用いるための文節モデルを作成した.このモデルは,日本音響学会連続音声データベースの対話テキストの分析に基づき,そこに出現する表現をカバーするように作成した有限オートマトンである.現在のモデルの規模は,実質語3386,機能語615である.次に,このモデルを実際に認識に用いることを考慮し,各種の確率モデルとの併用を検討した.有限オートマトンの遷移確率を用いる方法と,N?gramを併用する方法を検討し,bigramとの併用で比較的良い結果を得た.また,有限オートマトンでは表現しにくい各種の制約について,属性による表現を試みた,属性付きの有限オートマトンをそのまま使うのではなく,属性なしのものに自動変換して使うことを試みた.この手法により,従来有限オートマトンで制御される認識手法をそのまま使うことが可能になる.今回作成した文節モデルにいくつかの属性を導入し,その効果について調査した.This paper describes a bunsetsu (phrase) model for Japanese spontaneous speech recognition. This model is represented as a finite automaton which covers almost all expressions in dialog transcriptions in the ASJ continuous speech corpus. This model contains 3386 conceptual words and 615 functional words. Next, stochastic language models are combined with the bunsetsu model. Two types of stochastic models are investigated: a stochastic regular grammar and a N-gram model. When combined with the bunsetsu model, a bigram model gets smaller perplexity. Finally, several attributes are introduced the bunsetsu model to express constraints between distant words in a phrase. The finite automaton model with attributes is automatically converted to a finite automaton without attributes, which can be easily used for conventional speech recognition schemes.

  338. 対話音声認識のための文節構造モデルへの各種制約の導入

    伊藤 彰則, 牧野 正三

    日本音響学会研究発表会講演論文集 1995 (1) 183-184 1995年3月1日

    ISSN:1340-3168

  339. 対話音声認識のための事前タスク適応の検討

    伊藤彰則

    信学技報NLC96-50,SP96-81 1995年

  340. Performance prediction of word recognition using the probability of word occurrence

    Takashi Otsuki, Teruhiko Otomo, Akinori Ito, Shozo Makino

    Electronics and Communications in Japan (Part III: Fundamental Electronic Science) 78 (3) 10-19 1995年

    DOI: 10.1002/ecjc.4430780302  

    ISSN:1520-6440 1042-0967

    詳細を見る 詳細を閉じる

    The words in natural language have different occurrence probabilities. Consequently, the information obtained from the event, i.e., the occurrence of a word, is larger than in the case of the occurrence with uniform probability. In other words, it will be effective to utilize the occurrence probability of the word in the recognition and it is sensible to examine its error‐correcting ability. This paper considers the situation where the word occurrence probability is used in the word recognition process and presents a method to estimate the relation between the phoneme/character recognition score and the word recognition score. In the past derivation of the evaluation formula for the word recognition score, it is assumed that the word occurrence probability is uniform for whole words and the difference is ignored. From such a viewpoint, this paper derives the evaluation formula considering the word occurrence probability. By comparing the value estimated by the derived evaluation formula and the value obtained by the simulation for the word recognition, it is found that there is a considerable error due to the approximation and the word recognition score is estimated as approximately 10 percent lower for the phoneme recognition score of 80 percent. Then the approximation procedure is modified and an evaluation formula containing a correction factor is derived. the difference between the value estimated by the corrected evaluation formula and the value obtained by simulation is less than 5 percent for the phoneme recognition score of 80 percent. In other words, the precision is improved and the word recognition score, when the word occurrence probability is utilized, can be estimated accurately. Copyright © 1995 Wiley Periodicals, Inc., A Wiley Company

  341. Performance prediction of word recognition using the transition information between phonemes or between characters

    Takashi Otsuki, Shozo Makino, Akinori Ito, Toshio Sone

    Systems and Computers in Japan 25 (7) 72-81 1994年

    DOI: 10.1002/scj.4690250707  

    ISSN:1520-684X 0882-1666

    詳細を見る 詳細を閉じる

    This paper considers word recognition based on the existence of the transition between phonemes and characters with complete segmentation between phonemes and characters. A method is proposed which estimates theoretically the relation between the phoneme/character recognition score and the word recognition score. The word recognition score can be estimated by the evaluation formula based on the number of short‐distance words in the dictionary for the case where the word dictionary is used. The traditional evaluation formula for the word recognition score, however, has a problem in that the accuracy of estimation is deteriorated rapidly with the decrease of the phoneme/character recognition score and the increase of the short‐distance words. From such a viewpoint, this paper proposes a new evaluation formula with a higher estimation accuracy. In this paper, the sequence that can be generated based on the transition information is used as the item in the word dictionary. Then the number of items increases exponentially with the length, making it difficult to estimate the number of short‐distance words. For this problem, this paper proposes an algorithm that calculates the number of short‐distance words in a polynomial time. For approximately 5000 important words in Japanese, the estimated word recognition score for the phoneme recognition score of 90 percent is given approximately 72 percent by the proposed method and approximately 66 percent by the traditional method. It is approximately 78 percent by simulation. Thus, it is shown that the proposed method gives a better approximation than the traditional method. Copyright © 1994 Wiley Periodicals, Inc., A Wiley Company

  342. 有限状態オートマトンを用いた文認識系の能力評価 : 単語認識率と文認識率の関係

    大槻 恭士, 伊藤 彰則, 牧野 正三, 大友 照彦

    電子情報通信学会技術研究報告. SP, 音声 93 (183) 41-48 1993年8月19日

    出版者・発行元:一般社団法人電子情報通信学会

    詳細を見る 詳細を閉じる

    本報告では,構文的言語情報として良く用いられている有限状態オートマトンを利用した文認識系の能力評価法について述べる.文認識における単語認識率と文認識率の関係は,タスク中の距離が1離れた文の数より,原理的には推定できるが,有限状態オートマトンに受理される系列(文)における距離1の文の数の求め方は明らかになっていなかった.そこで,有限状態オートマトンに受理される単語(文節)系列中の距離1の文の数を,O(ANL)の計算量(A:オートマトンをネットワークで表したときのアーク(弧)の本数,L:文の長さ,N:文の数)で求めるアルゴリズムを提案し,文認識のシミュレーションの結果を予測した.

  343. カテゴリ間の遷移情報を用いた文認識系の能力評価法

    大槻 恭士, 伊藤 彰則, 牧野 正三, 曽根 敏夫

    全国大会講演論文集 46 197-198 1993年3月1日

    詳細を見る 詳細を閉じる

    言語情報を用いて単語ラティスから文を決定する文認識系における単語認識率と文認識率の関係は,タスク中の距離1の文の数より推定することができるが,品詞等のカテゴリのbigramやtrigramの有無を用いた場合の,距離1の文の数の求め方は明らかになっていない.本稿ではそれを求めるアルゴリズムを提案し,単語認識率と文認識率の関係を推定する.

  344. 文節間文法を用いた未知語検出

    石川 永和, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 46 55-56 1993年3月1日

    詳細を見る 詳細を閉じる

    近年の自然言語処理システムでは文法をはじめとする各種言語情報は各単語ごとに分散記述,データベース化し,維持・管理することが多い.しかしこのデータベース化にはコストがかかること,タスクごとに変更を迫られるなどの点から作成の自動化が望まれている.これに当たっては大量のテキストを解析しなければならないが,辞書未登録語(未知語)については検出を行い,言語情報を付与する必要がある.本稿ではこの未知語検出に関する一方法を提案する.この方法は文節間の依存関係を表現した文節間文法を基礎とするもので,前報告で述べた疑似文節を用いた未知語検出法に採り入れることにより検出率が向上した.

  345. A NEW WORD PRESELECTION METHOD BASED ON AN EXTENDED REDUNDANT HASH ADDRESSING FOR CONTINUOUS SPEECH RECOGNITION

    A ITO, S MAKINO

    ICASSP-93 : 1993 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5 2 B299-B302 1993年

    出版者・発行元:I E E E

    ISSN:0736-7791

    詳細を見る 詳細を閉じる

    In this paper, a new word pre-selection method called 'extended redundant hash addressing method' is proposed. This method extends the redundant hash addressing method to word spotting from continuous speech. Moreover, the improvement of the trigram extraction makes the matching score more accurate than the redundant hash addressing method. The work spotting experiments showed that the proposed method gave a word spotting performance compatible to that of continuous DP matching and that the proposed method was about five times faster than continuous DP matching.

  346. 文節オートマトンを用いた未知語検出法

    石川 永和, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 45 167-168 1992年9月28日

    詳細を見る 詳細を閉じる

    最近の連続音声認識システムや自然言語処理システムでは、文法・意味などの言語情報の大部分を単語に付属させることが多いが、この情報付与は手作業であるため、自動化が望まれている。本研究は、未知語を検出しその語の文法的・意味的属性を自動的に付与することを目的としている。われわれは形態素解析において辞書未登録語を検出するため、未知語に対応できる形態素解析法を提案した。しかし、この方法は経験則に大きく依存し、十分な効果を上げることはできなかった。本稿では確率的手法を用いることにより、未知語検出を高精度化する方法を提案する。

  347. 言語データベース作成のための形態素解析における未知語検出の検討

    石川 永和, 伊藤 彰則, 牧野 正三

    全国大会講演論文集 44 177-178 1992年2月24日

    詳細を見る 詳細を閉じる

    現在我々は大規模な言語データベースの構築を行なおうとしている。データベース作成にあたっては大量のテキストを解析することが必要であり、これらのテキストを対して十分な語彙を持つ辞書を用意する必要がある。しかしながらあらゆるテキストに対処できる辞書を構成することは日本語の造語能力などの点から、因難である。またデータベース作成の趣旨からはテキスト中に辞書に記載されていない語が存在した場合この語の文法的性質や意味推定を行ない、最終的には新語として辞書に単語登録する段階に達することが望まれる。本稿ではデータベース作成の第一段階として行なわれる形態素解析において辞書未登録語を検出することを目的とする。従来さまざまな形態素解析法が提案されているがこれらは解析対象となるテキストに辞書未登録語が現れないことを前提としているものが多く、未登録語が存在する場合の動作は保証されていない。ここでは一旦形態素候補を作成した後、新たな形態素候補を加えることにより、未知語が存在しても形態素解析が行なえるアルゴリズムを開発することをねらう。

  348. Redundant Hash Addressing法と機能語予測CYK法を組み合わせた連続音声認識の統語処理

    伊藤 彰則, 牧野 正三

    全国大会講演論文集 44 165-166 1992年2月24日

    詳細を見る 詳細を閉じる

    連続音声認識の統語処理法としては,拡張LR法に基づくものやChart Parser,Earley法などに基づくものが提案されている.しかし,これらのアルゴリズムでは主に文法からの単語予測というトップダウンの処理を中心にしているため,文法的に予測された単語については,すベて入力系列とマッチングを行ってみる必要がある.これは認識精度を高めるという点においては有効であるが,大語彙の連続音声認識システムを構築する場合に計算量が問題となる.本稿では,KohonenのRedundant Hash Addressing法を連続音声認識に拡張し,これを筆者らの提案した連続音声認識アルゴリズムである機能語予測CYK法の予備選択として使う方法を示す.この方法を用いることにより,入力音素系列中からそこに含まれる実質語を高速に予備選択することができるため,単語マッチングの計算量を削減することができる.

  349. 言語情報を利用した文字認識における文字認識率と単語認識率の関係

    大槻 恭士, 伊藤 彰則, 牧野 正三, 曽根 敏夫

    全国大会講演論文集 44 141-142 1992年2月24日

    詳細を見る 詳細を閉じる

    文字認識の後処理として,単語辞書や文字連接情報などの言語情報が用いられている.特に文字連接情報は,簡単で高速な処理で単語辞書と同等な効果が得られることが報告されている.本稿では,これらの言語情報を用いた文字認識における,文字認識率と単語認識率の関係を,実際に認識を行なわずに求める手法を示す.

  350. A JAPANESE TEXT DICTATION SYSTEM BASED ON PHONEME RECOGNITION AND A DEPENDENCY GRAMMAR

    S MAKINO, A ITO, M ENDO, K KIDO

    ICASSP 91, VOLS 1-5 1 273-276 1991年

    出版者・発行元:I E E E

    ISSN:0736-7791

    詳細を見る 詳細を閉じる

    A prototype of a Japanese text dictation system has been developed. It is composed of an acoustic processor, a Bunsetsu-unit spotting processor, and a syntactic processor with semantic constraints. The acoustic processor is constructed using the modified LVQ2 method. The modified LVQ2 method achieves a high phoneme recognition performance of 86.1%. The syntax driven continuous DP matching algorithm is used for spotting Bunsetsu-units. This method greatly reduces the amount of computation and the storage capacity necessary for spotting the Bunsetsu units. Analysis of the dependency structure among the Bunsetsu-unit candidates is effectively carried out using the syntactic and semantic information.

  351. 文章朗読音声を対象とした連続音声認識のための言語処理

    伊藤彰則

    東北大応用情報研究センターシンポジウム予稿集 143-150 1990年

︎全件表示 ︎最初の5件までを表示

書籍等出版物 7

  1. Issues in Japanese Psycholinguistics from Comparative Perspectives

    Masatoshi Koizumi

    De Gruyter Mouton 2023年7月

    ISBN: 9783110778946

  2. 社会言語科学の源流を追う

    横山, 詔一, 杉戸, 清樹, 佐藤, 和之, 米田, 正人, 前田, 忠彦, 阿部, 貴人

    ひつじ書房 2018年9月

    ISBN: 9784894769311

  3. 音響情報ハイディング技術

    鵜木, 祐史, 西村, 竜一, 伊藤, 彰則, 西村, 明, 近藤, 和弘, 薗田, 光太郎

    コロナ社 2018年3月

    ISBN: 9784339011357

  4. 音響学入門

    鈴木陽一, 赤木正人, 伊藤彰則, 佐藤洋, 苣木禎史, 中村健太郎

    2010年2月

  5. Spoken Language Systems

    Seiichi Nakagawa, Michio Okada, Tatsuya Kawahara

    Ohmsha/IOS Press 2005年9月15日

  6. IT Text 音声認識システム

    鹿野清宏, 伊藤克亘, 河原達也, 武田一哉, 山本幹雄

    オーム社 2001年5月15日

  7. Recent Research towards Advanced Man-Machine Interface through Spoken Language

    Shozo Makino, Akinori Ito, Mitsuru Endo, Ken'iti Kido

    Elsevier 1996年1月

︎全件表示 ︎最初の5件までを表示

講演・口頭発表等 9

  1. DNN-based talking movie generation with face direction consideration

    Toru Ishikawa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this paper, we propose a method to generate a talking head animation considering the direction of the face. The proposed method parametrizes a facial image using the active appearance model (AAM) and models the parameters of the AAM using a feedforward deep neural network. Since the AAM is a two-dimensional face model, conventional methods that use the AAM assumes only the frontal face. Thus, when combining the generated face and other parts such as a head and a body, the direction of the face and the head was often inconsistent. The proposed method models the shape parameters of the AAM using the principal component analysis (PCA) so that the direction and movement of individual facial parts are modeled separately; thus we substitute the face direction of the generated animation with that of the head part so that the direction of the face and the head coincides. We conducted an experiment to demonstrate that the proposed method can generate face animation with proper face direction.

  2. Two-stage sequence-to-sequence neural voice conversion with low-to-high definition spectrogram mapping

    Sou Miyamoto, Takashi Nose, Kazuyuki Hiroshiba, Yuri Odagiri, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this study, we propose a voice conversion technique with two-stage conversion, which is realized by using two models consisting of U-Net and pix2pix. Using U-Net, we tried to reproduce intonation of a target speaker by performing low-dimensional feature conversion considering the time direction. We introduced pix2pix for the task of spectrogram enhancement. The pix2pix is trained to map from low definition spectrogram to high definition spectrogram (low-to-high spectrogram mapping). Low definition spectrogram is reconstructed from low dimensional mel-cepstrum converted by U-Net and high definition spectrogram is extracted from natural speech. In objective evaluations, we showed that the proposed method was effective in improvement of mel-cepstral distance (MCD) and Log F0 RMSE. Subjective evaluations revealed that the use of the proposed method had a certain effect in improving speech individuality while maintaining the same level of naturalness as the conventional method.

  3. Evaluation of english speech recognition for Japanese learners using DNN-based acoustic models

    Jiang Fu, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. Regarding the assistance of computer-assisted language learning (CALL) systems to make foreign language learning easier, it is necessary to recognize the utterances of the learner with high accuracy. The quality of CALL systems mainly depends on the accuracy of automatic speech recognition (ASR). However, since the pronunciation of non-native speakers is greatly different from that of native speakers, existing ASR system cannot well recognize speech accurately. To solve this problem, this research projects an acoustic model based on deep neural networks (DNN), which is trained by using ERJ (English Read by Japanese) database collected from 202 Japanese learners. Compared with traditional ASR systems, this new system significantly promotes the speech recognition accuracy.

  4. Comparison of speech recognition performance between kaldi and google cloud speech API

    Takashi Kimura, Takashi Nose, Shinji Hirooka, Shinji Hirooka, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In recent years, many systems having a speech interface have grown. The speech interface includes spoken dialogue function and high performance of a spoken dialogue system has been required. The spoken dialogue system consists of a speech recognition module. In this study, we focus on the speech recognition module of the spoken dialogue system and aim for improving the spoken dialogue system by enhancing the performance of the speech recognition system. Among several speech recognition systems, Kaldi is a widely used speech recognition system in many kinds of researches. On the other hand, several speech recognition services that are Web API is also provided, such as IBM Watson Speech to Text, Microsoft Bing Speech API, and Google Cloud Speech API, which is known that it has high performance. This paper compares speech recognition performance between Kaldi and Google Cloud Speech API in WER and RTF and confirms the recognition performance of each recognition system.

  5. Segmental pitch control using speech input based on differential contexts and features for customizable neural speech synthesis

    Shinya Hanabusa, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. This paper proposes a technique for controlling the pitch of synthetic speech at a segmental level using user input speech within a framework of speech synthesis based on deep neural networks (DNNs). In a previous study, we proposed tailor-made speech synthesis, the speech synthesis technique which enables users to control the synthetic speech naturally and intuitively. We introduced differential fundamental frequency (F0) contexts into speaker model training of speech synthesis based on DNNs. The differential F0 context represents relative log F0 at the segmental level of training data. In this study, we use the user speech to determine the F0 contexts for synthetic speech. This approach allows users to modify and control the segmental pitch more flexibly, which will enhance the performance of the tailor-made speech synthesis.

  6. A study on a spoken dialogue system with cooperative emotional speech synthesis using acoustic and linguistic information

    Mai Yamanaka, Yuya Chiba, Takashi Nose, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. This study examines an emotion labeling method for a system utterance of a non-task-oriented spoken dialogue system. The conventional study proposed the cooperative emotion labeling, which generates an emotional speech with an emotion label estimated from user and system utterances. However, this method had a problem that the system cannot decide the emotion label when the emotion is not estimated from the linguistic information. Therefore, we propose a method that uses both the acoustic and the linguistic information for the emotion recognition. In this paper, we show the performance of the emotion recognition when using the acoustic features first. Then, a dialogue experiment based on scenarios is conducted to verify the effectiveness of the proposed emotion labeling method.

  7. Muting machine speech using audio watermarking

    Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. Spoken dialog systems have become popular and are used in a home environment, such as smart speakers. A problem will occur when two or more smart speakers are in the same environment, in which a dialog system misdetects the other dialog systems voice as a users voice. In this paper, a method to mute synthesized speech is proposed to prevent a speech recognizer from recognizing speech uttered by a machine. The audio watermark technique is used to indicate that a machine utters the speech, and the speech recognizer attenuates the observed speech if it contains the watermark. The watermark is embedded in high frequency so that humans cannot perceive the watermark and the watermark is robustly extracted. From the experimental result, we found that the proposed method robustly determine the existence of the watermark when the SNR is no less than 0 dB.

  8. Melody completion based on convolutional neural networks and generative adversarial learning

    Kosuke Nakamura, Takashi Nose, Yuya Chiba, Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. In this paper, we deal with melody completion, a technique which smoothly completes melodies that are partially masked. Melody completion can be used to help people compose or arrange pieces of music in several ways, such as editing existing melodies or connecting two other melodies. In recent years, various methods have been proposed for realizing high-quality completion via neural networks. Therefore, in this research, we examine a method of melody completion based on an image completion network. We represent melodies of a certain length as images and train a completion network to complete those images. The completion network consists of convolution layers and is trained in the framework of generative adversarial networks. We also consider chord progression from musical pieces as conditions.

  9. Leveraging a small corpus by different frame shifts for training of a speech recognizer

    Akinori Ito

    Smart Innovation, Systems and Technologies 2019年1月1日

    詳細を見る 詳細を閉じる

    © Springer Nature Switzerland AG 2019. During the feature extraction process for speech recognition, a window function is first applied to the input waveform to extract temporally-limited spectrum. By shifting the window function with a short time period, we can analyze the temporal change of speech spectrum. This time period is called “the frame shift,” which is usually 5 to 10 ms. In this paper, frame shift is re-considered from two aspects. The first one is the appropriateness of 10 ms as the frame shift. The frame-based process is based on the assumption that temporal change of speech spectrum is slow enough compared with the frame shift, which does not hold for kinds of consonants such as plosives. Thus, this paper experimentally shows that feature value fluctuates much according to the first position of the frame. Then a training method is proposed that uses temporally shifted samples as independent samples to compensate for the fluctuation of feature caused by the difference of the beginning position of a frame. The second aspect is that the frame shift could be longer if the fluctuation can be compensated. To prove this, an experiment was conducted to change frame shift from 10 to 60 ms, and it was found that the result of 40 ms frame shift outperformed the result of 10 ms frame shift, and comparable recognition performance with 10 ms frame shift result was obtained with 50 ms frame shift.

︎全件表示 ︎最初の5件までを表示

産業財産権 5

  1. スコアリングモデル生成装置、学習データ生成装置、検索システム、スコアリングモデル生成方法、学習データ生成方法、検索方法及びそのプログラム

    特許第5700566号

    産業財産権の種類: 特許権

  2. 音声評価装置,音声評価方法,及びプログラム

    特許第5805474号

    産業財産権の種類: 特許権

  3. モデルパラメータ配列装置とその方法とプログラム

    大庭 隆伸, 堀 貴明, 中村 篤, 伊藤 彰則

    特許第5610304号

    産業財産権の種類: 特許権

  4. モデル縮減装置とその方法とプログラム

    大庭 隆伸, 堀 貴明, 中村 篤, 伊藤 彰則

    特許第5780516号

    産業財産権の種類: 特許権

  5. データ通信方法、データ通信システムおよびデータ通信プログラム

    鈴木 陽一, 伊藤 彰則, 阿部 俊一郎, 須藤 裕史, 吉木 伸二, 染谷 大

    特許第4911385号

    産業財産権の種類: 特許権

共同研究・競争的資金等の研究課題 22

  1. 音楽情報処理 競争的資金

    2004年4月 ~ 継続中

  2. 音声認識を用いたCALLシステムの開発 競争的資金

    制度名:Grant-in-Aid for Scientific Research

    2004年4月 ~ 継続中

  3. 音声認識システムの開発 競争的資金

    制度名:Ordinary Research

    2002年4月 ~ 継続中

  4. 音声対話システムの開発 競争的資金

    2002年4月 ~ 継続中

  5. オンライン授業支援のためのバーチャル・クラスメートの開発

    伊藤 彰則, 塩入 諭, 能勢 隆

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2021年4月1日 ~ 2026年3月31日

    詳細を見る 詳細を閉じる

    このプロジェクトでは、オンライン授業、特にオンデマンド型講義に関して、受講者と対話しながら講義への集中と内容の理解を促す音声対話エージェントを開発することが目標である。そのための課題のうち、昨年度は次のサブテーマに取り組んだ。(1) オンライン講義ビデオから、重要な個所を自動推定する。(2) 最終的な対話エージェントのプロトタイプを作成する。(3) ビデオコンテンツおよび受講者のマルチモーダル情報から、エージェントの適切な動作を推定する。 このうち(1)に関して、今年度は3つの講義ビデオから重要箇所を推定した。まず、ビデオの内容を書き起こし、3名の実験参加者が重要箇所のアノテーションを行った。次に、書き起こしテキストに対して、文章要約アルゴリズムを使って重要文を抽出し、これを人手による重要箇所と比較した。要約手法として、Luhn, TextRank, LexRank, BERTSUMの4つの手法を比較した。その結果、全体としてはLexRankが安定して高い性能を示し、BERTSUMは講演者による性能の変動が大きいことが分かった。また、LexRank/BERTSUMとLuhnを組み合わせる方法を検討し、抽出文の中から重要語句を含まない文を排除することで性能が改善することが分かった。さらに、音声のピッチやパワーなどの韻律情報を組み合わせることを検討したところ、これも講演者による差が大きく、この差が何に起因するかを解明することが課題となった。 (2)に関しては、Unityを利用して、動画と対話エージェントを同時に表示するシステムのプロトタイプを完成させた。まだエージェントの表情やジェスチャなどの表現力が十分ではないため、これが課題となる。 (3)については、感情ラベル付き顔画像データベースであるCK+を用い、感情ラベルから顔表情のアクションユニットを生成するシステムを作成した。

  6. 話者・地域・スタイルモーフィング音声合成による実環境リスニング学習支援

    能勢 隆, 伊藤 彰則

    2022年4月1日 ~ 2025年3月31日

  7. OS言語からみた「言語の語順」と「思考の順序」に関するフィールド認知脳科学的研究

    小泉 政利, 安永 大地, 内藤 真帆, 木山 幸子, 大関 洋平, 菅野 彰剛, 太田 真理, 大塚 祐子, 遊佐 典昭, 酒井 弘, 大滝 宏一, 杉崎 鉱司, Jeong Hyeonjeong, 新国 佳祐, 玉岡 賀津雄, 伊藤 彰則, 金 情浩, 那須川 訓也, 里 麻奈美, 矢野 雅貴, 小野 創

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (S)

    研究機関:Tohoku University

    2019年6月26日 ~ 2024年3月31日

    詳細を見る 詳細を閉じる

    主語(S)が目的語(O)に先行するSO語順が、その逆のOS語順に比べて処理負荷が低く、母語話者に好まれる傾向があること(SO語順選好)が多くの研究で報告されている。しかし、従来の文処理研究は日本語や英語のようにSO語順を基本語順にもつSO言語を対象にしているため、SO語順選好が個別言語の基本語順を反映したものなのか、あるいは人間のより普遍的な認知特性を反映したものなのかが分からない。この2種類の要因の影響を峻別するためには、OS語順を基本語順に持つOS言語で検証を行う必要がある。そこで、本研究では、SO言語(日本語、トンガ語など)と消滅が危惧されるOS言語(タロコ語、カクチケル語など)を比較対照することによって、人間言語における語順選好を決定する要因ならびに、「言語の語順」と「思考の順序」との関係を明らかにする。聞き取り調査やコーパス調査、行動実験、視線計測、脳機能計測など多様な研究手法を駆使して、SO言語だけでなくOS言語にも当てはまる、脳内言語処理メカニズムに関するより一般性の高いモデルを構築し、言語と文化の垣根を超えて互いに分かり合える、より暮らしやすい共生社会の実現に向けて貢献する。 コロナ禍の影響で海外遠征ができなかったため、日本国内での研究に加えて、台湾とトンガの現地の研究者の協力を得て、主に以下の研究を実施した。(1)トンガ語の話題化とかき混ぜの処理負荷に関する行動実験 (2)トンガ語レキシコン・プロジェクト (3)タロコ語の対話コーパスにかかる動画の撮影と書き起こし (4)日本語レキシコン・プロジェクト (5)国際シンポジウム Issues in Japanese Psycholinguistics from Comparative Perspectives の実施

  8. 自然言語処理を用いたアントレプレナーシップの測定と教育プログラム改善への展開

    伊藤 彰則, 石田 修一, 武田 浩太郎

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Research (Exploratory)

    研究機関:Tohoku University

    2020年7月30日 ~ 2023年3月31日

    詳細を見る 詳細を閉じる

    今年度は、さらなるデータ収集と、関連技術であるユーザーの性格推定の研究を行った。 データ収集としては、アントレプレナーシップ関係の講義からアンケートの収集、およびこれらの受講生からアントレプレナーシップに関する作文の収集を行った。「汎用的技能ワークショップ」「アントレプレナー入門塾」「TUSGのハンズオン講義・メンタリング」国際戦略リーダー講座」「ベンチャービジネス論」から30名程度のアンケートを回収したが、作文については後日依頼する形だったので、収集できた分は3名のみであった。 十分なデータ収集に時間がかかることから、アントレプレナーシップ推定に類似のタスクとして、性格の推定実験を行った。Myers-Briggs Personality Type Dataset(英語)約8000文を利用し、フォーラムへの投稿文からMBTI性格指標ラベルの推定を試みた。ナイーブベイズ法(NB)、ロジスティック回帰(LR)、多層パーセプトロン(MLP)、BiLSTMの4種類の識別器を用い、学習データ量と識別精度の関係を調査した。その結果、BiLSTMはデータ量が多いときは高精度だがデータ量が少なくなると精度が悪くなること、中程度のデータ量(~1000文)ではMLPが比較的良いことが分かった。タスクは外向性・内向性判定の2クラス識別であるが、F1-scoreは52~70%程度であった。 また、データセットを日本語に翻訳して実験をした。翻訳にはDeepLを用いた。その結果、やや精度が低下したものの、言語による大きい差はないことが分かった。制度低下の原因は十分分析できていないが、少なくとも一部は機械翻訳の精度に起因すると考えられる。

  9. 深層学習に基づくマルチモーダル対話型英会話学習システムの研究開発

    伊藤 彰則, 能勢 隆, 千葉 祐弥

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (A)

    研究機関:Tohoku University

    2017年4月1日 ~ 2021年3月31日

    詳細を見る 詳細を閉じる

    深層学習に基づく英会話学習システムのための要素技術を開発し,英会話の練習ができるCALLシステムを作成した.まず、深層学習に基づく音声・表情・ジェスチャに対するインターフェースの高度化・高精度化として,日本人英語音声を高精度に認識する技術を確立した.次に,深層学習に基づく英語発音評価・英会話シミュレーション技術を確立させるため,表情とジェスチャが英語の習熟度評価に与える影響を調べた.また,対話音声に対して高精度に発音評価を行う手法を確立した.最後に基盤要素技術を統合して音声対話型英会話学習システムを作成した.

  10. OS言語からみた「言語の語順」と「思考の順序」に関するフィールド言語心理学的研究

    小泉 政利, 安永 大地, 木山 幸子, 大塚 祐子, 遊佐 典昭, 酒井 弘, 大滝 宏一, 杉崎 鉱司, Jeong Hyeonjeong, 新国 佳祐, 玉岡 賀津雄, 伊藤 彰則, 金 情浩, 那須川 訓也, 里 麻奈美, 矢野 雅貴, 小野 創

    2019年4月1日 ~ 2020年3月31日

    詳細を見る 詳細を閉じる

    8月にトンガ王国で以下のような調査・実験を行うための準備を進めた。 (1)語彙処理,文処理,正順語順の判定,格助詞脱落などの諸問題を網羅した一連の実験と質問紙調査 (2)主語関係節と目的語関係節の理解過程の比較実験 (3)統語的能格性の獲得に関する行動実験 また、関連する研究動向について情報収集を行うために、日本言語学会 第158回 大会(一橋大学)に参加した。

  11. 「やさしい日本語」データベース構築のための基礎的研究

    前田 理佳子, 佐藤 和之, 伊藤 彰則, 杉戸 清樹, 孫 偉庭, 馬場 康維, 水野 義道, 御園生 保子, 米田 正人

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (C)

    研究機関:Daito Bunka University

    2015年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    日本語に不慣れな人を緊急時に情報弱者にしないための実践を支えることを目的に、減災のための「やさしい日本語」資源の収集・整理、実態把握を行った。また、「やさしい日本語」の使い手となろうとする人々にとっての学習資源の整備を進めた。 発災後72時間対応のうち、「やさしい日本語」対応の具体案が存在していない部分について、伝達媒体、伝達目的等に適合した案文等を作成・蓄積した。減災のための「やさしい日本語」の使い手育成において、モデルないしは学習資源として提供しうる案文データベースのソースの整備を進めることができた。

  12. 状態推定に基づく多様な音声の認識・合成による「人にやさしい」対話システムの研究

    能勢 隆, 伊藤 彰則, 千葉 祐弥, 森 大毅

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2015年4月1日 ~ 2018年3月31日

    詳細を見る 詳細を閉じる

    本研究課題では、「人にやさしい」対話システムを実現するため、多様な音声の認識および合成手法の改善や高度化、および対話者の状態推定手法とその利用について検討を行なった。具体的には(1)音声対話における感情利用の妥当性、および感情推定法について検討した。(2)音韻と韻律コンテキストを考慮した拡張エントロピーに基づく文選択法の提案・評価を行なった。(3)対話意欲推定のために、対話の収録・分析を行なった。(4)感情音声合成・感情音声認識・感情推定に利用可能な大規模な感情音声コーパスを構築した。(5)多様で高品質な音声合成手法として分散補償およびテーラーメイド音声合成手法を提案・評価した。

  13. 日本語文難易度推定と音声合成による「やさしい日本語」作成補助システムの研究開発

    伊藤 彰則, 佐藤 和之, 能勢 隆, 千葉 祐弥, 長野 雄

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2014年4月1日 ~ 2017年3月31日

    詳細を見る 詳細を閉じる

    「やさしい日本語」の文作成および音声アナウンス作成を高度化するため、やさしい日本語支援システム「やんしす」の高度化、およびそれに必要な調査研究を行った。調査内容としては、文難易度の自動推定、文の難易度、話速、ポーズおよび音響環境による音声劣化が文の聴き取りにどのように影響するかを調べた。これによって「やさしい日本語」音声として適切な話速が明らかになった。これを受けて、文難易度推定および音声合成機能を「やんしす」に実装した。

  14. エージェントとの対話に基づく英語学習システムの開発

    伊藤 彰則, 廣井 富

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Challenging Exploratory Research

    研究機関:Tohoku University

    2012年4月1日 ~ 2015年3月31日

    詳細を見る 詳細を閉じる

    本研究では,日本人英語学習者がエージェント(CGキャラクタおよびロボット)と対話を行うことにより,英会話のコミュニケーション能力を高めるためのシステム開発を行った.まず,英語による音声対話・指差しによる場所の共有・人追従による室内移動などの能力を持った移動ロボットを開発した.また,誤りを含んだ日本人英語学習者の音声を,誤りも含めて正確に認識するためのアルゴリズムを開発した.さらに,CGキャラクタとの英会話練習において,適切な応答タイミングを習得するための手法を開発した.

  15. 日本語母語話者の英語学習のための韻律評価および文法誤り検出の高度化

    伊藤 彰則, 鈴木 基之, 牧野 正三, 大河 雄一, 鈴木 基之

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2008年 ~ 2010年

    詳細を見る 詳細を閉じる

    コンピュータによる英語学習(CALL)システムにおいて「話す」練習を可能にするために,学習者の英語発話のイントネーション・リズムを自動評価する方法,および学習者発話に含まれる文法誤りを自動的に指摘する方法を開発した。イントネーション・リズム評価においては,決定木により単語の重要度を推定する手法を開発し,ネイティブ評定者間の評定値相関に近い相関を持つスコアが計算できた。文法誤り検出では,自動生成文からn-gramを学習する手法を開発し,単語正解精度89.2%が得られた。

  16. 話者適応と文法誤りモデリングを用いた外国語教育システムの開発

    伊藤 彰則, 鈴木 基之, 牧野 正三

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    2004年 ~ 2007年

    詳細を見る 詳細を閉じる

    1.発音評価の高精度化 音声認識技術を応用し,外国語学習者の発音誤りを検出する方法を開発した.対象は日本人の英語学習と韓国人の日本語学習である.誤り検出精度を向上させるため,日本語と英語の音響モデルを同時に適応するバイリンガル話者適応の手法を開発した.また,発音誤り検出の厳密さが文脈に依存する問題を解決するため,決定木を用いた誤り検出手法を開発し,日本人の英語発音に対して90%以上の精度で誤り発音を検出することができた. 2.イントネーション・リズムの評価 発音だけでなく,韻律のよさを自動評価するため,イントネーションとリズムの評価手法を開発した.イントネーションに関しては,対数基本周波数およびその時間微分,対数パワーおよびその時間微分を特徴量として用いるのがよいということを見出した.また文の中の単語によってイントネーション評価の厳密さを変えるため,決定木を用いて単語の重要度を自動推定する手法を開発した.リズム評価については,特徴量として単語持続時間比が有効であることを発見した. 3.対話型CALLシステムの開発 コンピュータと対話しながら外国語を学習する「対話型CALLシステム」において,学習者の発話に含まれる文法誤りを自動的に検出する方法を開発した.日本語の学習においては,正解文に誤りルールを適応した有限オートマトンを用いて音声認識する手法を開発した.また,英語の学習においては,誤りルールを用いて自動生成したコーパスからn-gram言語モデルを学習する方法を開発した.

  17. 新聞記事読み上げ文を対象とする大語彙連続音声認識システムの研究

    好田 正紀, 加藤 正治, 伊藤 彰則

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (C)

    研究機関:Yamagata University

    1998年 ~ 2000年

    詳細を見る 詳細を閉じる

    新聞記事読み上げ文を対象とする日本語の大語彙連続音声認識システムを構築し、下記の研究成果を得た。 (1)音響モデル 隠れマルコフ網(HM-Net)は、音素環境依存HMMの状態共有関係をネットワークとして表現する手法であり、高精度かつ頑健な音声認識を実現する音響モデルとして有効である。本研究では、状態クラスタリングに基づく高速なHM-Netの構造決定法を提案した。また、音響モデルの最尤線形回帰(MLLR)ベース話者適応において、BIC基準に基づく回帰クラスタの自動設定法を提案し、MAP法との併用、SATコンパクトモデルの利用等も検討した。 (2)言語モデル 大量の一般的な言語コーパスと、少量の特定タスクのサンプルから、特定タスク向きのN-gramを重み付き混合で作成するタスク適応について検討した。単語誤り率との相関がより良い言語モデルの評価尺度として、評価テキストに出現する単語の言語尤度と、その単語が出現した文脈における最大尤度との差に基づく新しい評価尺度を提案し、パープレキシティより優れていることを確認した。確率文脈自由文法(SCFG)のパラメータ推定に要する処理量を大幅に削減するために、文節単位の係り受け制約をもつSCFGを提案し、このSCFGとTrigramを併用すると、Trigram単独より性能が良いことを確認した。 (3)デコーダ 大語彙連続音声認識のための高速な探索手法として、認識の前処理で音素グラフを作成し、認識段階ではその音素グラフの情報を利用して仮説の展開を制限しながら最良の単語列を探索する手法を提案した。また、単語グラフを中間表現とするマルチパスによる大語彙連続音声認識において、bigramによるリスコアリングに基づく、単語グラフ生成のための言語重み・挿入ペナルティの最適化を検討した。 (4)ソフトウエアツール 単語n-gramとクラスn-gramが作成可能なツールキットを作成した。このツールキットは、CMU-Cambridge SLM Toolkitとコマンドレベルで互換性がある。また、n-gram出現回数の混合による言語モデルや、線形結合による言語モデルの組み合わせをサポートしている。

  18. 日本語音声認識のための統計的言語モデルとそのタスク適応に関する研究

    伊藤 彰則

    1997年 ~ 1998年

    詳細を見る 詳細を閉じる

    今年度の研究では,「日本語連続音声認識のための形態素解析によらない統計的言語モデル」の研究を行った.この研究は2つのサブテーマから成っている.一つは統計的に選ばれた文字列を単位とした言語モデルの作成であり,もう一つは統計的手法に基づく漢字かな混じり文への読みの付与である. 文字列を単位とした言語モデルの作成においては,提案法の評価実験として,さまざまな文字列への分割方法の比較実験,および学習テキストと評価テキストのタスクと規模を変えた実験を行った.その結果,頻度による文字列の抽出と左最長一致法による解析の組み合わせにおいて,もっとも大きいパ-プレキシティ低減効果(最大9.3%)が見られた.また,コーパスによる性能差を見るために,3種類の対話コーパスと,書き言葉であるEDRコーパスを用いた比較実験を行った.その結果,単一タスクであるATR会話コーパスにおけるパ-プレキシティ低減率がもっとも大きかった.これは,学習テキストのみから統計量の推定と分割単位の双方を決定するためであり,本手法の適用限界を示すものと言うことができる. 統計的な手法を用いた読みの付与では,EDRコーパスを用いて,N-gramモデルを応用した読み付与システムを作成し評価した.その結果,当該文字の前後1文字を用いてモデルを作成した場合が最も高性能であることが明らかとなった.システムの最高性能として96.27%の読み付与精度が得られた.

  19. 入力音声への適用機能を持つ連続音声認識に関する研究

    牧野 正三, 鈴木 基之, 曽根 秀昭, 伊藤 彰則, 安倍 正人

    提供機関:Japan Society for the Promotion of Science

    制度名:Grants-in-Aid for Scientific Research

    研究種目:Grant-in-Aid for Scientific Research (B)

    研究機関:Tohoku University

    1995年 ~ 1997年

    詳細を見る 詳細を閉じる

    音声の大きな変動要因である発生速度の変動と,個人差による変動を予備認識結果を利用して予測し,正規化するシステムの構築を目指して研究を行った.すなわち,入力音声に対してまず音素の認識を行い,その認識結果から発生速度を抽出し,それに基づいて各音素標準パターンの長さを予測する.発生速度による音素標準パターンの変動を解析し,発生速度と入力音声中の母音の平均持続時間とが密接に関係することを見出し,音素標準パターンの長さの変動を入力音声中の平均母音長の1次関数として表し,予測する方法を開発した.男性5名,女性10名の各話者が発声した212単語をもとに,音素標準パターンの長さの予測式と音素標準パターンを作成し,他の男性話者5名の発声した212単語の単語認識にこの方法を適用した結果,頓悟認識率が95.6%から97.3%に改善された.さらに,音素認識における持続時間制約としてこの方法を利用した結果,音素正解率は71.8%から86.3%へと大きく改善された. 同じく音素の予備認識結果から個人差の変動を音素ごとに予測し,音素標準パターンを再構築する方法を開発した.以上の処理によって入力音声からの情報を基にして,発声速度や個人差を考慮した音素標準パターンの再構築をリアルタイムで可能にし,より柔軟で高性能な連続音声認識システムを構築した.

  20. 連想的手法を用いた自由発話文音声の認識

    伊藤 彰則

    1994年 ~ 1994年

    詳細を見る 詳細を閉じる

    本研究は,自由発話文の認識のために新しい枠組の開発を目指したものであり,その方針として「連想関係」を中心にすえた.本研究は次の3つの段階から成る. 1.大規模な言語データベースを解析し,その中に表れる連想関係やその他の言語情報を調査する. 2.連想情報を用いて効率の良い認識のできるアルゴリズムを開発する. 3.これらの結果を用いて,実際に稼働する実験システムを試作する. 本年度の研究成果として,これらの段階のうち,(1)言語データベースの解析と,各種言語現象の調査,(2)連想関係を用いて認識を行うアルゴリズム「拡張RHA法」の開発の2つを行った.以下にその概略を述べる. 1.言語データベースの解析: 分析に用いたデータベースは,日本音響学会研究用連続音声データベースの模擬対話テキストデータベースに含まれる書き起こしテキストである.この中の44対話(3633発話,19019文節)を分析対象とした.まず,このテキストに対して形態素解析を行ない,実質語3386個,機能語615個を抽出した.次に,この分析結果から,対話音声のための文節モデルを構築した.このモデルは,従来我々が文章朗読音声認識のために用いてきた文節モデルを拡張したものである.この文節モデルを用いて,データベース内の単語間の遷移確率,perplexity等を求めている. 認識アルゴリズム「拡張RHA法」の開発: 連想関係を用いて連続音声中から単語認識を行なうアルゴリズム「拡張RHA法」を開発した.この認識法は,各種の情報を用いて単語を連想し認識するというものであり,従来のパターンマッチング的手法とは異なる.今回は,連想情報源として認識された音素のみを用い,従来的な連続音声認識の単語予備選択法として用い,その有効性を検証した.全く同じ枠組で,例えば単語の連続関係等の情報を有効に用いた音声認識が可能である.

  21. 統計と連想に基づく連続音声認識に関する研究

    伊藤 彰則

    1993年 ~ 1993年

    詳細を見る 詳細を閉じる

    今年度の研究内容としては,(1)文法情報の構築,(2)連想に基づく単語検出法の構築,および(3)単語連想における統計情報の利用,の3つが挙げられる.今回の研究では,当初の研究計画にある「単語から単語,あるいは単語から場面への連想情報の構築」は行っていない. 文法情報は,本研究の基礎となる重要な情報源である.本研究では,自然な発話の認識を目指して,会話音声中の文節構造を表現する有限オートマトンの構築を行った.会話資料としては,日本音響学会の連続音声データベース中の会話音声の書き起こしテキストを用いている.このテキストから間投詞などのいわゆる不用語を除き,残った表現を受理する文節内文法を有限オートマンで表現した.この文法の構築は,筆者の以前構築した文章音声のための文節内文法を改変する形で行われた. 連想に基づく単語検出法の研究として,「拡張RHA法」を提案した.拡張RHA法は,高速な単語認識法に用いられる「RHA(Redundant Hash Addressing)法」を連続音声認識用に拡張したものである.RHA法を連続音声認識に応用する際には,(1)単語向けの手法を連続音声用に変更することと,(2)元のRHA法の精度を改善することの2点が重要であった.(1)として,RHA法に「活性点(activation point)」の概念を導入し,RHAを単語検出に応用した.また(2)として,あらかじめ音素認識誤りを見込んだ「拡張fragment」を導入し,検出の高精度化をはかった.単語検出実験により,従来この用途に用いられてきた「連続DP法」と比較し,検出性能は遜色なく,検出速度は数倍高速であることが確かめられた. 拡張RHA法による単語検出に統計的要素を導入する一手段として,拡張fragmentによる単語検出法を提案した.拡張RHA法において,単語を連想するための単位は,あらかじめ固定された長さの音素組であったが,拡張fragmentを用いる方法では,その単位を統計的に決定する.この手法では,検出対象となる単語集合が与えられたとき,ひとつの連想単位から連想される単語が一定数以下になるように統計的に連想単位を決定する.具体的には,不定長の音素組を使って単語を連想するようになる.これによって無駄な連想が抑えられ,単語の誤検出を少なく抑えることができるようになった.

  22. 機能語予測CYK法を用いた連続音声認識システムに関する研究

    伊藤 彰則

    1992年 ~ 1992年

︎全件表示 ︎最初の5件までを表示

Works(作品等) 2

  1. 統計的言語モデルツールキット palmkit

    http://palmkit.sourceforge.net/ 2001年11月5日 ~

    作品分類: コンピュータソフト

  2. ウェブブラウザ w3m

    http://w3m.sourceforge.net/ 1999年1月10日 ~

    作品分類: コンピュータソフト

社会貢献活動 4

  1. サイエンスカフェ

    2013年6月28日 ~

    詳細を見る 詳細を閉じる

    「スマホやロボットとどうやって会話できるのか?」と題して、おんせい認識・合成・対話技術について公開の公演を行った。

  2. 出前講義

    2008年12月4日 ~

    詳細を見る 詳細を閉じる

    宮城県仙台第二高校において,「ロボットとの対話」という題目で,高校生を対象に出前講義を行った.

  3. 出前講義

    2008年10月18日 ~

    詳細を見る 詳細を閉じる

    群馬県立太田高校において,「ロボットとの対話」という題目で,高校生を対象に出前講義を行った.

  4. ネット障害時 円滑送信

    2007年3月23日 ~

その他 1

  1. 日本語ディクテーション基本ソフトウェアの開発

    詳細を見る 詳細を閉じる

    日本語の大語彙連続音声認識の研究・開発・実用化を促進する ため、誰でも利用でき、高精度な音声認識システムを開発する。 このため、不特定話者に対して利用できる高精度な音響モデル、 大量の言語データを用いて学習した言語モデル、および高速・ 高精度な音声認識エンジンの開発を行う。