研究者データベース

長谷山 美紀(ハセヤマ ミキ)
情報科学研究院 メディアネットワーク部門 情報メディア学分野
教授

基本情報

所属

  • 情報科学研究院 メディアネットワーク部門 情報メディア学分野

職名

  • 教授

学位

  • 博士(工学)(北海道大学)

ホームページURL

J-Global ID

研究キーワード

  • 画像生成   行動解析   マルチスペクトル解析   機械学習   深層学習   CT   PET   X線画像   SNS   電子顕微鏡   画像認識   画像復元   Webマイニング   超解像   画像符号化   医用画像   衛星画像   社会基盤   マルチメディア処理   EEG   NIRS   MRI   可視化   ビッグデータ   IoT   人工知能   情報検索   遺伝的アルゴリズム   テクスチャ   雑音除去   ディジタル フィルタ   ファジー推論   スポーツ映像   ウェーブレット   音楽   量子化   モデル同定   意味理解   テキスト処理   画像処理   信号処理   画像検索   

研究分野

  • 情報通信 / 知能情報学
  • 情報通信 / 知能ロボティクス
  • ライフサイエンス / 基礎看護学
  • 情報通信 / ウェブ情報学、サービス情報学
  • 情報通信 / 感性情報学
  • 情報通信 / ヒューマンインタフェース、インタラクション
  • 情報通信 / データベース
  • ものづくり技術(機械・電気電子・化学工学) / 計測工学
  • ものづくり技術(機械・電気電子・化学工学) / 制御、システム工学

職歴

  • 2020年10月 - 現在 北海道大学 副学長
  • 2020年04月 - 現在 北海道大学 大学院情報科学研究院 研究院長
  • 2020年04月 - 現在 北海道大学 大学院情報科学研究院 学院長
  • 2006年04月 - 現在 北海道大学 大学院情報科学研究科 教授
  • 2017年07月 - 2021年03月 北海道大学 数理・データサイエンス教育研究センター センター長
  • 2018年04月 - 2020年03月 北海道大学 大学院情報科学研究科 副研究院長
  • 2017年04月 - 2020年03月 北海道大学 総合IR室副室長
  • 2013年04月 - 2020年03月 北海道大学 総長補佐
  • 2017年04月 - 2019年03月 北海道大学 人材育成本部 女性研究者支援室室長
  • 2004年04月 - 2006年03月 北海道大学 大学院情報科学研究科 助教授
  • 1997年04月 - 2004年03月 北海道大学 大学院工学研究科 助教授
  • 1994年01月 - 1997年03月 北海道大学 工学部 助教授
  • 1989年08月 - 1993年12月 北海道大学 電子科学研究所 助手

所属学協会

  • 日本消化器がん検診学会   情報処理学会   高分子学会   日本学術会議   米国IEEE   電子情報通信学会   映像情報メディア学会   日本工学アカデミー   

研究活動情報

論文

  • Ren Togo, Yuki Honma, Maiku Abe, Takahiro Ogawa, Miki Haseyama
    International Journal of Multimedia Information Retrieval 2022年08月26日
  • An Wang, Ren Togo, Takahiro Ogawa, Miki Haseyama
    SENSORS 22 6 2022年03月 
    In this paper, we present a novel defect detection model based on an improved U-Net architecture. As a semantic segmentation task, the defect detection task has the problems of background-foreground imbalance, multi-scale targets, and feature similarity between the background and defects in the real-world data. Conventionally, general convolutional neural network (CNN)-based networks mainly focus on natural image tasks, which are insensitive to the problems in our task. The proposed method has a network design for multi-scale segmentation based on the U-Net architecture including an atrous spatial pyramid pooling (ASPP) module and an inception module, and can detect various types of defects compared to conventional simple CNN-based methods. Through the experiments using a real-world subway tunnel image dataset, the proposed method showed a better performance than that of general semantic segmentation including state-of-the-art methods. Additionally, we showed that our method can achieve excellent detection balance among multi-scale defects.
  • Takahiko Hariyama, Yasuharu Takaku, Hideya Kawasaki, Masatsugu Shimomura, Chiyo Senoh, Yumi Yamahama, Atsushi Hozumi, Satoru Ito, Naoto Matsuda, Satoshi Yamada, Toshiya Itoh, Miki Haseyama, Takahiro Ogawa, Naoki Mori, Shuhei So, Hidefumi Mitsuno, Masahiro Ohara, Shuhei Nomura, Masao Hirasaka
    Microscopy 71 1 1 - 12 2022年01月29日 
    Abstract This review aims to clarify a suitable method towards achieving next-generation sustainability. As represented by the term ‘Anthropocene’, the Earth, including humans, is entering a critical era; therefore, science has a great responsibility to solve it. Biomimetics, the emulation of the models, systems and elements of nature, especially biological science, is a powerful tool to approach sustainability problems. Microscopy has made great progress with the technology of observing biological and artificial materials and its techniques have been continuously improved, most recently through the NanoSuit® method. As one of the most important tools across many facets of research and development, microscopy has produced a large amount of accumulated digital data. However, it is difficult to extract useful data for making things as biomimetic ideas despite a large amount of biological data. Here, we would like to find a way to organically connect the indispensable microscopic data with the new biomimetics to solve complex human problems.
  • Yuto Watanabe, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICASSP 4818 - 4822 2022年
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICASSP 4683 - 4687 2022年
  • Koshi Watanabe, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICASSP 4643 - 4647 2022年
  • Nozomu Onodera, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICASSP 3908 - 3912 2022年
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    Sensors 22 7 2465 - 2465 2022年
  • Taisei Hirakawa, Keisuke Maeda, Takahiro Ogawa 0001, Satoshi Asamizu, Miki Haseyama
    IEEE Access 10 12503 - 12509 2022年
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    ACM Trans. Multim. Comput. Commun. Appl. 18 3 68 - 17 2022年
  • Naoki Ogawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    Sensors 22 1 382 - 382 2022年
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E104A 6 866 - 875 2021年06月 
    Various cross-modal retrieval methods that can retrieve images related to a query sentence without text annotations have been proposed. Although a high level of retrieval performance is achieved by these methods, they have been developed for a single domain retrieval setting. When retrieval candidate images come from various domains, the retrieval performance of these methods might be decreased. To deal with this problem, we propose a new domain adaptive cross-modal retrieval method. By translating a modality and domains of a query and candidate images, our method can retrieve desired images accurately in a different domain retrieval setting. Experimental results for clipart and painting datasets showed that the proposed method has better retrieval performance than that of other conventional and state-of-the-art methods.
  • Taisei Hirakawa, Keisuke Maeda, Takahiro Ogawa 0001, Satoshi Asamizu, Miki Haseyama
    ICIP 2688 - 2692 2021年
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICIP 2678 - 2682 2021年
  • Tomoki Haruyama, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICIP 2433 - 2437 2021年
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICIP 1469 - 1473 2021年
  • Kyohei Kamikawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICIP 1209 - 1213 2021年
  • Yun Liang 0014, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICIP 1039 - 1043 2021年
  • Naoki Ogawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    ICIP 1014 - 1018 2021年
  • Keigo Sakurai, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    IEEE International Conference on Consumer Electronics-Taiwan(ICCE-TW) 1 - 2 2021年
  • Naoki Ogawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    IEEE International Conference on Consumer Electronics-Taiwan(ICCE-TW) 1 - 2 2021年
  • Guang Li, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    IEEE International Conference on Consumer Electronics-Taiwan(ICCE-TW) 1 - 2 2021年
  • Guang Li, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 787 - 788 2021年
  • Jiahuan Zhang, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 785 - 786 2021年
  • Yuto Watanabe, Ren Togo, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 661 - 662 2021年
  • Ziwen Lan, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 273 - 274 2021年
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 204 - 205 2021年
  • Keigo Sakurai, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 202 - 203 2021年
  • Koshi Watanabe, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 195 - 196 2021年
  • Masaki Yoshida, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 193 - 194 2021年
  • Yingrui Ye, Yuya Moroto, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 191 - 192 2021年
  • Tsuyoshi Masuda, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 54 - 55 2021年
  • Taisei Hirakawa, Keisuke Maeda, Takahiro Ogawa 0001, Satoshi Asamizu, Miki Haseyama
    GCCE 43 - 44 2021年
  • Saya Takada, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 35 - 36 2021年
  • Shunya Ohaga, Ren Togo, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 9 - 10 2021年
  • Nozomu Onodera, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    GCCE 5 - 6 2021年
  • Keisuke Maeda, Naoki Ogawa, Takahiro Ogawa 0001, Miki Haseyama
    Journal of Imaging 7 12 273 - 273 2021年
  • Kyohei Kamikawa, Keisuke Maeda, Takahiro Ogawa 0001, Miki Haseyama
    IEEE Access 9 163843 - 163850 2021年
  • Kazuma Ohtomo, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama, Masahiro Iwahashi
    ITE Transactions on Media Technology and Applications 9 1 54 - 61 2021年
  • 川上健, 川上健, 川上健, 住友和弘, 菅野厚博, 小川貴弘, 南重信, 長谷山美紀
    電気学会論文誌 E 141 6 2021年
  • Tomoki Haruyama, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    ITE TRANSACTIONS ON MEDIA TECHNOLOGY AND APPLICATIONS 9 1 42 - 53 2021年 
    A new method that generates user-selectable event summaries from unedited raw soccer videos is presented in this paper. Since there are more unedited raw soccer videos than broadcasted/distributed soccer videos and unedited videos have various viewers, it is necessary to analyze these videos for meeting the demands of various viewers. The proposed method introduces a multimodal CNN-BiLSTM architecture for analyzing unedited raw soccer videos. This architecture extracts candidate scenes for event summarization from unedited soccer videos and classifies these scenes into typical events. Finally, our method generates user-selectable event summaries by simultaneously considering the importance of candidate scenes and the event classification results. Experimental results using real unedited raw soccer videos show the effectiveness of our method.
  • Taisei Hirakawa, Keisuke Maeda, Takahiro Ogawa, Satoshi Asamizu, Miki Haseyama
    INTERNATIONAL WORKSHOP ON ADVANCED IMAGING TECHNOLOGY (IWAIT) 2021 11766 2021年 
    This paper presents cross-domain recommendation based on multilayer graph analysis using subgraph representation. The proposed method constructs two graphs in source and target domains utilizing user-item embedding and trains link relationships between the users' embedding features on each above graph via graph convolutional networks considering subgraph representation. Thus, the proposed method can obtain features with high representation ability, and this is the main contribution of this paper. Then the proposed method can estimate the user's embedding features in the target domain from those in the source domain and recommend items to users by using the estimated features. Experiments on real-world e-commerce datasets verify the effectiveness of the proposed method.
  • Yuki Honma, Ren Togo, Maiku Abe, Takahiro Ogawa, Miki Haseyama
    INTERNATIONAL WORKSHOP ON ADVANCED IMAGING TECHNOLOGY (IWAIT) 2021 11766 2021年 
    This paper proposes a customer interest estimation method using security camera to meet the demand of the retail industry. In the field of retail industry, it is considered that the understanding of customers' interests in the real store can be used for various marketing activities such as the product development and the layout of the store. Then, it is important to pay attention to customers' behavior in the real store. Their behavior is often recorded by the cameras installed in the store for security purposes. A method for estimating their interests from the videos of the security camera is presented in this paper. The novelty of our method is three-fold. Firstly, the experimental data of subjects in our group were taken by using the security camera already installed in the real store. Secondly, we used a pre-trained posture estimation model and treated the results as the features to be trained by a two-layer neural network model. Finally, a professional have annotated the subjects' interests. The effectiveness of our method was confirmed by comparing with benchmark supervised machine learning models.
  • Zongyao Li, Kazuhiro Kitajima, Kenji Hirata, Ren Togo, Junki Takenaka, Yasuo Miyoshi, Kohsuke Kudo, Takahiro Ogawa, Miki Haseyama
    EJNMMI RESEARCH 11 1 2021年01月 
    Background To improve the diagnostic accuracy of axillary lymph node (LN) metastasis in breast cancer patients using 2-[F-18]FDG-PET/CT, we constructed an artificial intelligence (AI)-assisted diagnosis system that uses deep-learning technologies. Materials and methods Two clinicians and the new AI system retrospectively analyzed and diagnosed 414 axillae of 407 patients with biopsy-proven breast cancer who had undergone 2-[F-18]FDG-PET/CT before a mastectomy or breast-conserving surgery with a sentinel lymph node (LN) biopsy and/or axillary LN dissection. We designed and trained a deep 3D convolutional neural network (CNN) as the AI model. The diagnoses from the clinicians were blended with the diagnoses from the AI model to improve the diagnostic accuracy. Results Although the AI model did not outperform the clinicians, the diagnostic accuracies of the clinicians were considerably improved by collaborating with the AI model: the two clinicians' sensitivities of 59.8% and 57.4% increased to 68.6% and 64.2%, respectively, whereas the clinicians' specificities of 99.0% and 99.5% remained unchanged. Conclusions It is expected that AI using deep-learning technologies will be useful in diagnosing axillary LN metastasis using 2-[F-18]FDG-PET/CT. Even if the diagnostic performance of AI is not better than that of clinicians, taking AI diagnoses into consideration may positively impact the overall diagnostic accuracy.
  • Tsuyoshi Masuda, Ren Togo, Takahiro Ogawa, Miki Haseyama
    INTERNATIONAL WORKSHOP ON ADVANCED IMAGING TECHNOLOGY (IWAIT) 2021 11766 2021年 
    This paper presents a method for action detection based on Temporal Cycle Consistency(TCC) Learning. The proposed method realizes the action detection of flexible length segments based on a frame-level action prediction technique. We enable calculation of similarities for spatio-temporal features based on TCC to detect target actions from input videos. Finally, our method determines temporal segments by smoothing the frame-level action detection result. Experimental results show the validity of the proposed method.
  • Ren Togo, Takahiro Ogawa, Miki Haseyama
    INTERNATIONAL WORKSHOP ON ADVANCED IMAGING TECHNOLOGY (IWAIT) 2021 11766 2021年 
    This paper presents a new interior coordination image retrieval method using object-detection-based and color features. Interior coordination requires consideration of objects' positional information and the overall atmosphere of the room simultaneously. However, similar image retrieval methods considering the coordination characteristics have not been proposed. In the proposed method, we extract different types of features from interior coordination images and realize the similar interior coordination image retrieval based on our newly derived features.
  • Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    CoRR abs/2104.02864 2021年
  • Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    CoRR abs/2104.02857 2021年
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    ICMR '21: International Conference on Multimedia Retrieval(ICMR) 611 - 614 2021年
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2021 IEEE 3RD GLOBAL CONFERENCE ON LIFE SCIENCES AND TECHNOLOGIES (IEEE LIFETECH 2021) 67 - 68 2021年 
    A human emotion estimation method via feature integration using multi-modal variational autoencoder (MVAE) with time changes is presented in this paper. To utilize multi-modal information such as gaze and brain activity data including some noises, the proposed method newly introduces MVAE into the human emotion estimation. Furthermore, the proposed MVAE can consider the changes in bio-signals with time and reduce the effect of noises caused in bio-signals by using the probabilistic variation. Experimental results with that of some state-of-the-art methods indicate that the proposed method is effective.
  • Keigo Sakurai, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2021 IEEE 3RD GLOBAL CONFERENCE ON LIFE SCIENCES AND TECHNOLOGIES (IEEE LIFETECH 2021) 53 - 54 2021年 
    Spreading of music streaming platforms that use playlists to make recommendations, automatic playlist generation has been actively researched. Recently, it has been reported that playlists that have high diversity and smooth track transitions increase user satisfaction. Our previous method that used a two-dimensional space as a reinforcement learning environment has achieved these demands, but there remains the problem that the content of multi-dimensional acoustic features cannot be retained accurately. To solve this problem, in this paper, we present a new method of music playlist generation based on reinforcement learning using a graph structure constructed from multi-dimensional acoustic features directly. The new playlist generation provides greater diversity and smoother track transitions than the previous method. Experimental results are shown for verifying the effectiveness of the proposal method.
  • Saya Takada, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2021 IEEE 3RD GLOBAL CONFERENCE ON LIFE SCIENCES AND TECHNOLOGIES (IEEE LIFETECH 2021) 51 - 52 2021年 
    We build a model that can estimate what subjects recognize from functional magnetic resonance imaging (fMRI) data via a visual question answering (VQA) model. The VQA model can generate an answer to a question about an image. We convert fMRI signals into image features via an fMRI decoder based on the relationship between the fMRI signals and the image features extracted from the gazed image. Then this allows the VQA model to answer a visual question from the fMRI signals measured while the subject is gazing at the image. Though brain decoding, which interprets what humans recognize, has become overwhelmingly popular in neuroscience, they often suffer from the small datasets of brain activity data. To overcome the small size of datasets of fMRI signals, we introduce an fMRI decoder based on neural networks that have a high expressive ability. Even when we do not have enough fMRI signals, the proposed method derives the answer to what a person is looking at from fMRI signals. Experimental results on several datasets show that our method allows us to answer a question about gazed images from fMRI signals.
  • Yun Liang 0014, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 4150 - 4154 2021年
  • Kyohei Kamikawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 4130 - 4134 2021年
  • Masanao Matsumoto, Keisuke Maeda, Naoki Saito 0006, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 3985 - 3989 2021年
  • Zongyao Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 2150 - 2154 2021年
  • Yusuke Akamatsu, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 1360 - 1364 2021年
  • Takaaki Higashi, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 1335 - 1339 2021年
  • Ryosuke Sawata, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP) 1320 - 1324 2021年
  • Ren Togo, Naoki Saito 0006, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    Sensors 21 6 2088 - 2088 2021年 
    A method for prediction of properties of rubber materials utilizing electron microscope images of internal structures taken under multiple conditions is presented in this paper. Electron microscope images of rubber materials are taken under several conditions, and effective conditions for the prediction of properties are different for each rubber material. Novel approaches for the selection and integration of reliable prediction results are used in the proposed method. The proposed method enables selection of reliable results based on prediction intervals that can be derived by the predictors that are each constructed from electron microscope images taken under each condition. By monitoring the relationship between prediction results and prediction intervals derived from the corresponding predictors, it can be determined whether the target prediction results are reliable. Furthermore, the proposed method integrates the selected reliable results based on Dempster-Shafer (DS) evidence theory, and this integration result is regarded as a final prediction result. The DS evidence theory enables integration of multiple prediction results, even if the results are obtained from different imaging conditions. This means that integration can even be realized if electron microscope images of each material are taken under different conditions and even if these conditions are different for target materials. This nonconventional approach is suitable for our application, i.e., property prediction. Experiments on rubber material data showed that the evaluation index mean absolute percent error (MAPE) was under 10% by the proposed method. The performance of the proposed method outperformed conventional comparative property estimation methods. Consequently, the proposed method can realize accurate prediction of the properties with consideration of the characteristic of electron microscope images described above.
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    Sensors 21 6 2045 - 2045 2021年 
    A new method for the detection of important scenes in baseball videos via a time-lag-aware multimodal variational autoencoder (Tl-MVAE) is presented in this paper. Tl-MVAE estimates latent features calculated from tweet, video, and audio features extracted from tweets and videos. Then, important scenes are detected by estimating the probability of the scene being important from estimated latent features. It should be noted that there exist time-lags between tweets posted by users and videos. To consider the time-lags between tweet features and other features calculated from corresponding multiple previous events, the feature transformation based on feature correlation considering such time-lags is newly introduced to the encoder in MVAE in the proposed method. This is the biggest contribution of the Tl-MVAE. Experimental results obtained from actual baseball videos and their corresponding tweets show the effectiveness of the proposed method.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    Multim. Tools Appl. 80 15 23091 - 23112 2021年 
    A deterioration level estimation method via neural network maximizing category-based ordinally supervised multi-view canonical correlation is presented in this paper. This paper focuses on real world data such as industrial applications and has two contributions. First, a novel neural network handling multi-modal features transforms original features into features effectively representing deterioration levels in transmission towers, which are one of the infrastructures, with consideration of only correlation maximization. It can be realized by setting projection matrices maximizing correlations between multiple features into weights of hidden layers. That is, since the proposed network has only a few hidden layers, it can be trained from a small amount of training data. Second, since there exist diverse characteristics and an ordinal scale in deterioration levels, the proposed method newly derives category-based ordinally supervised multi-view canonical correlation analysis (Co-sMVCCA). Co-sMVCCA enables estimation of effective projection considering both within-class divergence and the ordinal scale between classes. Experimental results showed that the proposed method realizes accurate deterioration level estimation.
  • Nao Nakagawa, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Access 9 110880 - 110888 2021年 
    We propose a novel method that can learn easy-to-interpret latent representations in real-world image datasets using a VAE-based model by splitting an image into several disjoint regions. Our method performs object-wise disentanglement by exploiting image segmentation and alpha compositing. With remarkable results obtained by unsupervised disentanglement methods for toy datasets, recent studies have tackled challenging disentanglement for real-world image datasets. However, these methods involve deviations from the standard VAE architecture, which has favorable disentanglement properties. Thus, for disentanglement in images of real-world image datasets with preservation of the VAE backbone, we designed an encoder and a decoder that embed an image into disjoint sets of latent variables corresponding to objects. The encoder includes a pre-trained image segmentation network, which allows our model to focus only on representation learning while adopting image segmentation as an inductive bias. Evaluations using real-world image datasets, CelebA and Stanford Cars, showed that our method achieves improved disentanglement and transferability.
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE Access 9 84971 - 84981 2021年 
    A novel method for detection of important scenes in baseball videos based on correlation maximization between heterogeneous modalities via bidirectional time lag aware deep multiset canonical correlation analysis (BiTl-dMCCA) is presented in this paper. The proposed method enables detection of important scenes by collaboratively using baseball videos and their corresponding tweets. The technical contributions of this paper are twofold. First, since there are time lags between not only "tweets and corresponding multiple previous events" but also "events and corresponding multiple following posted tweets", the proposed method considers these bidirectional time lags. Specifically, the representation of such bidirectional time lags into the derivation of their covariance matrices is newly introduced. Second, the proposed method adopts textual, visual and audio features calculated from tweets and videos as multi-modal time series features. Important scenes are detected as abnormal scenes via anomaly detection based on a generative adversarial network using multi-modal features projected by BiTl-dMCCA. The proposed method does not need any training data with annotation. Experimental results obtained by applying the proposed method to actual baseball matches show the effectiveness of the proposed method.
  • Naoki Ogawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE Access 9 65234 - 65245 2021年 
    Distress image retrieval for infrastructure maintenance via self-trained deep metric learning using experts' knowledge is proposed in this paper. Since engineers take multiple images of a single distress part for inspection of road structures, it is necessary to construct a similar distress image retrieval method considering the input of multiple images to support determination of the level of deterioration. Thus, the construction of an image retrieval method while selecting an effective input from multiple images is described in this paper. The proposed method performs deep metric learning by using a small number of effective images labeled by experts' knowledge with information about their effectiveness and a large number of unlabeled images via a self-training approach. Specifically, an end-to-end learning approach that performs retraining of the model by assigning pseudo-labels to these unlabeled images according to the output confidence of the model is achieved. Thus, the proposed method can select an effective image from multiple images that are input at the retrieval as a query image. This is the main contribution of this paper. As a result, the proposed method realizes highly accurate retrieval of similar distress images considering the actual situation of inspection in which multiple images of a distress part are input.
  • Ren Togo, Megumi Kotera, Takahiro Ogawa, Miki Haseyama
    IEEE Access 9 64860 - 64870 2021年 
    A new style transfer-based image manipulation framework combining generative networks and style transfer networks is presented in this paper. Unlike conventional style transfer tasks, we tackle a new task, text-guided image manipulation. We realize style transfer-based image manipulation that does not require any reference style images and generate a style image from the user's input sentence. In our method, since an initial reference input sentence for a content image can automatically be given by an image-to-text model, the user only needs to update the reference sentence. This scheme can help users when they do not have any images representing the desired style. Although this text-guided image manipulation is a new challenging task, quantitative and qualitative comparisons showed the superiority of our method.
  • Yusuke Akamatsu, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    IEEE Access 9 26593 - 26606 2021年 
    Decoding a person's cognitive contents from evoked brain activity is becoming important in the field of brain-computer interaction. Previous studies have decoded a perceived image from functional magnetic resonance imaging (fMRI) activity by constructing brain decoding models that were trained with a single subject's fMRI data. However, accurate decoding is still challenging since fMRI data acquired from only a single subject have several disadvantageous characteristics such as small sample size, noisy nature, and high dimensionality. In this article, we propose a method to decode categories of perceived images from fMRI activity using shared information of multi-subject fMRI data. Specifically, by aggregating fMRI data of multiple subjects that contain a large number of samples, we extract a low-dimensional latent representation shared by multi-subject fMRI data. Then the latent representation is nonlinearly transformed into visual features and semantic features of the perceived images to identify categories from various candidate categories. Our approach leverages rich information obtained from multi-subject fMRI data and improves the decoding performance. Experimental results obtained by using two public fMRI datasets showed that the proposed method can more accurately decode categories of perceived images from fMRI activity than previous approaches using a single subject's fMRI data.
  • Masanao Matsumoto, Naoki Saito 0006, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE Access 9 21810 - 21822 2021年 
    Supervised fractional-order embedding multiview canonical correlation analysis via ordinal label dequantization (SFEMCCA-OLD) for image interest estimation is presented in this paper. SFEMCCA-OLD is a CCA method that realizes accurate integration of features including low-dimensional ordinal label features. In general, since information is lost due to a limitation of the number of classes, i.e., the dimension of ordinal label information is smaller than those of other features, derivation of highly accurate integration of features is difficult. In SFEMCCA-OLD, the dimension of the ordinal label information can be increased by estimation of the canonical correlation between multiview features. We call this approach ordinal label dequantization. In addition, by introducing a fractional-order technique, our method can calculate optimal projections for noisy data such as real data. Experimental results show that the accuracy of SFEMCCA-OLD for image interest estimation is better than that of recent CCA-based methods.
  • Misaki Kanai, Ren Togo, Takahiro Ogawa, Miki Haseyama
    WORLD JOURNAL OF GASTROENTEROLOGY 26 25 3650 - 3659 2020年07月 
    BACKGROUND The risk of gastric cancer increases in patients withHelicobacter pylori-associated chronic atrophic gastritis (CAG). X-ray examination can evaluate the condition of the stomach, and it can be used for gastric cancer mass screening. However, skilled doctors for interpretation of X-ray examination are decreasing due to the diverse of inspections. AIM To evaluate the effectiveness of stomach regions that are automatically estimated by a deep learning-based model for CAG detection. METHODS We used 815 gastric X-ray images (GXIs) obtained from 815 subjects. The ground truth of this study was the diagnostic results in X-ray and endoscopic examinations. For a part of GXIs for training, the stomach regions are manually annotated. A model for automatic estimation of the stomach regions is trained with the GXIs. For the rest of them, the stomach regions are automatically estimated. Finally, a model for automatic CAG detection is trained with all GXIs for training. RESULTS In the case that the stomach regions were manually annotated for only 10 GXIs and 30 GXIs, the harmonic mean of sensitivity and specificity of CAG detection were 0.955 +/- 0.002 and 0.963 +/- 0.004, respectively. CONCLUSION By estimating stomach regions automatically, our method contributes to the reduction of the workload of manual annotation and the accurate detection of the CAG.
  • 胃X線画像を用いたAIによるH.pylori感染識別と今後の展望
    藤後 廉, 小川 貴弘, 間部 克裕, 加藤 元嗣, 長谷山 美紀
    日本消化器がん検診学会雑誌 58 2 127 - 127 (一社)日本消化器がん検診学会 2020年03月
  • Tomoki Haruyama, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    ITE TRANSACTIONS ON MEDIA TECHNOLOGY AND APPLICATIONS 8 2 89 - 99 2020年 
    The details of the matches of soccer can be estimated from visual and audio sequences, and they correspond to the occurrence of important scenes. Therefore, the use of these sequences is suitable for important scene detection. In this paper, a new multimodal method for important scene detection from visual and audio sequences in far-view soccer videos based on a single deep neural architecture is presented. A unique point of our method is that multiple classifiers can be realized by a single deep neural architecture that includes a Convolutional Neural Network-based feature extractor and a Support Vector Machine-based classifier. This approach provides a solution to the problem of not being able to simultaneously optimize different multiple deep neural architectures from a small amount of training data. Then we monitor confidence measures output from this architecture for the multimodal data and enable their integration to obtain the final classification result.
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS - TAIWAN (ICCE-TAIWAN) 2020年 
    This paper presents an important scene detection method based on anomaly detection using a Long Short-Term Memory (LSTM) for baseball highlight generation. In order to deal with multi-view time series features calculated from tweets and videos, we adopt an anomaly detection method using LSTM. LSTM which can maintain a long-term memory is effective for training such features. Introduction of LSTM into important scene detection of baseball videos is the biggest contribution of this paper. Experimental results show high detection performance by our method.
  • Kazaha Horii, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    ITE TRANSACTIONS ON MEDIA TECHNOLOGY AND APPLICATIONS 8 2 111 - 124 2020年 
    An interpretable convolutional neural network (CNN) including attribute estimation for image classification is presented in this paper. Although CNNs perform highly accurate image classification, the reason for the classification results obtained by the neural networks is not clear. In order to provide interpretation of CNNs, the proposed method estimates attributes, which explain elements of objects, in an intermediate layer of the network. This enables improvement of the interpretability of CNNs, and it is the main contribution of this paper. Furthermore, the proposed method uses the estimated attributes for image classification in order to enhance its accuracy. Consequently, the proposed method not only provides interpretation of CNNs but also realizes improvement in the performance of image classification.
  • Keisuke Maeda, Susumu Genma, Takahiro Ogawa, Miki Haseyama
    ITE TRANSACTIONS ON MEDIA TECHNOLOGY AND APPLICATIONS 8 3 140 - 150 2020年 
    A method for image retrieval based on supervised local regression and global alignment (sLRGA) with relevance feedback for insect identification is presented in this paper. Based on the novel sLRGA, which is an extended version of LRGA, the proposed method estimates ranking scores for image retrieval in such a way that the neighborhood structure of a feature space of the database can be optimally preserved with consideration of class information. This is the main contribution of this paper. By measuring the relevance between all of the images and the query image in the database, sLRGA realizes accurate image retrieval. Furthermore, when positive/negative labels to retrieved images are given by users, the proposed method can improve image retrieval performance considering the query relevance information via use of both relevance feedback and sLRGA. This is the second contribution of this paper. Experimental results show the effectiveness of the proposed method.
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS - TAIWAN (ICCE-TAIWAN) 2020年 
    This paper presents a method for estimation of person-specific visual attention based on estimated similar persons' visual attention. For improving the estimation performance of person-specific visual attention, the proposed method uses the dataset including the large number of images and corresponding gaze data of many persons not including the target person and trains an estimation model based on deep learning. By using the estimated visual attention of similar persons for the target image, the proposed method estimates the visual attention of the target person with the small amount of gaze data. Experimental results show that the proposed method is effective for estimation of person-specific visual attention.
  • Genki Suzuki, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    ITE TRANSACTIONS ON MEDIA TECHNOLOGY AND APPLICATIONS 8 3 151 - 160 2020年 
    A novel method for player importance prediction from a player network using gaze positions estimated by Long Short-Term Memory (LSTM) in soccer videos is presented in this paper. By newly using an estimation model of gaze positions trained by gaze tracking data of experienced persons, it is expected that the importance of each player can be predicted. First, we generate a player network by utilizing the estimated gaze positions and first-arrival regions representing players' connections, e.g., passes between players. The gaze positions are estimated by LSTM that is newly trained from the gaze tracking data of experienced persons. Second, the proposed method predicts the importance of each player by applying the Hypertext Induced Topic Selection (HITS) algorithm to the constructed network. Consequently, prediction of the importance of each player based on soccer tactic knowledge of experienced persons can be realized without constantly obtaining gaze tracking data.
  • Genki Suzuki, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS - TAIWAN (ICCE-TAIWAN) 2020年 
    A novel method estimating candidate regions for superimposing information in soccer videos based on gaze tracking data is presented in this paper. The proposed method generates a likelihood map based on visual attention regions based on the gaze tracking data and detection results of objects such as players and soccer goals in soccer videos. Candidate regions for superimposing information are estimated by using the likelihood map. Experimental results show that the proposed method realizes effective candidate region estimation.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON CONSUMER ELECTRONICS - TAIWAN (ICCE-TAIWAN) 2020年 
    Text-based image retrieval is a fundamental study in the field of information retrieval. Recent text-based image retrieval methods employ deep neural networks (here-inafter referred to as deep neural TBIR) to retrieve a desired image from a sentence query and achieve the state-of-the-art performance in TBIR. To improve the retrieval performance of the deep neural TBIR method further, it is essential to prepare diverse sentence labels in training data. However, it takes a lot of effort to prepare diverse sentence labels in training data. To address this problem, we propose a novel deep neural TBIR method with data augmentation of the sentence labels in training data. Experimental results show the effectiveness of the proposed method.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    MMAsia 2020: ACM Multimedia Asia(MMAsia) 37 - 7 2020年
  • Tomoki Haruyama, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    MMAsia 2020: ACM Multimedia Asia(MMAsia) 27 - 8 2020年
  • Genki Suzuki, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2nd IEEE Global Conference on Life Sciences and Technologies(LifeTech) 111 - 112 2020年
  • Saya Takada, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2nd IEEE Global Conference on Life Sciences and Technologies(LifeTech) 99 - 100 2020年
  • Naoki Ogawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2nd IEEE Global Conference on Life Sciences and Technologies(LifeTech) 97 - 98 2020年
  • Masanao Matsumoto, Naoki Saito 0006, Takahiro Ogawa, Miki Haseyama
    2nd IEEE Global Conference on Life Sciences and Technologies(LifeTech) 3 - 4 2020年
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO WORKSHOPS (ICMEW) 1 - 6 2020年 
    This paper presents multi-view unsupervised generative adversarial network maximizing time-lag aware canonical correlation (MvGAN) for baseball highlight generation. MvGAN has the following two contributions. First, MvGAN utilizes textual, visual and audio features calculated from tweets and videos as multi-view features. MvGAN which adopts these multi-view features is the effective work for highlight generation of baseball videos. Second, since there is a temporal difference between posted tweets and the corresponding events, MvGAN introduces a novel feature embedding scheme considering a time-lag between textual features and other features. Specifically, the proposed method newly derives the timelag aware canonical correlation maximization of these multi-view features. This is the biggest contribution of this paper. Furthermore, since MvGAN is an unsupervised method for highlight generation, a large amount of training data with annotation is not needed. Thus, the proposed method has high applicability to the real world.
  • Saya Takada, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 2521 - 2525 2020年 
    Generation of human cognitive contents based on the analysis of functional magnetic resonance imaging (fMRI) data has been actively researched. Cognitive contents such as viewed images can be estimated by analyzing the relationship between fMRI data and semantic information of viewed images. In this paper, we propose a new method generating captions for viewed images from human brain activity via a novel robust regression scheme. Unlike conventional generation methods using image feature representations, the proposed method makes use of more semantic text feature representations, which are more suitable for the caption generation. We construct a text latent space with unlabeled images not used for the training, and the fMRI data are regressed to the text latent space. Besides, we newly make use of unlabeled images not used for the training phase to improve caption generation performance. Finally, the proposed method can generate captions from the fMRI data measured while subjects are viewing images. Experimental results show that the proposed method enables accurate caption generation for viewed images.
  • Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 2466 - 2470 2020年 
    We present a new multimodal image-to-image translation model for the generation of gastritis images using X-ray and blood inspection results. In clinical situations, clinicians estimate the prognosis of the target disease by considering multiple inspection results. Similarly, we take a multimodal approach in the task of gastric cancer risk prediction. Visual characteristics of the gastric X-ray image and blood index values are highly related in the evaluation of gastric cancer risk. If we can generate a prediction image from blood index values, it contributes to the clinicians' sophisticated and integrated diagnosis. Hence, we learn a model that can map non-gastritis images to gastritis images based on the blood index values. Although this is a challenging multimodal task in medical image analysis, experimental results showed the effectiveness of our model.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 2431 - 2435 2020年 
    A new approach that improves text-based image retrieval (hereinafter referred to as TBIR) performance is proposed in this paper. TBIR methods aim to retrieve a desired image related to a query text. Especially, recent TBIR methods allow us to retrieve images considering word relationships by using a sentence as a query. In these TBIR methods, it is necessary to uniquely identify a desired image from similar images using a single query sentence. However, the diverse expressive styles for a query sentence make it difficult to uniquely identify a desired image. In this paper, we propose a novel TBIR method with paraphrasing on multiple representation spaces. Specifically, by paraphrasing a query sentence on lingual and visual representation spaces, the proposed method can retrieve a desired image from various perspectives and then it can uniquely identify a desired image from similar images. Comprehensive experimental results show the effectiveness of the proposed method.
  • Zongyao Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 2426 - 2430 2020年 
    Unsupervised domain adaptation, which transfers supervised knowledge from a labeled domain to an unlabeled domain, remains a tough problem in the field of computer vision, especially for semantic segmentation. Some methods inspired by adversarial learning and semi-supervised learning have been developed for unsupervised domain adaptation in semantic segmentation and achieved outstanding performances. In this paper, we propose a novel method for this task. Like adversarial learning-based methods using a discriminator to align the feature distributions from different domains, we employ a variational autoencoder to get to the same destination but in a non-adversarial manner. Since the two approaches are compatible, we also integrate an adversarial loss into our method. By further introducing pseudo labels, our method can achieve state-of-the-art performances on two benchmark adaptation scenarios, GTA5-to-CITYSCAPES and SYNTHIA-to-CITYSCAPES.
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 1236 - 1240 2020年 
    This paper presents a new important scene detection method of baseball videos based on correlation maximization between heterogeneous modalities via time-lag aware deep multiset canonical correlation analysis (Tl-dMCCA). The technical contributions of this paper are twofold. First, textual, visual and audio features calculated from tweets and videos are adopted as multi-view time series features. Since Tl-dMCCA which utilizes these features includes the unsupervised embedding scheme via deep networks, the proposed method can flexibly express the relationship between heterogeneous features. Second, since there is the time-lag between posted tweets and the corresponding multiple previous events, Tl-dMCCA considers the time-lag relationships between them. Specifically, we newly introduce the representation of such time-lags into the derivation of their covariance matrices. By considering time-lags via Tl-dMCCA, the proposed method correctly detects important scenes.
  • Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 305 - 309 2020年 
    This paper presents a soft-label anonymous gastric X-ray image distillation method based on a gradient descent approach. The sharing of medical data is demanded to construct high-accuracy computer-aided diagnosis (CAD) systems. However, the large size of the medical dataset and privacy protection are remaining problems in medical data sharing, which hindered the research of CAD systems. The idea of our distillation method is to extract the valid information of the medical dataset and generate a tiny distilled dataset that has a different data distribution. Different from model distillation, our method aims to find the optimal distilled images, distilled labels and the optimized learning rate. Experimental results show that the proposed method can not only effectively compress the medical dataset but also anonymize medical images to protect the patient's private information. The proposed approach can improve the efficiency and security of medical data sharing.
  • Saya Takada, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 61 - 65 2020年 
    We propose an estimation method for free-form Visual Question Answering (VQA) from human brain activity, brain decoding VQA. The task of VQA in the field of computer vision is generating an answer given an image and a question about its contents. The proposed method can realize answering arbitrary visual questions about images from brain activity measured by functional Magnetic Resonance Imaging (fMRI) while viewing the same images. We enable estimating various information from brain activity via a unique VQA model, which can realize a more detailed understanding of images and complex reasoning. In addition, we newly make use of un-labeled images not used in the training phase to improve the performance of the transformation, since fMRI datasets are generally small. The proposed method can answer a visual question from a little amount of fMRI data measured while subjects are viewing images.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 46 - 50 2020年 
    This paper presents feature integration via geometrical supervised multi-view multi-label canonical correlation analysis (GSM2CCA) for incomplete label assignment. The problem of incomplete labels is frequently encountered in the multi-label classification problem where the training labels are obtained via crowd-sourcing. In such a situation, consideration of only the label correlation, which is the basic approach, is not suitable for improvement of representation ability of features. For dealing with the incomplete label assignment, GSM2CCA constructs effective feature embedding space providing the discriminant ability by introducing both the multi-label correlation and feature similarity of the original feature space into its objective function. Since novel integrated features with high discriminant ability can be calculated by our GSM2CCA, performance improvement of multi-label classification with the incomplete label assignment is realized. The main contribution of this paper is the realization of the effective feature integration via the adoption of the combination use of label similarity and locality preserving projection of heterogeneous features for solving the problem of the incomplete label assignment. The effectiveness of GSM2CCA by applying GSM2CCA-based feature integration to heterogeneous features calculated from various convolutional neural network models is verified via experimental results.
  • Zongyao Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 2263 - 2267 2020年 
    Unsupervised domain adaptation, which leverages label information from other domains to solve tasks on a domain without any labels, can alleviate the problem of the scarcity of labels and expensive labeling costs faced by supervised semantic segmentation. In this paper, we utilize adversarial learning and semi-supervised learning simultaneously to solve the task of unsupervised domain adaptation in semantic segmentation. We propose a new approach that trains two segmentation models with the adversarial learning symmetrically and further introduces the consistency between the outputs of the two models into the semi-supervised learning to improve the accuracy of pseudo labels which significantly affect the final adaptation performance. We achieve state-of-the-art semantic segmentation performance on the GTA5-to-Cityscapes scenario, a widely used benchmark setting in unsupervised domain adaptation.
  • Yusuke Akamatsu, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    2020 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 1215 - 1219 2020年 
    Brain decoding studies have demonstrated that viewed image categories can be estimated from human functional magnetic resonance imaging (fMRI) activity. However, there are still limitations with the estimation performance because of the characteristics of fMRI data and the employment of only one modality extracted from viewed images. In this paper, we propose a multi-view Bayesian generative model for multi-subject fMRI data to estimate viewed image categories from fMRI activity. The proposed method derives effective representations of fMRI activity by utilizing multi-subject fMRI data. In addition, we associate fMRI activity with multiple modalities, i:e:, visual features and semantic features extracted from viewed images. Experimental results show that the proposed method outperforms existing state-of-the-art methods of brain decoding.
  • Kyohei Kamikawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 944 - 945 2020年
  • Keigo Sakurai, Ren Togo, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 942 - 943 2020年
  • Yun Liang 0014, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 940 - 941 2020年
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 745 - 746 2020年
  • Takaaki Higashi, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 716 - 717 2020年
  • Taisei Hirakawa, Keisuke Maeda, Takahiro Ogawa, Satoshi Asamizu, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 714 - 715 2020年
  • Saya Takada, Ren Togo, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 712 - 713 2020年
  • Nao Nakagawa, Ren Togo, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 692 - 693 2020年
  • Guang Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 667 - 669 2020年
  • Kaito Hirasawa, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    9th IEEE Global Conference on Consumer Electronics(GCCE) 636 - 637 2020年
  • Yusuke Akamatsu, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    IEEE Trans. Signal Process. 68 5769 - 5781 2020年 
    Brain decoding has shown that viewed image categories can be estimated from evoked functional magnetic resonance imaging (fMRI) activity. Recent studies attempted to estimate viewed image categories that were not used for training previously. Nevertheless, the estimation performance is limited since it is difficult to collect a large amount of fMRI data for training. This paper presents a method to accurately estimate viewed image categories not used for training via a semi-supervised multi-view Bayesian generative model. Our model focuses on the relationship between fMRI activity and multiple modalities, i.e., visual features extracted from viewed images and semantic features obtained from viewed image categories. Furthermore, in order to accurately estimate image categories not used for training, our semi-supervised framework incorporates visual and semantic features obtained from additional image categories in addition to image categories of training data. The estimation performance of the proposed model outperforms existing state-of-the-art models in the brain decoding field and achieves more than 95% identification accuracy. The results also have shown that the incorporation of additional image category information is remarkably effective when the number of training samples is small. Our semi-supervised framework is significant for the brain decoding field where brain activity patterns are insufficient but visual stimuli are sufficient.
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    Sensors 20 8 2170 - 2170 2020年 
    A few-shot personalized saliency prediction based on adaptive image selection considering object and visual attention is presented in this paper. Since general methods predicting personalized saliency maps (PSMs) need a large number of training images, the establishment of a theory using a small number of training images is needed. To tackle this problem, although finding persons who have visual attention similar to that of a target person is effective, all persons have to commonly gaze at many images. Thus, it becomes difficult and unrealistic when considering their burden. On the other hand, this paper introduces a novel adaptive image selection (AIS) scheme that focuses on the relationship between human visual attention and objects in images. AIS focuses on both a diversity of objects in images and a variance of PSMs for the objects. Specifically, AIS selects images so that selected images have various kinds of objects to maintain their diversity. Moreover, AIS guarantees the high variance of PSMs for persons since it represents the regions that many persons commonly gaze at or do not gaze at. The proposed method enables selecting similar users from a small number of images by selecting images that have high diversities and variances. This is the technical contribution of this paper. Experimental results show the effectiveness of our personalized saliency prediction including the new image selection scheme.
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    Sensors 20 7 2146 - 2146 2020年 
    The paper proposes a method of visual attention-based emotion classification through eye gaze analysis. Concretely, tensor-based emotional category classification via visual attention-based heterogeneous convolutional neural network (CNN) feature fusion is proposed. Based on the relationship between human emotions and changes in visual attention with time, the proposed method performs new gaze-based image representation that is suitable for reflecting the characteristics of the changes in visual attention with time. Furthermore, since emotions evoked in humans are closely related to objects in images, our method uses a CNN model to obtain CNN features that can represent their characteristics. For improving the representation ability to the emotional categories, we extract multiple CNN features from our novel gaze-based image representation and enable their fusion by constructing a novel tensor consisting of these CNN features. Thus, this tensor construction realizes the visual attention-based heterogeneous CNN feature fusion. This is the main contribution of this paper. Finally, by applying logistic tensor regression with general tensor discriminant analysis to the newly constructed tensor, the emotional category classification becomes feasible. Since experimental results show that the proposed method enables the emotional category classification with the F1-measure of approximately 0.6, and about 10% improvement can be realized compared to comparative methods including state-of-the-art methods, the effectiveness of the proposed method is verified.
  • Zongyao Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    Medical Biol. Eng. Comput. 58 6 1239 - 1250 2020年 
    High-quality annotations for medical images are always costly and scarce. Many applications of deep learning in the field of medical image analysis face the problem of insufficient annotated data. In this paper, we present a semi-supervised learning method for chronic gastritis classification using gastric X-ray images. The proposed semi-supervised learning method based on tri-training can leverage unannotated data to boost the performance that is achieved with a small amount of annotated data. We utilize a novel learning method named Between-Class learning (BC learning) that can considerably enhance the performance of our semi-supervised learning method. As a result, our method can effectively learn from unannotated data and achieve high diagnostic accuracy for chronic gastritis.
  • Keisuke Maeda, Kazaha Horii, Takahiro Ogawa, Miki Haseyama
    IEICE Trans. Fundam. Electron. Commun. Comput. Sci. 103-A 12 1609 - 1612 2020年 
    A multi-task convolutional neural network leading to high performance and interpretability via attribute estimation is presented in this letter. Our method can provide interpretation of the classification results of CNNs by outputting attributes that explain elements of objects as a judgement reason of CNNs in the middle layer. Furthermore, the proposed network uses the estimated attributes for the following prediction of classes. Consequently, construction of a novel multi-task CNN with improvements in both of the interpretability and classification performance is realized.
  • Takahiro Ogawa, Keisuke Maeda, Miki Haseyama
    IEICE Trans. Fundam. Electron. Commun. Comput. Sci. 103-A 12 1541 - 1551 2020年 
    An inpainting method via sparse representation based on a new phaseless quality metric is presented in this paper. Since power spectra, phaseless features, of local regions within images enable more successful representation of their texture characteristics compared to their pixel values, a new quality metric based on these phaseless features is newly derived for image representation. Specifically, the proposed method enables spare representation of target signals, i.e., target patches, including missing intensities by monitoring errors converged by phase retrieval as the novel phaseless quality metric. This is the main contribution of our study. In this approach, the phase retrieval algorithm used in our method has the following two important roles: (1) derivation of the new quality metric that can be derived even for images including missing intensities and (2) conversion of phaseless features, i.e., power spectra, to pixel values, i.e., intensities. Therefore, the above novel approach solves the existing problem of not being able to use better features or better quality metrics for inpainting. Results of experiments showed that the proposed method using sparse representation based on the new phaseless quality metric outperforms previously reported methods that directly use pixel values for inpainting.
  • Soh Yoshida, Mitsuji Muneyasu, Takahiro Ogawa, Miki Haseyama
    IEICE Trans. Fundam. Electron. Commun. Comput. Sci. 103-A 12 1529 - 1540 2020年 
    In this paper, we address the problem of analyzing topics, included in a social video group, to improve the retrieval performance of videos. Unlike previous methods that focused on an individual visual aspect of videos, the proposed method aims to leverage the "mutual reinforcement" of heterogeneous modalities such as tags and users associated with video on the Internet. To represent multiple types of relationships between each heterogeneous modality, the proposed method constructs three subgraphs: user-tag, video-video, and video-tag graphs. We combine the three types of graphs to obtain a heterogeneous graph. Then the extraction of latent features, i.e., topics, becomes feasible by applying graph-based soft clustering to the heterogeneous graph. By estimating the membership of each grouped cluster for each video, the proposed method defines a new video similarity measure. Since the understanding of video content is enhanced by exploiting latent features obtained from different types of data that complement each other, the performance of visual reranking is improved by the proposed method. Results of experiments on a video dataset that consists of YouTube-8M videos show the effectiveness of the proposed method, which achieves a 24.3% improvement in terms of the mean normalized discounted cumulative gain in a search ranking task compared with the baseline method.
  • Ren Togo, Haruna Watanabe, Takahiro Ogawa, Miki Haseyama
    Comput. Biol. Medicine 123 103903 - 103903 2020年 
    Aim: The aim of this study was to determine whether our deep convolutional neural network-based anomaly detection model can distinguish differences in esophagus images and stomach images obtained from gastric X-ray examinations.Methods: A total of 6012 subjects were analyzed as our study subjects. Since the number of esophagus X-ray images is much smaller than the number of gastric X-ray images taken in X-ray examinations, we took an anomaly detection approach to realize the task of organ classification. We constructed a deep autoencoding gaussian mixture model (DAGMM) with a convolutional autoencoder architecture. The trained model can produce an anomaly score for a given test X-ray image. For comparison, the original DAGMM, AnoGAN, and a One-Class Support Vector Machine (OCSVM) that were trained with features obtained by a pre-trained Inception-v3 network were used.Results: Sensitivity, specificity, and the calculated harmonic mean of the proposed method were 0.956, 0.980, and 0.968, respectively. Those of the original DAGMM were 0.932, 0.883, and 0.907, respectively. Those of AnoGAN were 0.835, 0.833, and 0.834, respectively, and those of OCSVM were 0.932, 0.935, and 0.934, respectively. Experimental results showed the effectiveness of the proposed method for an organ classification task.Conclusion: Our deep convolutional neural network-based anomaly detection model has shown the potential for clinical use in organ classification.
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE Access 8 203358 - 203368 2020年 
    A human-centric emotion estimation method based on correlation maximization with consideration of changes with time in visual attention and brain activity when viewing images is proposed in this paper. Owing to the recent developments of many kinds of biological sensors, many researchers have focused on multimodal emotion estimation using both eye gaze data and brain activity data for improving the quality of emotion estimation. In this paper, a novel method that focuses on the following two points is introduced. First, in order to reduce the burden on users, we obtain brain activity data from users only in the training phase by using a projection matrix calculated by canonical correlation analysis (CCA) between gaze-based visual features and brain activity-based features. Next, for considering the changes with time in both visual attention and brain activity, we obtain novel features based on CCA-based projection in each time unit. In order to include these two points, the proposed method analyzes a fourth-order gaze and image tensor for which modes are pixel location, color channel and the changes with time in visual attention. Moreover, in each time unit, the proposed method performs CCA between gaze-based visual features and brain activity-based features to realize human-centric emotion estimation with a high level of accuracy. Experimental results show that accurate human emotion estimation is achieved by using our new human-centric image representation.
  • Keisuke Maeda, Tetsuya Kushima, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    IEEE Access 8 126109 - 126118 2020年 
    A method for estimating interest levels from behavior features via tensor completion including adaptive similar user selection is presented in this paper. The proposed method focuses on a tensor that is suitable for data containing multiple contexts and constructs a third-order tensor in which three modes are "products", "users" and "user behaviors and interest levels" for these products. By complementing this tensor, unknown interest level estimation of a product for a target user becomes feasible. For further improving the estimation performance, the proposed method adaptively selects similar users for the target user by focusing on converged estimation errors between estimated interest levels and known interest levels in the tensor completion. Furthermore, the proposed method can adaptively estimate the unknown interest from the similar users. This is the main contribution of this paper. Therefore, the influence of users having different interests is reduced, and accurate interest level estimation can be realized. In order to verify the effectiveness of the proposed method, we show experimental results obtained by estimating interest levels of users holding books.
  • Keisuke Maeda, Yoshiki Ito, Takahiro Ogawa, Miki Haseyama
    IEEE Access 8 114340 - 114353 2020年 
    Techniques for integrating different types of multiple features effectively have been actively studied in recent years. Multiset canonical correlation analysis (MCCA), which maximizes the sum of pairwise correlations of inter-view (i.e., between different features), is one of the powerful methods for integrating different types of multiple features, and various MCCA-based methods have been proposed. This work focuses on a supervised MCCA variant in order to construct a novel effective feature integration framework. In this paper, we newly propose supervised fractional-order embedding geometrical multi-view CCA (SFGMCCA). This method constructs not only the correlation structure but also two types of geometrical structures of intra-view (i.e., within each feature) and inter-view simultaneously, thereby realizing more precise feature integration. This method also supports the integration of small sample and high-dimensional data by using the fractional-order technique. We conducted experiments using four types of image datasets, i.e., MNIST, COIL-20, ETH-80 and CIFAR-10. Furthermore, we also performed an fMRI dataset containing brain signals to verify the robustness. As a result, it was confirmed that accuracy improvements using SFGMCCA were statistically significant at the significance level of 0.05 compared to those using conventional representative MCCA-based methods.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Access 8 96777 - 96786 2020年 
    A new approach that drastically improves cross-modal retrieval performance in vision and language (hereinafter referred to as & x201C;vision and language retrieval & x201D;) is proposed in this paper. Vision and language retrieval takes data of one modality as a query to retrieve relevant data of another modality, and it enables flexible retrieval across different modalities. Most of the existing methods learn optimal embeddings of visual and lingual information to a single common representation space. However, we argue that the forced embedding optimization results in loss of key information for sentences and images. In this paper, we propose an effective utilization of representation spaces in a simple but robust vision and language retrieval method. The proposed method makes use of multiple individual representation spaces through text-to-image and image-to-text models. Experimental results showed that the proposed approach enhances the performance of existing methods that embed visual and lingual information to a single common representation space.
  • Yui Matsumoto, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    IEEE Access 8 48673 - 48685 2020年 [査読有り][通常論文]
     
    A novel trial for estimating popularity of artists in music streaming services (MSS) is presented in this paper. The main contribution of this paper is to improve extensibility for using multi-modal features to accurately analyze latent relationships between artists. In the proposed method, a novel framework to construct a network is derived by collaboratively using social metadata and multi-modal features via canonical correlation analysis. Different from conventional methods that do not use multi-modal features, the proposed method can construct a network that can capture social metadata and multi-modal features, i.e., a context-aware network. For effectively analyzing the context-aware network, a novel framework to realize popularity estimation of artists is developed based on network analysis. The proposed method enables effective utilization of the network structure by extracting node features via a node embedding algorithm. By constructing an estimator that can distinguish differences between the node features, the proposed method can archive accurate popularity estimation of artists. Experimental results using multiple real-world datasets that contain artists in various genres in Spotify, one of the largest MSS, are presented. Quantitative and qualitative evaluations show that our method is effective for both classifying and regressing the popularity.
  • Tomoki Haruyama, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    MMSports 2019 - Proceedings of the 2nd International Workshop on Multimedia Content Analysis in Sports, co-located with MM 2019 10 - 15 2019年10月15日 [査読有り][通常論文]
     
    © 2019 Association for Computing Machinery. This paper presents a new method for retrieval of similar scenes based on multimodal distance metric learning in far-view soccer videos that broadly capture soccer fields and are not edited. We extract visual features and audio features from soccer video clips, and we extract text features from text data corresponding to these soccer video clips. In addition, distance metric learning based on Laplacian Regularized Metric Learning is performed to calculate the distances for each kind of features. Finally, by determining the final rank by integrating these distances, we realize successful multimodal retrieval of similar scenes from query scenes of soccer video clips. Experimental results show the effectiveness of our retrieval method.
  • K. Hirasawa, K. Maeda, T. Ogawa, M. Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 663 - 664 2019年10月 [査読有り][通常論文]
  • N. Ogawa, K. Maeda, T. Ogawa, M. Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 764 - 765 2019年10月 [査読有り][通常論文]
  • Megumi Kotera, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 492 - 493 2019年10月 [査読有り][通常論文]
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 943 - 944 2019年10月 [査読有り][通常論文]
  • Kentaro Yamamoto, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 794 - 795 2019年10月 [査読有り][通常論文]
  • An Wang, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 766 - 767 2019年10月 [査読有り][通常論文]
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    Proceedings - International Conference on Image Processing, ICIP 2019-September 4105 - 4109 2019年09月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents emotion label estimation via tensor-based spatiotemporal visual attention analysis. It has been reported in the fields of psychology and neuroscience that human emotions are related to two elements, their visual attention change and objects included in a target image. Therefore, the proposed method focuses on the spatiotemporal change of visual attention of human gazing at objects in the target image and constructs two neural networks which enable the emotion label estimation considering both of the above two elements. Specifically, the proposed method newly constructs a fourth-order tensor, gaze and image tensor (GIT) whose modes correspond to the width, the height and the color channel of the target image and the time axis of visual attention which is used for representing the time change. Then the first network, which consists of general tensor discriminant analysis (GTDA) and extreme learning machine (ELM), estimates the emotion label from the fourth-order GIT with concerning their visual attention change. Furthermore, the second network, which consists of pre-trained convolutoinal neural network-based feature extraction, GTDA and ELM, enables the estimation from the second-order GIT including visual features obtained from objects focused at each time. Finally, the proposed method estimates emotion labels based on decision fusion of the outputs from the two networks. Experimental results show the effectiveness of the proposed method.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    Proceedings - International Conference on Image Processing, ICIP 2019-September 1825 - 1829 2019年09月 [査読有り][通常論文]
     
    © 2019 IEEE. We present a new scene retrieval method based on text-to-image Generative Adversarial Network (GAN) and its application to query-based video summarization. Text-to-image GAN is a deep learning method that can generate images from their corresponding sentences. In this paper, we reveal a characteristic that deep learning-based visual features extracted from images generated by text-to-image GAN include semantic information sufficiently. By utilizing the generated images as queries, the proposed method achieves higher scene retrieval performance than those of the stateof-the-art methods. In addition, we introduce a novel architecture that can consider order relationship of the input sentences to our method for realizing a target video summarization. Specifically, the proposed method generates multiple images thorough text-to-image GAN from multiple sentences summarizing target videos. Their summarized video can be obtained by performing the retrieval of corresponding scenes from the target videos according to the generated images with considering the order relationship. Experimental results show the effectiveness of the proposed method in the retrieval and summarization performance.
  • Misaki Kanai, Ren Togo, Takahiro Ogawa, Miki Haseyama
    Proceedings - International Conference on Image Processing, ICIP 2019-September 1371 - 1375 2019年09月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method for gastritis detection from gastric X-ray images via fine-tuning techniques using a deep convolutional neural network (DCNN). DCNNs can learn parameters to capture high-dimensional features which express semantic contents of images by training on a large number of labeled images. However, lack of gastric X-ray images for training often occurs. To realize accurate detection with a small number of gastric X-ray images, the proposed method adopts fine-tuning techniques and newly introduces simple annotation of stomach regions to gastric X-ray images used for training. The proposed method fine-tunes a pre-trained DCNN with patches and three kinds of patch-level class labels considering not only the image-level ground truth ('gastritis'/'non-gastritis') but also the regions of a stomach since the outside of the stomach is not related to the image-level ground truth. In the test phase, by estimating the patch-level class labels with the fine-tuned DCNN, the proposed method enables the image-level class label estimation which excludes the effect of the unnecessary regions. Experimental results show the effectiveness of the proposed method.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    Proceedings - International Conference on Image Processing, ICIP 2019-September 919 - 923 2019年09月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a neural network maximizing ordinally supervised multi-view canonical correlation for deterioration level estimation. The contributions of this paper are twofold. First, in order to calculate features representing deterioration levels on transmission towers, which is one of the infrastructures, a novel neural network handling multi-modal features is constructed from a small amount of training data. Specifically, in our method, effective transformation to features with high discriminant ability without using many hidden layers is realized by setting projection matrices maximizing correlation between multiple features into hidden layer's weights. Second, since there exists ordinal scale in deterioration levels, the proposed method newly derives ordinally supervised multi-view canonical correlation analysis (OsMVCCA). OsMVCCA enables estimation of the effective projection considering not only label information but also their ordinal scales. Experimental results show that the proposed method realizes accurate deterioration level estimation.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    Comp.-Aided Civil and Infrastruct. Engineering 34 8 654 - 676 2019年08月 [査読有り][通常論文]
     
    © 2019 Computer-Aided Civil and Infrastructure Engineering This paper presents a convolutional sparse coding (CSC)-based deep random vector functional link network (CSDRN) for distress classification of road structures. The main contribution of this paper is the introduction of CSC into a feature extraction scheme in the distress classification. CSC can extract visual features representing characteristics of target images because it can successfully estimate optimal convolutional dictionary filters and sparse features as visual features by training from a small number of distress images. The optimal dictionaries trained from distress images have basic components of visual characteristics such as edge and line information of distress images. Furthermore, sparse feature maps estimated on the basis of the dictionaries represent both strength of the basic components and location information of regions having their components, and these maps can represent distress images. That is, sparse feature maps can extract key components from distress images that have diverse visual characteristics. Therefore, CSC-based feature extraction is effective for training from a limited number of distress images that have diverse visual characteristics. The construction of a novel neural network, CSDRN, by the use of a combination of CSC-based feature extraction and the DRN classifier, which can also be trained from a small dataset, is shown in this paper. Accurate distress classification is realized via the CSDRN.
  • Yui Matsumoto, Shota Hamano, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    2019 IEEE International Conference on Consumer Electronics - Taiwan, ICCE-TW 2019 2019年05月 
    A novel method to realize bilingual lexicon learning (BLL) using tagged images is presented in this paper. Different from existing methods that require parallel corpora, the proposed method enables extraction of semantically similar words by utilizing not such corpora but tagged images on image sharing services. The main contribution of this paper is derivation of a novel framework to refine visual features of tagged images based on graph trilateral filter-based smoothing. This enables reduction of the influence of noisy tags that are irrelevant to contents of images. As a result, accurate BLL becomes feasible by nearest neighbor search using the refined visual features.
  • Masanao Matsumoto, Naoki Saito, Takahiro Ogawa, Miki Haseyama
    2019 IEEE International Conference on Consumer Electronics - Taiwan (ICCE-TW) 2019年05月
  • User-Specific Visual Attention Estimation Based on Visual Similarity and Spatial Information in Images
    Y. Moroto, K. Maeda, T. Ogawa, M. Haseyama
    IEEE International Conference on Consumer Electronics – Taiwan (ICCE-TW) 479 - 480 2019年05月 [査読有り][通常論文]
  • Yusuke Akamatsu, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2019, Brighton, United Kingdom, May 12-17, 2019 2019-May 1105 - 1109 IEEE 2019年05月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method to estimate viewed image categories from human brain activity via newly derived semi-supervised fuzzy discriminative canonical correlation analysis (Semi-FDCCA). The proposed method can estimate image categories from functional magnetic resonance imaging (fMRI) activity measured while subjects view images by making fMRI activity and visual features obtained from images comparable through Semi-FDCCA. To realize Semi-FDCCA, we first derive a new supervised CCA called FDCCA that can consider fuzzy class information based on image category similarities obtained from WordNet ontology. Second, we adopt SemiCCA that can utilize additional unpaired visual features in addition to pairs of fMRI activity and visual features in order to prevent overfitting to the limited pairs. Furthermore, Semi-FDCCA can be derived by combining FDCCA with SemiCCA. Experimental results show that Semi-FDCCA enables accurate estimation of viewed image categories.
  • Ren Togo, Takahiro Ogawa, Osamu Manabe, Kenji Hirata, Tohru Shiga, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 237 - 238 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method for extracting important regions for deep learning models in the identification of cardiac sarcoidosis using polar map images. Although deep learning-based detection methods have widely studied, they are still often called black boxes. Since high reliability for provided results from computer-aided diagnosis systems is important toward clinical applications, this problem should be solved. In this paper, we try to visualize important regions for deep learning-based models for improvement of understanding to clinicians. We monitor the variance of confidence of a model constructed with a deep learning-based feature and define it as a contribution value toward the estimated label. We visualize important regions for models based on the contribution value.
  • Taiga Matsui, Naoki Saito, Takahiro Ogawa, Satoshi Asamizu, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 194 - 195 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method for estimating emotions evoked by watching images based on multiple visual features considering relationship with gaze information. The proposed method obtains multiple visual features from multiple middle layers of a Convolutional Neural Network. Then the proposed method newly derives their gaze-based visual features maximizing correlation with gaze information by using Discriminative Locality Preserving Canonical Correlation Analysis. The final estimation result is calculated by integrating multiple estimation results obtained from these gaze-based visual features. Consequently, successful emotion estimation becomes feasible by using such multiple estimation results which correspond to different semantic levels of target images.
  • Tetsuya Kushima, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 239 - 240 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a new method for estimation of users' interest levels using tensor completion with SemiCCA. The proposed method extracts new features maximizing correlation between features calculated from partially paired users' behavior and contents with semi-supervised canonical correlation analysis (SemiCCA). By this approach, we can successfully use the contents that users have not viewed for the interest level estimation. Moreover, our method utilizes the tensor completion to estimate unknown interest levels. Consequently, in the proposed method, accurate estimation of interest levels using SemiCCA and the tensor completion is realized. Experimental results are shown to verify the effectiveness of the proposed method by using actual data.
  • Zongyao Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 273 - 274 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. In this paper, we present a deep learning method for classifying subcellular protein patterns in human cells. Our method is mainly based on transfer learning and utilizes a newly proposed loss function named focal loss to deal with the problem of severe class imbalance existing in the task. The performance of our method is evaluated by a MacroF1 score of total 28 classes, and the final MacroF1 score of our method is 0.706.
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 229 - 230 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method for estimating visual attention via canonical correlation between visual and gaze-based features. The proposed method estimates user-specific visual attention by comparing a test image with training images including their corresponding individual eye gaze data in a common space. Specifically, canonical correlation analysis can derive projections which enable comparison between visual and gaze-based features in the common space. Therefore, given the new test image, our method projects its visual features to the common space and can estimate visual attention. Experimental results show the effectiveness of the proposed method.
  • Masanao Matsumoto, Naoki Saito, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 231 - 232 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a detection method of chronic gastritis from gastric X-ray images. The conventional method cannot detect chronic gastritis accurately since the number of non-gastritis images is overwhelmingly larger than the number of gastritis images. To deal with this problem, the proposed method performs the detection of chronic gastritis by using Deep Autoencoding Gaussian Mixture Models (DAGMM) which is an anomaly detection approach. DAGMM enables construction of chronic gastritis detection model using only non-gastritis images. In addition, DAGMM is superior to conventional anomaly detection methods since the models of dimensionality reduction and density estimation can be learned simultaneously. Therefore, the proposed method realizes accurate detection of chronic gastritis by utilizing DAGMM.
  • Misaki Kanai, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 196 - 197 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a detection method of gastritis from gastric X-ray images using fine-tuning techniques. With the development of deep convolutional neural networks (DCNNs), DCNN-based methods have achieved more accurate performance than conventional machine learning methods using hand-crafted features in the field of medical image analysis. However, lack of training images often occurs in clinical situations even though DCNNs require a large amount of training images to avoid overfitting. Therefore, the proposed method aims to consider the clinical situations that a limited amount of the training images are available. By fine-tuning a DCNN pre-trained with a large amount of annotated natural images, we avoid overfitting and realize accurate detection of the gastritis with a small amount of the training images.
  • Haruna Watanabe, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 235 - 236 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. In this paper, we propose a method to detect bone metastatic tumors using computed tomography (CT) images. Bone metastatic tumors spread from primary cancer to other organs, and they can cause severe pain. Therefore, it is important to detect metastatic tumors earlier in addition to primary cancer. However, since metastatic tumors are very small, and they emerge from unpredictable regions in the body, collecting metastatic tumor images is difficult compared to primary cancer. In such a case, it can be considered that the idea of anomaly detection is suitable. The proposed method based on a generative adversarial network model trains with only non-metastatic bone tumor images and detects bone metastatic tumor in an unsupervised manner. Then the anomaly score is defined for each test CT image. Experimental results show the anomaly scores between non-metastatic bone tumor images and metastatic bone tumor images are clearly different. The anomaly detection approach may be effective for the detection of bone metastatic tumors in CT images.
  • Yusuke Akamatsu, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 233 - 234 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method that estimates viewed image categories from functional magnetic resonance imaging (fMRI) data via semi-supervised discriminative canonical correlation analysis (Semi-DCCA). We newly derive Semi-DCCA that enables direct comparison of fMRI data and visual features extracted from viewed images while taking into account the class information and additional visual features to avoid overfitting. The proposed method enables estimation of image categories from fMRI data measured when subjects view images by comparing fMRI data with visual features through Semi-DCCA. Experimental results show that Semi-DCCA can improve estimation performance of the viewed image categories.
  • Akira Toyoda, Takahiro Ogawa, Miki Haseyama
    2019 IEEE 1st Global Conference on Life Sciences and Technologies, LifeTech 2019 198 - 199 2019年03月 [査読有り][通常論文]
     
    © 2019 IEEE. This paper presents a method to classify videos based on user preferences with soft-bag multiple instance learning (MIL). Our method classifies videos that a user has watched into two classes (preferred and not-preferred) with two-modal features extracted from the videos and brain signals measured while the user is watching the videos. Our method splits videos and brain signals into fixed-length segments and computes features used for classification from only a fixed-number of segments selected based on the idea of soft-bag MIL. By using the features computed from the selected segments, our method makes it possible to classify videos in the case that some videos that a user prefers contain some scenes the user does not prefer, and vice versa. Our main contribution allows methods classifying videos based on user preferences to treat such a case unlike conventional methods.
  • Yuji Hirai, Naoto Okuda, Naoki Saito, Takahiro Ogawa, Ryuichiro Machida, Shuhei Nomura, Masahiro Ohara, Miki Haseyama, Masatsugu Shimomura
    BIOMIMETICS 4 1 2019年01月 
    Friction is an important subject for sustainability due to problems that are associated with energy loss. In recent years, micro- and nanostructured surfaces have attracted much attention to reduce friction; however, suitable structures are still under consideration. Many functional surfaces are present in nature, such as the friction reduction surfaces of snake skins. In this study, we focused on firebrats, Thermobia domestica, which temporary live in narrow spaces, such as piled papers, so their body surface (integument) is frequently in contact with surrounding substrates. We speculate that, in addition to optical, cleaning effects, protection against desiccation and enemies, their body surface may be also adapted to reduce friction. To investigate the functional effects of the firebrat scales, firebrat surfaces were observed using a field-emission scanning electron microscope (FE-SEM) and a colloidal probe atomic force microscope (AFM). Results of surface observations by FE-SEM revealed that adult firebrats are entirely covered with scales, whose surfaces have microgroove structures. Scale groove wavelengths around the firebrat's head are almost uniform within a scale but they vary between scales. At the level of single scales, AFM friction force measurements revealed that the firebrat scale reduces friction by decreasing the contact area between scales and a colloidal probe. The heterogeneity of the scales' groove wavelengths suggests that it is difficult to fix the whole body on critical rough surfaces and may result in a "fail-safe" mechanism.
  • Tomoki Haruyama, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    IEEE 8th Global Conference on Consumer Electronics(GCCE) 665 - 666 2019年
  • Sho Takahashi, Marco Bertini, Alberto Del Bimbo, Miki Haseyama, Toru Hagiwara
    IEEE 8th Global Conference on Consumer Electronics(GCCE) 515 - 516 2019年
  • Masanao Matsumoto, Naoki Saito 0006, Takahiro Ogawa, Miki Haseyama
    IEEE 8th Global Conference on Consumer Electronics(GCCE) 481 - 482 2019年
  • Yutaka Yamada, Takahiro Ogawa, Miki Haseyama
    IEEE 8th Global Conference on Consumer Electronics(GCCE) 229 - 230 2019年 [査読有り][通常論文]
  • Yusuke Akamatsu, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    IEEE 8th Global Conference on Consumer Electronics(GCCE) 127 - 128 2019年 [査読有り][通常論文]
  • Ryosuke Sawata, Takahiro Ogawa, Miki Haseyama
    IEEE 8th Global Conference on Consumer Electronics(GCCE) 15 - 16 2019年 [査読有り][通常論文]
  • Yuya Moroto, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 477 - 478 2019年 [査読有り][通常論文]
  • Saya Takada, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 479 - 480 2019年 [査読有り][通常論文]
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Global Conference on Consumer Electronics (GCCE) 13 - 14 2019年 [査読有り][通常論文]
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Access 7 153183 - 153193 2019年 [査読有り][通常論文]
     
    © 2013 IEEE. Scene retrieval from input descriptions has been one of the most important applications with the increasing number of videos on the Web. However, this is still a challenging task since semantic gaps between features of texts and videos exist. In this paper, we try to solve this problem by utilizing a text-To-image Generative Adversarial Network (GAN), which has become one of the most attractive research topics in recent years. The text-To-image GAN is a deep learning model that can generate images from their corresponding descriptions. We propose a new retrieval framework, 'Query is GAN', based on the text-To-image GAN that drastically improves scene retrieval performance by simple procedures. Our novel idea makes use of images generated by the text-To-image GAN as queries for the scene retrieval task. In addition, unlike many studies on text-To-image GANs that mainly focused on the generation of high-quality images, we reveal that the generated images have reasonable visual features suitable for the queries even though they are not visually pleasant. We show the effectiveness of the proposed framework through experimental evaluation in which scene retrieval is performed from real video datasets.
  • Array,Array,Miki Haseyama
    IEEE Access 7 87448 - 87457 2019年 [査読有り][通常論文]
     
    © 2013 IEEE. In this paper, a novel synthetic gastritis image generation method based on a generative adversarial network (GAN) model is presented. Sharing medical image data is a crucial issue for realizing diagnostic supporting systems. However, it is still difficult for researchers to obtain medical image data since the data include individual information. Recently proposed GAN models can learn the distribution of training images without seeing real image data, and individual information can be completely anonymized by generated images. If generated images can be used as training images in medical image classification, promoting medical image analysis will become feasible. In this paper, we targeted gastritis, which is a risk factor for gastric cancer and can be diagnosed by gastric X-ray images. Instead of collecting a large amount of gastric X-ray image data, an image generation approach was adopted in our method. We newly propose loss function-based conditional progressive growing generative adversarial network (LC-PGGAN), a gastritis image generation method that can be used for a gastritis classification problem. The LC-PGGAN gradually learns the characteristics of gastritis in gastric X-ray images by adding new layers during the training step. Moreover, the LC-PGGAN employs loss function-based conditional adversarial learning so that generated images can be used as the gastritis classification task. We show that images generated by the LC-PGGAN are effective for gastritis classification using gastric X-ray images and have clinical characteristics of the target symptom.
  • Zongyao Li, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE International Symposium on Circuits and Systems, ISCAS 2019, Sapporo, Japan, May 26-29, 2019 1 - 5 IEEE 2019年 [査読有り][通常論文]
     
    This paper presents a method of semi-supervised learning based on tri-training for gastritis classification using gastric X-ray images. The proposed method is constructed based on the tri-training architecture, and the strategies of label smoothing regularization and random erasing augmentation are utilized in the method to enhance the performance. Although the task of gastritis classification is challenging, we report that the proposed semi-supervised learning method using only a small number of labeled data achieves 0.888 harmonic mean of sensitivity and specificity on test data composed of 615 patients.
  • Misaki Kanai, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE International Symposium on Circuits and Systems, ISCAS 2019, Sapporo, Japan, May 26-29, 2019 1 - 5 IEEE 2019年 [査読有り][通常論文]
     
    With the development of convolutional neural networks (CNNs), CNN-based methods for medical image analysis have achieved more accurate performance than conventional machine learning methods using hand-crafted features. Although these methods utilize a large number of training images and realize high performance, lack of the training images often occurs in medical image analysis due to several reasons. This paper presents a novel image generation method to construct a dataset for gastritis detection from gastric X-ray images. The proposed method effectively utilizes two kinds of training images (gastritis and non-gastritis images) to generate images of each domain by introducing label conditioning into a generative model. Experimental results using real-world gastric X-ray images show the effectiveness of the proposed method.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    IEEE Access 7 169920 - 169930 2019年 [査読有り][通常論文]
     
    In this paper, we propose a novel scene retrieval and re-ranking method based on a text-to-image Generative Adversarial Network (GAN). The proposed method generates an image from an input query sentence based on the text-to-image GAN and then retrieves a scene that is the most similar to the generated image. By utilizing the image generated from the input query sentence as a query, we can control semantic information of the query image at the text level. Furthermore, we introduce a novel interactive re-ranking scheme to our retrieval method. Specifically, users can consider the importance of each word within the first input query sentence. Then the proposed method re-generates the query image that reflects the word importance provided by users. By updating the generated query image based on the word importance, it becomes feasible for users to revise retrieval results through this re-ranking process. In experiments, we showed that our retrieval method including the re-ranking scheme outperforms recently proposed retrieval methods.
  • Ren Togo, Naoki Saito 0006, Takahiro Ogawa, Miki Haseyama
    IEEE Access 7 162395 - 162404 2019年 [査読有り][通常論文]
     
    A method for estimating regions of deterioration in electron microscope images of rubber materials is presented in this paper. Deterioration of rubber materials is caused by molecular cleavage, external force, and heat. An understanding of these characteristics is essential in the field of material science for the development of durable rubber materials. Rubber material deterioration can be observed by using on electron microscope but it requires much effort and specialized knowledge to find regions of deterioration. In this paper, we propose an automated deterioration region estimation method based on deep learning and anomaly detection techniques to support such material development. Our anomaly detection model, called Transfer Learning-based Deep Autoencoding Gaussian Mixture Model (TL-DAGMM), uses only normal regions for training since obtaining training data for regions of deterioration is difficult. TL-DAGMM makes use of extracted high representation features from a pre-trained deep learning model and can automatically learn the characteristics of normal rubber material regions. Regions of deterioration are estimated at the pixel level by calculated anomaly scores. Experiments on real rubber material electron microscope images demonstrated the effectiveness of our model.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2019, Brighton, United Kingdom, May 12-17, 2019 3936 - 3940 IEEE 2019年 [査読有り][通常論文]
     
    This paper presents multi-feature fusion based on supervised multi view multi-label canonical correlation projection (sM2CP). The proposed method applies sM2CP-based feature fusion to multiple features obtained from various convolutional neural networks (CNNs) whose characteristics are different. Since new fused features with high representation ability can be obtained, performance improvement of multi-label classification is realized. Specifically, in order to tackle the multi-label problem, sM2CP introduces a label similarity information of label vectors into the objective function of supervised multi-view canonical correlation analysis. Thus, sM2CP can deal with complex label information such as multi-label annotation. The main contribution of this paper is the realization of feature fusion of multiple CNN features for the multi-label problem by introducing multi-label similarity information into the canonical correlation analysis-based feature fusion approach. Experimental results show the effectiveness of sM2CP, which enables effective fusion of multiple CNN features.
  • Genki Suzuki, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    IEEE Access 7 153238 - 153248 2019年 [査読有り][通常論文]
     
    A novel method for estimating team tactics in soccer videos based on a Deep Extreme Learning Machine (DELM) and unique characteristics of tactics is presented in this paper. The proposed method estimates the tactics of each team from players formations and enables successful training from a limited amount of training data. Specifically, the estimation of tactics consists of two stages. First, by utilizing two DELMs corresponding to the two teams, the proposed method estimates the provisional tactics of each team. Second, the proposed method updates the team tactics based on unique characteristics of soccer tactics, the relationship between tactics of the two teams and information on ball possession. Consequently, since the proposed method estimates the team tactics that satisfy these characteristics, accurate estimation results can be obtained. In an experiment, the proposed method is applied to actual soccer videos to verify its effectiveness.
  • Tetsuya Kushima, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    IEEE Access 7 148576 - 148585 2019年 [査読有り][通常論文]
     
    A novel method for interest level estimation based on tensor completion via feature integration for partially paired users' behavior and videos is presented in this paper. The proposed method defines a novel canonical correlation analysis (CCA) framework that is suitable for interest level estimation, which is a hybrid version of semi-supervised CCA (SemiCCA) and supervised locality preserving CCA (SLPCCA) called semi-supervised locality preserving CCA (S2LPCCA). For partially paired users' behavior and videos in actual shops and on the Internet, new integrated features that maximize the correlation between partially paired samples by the principal component analysis (PCA)-mixed CCA framework are calculated. Then videos that users have not watched can be used for the estimation of users' interest levels. Furthermore, local structures of partially paired samples in the same class are preserved for accurate estimation of interest levels. Tensor completion, which can be applied to three contexts, videos, users and "canonical features and interest levels," is used for estimation of interest levels. Consequently, the proposed method realizes accurate estimation of users' interest levels based on S2LPCCA and the tensor completion from partially paired training features of users' behavior and videos. Experimental results obtained by applying the proposed method to actual data show the effectiveness of the proposed method.
  • Ryosuke Harakawa, Shoji Takimura, Takahiro Ogawa, Miki Haseyama, Masahiro Iwahashi
    IEEE Access 7 116207 - 116217 2019年 [査読有り][通常論文]
     
    Although Twitter has become an important source of information, the number of accessible tweets is too large for users to easily find their desired information. To overcome this difficulty, a method for tweet clustering is proposed in this paper. Inspired by the reports that network representation is useful for multimedia content analysis including clustering, a network-based approach is employed. Specifically, a consensus clustering method for tweet networks that represent relationships among the tweets' semantics and sentiment are newly derived. The proposed method integrates multiple clustering results obtained by applying successful clustering methods to the tweet networks. By integrating complementary clustering results obtained based on semantic and sentiment features, the accurate clustering of tweets becomes feasible. The contribution of this work can be found in the utilization of the features, which differs from existing network-based consensus clustering methods that target only the network structure. Experimental results for a real-world Twitter dataset, which includes 65 553 tweets of 25 datasets, verify the effectiveness of the proposed method.
  • Array,Array,Array,Miki Haseyama
    IEEE Access 7 104155 - 104167 2019年 [査読有り][通常論文]
     
    A novel method for music video recommendation is presented in this paper. The contributions of this paper are two-fold. (i) The proposed method constructs a network, which not only represents relationships between music videos and users but also captures multi-modal features of music videos. This enables collaborative use of multi-modal features such as audio, visual, and textual features, and multiple social metadata that can represent relationships between music videos and users on video hosting services. (ii) A novel scheme for link prediction considering local and global structures of the network (LP-LGSN) is newly derived by fusing multiple link prediction scores based on both local and global structures. By using the LP-LGSN to predict the degrees to which users desire music videos, the proposed method can recommend users' desired music videos. The experimental results for a real-world dataset constructed from YouTube-8M show the effectiveness of the proposed method.
  • Rintaro Yanagi, Ren Togo, Takahiro Ogawa, Miki Haseyama
    2019 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS) 1 - 5 2019年 [査読有り][通常論文]
     
    Text-to-image Generative Adversarial Network (GAN) is a deep learning model that generates an image from an input sentence. It is expressly attracting attentions because of its applicability of the generated images. However, many existing studies have still focused on generation of high-quality images, and there are few studies focusing on application of the generated images since text-to-image GANs still cannot produce visually pleasing images in the complicated tasks. In this paper, we apply a text-to-image GAN as a generator of query images for a scene retrieval task to show availability of the visually non-pleasant images. The proposed method utilizes a low-resolution generated image that focuses on a sentence and a high-resolution generated image that focuses on each word of the sentence to retrieve a desired scene. With this mechanism, the proposed method realizes a high-accuracy scene retrieval from a sentence input. Experimental results show the effectiveness of our method.
  • Ren Togo, Kenji Hirata, Osamu Manabe, Hiroshi Ohira, Ichizo Tsujino, Keiichi Magota, Takahiro Ogawa, Miki Haseyama, Tohru Shiga
    Computers in biology and medicine 104 81 - 86 2019年01月 [査読有り][通常論文]
     
    AIMS: The aim of this study was to determine whether deep convolutional neural network (DCNN)-based features can represent the difference between cardiac sarcoidosis (CS) and non-CS using polar maps. METHODS: A total of 85 patients (33 CS patients and 52 non-CS patients) were analyzed as our study subjects. One radiologist reviewed PET/CT images and defined the left ventricle region for the construction of polar maps. We extracted high-level features from the polar maps through the Inception-v3 network and evaluated their effectiveness by applying them to a CS classification task. Then we introduced the ReliefF algorithm in our method. The standardized uptake value (SUV)-based classification method and the coefficient of variance (CoV)-based classification method were used as comparative methods. RESULTS: Sensitivity, specificity and the harmonic mean of sensitivity and specificity of our method with the ReliefF algorithm were 0.839, 0.870 and 0.854, respectively. Those of the SUVmax-based classification method were 0.468, 0.710 and 0.564, respectively, and those of the CoV-based classification method were 0.655, 0.750 and 0.699, respectively. CONCLUSION: The DCNN-based high-level features may be more effective than low-level features used in conventional quantitative analysis methods for CS classification.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    Advanced Engineering Informatics 37 79 - 87 2018年08月01日 [査読有り][通常論文]
     
    This paper presents distress classification of class-imbalanced inspection data via correlation-maximizing weighted extreme learning machine (CMWELM). For distress classification, it is necessary to extract semantic features that can effectively distinguish multiple kinds of distress from a small amount of class-imbalanced data. In recent machine learning techniques such as general deep learning methods, since effective feature transformation from visual features to semantic features can be realized by using multiple hidden layers, a large amount of training data are required. However, since the amount of training data of civil structures becomes small, it becomes difficult to perform successful transformation by using these multiple hidden layers. On the other hand, CMWELM consists of two hidden layers. The first hidden layer performs feature transformation, which can directly extract the semantic features from visual features, and the second hidden layer performs classification with solving the class-imbalanced problem. Specifically, in the first hidden layer, the feature transformation is realized by using projections obtained by maximizing the canonical correlation between visual and text features as weight parameters of the hidden layer without designing multiple hidden layers. Furthermore, the second hidden layer enables successful training of our classifier by using weighting factors concerning the class-imbalanced problem. Consequently, CMWELM realizes accurate distress classification from a small amount of class-imbalanced data.
  • Keisuke Kawauchi, Kenji Hirata, Seiya Ichikawa, Osamu Manabe, Kentaro Kobayashi, Shiro Watanabe, Miki Haseyama, Takahiro Ogawa, Ren Togo, Tohru Shiga, Chietsugu Katoh
    Society of Nuclear Medicine and Molecular Imaging Annual Meeting (SNMMI) 59 2018年06月 [査読有り][通常論文]
  • Ren Togo, Kenji Hirata, Osamu Manabe, Hiroshi Ohira, Ichizo Tsujino, Takahiro Ogawa, Miki Haseyama, Tohru Shiga
    Society of Nuclear Medicine and Molecular Imaging Annual Meeting (SNMMI) 59 2018年06月 [査読有り][通常論文]
  • Megumi Takezawa, Hirofumi Sanada, Takahiro Ogawa, Miki Haseyama
    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences E101A 6 900 - 903 2018年06月01日 [査読有り][通常論文]
     
    In this paper, we propose a highly accurate method for estimating the quality of images compressed using fractal image compression. Using an iterated function system, fractal image compression compresses images by exploiting their self-similarity, thereby achieving high levels of performance however, we cannot always use fractal image compression as a standard compression technique because some compressed images are of low quality. Generally, sufficient time is required for encoding and decoding an image before it can be determined whether the compressed image is of low quality or not. Therefore, in our previous study, we proposed a method to estimate the quality of images compressed using fractal image compression. Our previous method estimated the quality using image features of a given image without actually encoding and decoding the image, thereby providing an estimate rather quickly however, estimation accuracy was not entirely sufficient. Therefore, in this paper, we extend our previously proposed method for improving estimation accuracy. Our improved method adopts a new image feature, namely lacunarity. Results of simulation showed that the proposed method achieves higher levels of accuracy than those of our previous method.
  • Soh Yoshida, Takahiro Ogawa, Miki Haseyama, Mitsuji Muneyasu
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E101D 5 1430 - 1440 2018年05月 [査読有り][通常論文]
     
    Video reranking is an effective way for improving the retrieval performance of text-based video search engines. This paper proposes a graph-based Web video search reranking method with local and global consistency analysis. Generally, the graph-based reranking approach constructs a graph whose nodes and edges respectively correspond to videos and their pairwise similarities. A lot of reranking methods are built based on a scheme which regularizes the smoothness of pairwise relevance scores between adjacent nodes with regard to a user's query. However, since the overall consistency is measured by aggregating only the local consistency over each pair, errors in score estimation increase when noisy samples are included within query-relevant videos' neighbors. To deal with the noisy samples, the proposed method leverages the global consistency of the graph structure, which is different from the conventional methods. Specifically, in order to detect this consistency, the propose method introduces a spectral clustering algorithm which can detect video groups, in which videos have strong semantic correlation, on the graph. Furthermore, a new regularization term, which smooths ranking scores within the same group, is introduced to the reranking framework. Since the score regularization is performed by both local and global aspects simultaneously, the accurate score estimation becomes feasible. Experimental results obtained by applying the proposed method to a real-world video collection show its effectiveness.
  • 長谷山 美紀, 河村 圭, 田良島 周平, 新井 啓之
    映像情報メディア学会誌 Vol.72 No.2 pp.241-246  2018年03月 [査読無し][通常論文]
     
    本稿では、(1) 拡張現実・仮想現実の研究動向、(2) 深層学習の研究動向と実用展開、(3) IoT とメディア処理、等、メディア工学分野の研究動向を紹介する。(1)については、デプスセンサやヘッドマウントディスプレイ等のデバイスの登場と性能向上を踏まえつつ、これらを活用した研究開発の進展と動向を紹介する。(2) については、加速度的に進む画像映像メディアへの深層学習技術の適用について、具体的に画像分類や物体検出、さらには画像検索から教師データの検討、実用展開に至るまでを解説する。(3)では、(2) を受けてメディア工学の分野でAI 技術と相乗効果を生み出すIoT 技術について解説する。
  • Yuma Sasaka, Takahiro Ogawa, Miki Haseyama
    IEEE Access 6 8340 - 8350 2018年02月09日 [査読有り][通常論文]
     
    A reliable method to estimate viewer interest is highly sought after for human-centered video information retrieval. A method that estimates viewer interest while users are watching Web videos is presented in this paper. The method uses a framework for anomaly detection based on collaborative use of facial expression and biological signals such as electroencephalogram (EEG) signals. To the best of our knowledge, there have been no studies that have taken into account two actual mechanisms of the behavior of users while they are watching Web videos. First, whereas most Web videos garner very little attention, a small number attract millions of views. Therefore, a framework for anomaly detection is newly applied to facial expression and EEG in order to model the imbalanced distribution of popularity. Second, since the number of Web videos that are labeled by users as interesting/not interesting is generally too small to estimate viewer interest by a supervised approach, the proposed method utilizes parametric techniques for anomaly detection, which estimates viewer interest in an unsupervised way. Unlike some related studies for estimating viewer interest, our method takes into account actual mechanisms of the behavior of users while they are watching Web videos by utilizing parametric techniques for anomaly detection. Then viewer interest can be estimated on the basis of an anomaly score calculated from our proposed method. Consequently, successful estimation of viewer interest based on a framework for anomaly detection, via collaborative use of facial expression and biological signals, becomes feasible.
  • Yoshiki Ito, Takahiro Ogawa, Miki Haseyama
    IEICE Transactions on Information and Systems E101D 2 481 - 490 2018年02月01日 [査読有り][通常論文]
     
    A method for accurate estimation of personalized video preference using multiple users' viewing behavior is presented in this paper. The proposed method uses three kinds of features: a video, user's viewing behavior and evaluation scores for the video given by a target user. First, the proposed method applies Supervised Multiview Spectral Embedding (SMSE) to obtain lower-dimensional video features suitable for the following correlation analysis. Next, supervised Multi-View Canonical Correlation Analysis (sMVCCA) is applied to integrate the three kinds of features. Then we can get optimal projections to obtain new visual features, "canonical video features" reflecting the target user's individual preference for a video based on sMVCCA. Furthermore, in our method, we use not only the target user's viewing behavior but also other users' viewing behavior for obtaining the optimal canonical video features of the target user. This unique approach is the biggest contribution of this paper. Finally, by integrating these canonical video features, Support Vector Ordinal Regression with Implicit Constraints (SVORIM) is trained in our method. Consequently, the target user's preference for a video can be estimated by using the trained SVORIM. Experimental results show the effectiveness of our method.
  • Ryosuke Harakawa, Daichi Takehara, Takahiro Ogawa, Miki Haseyama
    Multimedia Tools and Applications 77 14 18741 - 18759 2018年 [査読有り][通常論文]
     
    For realizing quick and accurate access to desired information and effective advertisements or election campaigns, personalized tweet recommendation is highly demanded. Since multimedia contents including tweets are tools for users to convey their sentiment, users' interest in tweets is strongly influenced by sentiment factors. Therefore, successful personalized tweet recommendation can be realized if sentiment in tweets can be estimated. However, sentiment factors were not taken into account in previous works and the performance of previous methods may be limited. To overcome the limitation, a method for sentiment-aware personalized tweet recommendation through multimodal Field-aware Factorization Machines (FFM) is newly proposed in this paper. Successful personalized tweet recommendation becomes feasible through the following three contributions: (i) sentiment factors are newly introduced into personalized tweet recommendation, (ii) users' interest is modeled by deriving multimodal FFM that enables collaborative use of multiple factors in a tweet, i.e., publisher, topic and sentiment factors, and (iii) the effectiveness of using sentiment factors as well as publisher and topic factors is clarified from results of experiments using real-world datasets related to worldwide hot topics, "#trump", "#hillaryclinton" and "#ladygaga". In addition to showing the effectiveness of the proposed method, the applicability of the proposed method to other tasks such as advertisement and social analysis is discussed as a conclusion and future work of this paper.
  • Array,Array,Miki Haseyama
    IEEE Access 6 63833 - 63842 2018年 [査読有り][通常論文]
     
    This paper presents a novel method for favorite video estimation based on multiview feature integration via kernel multiview local fisher discriminant analysis (KMvLFDA). The proposed method first extracts electroencephalogram (EEG) features from users' EEG signals recorded while watching videos and multiple visual features from videos. Then, multiple EEG-based visual features are obtained by applying locality preserving canonical correlation analysis to EEG features and each visual feature. Next, KMvLFDA, which is newly derived in this paper, explores the complementary properties of different features and integrates the multiple EEG-based visual features. In addition, by using KMvLFDA, between-class scatter is maximized and within-class scatter is minimized in the integrated feature space. Consequently, it can be expected that the new features that are obtained by the above integration are more effective than each of the EEG-based visual features for the estimation of users' favorite videos. The main contribution of this paper is the new derivation of KMvLFDA. Successful estimation of users' favorite videos becomes feasible by using the new features obtained via KMvLFDA.
  • Array,Array, Keisuke Maeda, Miki Haseyama
    IEEE Access 6 61401 - 61409 2018年 [査読有り][通常論文]
     
    Video classification based on the user's preference (information of what a user likes: WUL) is important for realizing human-centered video retrieval. A better understanding of the rationale of WUL would greatly contribute to the support for successful video retrieval. However, a few studies have shown the relationship between information of what a user watches and WUL. A new method that classifies videos on the basis of WUL using video features and electroencephalogram (EEG) signals collaboratively with a multimodal bidirectional Long Short-Term Memory (Bi-LSTM) network is presented in this paper. To the best of our knowledge, there has been no study on WUL-based video classification using video features and EEG signals collaboratively with LSTM. First, we newly apply transfer learning to the WUL-based video classification since the number of labels (liked or not liked) attached to videos by users is small, and it is difficult to classify videos based on WUL. Furthermore, we conduct a user study for showing that the representation of psychophysiological signals calculated from Bi-LSTM is effective for the WUL-based video classification. Experimental results showed that our deep neural network feature representations can distinguish WUL for each subject.
  • Array,Array,Miki Haseyama
    IEEE Access 6 32481 - 32492 2018年 [査読有り][通常論文]
     
    In this paper, we propose a novel method for estimating human emotion using functional brain images. The final goal of our study is contribution to affective brain computer interfaces (aBCIs), which use neuropsychological signals. In the proposed method, we newly derive multiview general tensor discriminant analysis (MvGTDA) in order to reveal significant brain regions and accurately estimate human emotion evoked by visual stimuli. This is because it is important to find activation of multiple brain regions for estimating emotional states. Since we regard a Brodmann area as a view and introduce -norm regularization for these views, MvGTDA can eliminate non-crucial Brodmann areas and select significant ones. Moreover, in general studies on functional brain images based on machine learning methodologies, there is an overfitting problem caused by a small sample size. Therefore, revealing significant Brodmann areas based on MvGTDA has another important role, i.e., solving the overfitting problem. By inputting estimation results respectively obtained from the significant areas and the MvGTDA-based feature, tensor-based supervised decision-level fusion (TS-DLF) integrates them and outputs the final estimation result of the users emotion. In experiments, we showed the effectiveness of our method by using actual functional brain images and we revealed the significant brain regions in emotional states.
  • Array,Takahiro Ogawa, Miki Haseyama
    IEEE Access 6 2930 - 2942 2018年 [査読有り][通常論文]
  • Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    Multimedia Tools and Applications 77 16 1 - 28 2017年12月06日 [査読有り][通常論文]
     
    A method to track topic evolution via salient keyword matching with consideration of semantic broadness for Web video discovery is presented in this paper. The proposed method enables users to understand the evolution of topics over time for discovering Web videos in which they are interested. A framework that enables extraction and tracking of the hierarchical structure, which contains Web video groups with various degrees of semantic broadness, is newly derived as follows: Based on network analysis using multimodal features, i.e., features of video contents and metadata, our method extracts the hierarchical structure and salient keywords that represent contents of each Web video group. Moreover, salient keyword matching, which is newly developed by considering salient keyword distribution, semantic broadness of each Web video group and initial topic relevance, is applied to each hierarchical structure obtained in different time stamps. Unlike methods in previous works, by considering the semantic broadness as well as the salient keyword distribution, our method can overcome the problem of the desired semantic broadness of topics being different depending on each user. Also, the initial topic relevance enables correction of the gap from an initial topic at the start of tracking. Consequently, it becomes feasible to track the evolution of topics over time for finding Web videos in which the users are interested. Experimental results for real-world datasets containing YouTube videos verify the effectiveness of the proposed method.
  • Daichi Takehara, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    MULTIMEDIA TOOLS AND APPLICATIONS 76 19 20249 - 20272 2017年10月 [査読有り][通常論文]
     
    A novel scheme for retrieving users' desired contents, i.e., contents with topics in which users are interested, from multiple social media platforms is presented in this paper. In existing retrieval schemes, users first select a particular platform and then input a query into the search engine. If users do not specify suitable platforms for their information needs and do not input suitable queries corresponding to the desired contents, it becomes difficult for users to retrieve the desired contents. The proposed scheme extracts the hierarchical structure of content groups (sets of contents with similar topics) from different social media platforms, and it thus becomes feasible to retrieve desired contents even if users do not specify suitable platforms and do not input suitable queries. This paper has two contributions: (1) A new feature extraction method, Locality Preserving Canonical Correlation Analysis with multiple social metadata (LPCCA-MSM) that can detect content groups without the boundaries of different social media platforms is presented in this paper. LPCCA-MSM uses multiple social metadata as auxiliary information unlike conventional methods that only use content-based information such as textual or visual features. (2) The proposed novel retrieval scheme can realize hierarchical content structuralization from different social media platforms. The extracted hierarchical structure shows various abstraction levels of content groups and their hierarchical relationships, which can help users select topics related to the input query. To the best of our knowledge, an intensive study on such an application has not been conducted; therefore, this paper has strong novelty. To verify the effectiveness of the above contributions, extensive experiments for real-world datasets containing YouTube videos and Wikipedia articles were conducted.
  • Takahiro Ogawa, Akira Tanaka, Miki Haseyama
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E100D 10 2614 - 2626 2017年10月 [査読有り][通常論文]
     
    A Wiener-based inpainting quality prediction method is presented in this paper. The proposed method is the first method that can predict inpainting quality both before and after the intensities have become missing even if their inpainting methods are unknown. Thus, when the target image does not include any missing areas, the proposed method estimates the importance of intensities for all pixels, and then we can know which areas should not be removed. Interestingly, since this measure can be also derived in the same manner for its corrupted image already including missing areas, the expected difficulty in reconstruction of these missing pixels is predicted, i.e., we can know which missing areas can be successfully reconstructed. The proposed method focuses on expected errors derived from the Wiener filter, which enables least-squares reconstruction, to predict the inpainting quality. The greatest advantage of the proposed method is that the same inpainting quality prediction scheme can be used in the above two different situations, and their results have common trends. Experimental results show that the inpainting quality predicted by the proposed method can be successfully used as a universal quality measure.
  • Kohei Tateno, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E100D 9 2005 - 2016 2017年09月 [査読有り][通常論文]
     
    A novel dimensionality reduction method, Fisher Discriminant Locality Preserving Canonical Correlation Analysis (FDLPCCA), for visualizing Web images is presented in this paper. FDLP-CCA can integrate two modalities and discriminate target items in terms of their semantics by considering unique characteristics of the two modalities. In this paper, we focus onWeb images with text uploaded on Social Networking Services for these two modalities. Specifically, text features have high discriminate power in terms of semantics. On the other hand, visual features of images give their perceptual relationships. In order to consider both of the above unique characteristics of these two modalities, FDLPCCA estimates the correlation between the text and visual features with consideration of the cluster structure based on the text features and the local structures based on the visual features. Thus, FDLP-CCA can integrate the different modalities and provide separated manifolds to organize enhanced compactness within each natural cluster.
  • Miki Haseyama, Takahiro Ogawa, Sho Takahashi, Shuhei Nomura, Masatsugu Shimomura
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E100D 8 1563 - 1573 2017年08月 [査読有り][通常論文]
     
    Biomimetics is a new research field that creates innovation through the collaboration of different existing research fields. However, the collaboration, i.e., the exchange of deep knowledge between different research fields, is difficult for several reasons such as differences in technical terms used in different fields. In order to overcome this problem, we have developed a new retrieval platform, "Biomimetics image retrieval platform," using a visualization-based image retrieval technique. A biological database contains a large volume of image data, and by taking advantage of these image data, we are able to overcome limitations of text-only information retrieval. By realizing such a retrieval platform that does not depend on technical terms, individual biological databases of various species can be integrated. This will allow not only the use of data for the study of various species by researchers in different biological fields but also access for a wide range of researchers in fields ranging from materials science, mechanical engineering and manufacturing. Therefore, our platform provides a new path bridging different fields and will contribute to the development of biomimetics since it can overcome the limitation of the traditional retrieval platform.
  • Deterioration Level Estimation on Transmission Towers via Extreme Learning Machine based on Combination Use of Local Receptive Field and Principal Component Analysis
    K. Maeda, S. Takahashi, T. Ogawa, M. Haseyama
    International Technical Conference on Circuits/Systems, Computers and Communications (ITC-CSCC) 457 - 458 2017年07月 [査読有り][通常論文]
  • Effectiveness Evaluation of Imaging Direction for Estimation of Gastritis Regions on Gastric X-ray Images
    Ren Togo, Kenta Ishihara, Takahiro Ogawa, Miki Haseyama
    International Technical Conference on Circuits, Systems, Computers, and Communications (ITC-CSCC) 459 - 460 2017年05月 [査読有り][通常論文]
  • Kenta Ishihara, Takahiro Ogawa, Miki Haseyama
    COMPUTERS IN BIOLOGY AND MEDICINE 84 69 - 78 2017年05月 [査読有り][通常論文]
     
    In this paper, a fully automatic method for detection of Helicobacter pylori (H. pylori) infection is presented with the aim of constructing a computer-aided diagnosis (CAD) system. In order to realize a CAD system with good performance for detection of H. pylori infection, we focus on the following characteristic of stomach X-ray examination. The accuracy of X-ray examination differs depending on the symptom of H. pylori infection that is focused on and the position from which X-ray images are taken. Therefore, doctors have to comprehensively assess the symptoms and positions. In order to introduce the idea of doctors' assessment into the CAD system, we newly propose a method for detection of H. pylori infection based on the combined use of feature fusion and decision fusion. As a feature fusion scheme, we adopt Multiple Kernel Learning (MKL). Since MKL can combine several features with determination of their weights, it can represent the differences in symptoms. By constructing an MKL classifier for each position, we can obtain several detection results. Furthermore, we introduce confidence-based decision fusion, which can consider the relationship between the classifier's performance and the detection results. Consequently, accurate detection of H. pylori infection becomes possible by the proposed method. Experimental results obtained by applying the proposed method to real X-ray images show that our method has good performance, close to the results of detection by specialists, and indicate that the realization of a CAD system for determining the risk of H. pylori infection is possible.
  • Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    2016 IEEE Global Conference on Signal and Information Processing, GlobalSIP 2016 - Proceedings 1238 - 1242 2017年04月19日 [査読有り][通常論文]
     
    This paper presents a novel method to track the hierarchical structure of Web video groups on the basis of salient keyword matching including semantic broadness estimation. To the best of our knowledge, this paper is the first work to perform extraction and tracking of the hierarchical structure simultaneously. Specifically, the proposed method first extracts the hierarchical structure of Web video groups and salient keywords of them on the basis of an improved scheme of our previously reported method. Moreover, to calculate similarities between Web video groups obtained in different time stamps, salient keyword matching is newly developed by considering both co-occurrences of the salient keywords and semantic broadness of each Web video group. Consequently, tracking of the hierarchical structure over time becomes feasible to easily understand popularity trends of many Web videos for realizing effective retrieval.
  • Distress Classification of Class Imbalanced Data for Maintenance Inspection of Road Structures in Express Way
    K. Maeda, S. Takahashi, T. Ogawa, M. Haseyama
    International Conference on Civil and Building Engineering Informatics in conjunction with Conference on Computer Applications in Civil and Hydraulic Engineering (ICCBEI & CCACHE) 182 - 185 2017年04月 [査読有り][通常論文]
  • Takahiro Ogawa, Yoshiaki Yamaguchi, Satoshi Asamizu, Miki Haseyama
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E100D 2 409 - 412 2017年02月 [査読有り][通常論文]
     
    This paper presents human-centered video feature selection via mRMR-SCMMCCA (minimum Redundancy and Maximum Relevance-Specific Correlation Maximization Multiset Canonical Correlation Analysis) algorithm for preference extraction. The proposed method derives SCMMCCA, which simultaneously maximizes two kinds of correlations, correlation between video features and users' viewing behavior features and correlation between video features and their corresponding rating scores. By monitoring the derived correlations, the selection of the optimal video features that represent users' individual preference becomes feasible.
  • OGAWA Takahiro, YAMAGUCHI Yoshiaki, ASAMIZU Satoshi, HASEYAMA Miki
    IEICE Transactions on Information and Systems E100.D 2 409 - 412 2017年 [査読無し]
     
    This paper presents human-centered video feature selection via mRMR-SCMMCCA (minimum Redundancy and Maximum Relevance-Specific Correlation Maximization Multiset Canonical Correlation Analysis) algorithm for preference extraction. The proposed method derives SCMMCCA, which simultaneously maximizes two kinds of correlations, correlation between video features and users' viewing behavior features and correlation between video features and their corresponding rating scores. By monitoring the derived correlations, the selection of the optimal video features that represent users' individual preference becomes feasible.
  • Yoshiki Ito, Takahiro Ogawa, Miki Haseyama
    2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 3006 - 3010 2017年 [査読有り][通常論文]
     
    This paper presents a novel method for personalized video preference estimation based on early fusion using multiple users' viewing behavior. The proposed method adopts supervised Multi-View Canonical Correlation Analysis (sMVCCA) to estimate correlation between different types of features. Specifically, we estimate optimal projections maximizing the correlation between three features of video, target user's viewing behavior and evaluation scores for video. Then novel video features (canonical video features), which reflect the target user's individual preference, are obtained by the estimated projections. Furthermore, our method computes sMVCCA-based canonical video features by using multiple users' viewing behavior and a target user's evaluation scores. This non-conventional approach using the multiple users' viewing behavior for the preference estimation of the target user is the biggest contribution of our method, and it enables early fusion of the canonical video features. Consequently, successful video recommendation that reflects the users' individual preference can be expected via the evaluation score prediction from the integrated canonical video features. Experimental results show the effectiveness of our method.
  • Takahiro Ogawa, Miki Haseyama
    2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 1827 - 1831 2017年 [査読有り][通常論文]
     
    This paper presents an exemplar-based image completion via a new quality measure based on phaseless texture features. The proposed method derives a new quality measure obtained by monitoring errors caused in power spectra, i.e., errors of phaseless texture features, converged through phase retrieval. Even if a target patch includes missing pixels, this measure enables selection of the best matched patch including the most similar texture features for realizing the exemplar-based image completion. Furthermore, since the phaseless texture features are robust to various changes such as spatial gaps and luminance changes, the new quality measure successfully provides the best matched patch from few training examples. Then, by solving an optimization problem that retrieves the phase of the target patch from the phaseless texture features of the best matched patch, its missing areas can be reconstructed. Consequently, accurate image completion using the new quality measure becomes feasible. Subjective and quantitative experimental results are shown to verify the effectiveness of our method using the new quality measure.
  • Kento Sugata, Takahiro Ogawa, Miki Haseyama
    2017 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 999 - 1003 2017年 [査読有り][通常論文]
     
    This paper presents a novel method that estimates human emotion based on tensor-based supervised decision-level fusion (TS-DLF) from multiple Brodmann areas (BAs). From multiple brain data corresponding to these BAs captured by functional magnetic resonance imaging (fMRI), our method performs general tensor discriminant analysis (GTDA) to obtain features which can reflect the user's emotion. Furthermore, since the dimension of the obtained features becomes lower, this can avoid overfitting in the following training procedure of estimators. Next, by separately using the transformed BA data obtained after GTDA, we obtain multiple estimation results of the user's emotion based on logistic tensor regression (LTR). Then our method realizes the decision of the final result based on TS-DLF from the multiple estimation results. This approach, i.e., the integration of the multiple BAs' results for the whole-brain data, is the biggest contribution of this paper. TS-DLF successfully integrates the multiple estimation results with considering the performance of the LTR-based estimator constructed for each BA. Experimental results show that our method outperforms state-of-the-art approaches, and the effectiveness of our method can be confirmed.
  • Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    IEEE ACCESS 5 16963 - 16973 2017年 [査読有り][通常論文]
     
    Sentiment in multimedia contents has an influence on their topics, since multimedia contents are tools for social media users to convey their sentiment. Performance of applications such as retrieval and recommendation will be improved if sentiment in multimedia contents can be estimated; however, there have been few works in which such applications were realized by utilizing sentiment analysis. In this paper, a novel method for extracting the hierarchical structure of Web video groups based on sentiment-aware signed network analysis is presented to realize Web video retrieval. First, the proposed method estimates latent links between Web videos by using multimodalfeatures of contents and sentiment features obtained from texts attached to Web videos. Thus, our method enables construction of a signed network that reflects not only similarities but also positive and negative relations between topics of Web videos. Moreover, an algorithm to optimize a modularity-based measure, which can adaptively adjust the balance between positive and negative edges, was newly developed. This algorithm detects Web video groups with similar topics at multiple abstraction levels; thus, successful extraction of the hierarchical structure becomes feasible. By providing the hierarchical structure, users can obtain an overview of many Web videos and it becomes feasible to successfully retrieve the desired Web videos. Results of experiments using a new benchmark dataset, YouTube-8M, validate the contributions of this paper, i.e., 1) the first attempt to utilize sentiment analysis for Web video grouping and 2) a novel algorithm for analyzing a weighted signed network derived from sentiment and multimodal features.
  • Ryota Saito, Sho Takahashi, Takahiro Ogawa, Miki Hasayama
    2016 IEEE 5th Global Conference on Consumer Electronics, GCCE 2016 1 - 2 2016年12月27日 [査読有り][通常論文]
     
    This paper presents a retrieval method of similar inspection records in road structures based on metric learning using experienced inspectors' evaluation. Inspection records of road structures include images and text-based information such as category of distress, damaged parts and degree of damage. The proposed method calculates distances from query inspection records, and rank lists of retrieval results are obtained for each feature. In this approach, the distance quantification are updated on the basis of experienced inspectors' evaluation. Finally, the proposed method obtains retrieval results by integrating the multiple rank lists. The experimental results show the effectiveness of the proposed method.
  • Takahiro Ogawa, Miki Haseyama
    IEEE TRANSACTIONS ON IMAGE PROCESSING 25 12 5971 - 5986 2016年12月 [査読有り][通常論文]
     
    This paper presents adaptive subspace-based inverse projections via division into multiple sub-problems (ASIP-DIMSs) for missing image data restoration. In the proposed method, a target problem for estimating missing image data is divided into multiple sub-problems, and each sub-problem is iteratively solved with the constraints of other known image data. By projection into a subspace model of image patches, the solution of each sub-problem is calculated, where we call this procedure "subspace-based inverse projection" for simplicity. The proposed method can use higher dimensional subspaces for finding unique solutions in each sub-problem, and successful restoration becomes feasible, since a high level of image representation performance can be preserved. This is the biggest contribution of this paper. Furthermore, the proposed method generates several subspaces from known training examples and enables derivation of a new criterion in the above framework to adaptively select the optimal subspace for each target patch. In this way, the proposed method realizes missing image data restoration using ASIP-DIMS. Since our method can estimate any kind of missing image data, its potential in two image restoration tasks, image inpainting and super-resolution, based on several methods for multivariate analysis is also shown in this paper.
  • Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    MULTIMEDIA TOOLS AND APPLICATIONS 75 24 17059 - 17079 2016年12月 [査読有り][通常論文]
     
    In this paper, we propose a Web video retrieval method that uses hierarchical structure of Web video groups. Existing retrieval systems require users to input suitable queries that identify the desired contents in order to accurately retrieve Web videos; however, the proposed method enables retrieval of the desired Web videos even if users cannot input the suitable queries. Specifically, we first select representative Web videos from a target video dataset by using link relationships between Web videos obtained via metadata "related videos" and heterogeneous video features. Furthermore, by using the representative Web videos, we construct a network whose nodes and edges respectively correspond to Web videos and links between these Web videos. Then Web video groups, i.e., Web video sets with similar topics are hierarchically extracted based on strongly connected components, edge betweenness and modularity. By exhibiting the obtained hierarchical structure of Web video groups, users can easily grasp the overview of many Web videos. Consequently, even if users cannot write suitable queries that identify the desired contents, it becomes feasible to accurately retrieve the desired Web videos by selecting Web video groups according to the hierarchical structure. Experimental results on actual Web videos verify the effectiveness of our method.
  • Kotoku Omura, Shoichiro Yamasaki, Tomoko K. Matsushima, Hirokazu Tanaka, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E99A 12 2256 - 2265 2016年12月 [査読有り][通常論文]
     
    Many studies have applied the three-dimensional discrete wavelet transform (3D DWT) to video coding. It is known that corruptions of the lowest frequency sub-band (LL) coefficients of 3D DWT severely affect the visual quality of video. Recently, we proposed an error resilient 3D DWT video coding method (the conventional method) that employs dispersive grouping and an error concealment (EC). The EC scheme of our conventional method adopts a replacement technique of the lost LL coefficients. In this paper, we propose a new 3D DWT video transmission method in order to enhance error resilience. The proposed method adopts an error correction scheme using invertible codes to protect LL coefficients. We use half-rate Reed-Solomon (RS) codes as invertible codes. Additionally, to improve performance by using the effect of interleave, we adopt a new configuration scheme at the RS encoding stage. The evaluation by computer simulation compares the performance of the proposed method with that of other EC methods, and indicates the advantage of the proposed method.
  • Takahiro Ogawa, Akihiro Takahashi, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E99A 11 1971 - 1980 2016年11月 [査読有り][通常論文]
     
    In this paper, an insect classification method using scanning electron microphotographs is presented. Images taken by a scanning electron microscope (SEM) have a unique problem for classification in that visual features differ from each other by magnifications. Therefore, direct use of conventional methods results in inaccurate classification results. In order to successfully classify these images, the proposed method generates an optimal training dataset for constructing a classifier for each magnification. Then our method classifies images using the classifiers constructed by the optimal training dataset. In addition, several images are generally taken by an SEM with different magnifications from the same insect. Therefore, more accurate classification can be expected by integrating the results from the same insect based on Dempster-Shafer evidence theory. In this way, accurate insect classification can be realized by our method. At the end of this paper, we show experimental results to confirm the effectiveness of the proposed method.
  • Ren Togo, Kenta Ishihara, Takahiro Ogawa, Miki Haseyama
    COMPUTERS IN BIOLOGY AND MEDICINE 77 9 - 15 2016年10月 [査読有り][通常論文]
     
    Since technical knowledge and a high degree of experience are necessary for diagnosis of chronic gastritis, computer-aided diagnosis (CAD) systems that analyze gastric X-ray images are desirable in the field of medicine. Therefore, a new method that estimates salient regions related to chronic gastritis/non-gastritis for supporting diagnosis is presented in this paper. In order to estimate salient regions related to chronic gastritis/non-gastritis, the proposed method monitors the distance between a target image feature and Support Vector Machine (SVM)-based hyperplane for its classification. Furthermore, our method realizes removal of the influence of regions outside the stomach by using positional relationships between the stomach and other organs. Consequently, since the proposed method successfully estimates salient regions of gastric X-ray images for which chronic gastritis and non-gastritis are unknown, visual support for inexperienced clinicians becomes feasible. (C) 2016 Elsevier Ltd. All rights reserved.
  • 斉藤 直輝, 小川 貴弘, 浅水 仁, 長谷山 美紀
    電子情報通信学会論文誌D 情報・システム J99-D 9 848 - 860 2016年09月01日 [査読有り]
     
    本論文では,画像共有サービスに投稿される画像の観光名所に関するカテゴリー(観光カテゴリー)の分類手法を提案する.提案手法では,画像共有サービスにおいて画像とともに投稿される様々なデータの中で,位置座標が観光カテゴリーの分類に最も効果的であることに注目する.更に,このデータに基づいた分類において誤りが発生する場合を,分類結果から導出される確信度に基づいて判定する.誤分類と判定された場合,提案手法では,画像及びタグの特徴に基づいた分類結果を求め,それらを各々の分類精度に注目して統合することで,最終的な分類結果を高精度に推定可能とする.このとき,位置座標による分類結果に基づいて分類候補の観光カテゴリーを限定することで,多クラス分類問題におけるクラス数を減少させ,より正確な分類を可能とする.以上の提案手法によって,異なる種類のデータの分類精度が互いに大きく異なる場合に従来手法では困難であった高精度な最終分類結果の取得が可能となる.
  • Takahiro Ogawa, Yuta Igarashi, Miki Haseyama
    IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY 26 5 855 - 867 2016年05月 [査読有り][通常論文]
     
    In this paper, a novel spectral reflectance estimation method from image pairs including near-infrared (NIR) components based on nonnegative matrix factorization (NMF) is presented. The proposed method enables estimation of spectral reflectance from only two kinds of input images: 1) an image including both visible light components and NIR components and 2) an image including only NIR components. These two images can be easily obtained using a general digital camera without an infrared-cut filter and one with a visible light-cut filter, respectively. Since RGB values of these images are obtained according to spectral sensitivity of the image sensor, the spectrum power distribution of the light source and the spectral reflectance, we have to solve the inverse problem for estimating the spectral reflectance. Therefore, our method approximates spectral reflectance by a linear combination of several bases obtained by applying NMF to a known spectral reflectance data set. Then estimation of the optimal solution to the above problem becomes feasible based on this approximation. In the proposed method, NMF is used for obtaining the bases used in this approximation from a characteristic that the spectral reflectance is a nonnegative component. Furthermore, the proposed method realizes simple approximation of the spectrum power distribution of the light source with direct and scattered light components. Therefore, estimation of spectral reflectance becomes feasible using the spectrum power distribution of the light source in our method. In the last part of this paper, we show some simulation results to verify the performance of the proposed method. The effectiveness of the proposed method is also shown using the method for several applications that are closely related to spectral reflectance estimation. Although our method is based on a simple scheme, it is the first method that realizes the estimation of the spectral reflectance and the spectrum power distribution of the light source from the above two kinds of images taken by general digital cameras and provides breakthroughs to several fundamental applications.
  • Yasutaka Hatakeyama, Takahiro Ogawa, Hironori Ikeda, Miki Haseyama
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E99D 3 763 - 768 2016年03月 [査読有り][通常論文]
     
    In this paper, we propose a method to estimate the most resource-consuming disease from electronic claim data based on Labeled Latent Dirichlet Allocation (Labeled LDA). The proposed method models each electronic claim from its medical procedures as a mixture of resource-consuming diseases. Thus, the most resource-consuming disease can be automatically estimated by applying Labeled LDA to the electronic claim data. Although our method is composed of a simple scheme, this is the first trial for realizing estimation of the most resource-consuming disease.
  • Distress Classification of Road Structures via Multiple Classifier-based Bayesian Network
    K. Maeda, S. Takahashi, T. Ogawa, M. Haseyama
    International Workshop on Advanced Image Technology (IWAIT) 1 - 4 2016年 [査読有り][通常論文]
  • 高橋 翔, 長谷山 美紀
    映像情報メディア学会誌 70 9 722 - 724 一般社団法人 映像情報メディア学会 2016年 [査読無し][通常論文]
  • Yuma Sasaka, Takhiro Ogawa, Miki Haseyama
    MM'16: PROCEEDINGS OF THE 2016 ACM MULTIMEDIA CONFERENCE 387 - 391 2016年 [査読有り][通常論文]
     
    This paper presents a method which estimates interest level while watching videos, based on collaborative use of facial expression and biological signals such as electroencephalogram (EEG) and electrocardiogram (ECG). To the best of our knowledge, no studies have been carried out on the collaborative use of facial expression and biological signals for estimating interest level. Since training data, which is used for estimating interest level, is generally small and imbalanced, Variational Bayesian Mixture of Robust Canonical Correlation Analysis (VBMRCCA) is newly applied to facial expression and biological signals, which are obtained from users while they are watching the videos. Unlike some related works, VBMRCCA is used to obtain the posterior distributions which represent the latent correlation between facial expression and biological signals in our method. Then, the users' interest level can be estimated by comparing the posterior distributions of the positive class data with those of the negative. Consequently, successful interest level estimation, via collaborative use of facial expression and biological signals, becomes feasible.
  • Miki Haseyama
    2016 IEEE 46TH INTERNATIONAL SYMPOSIUM ON MULTIPLE-VALUED LOGIC (ISMVL 2016) 56 - 59 2016年 [査読有り][通常論文]
     
    This paper presents "Associative Image Search", a new image retrieval scheme and its specific engineering application, which enable value creation from big data. The main aim of the associative image search is the realization of information retrieval that enhances the potential for serendipities by providing users with new awareness. Thus, this paper presents the details of research for realizing associative image retrieval. Furthermore, as an example of its applications, a Biomimetics image retrieval platform is also introduced in this paper. By associatively and collaboratively using data accumulated in the fields of biology and material science, the Biomimetics image retrieval platform enables acceleration of their knowledge sharing in different research fields. From retrieval results actually obtained from this platform, there is discussion of the potential of serendipities such as new knowledge emergence
  • Shigenobu Minami, Miki Haseyama, Hirokazu Tanaka, Toru Takahashi, Tatsuya Komori
    2016 10TH INTERNATIONAL SYMPOSIUM ON MEDICAL INFORMATION AND COMMUNICATION TECHNOLOGY (ISMICT) 1 - 5 2016年 [査読有り][通常論文]
     
    This paper proposes a virtual Vital Signs Sensor (VSS) for visualization of half illness (so called "Mibyou") and sudden illness. Since both half and sudden illnesses, which are located in between wellness and illness, are categorized in healthy(H) to illness(I) transition(T) status. So, we name this status as HIT. Since HIT happens in an ordinary life, VSS for HIT visualization should work for 24 hours continuously and unconsciously. The proposed virtual VSS is named as "MIRUWS" which means (M)multi-sensing, (I)integrated, (R)reliable, and (U)unconscious (V)virtual (V)vital (S) signs sensor. All these key words are meaningful and required for professional HIT (Pro-HIT) visualization which has real demand rather than purely personal one. MIRUWS is a virtual VSS in a cyber space targeting this Pro-HIT visualization, and is a projection of actual VSSs in a physical space. There are wide varieties of physical sensors such as patch, touch, proximity, and remote types. To handle these wide varieties of VSSs efficiently and consistently, MIRUWS plays as a common and unique virtual VSS in a cyber space. Unlikely to medical devices which need very high reliability rather than flexibility, MIRUWS is needed to satisfy both reliability and flexibility at the same time to cover wide range of Pro-HIT use-cases. To realize this, MIRUWS visualizes physical VSS's specifications throughout new API, which are dynamically determined by connected and released physical VSSs in a BAN. To certify MIRUWS performance objectively, conformance testing is desired. This paper also presents MIRUWS test environment example, which measures basic vital signs performances, heart rate variation (HRV) and pulse wave transition time (PWTT) using two target physical VSSs at once.
  • Yasutaka Hatakeyama, Takahiro Ogawa, Hirokazu Tanaka, Miki Haseyama
    PROCEEDINGS OF 2016 INTERNATIONAL SYMPOSIUM ON INFORMATION THEORY AND ITS APPLICATIONS (ISITA 2016) 126 - 130 2016年 [査読有り][通常論文]
     
    In this paper, we propose a mortality prediction method based on decision-level fusion (DLF) of existing intensive unit care (ICU) scoring systems. First, the proposed method obtains severity scores from the existing ICU scoring systems. Furthermore, we construct classifiers that categorize patients into survivors or non-survivors. Next, patient feature vectors are extracted based on the mortality rates that are estimated from the obtained severity scores by using a non-linear least squares method to obtain other types of classification results. In order to obtain the final severity score for each patient, we integrate the obtained multiple classification results based on DLF that can estimate the final severity scores. Finally, we performed the proposed method to actual ICU patient data and verified the effectiveness of the proposed method. Thus, the proposed method can realize accurate mortality prediction without any additional work by using the existing ICU scoring systems.
  • Soh Yoshida, Takahiro Ogawa, Miki Haseyaina
    2016 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA & EXPO (ICME) 1 - 6 2016年 [査読有り][通常論文]
     
    This paper proposes a graph-based Web video search reranking method through consistency analysis using spectral clustering. Graph-based reranking is effective for refining text-based video search results. Generally, this approach constructs a graph where the vertices are videos and the edges reflect their pairwise similarities. A lot of reranking methods are built based on a scheme which regularizes the smoothness of pairwise ranking scores between adjacent nodes. However, since the overall consistency is measured by aggregating the individual consistency over each pair, errors in score estimation increase when noisy samples are included within their neighbors. To deal with the noisy samples, different from the conventional methods, the proposed method models the global consistency of the graph structure. Specifically, in order to detect this consistency, the propose method introduces a spectral clustering algorithm which can detect video groups, whose videos have strong semantic correlation, on the graph. Furthermore, a new regularization term, which smooths ranking scores within the same group, is introduced to the reranking framework. Since score regularization is performed by both local and global aspect simultaneously, the accurate score estimation becomes feasible. Experimental results obtained by applying the proposed method to a real-world video collection show its effectiveness.
  • Daichi Takehara, Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    2016 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 479 - 483 2016年 [査読有り][通常論文]
     
    This paper presents a method for hierarchical content group detection from different social media platforms, which can reveal hierarchical structure of content groups. In this paper, content groups are defined as sets of contents with similar topics. Based on the revealed hierarchical structure, our method enables users to efficiently find the desired contents from large amount of contents placed in diversified social media platforms. The main contributions of this paper are twofold. First, effective latent features for comparing the contents placed in different social media platforms can be extracted by the combination use of the correlation between features obtained from different social media platform and the Web link structure. Second, the hierarchical structure of the content groups, which captures their various abstraction levels, can be revealed by hierarchically detecting their content groups. Experimental results on the real-world dataset containing YouTube videos and Wikipedia articles show the effectiveness of our method.
  • Keisuke Maeda, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    2016 IEEE INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP) 589 - 593 2016年 [査読有り][通常論文]
     
    A distress classification method of road structures via decision level fusion is presented in this paper. In order to classify various kinds of distresses accurately, the proposed method integrates multiple classification results with considering their performance, and this is the biggest contribution of this paper. By introducing this approach, it becomes feasible to adaptively integrate the multiple classification results based on the accuracy of each classifier for a target sample. Consequently, realization of the accurate distress classification can be expected. Experimental results show that our method outperforms existing methods.
  • Zaixing He, Takahiro Ogawa, Sho Takahashi, Miki Haseyama, Xinyue Zhao
    NEUROCOMPUTING 173 1898 - 1907 2016年01月 [査読有り][通常論文]
     
    This paper presents a new method for improving video coding efficiency based on a sparse contractive mapping approach. The proposed method introduces a new sparse contractive mapping approach to replace the traditional intra prediction in the video coding standards such as H.264/AVC. Specifically, the intra- and its following inter-frame are respectively approximated by the sparse representation, satisfying contractive mapping. Then these two frames can be reconstructed from an arbitraryinitial image by utilizing a few representation coefficients. With this advantage, the proposed method reduces the total amount of bits by removing MBs in the target I frame, whose approximation performance is higher than the others in the encoder. Furthermore, by transmitting the representation coefficients of the removed MBs, these MBs can be accurately reconstructed in the decoder. Since the reconstruction performance is better than that of the conventional approach, the proposed method can remove more MBs from the target video sequences, and reduction of total amount of bits can be feasible. Therefore, the proposed method realizes the improvement of the video coding efficiency. Some experimental results are shown to verify the superior performance of the proposed method to that of H.264/AVC. The results also demonstrate that the bit-saving performance of the proposed method is comparable to that of H.2651 HEVC. (C) 2015 Elsevier B.V. All rights reserved.
  • Ryosuke Sawata, Takahiro Ogawa, Miki Haseyama
    2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING PROCEEDINGS 759 - 763 2016年 [査読有り][通常論文]
     
    This paper presents a novel method of favorite music classification using EEG-based optimal audio features. To select audio features related to user's music preference, our method utilizes a relationship between EEG features obtained from the user's EEG signals during listening to music and their corresponding audio features since EEG signals of human reflect his/her music preference. Specifically, cross-loadings, whose components denote the degree of the relationship, are calculated based on Kernel Discriminative Locality Preserving Canonical Correlation Analysis (KDLPCCA) which is newly derived in the proposed method. In contrast with standard CCA, KDLPCCA can consider (1) non-linear correlation, (2) class information and (3) local structures of input EEG and audio features, simultaneously. Therefore, KDLPCCA-based cross-loadings can reflect best correlation between the user's EEG and corresponding audio signals. Then an optimal set of audio features related to his/her music preference can be obtained by employing the cross-loadings as novel criteria for feature selection. Consequently, our method realizes favorite music classification successfully by using the EEG-based optimal audio features.
  • Alameen Najjar, Takahiro Ogawa, Miki Haseyama
    International Journal of Multimedia Information Retrieval 4 4 247 - 259 2015年12月01日 [査読有り][通常論文]
     
    In this paper, we propose a novel feature-space local pooling method for the commonly adopted architecture of image classification. While existingmethods partition the feature space based on visual appearance to obtain pooling bins, learning more accurate space partitioning that takes semantics into account boosts performance even for a smaller number of bins. To this end, we propose partitioning the feature space over clusters of visual prototypes common to semantically similar images (i.e., images belonging to the same category). The clusters are obtained by Bregman co-clustering applied offline on a subset of training data. Therefore, being aware of the semantic context of the input image, our features have higher discriminative power than do those pooled from appearance-based partitioning. Testing on four datasets (Caltech-101, Caltech-256, 15 Scenes, and 17 Flowers) belonging to three different classification tasks showed that the proposed method outperforms methods in previous works on local pooling in he feature space for less feature dimensionality. Moreover, when implemented within a spatial pyramid, our method achieves comparable results on three of the datasets used.
  • Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E98A 8 1709 - 1717 2015年08月 [査読有り][通常論文]
     
    Perceptually optimized missing texture reconstruction via neighboring embedding (NE) is presented in this paper. The proposed method adopts the structural similarity (SSIM) index as a measure for representing texture reconstruction performance of missing areas. This provides a solution to the problem of previously reported methods not being able to perform perceptually optimized reconstruction. Furthermore, in the proposed method, a new scheme for selection of the known nearest neighbor patches for reconstruction of target patches including missing areas is introduced. Specifically, by monitoring the SSIM index observed by the proposed NE-based reconstruction algorithm, selection of known patches optimal for the reconstruction becomes feasible even if target patches include missing pixels. The above novel approaches enable successful reconstruction of missing areas. Experimental results show improvement of the proposed method over previously reported methods.
  • 朴 君, 小川 貴弘, 長谷山 美紀
    電子情報通信学会論文誌 D, 情報・システム 98 5 823 - 834 電子情報通信学会 2015年05月01日 [査読無し][通常論文]
     
    本論文では,走査型電子顕微鏡(Scanning Electron Microscop,SEM)で撮像された画像を用いた生物の分類法を提案する.提案手法では,生物学者が構築した分類体系に注目し,各ノードにその下位のノードへの分類を行う分類器を割り当てることで,決定木を構築する.これにより,構築された決定木を用いて生物の分類が可能となる.このように,生物の分類に有用な分類体系の構造を導入することで,画像特徴のみに注目する生物の分類法と比較して,高精度な分類が期待できる.また,提案手法では,更なる精度向上のため,以下の二つの処理も導入する.まず,分類体系において,画像特徴が類似する異なるノードに注目した決定木の変更を行い,誤分類を抑制する.次に,同種の生物の異なる撮像倍率の画像に対し,モーフィングを施すことで学習データの充足を行う.以上によって,提案手法では,SEMで撮像された生物の高精度な分類が可能となる.本論文の最後では,提案手法の有効性を確認するための実験結果を示す.
  • 長谷山美紀, 長谷山美紀
    現代化学 529 31 - 34 2015年04月01日 [査読無し][通常論文]
  • 長谷山美紀
    タクサ 38 22 - 25 日本動物分類学会 2015年02月28日 [査読無し][通常論文]
     
    Biomimetics is a new research area that creates innovation through the collaboration of different existing research fields. Since biomimetics brings together expert researchers with deep knowledge of various research fields, there is a need to facilitate the mutual exchange of that knowledge in order to create new research areas. However, this exchange is difficult due to several reasons, e.g., differences in technical terms between different fields. In order to overcome this problem, we started the development of a new data retrieval platform based on the theory of associative image retrieval. A biological database contains many image data, and by taking advantage of these image data, we are able to overcome limitations of text-only information retrieval. If the development of such a retrieval platform that does not depend on text data can be realized, individual biological databases of various species (insects, fish, etc.) will be integrated. This will allow not only the use for the study of the various species by researchers in different biological fields, but also access for a wide range of researchers in fields ranging from materials science, mechanical engineering and manufacturing.
  • Maeda Keisuke, Ogawa Takahiro, Haseyama Miki
    Information and Media Technologies 10 3 473 - 477 Information and Media Technologies Editorial Board 2015年 
    This paper presents automatic Martian dust storm detection from multiple wavelength data based on decision level fusion. In our proposed method, visual features are first extracted from multiple wavelength data, and optimal features are selected for Martian dust storm detection based on the minimal-Redundancy-Maximal-Relevance algorithm. Second, the selected visual features are used to train the Support Vector Machine classifiers that are constructed on each data. Furthermore, as a main contribution of this paper, the proposed method integrates the multiple detection results obtained from heterogeneous data based on decision level fusion, while considering each classifiers detection performance to obtain accurate final detection results. Consequently, the proposed method realizes successful Martian dust storm detection.
  • 伊藤 晋, 鹿喰 義明, 長谷山 美紀, 須川 成利, 中須 英輔, 中西 洋一郎, 八木 伸行
    映像情報メディア学会誌 69 9 641 - 644 一般社団法人 映像情報メディア学会 2015年
  • Takuya Kawakami, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP) 957 - 961 2015年 
    This paper presents a novel image classification method based on integration of EEG and visual features. In the proposed method, we obtain classification results by separately using EEG and visual features. Furthermore, we merge the above classification results based on a kernelized version of Supervised learning from multiple experts and obtain the final classification result. In order to generate feature vectors used for the final image classification, we apply Multiset supervised locality preserving canonical correlation analysis (MSLPCCA), which is newly derived in the proposed method, to EEG and visual features. Our method realizes successful multimodal classification of images by the object categories that they contain based on MSLPCCA-based feature integration.
  • Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP) 1628 - 1632 2015年 
    A missing intensity restoration method via adaptive selection of perceptually optimized subspaces is presented in this paper. In order to realize adaptive and perceptually optimized restoration, the proposed method generates several subspaces of known textures optimized in terms of the structural similarity (SSIM) index. Furthermore, the SSIM-based missing intensity restoration is performed by a projection onto convex sets (POCS) algorithm whose constraints are the obtained subspace and known intensities within the target image. In this approach, a non-convex maximization problem for calculating the projection onto the subspace is reformulated as a quasi-convex problem, and the restoration of the missing intensities becomes feasible. Furthermore, the selection of the optimal subspace is realized by monitoring the SSIM index converged in the POCS algorithm, and the adaptive restoration becomes feasible. Experimental results show that our method outperforms existing methods.
  • Soh Yoshida, Takahiro Ogawa, Miki Haseyama
    MM'15: PROCEEDINGS OF THE 2015 ACM MULTIMEDIA CONFERENCE 871 - 874 2015年 [査読有り][通常論文]
     
    Graph-based reranking is effective for refining text-based video search results by making use of the social network structure. Unlike previous works which only focus on an individual video graph, the proposed method leverages the mutual reinforcement of heterogeneous graphs, such as videos and their associated tags obtained by social influence mining. Specifically, propagation of information relevancy across different modalities is performed by exchanging information of inter- and intra-relations among heterogeneous graphs. The proposed method then formulates the video search reranking as an optimization problem from the perspective of Bayesian framework. Furthermore, in order to model the consistency over the modified video graph topology, a local learning regularization with a social community detection scheme is introduced to the framework. Since videos within the same social community have strong semantic correlation, the consistency score estimation becomes feasible. Experimental results obtained by applying the proposed method to a real-world video collection show its effectiveness.
  • Kenta Ishihara, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 4728 - 4732 2015年 [査読有り][通常論文]
     
    This paper presents a detection method of Helicobacter pylori (H. pylori) infection from multiple gastric X-ray images based on combination use of Support Vector Machine (SVM) and Multiple Kernel Learning (MKL). The proposed method firstly computes some types of visual features from multiple gastric X-ray images taken in several specific directions in order to represent the characteristics of X-ray images with H. pylori infection. Second, based on the minimal-Redundancy-Maximal-Relevance algorithm, we select the effective features for H. pylori infection detection from each type of visual feature and all visual features. The selected features are used to train the SVM classifier and the MKL classifier for each direction of gastric X-ray images. Finally, the proposed method integrates multiple detection results based on a late fusion scheme considering the detection performance of each classifier. Experimental results obtained by applying the proposed method to real X-ray images prove its effectiveness.
  • Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 2246 - 2250 2015年 [査読有り][通常論文]
     
    This paper presents automatic detection of Martian dust storms from heterogeneous data (raw data, reflectance data and background subtraction data of the reflectance data) based on decision level fusion. Specifically, the proposed method first extracts image features from these data and selects optimal features for dust storm detection based on the minimal-Redundancy-Maximal-Relevance algorithm. Second, the selected image features are used to train the Support Vector Machine classifier that is constructed on each data. Furthermore, as a main contribution of this paper, the proposed method combines the multiple detection results obtained from the heterogeneous data based on decision level fusion with considering each classifier's detection performance to obtain accurate final detection results. Consequently, the proposed method realizes automatic and accurate detection of Martian dust storms.
  • Ryosuke Harakawa, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 1021 - 1025 2015年 [査読有り][通常論文]
     
    In this paper, we present a method for extraction of hierarchical structure of Web communities including salient keyword estimation for Web video retrieval. The following two contributions of the proposed method enable retrieval of the desired Web videos even if users cannot input suitable queries that identify the desired contents. First, our method realizes the extraction of hierarchical structure of Web communities, i.e., Web video sets with similar topics by using heterogeneous features of Web videos and link relationships between Web videos obtained via metadata "related videos". Second, we can estimate salient keywords to identify the contents of each obtained Web community at a glance based on text attached to Web videos such as title, the heterogeneous features of Web videos and the link relationships between Web videos. Experimental results on actual Web videos verify that our method can realize accurate retrieval of the desired Web videos via the hierarchical structure of Web communities with their salient keywords.
  • Ryosuke Sawata, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP) 818 - 822 2015年 [査読有り][通常論文]
     
    This paper presents a human-centered method for favorite music estimation using EEG-based audio features. In order to estimate user's favorite musical pieces, our method utilizes his/her EEG signals for calculating new audio features suitable for representing the user's music preference. Specifically, projection, which transforms original audio features into the features reflecting the preference, is calculated by applying kernel Canonical Correlation Analysis (CCA) to the audio features and the EEG features which are extracted from the user's EEG signals during listening to favorite musical pieces. By using the obtained projection, the new EEG-based audio features can be derived since this projection provides the best correlation between the user's EEG signals and their corresponding audio signals. Thus, successful estimation of user's favorite musical pieces via a Support Vector Machine (SVM) classifier using the new audio features becomes feasible. Since our method does not need acquisition of EEG signals for obtaining new audio features from new musical pieces after calculating the projection, this indicates the high practicability of our method. Experimental results show that our method outperforms methods using original audio features or EEG features.
  • Yuma Tanaka, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON DIGITAL SIGNAL PROCESSING (DSP) 618 - 622 2015年 [査読有り][通常論文]
     
    Sparse representation is an idea to approximate a target signal by a linear combination of a small number of sample signals, and it is utilized in various research fields. In this paper, we evaluate the approximation error of signals by the mean square error of power spectrograms (P-MSE). Specifically, we propose a P-MSE minimization algorithm for sparse representation. Our method minimizes the P-MSE by an iterative approach. Specifically, in each iteration, we find the optimal sample signal and optimize the corresponding coefficients by a gradient-based method. In this approach, our method can utilize the result of the previous iteration for fast and stable convergence in the optimization of the coefficients. Based on this algorithm, the sparse representation which minimizes the P-MSE becomes feasible. Experimental results show the effectiveness of our method in terms of the P-MSE minimization.
  • Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP) 1628 - 1632 2015年 [査読有り][通常論文]
     
    A missing intensity restoration method via adaptive selection of perceptually optimized subspaces is presented in this paper. In order to realize adaptive and perceptually optimized restoration, the proposed method generates several subspaces of known textures optimized in terms of the structural similarity (SSIM) index. Furthermore, the SSIM-based missing intensity restoration is performed by a projection onto convex sets (POCS) algorithm whose constraints are the obtained subspace and known intensities within the target image. In this approach, a non-convex maximization problem for calculating the projection onto the subspace is reformulated as a quasi-convex problem, and the restoration of the missing intensities becomes feasible. Furthermore, the selection of the optimal subspace is realized by monitoring the SSIM index converged in the POCS algorithm, and the adaptive restoration becomes feasible. Experimental results show that our method outperforms existing methods.
  • Takuya Kawakami, Takahiro Ogawa, Miki Haseyama
    2015 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING (ICASSP) 957 - 961 2015年 [査読有り][通常論文]
     
    This paper presents a novel image classification method based on integration of EEG and visual features. In the proposed method, we obtain classification results by separately using EEG and visual features. Furthermore, we merge the above classification results based on a kernelized version of Supervised learning from multiple experts and obtain the final classification result. In order to generate feature vectors used for the final image classification, we apply Multiset supervised locality preserving canonical correlation analysis (MSLPCCA), which is newly derived in the proposed method, to EEG and visual features. Our method realizes successful multimodal classification of images by the object categories that they contain based on MSLPCCA-based feature integration.
  • Zaixing He, Xinyue Zhao, Shuyou Zhang, Takahiro Ogawa, Miki Haseyama
    NEUROCOMPUTING 145 160 - 173 2014年12月 [査読有り][通常論文]
     
    In compressed sensing and sparse representation-based pattern recognition, random projection with a dense random transform matrix is widely used for information extraction. However, the complicated structure makes dense random matrices computationally expensive and difficult in hardware implementation. This paper considers the simplification of the random projection method. First, we propose a simple random method, random combination, for information extraction to address the issues of dense random methods. The theoretical analysis and the experimental results show that it can provide comparable performance to those of dense random methods. Second, we analyze another simple random method, random choosing, and give its applicable occasions. The comparative analysis and the experimental results show that it works well in dense cases but worse in sparse cases. Third, we propose a practical method for measuring the effectiveness of the feature transform matrix in sparse representation-based pattern recognition. A matrix satisfying the Representation Residual Restricted Isometry Property can provide good recognition results. (C) 2014 Elsevier B.V. All rights reserved.
  • Takahiro Ogawa, Mild Haseyama
    SIGNAL PROCESSING 103 69 - 83 2014年10月 [査読有り][通常論文]
     
    This paper presents an adaptive missing texture reconstruction method based on kernel cross-modal factor analysis (KCFA) with a new evaluation criterion. The proposed method estimates the latent relationship between two areas, which correspond to a missing area and its neighboring area, respectively, from known parts within the target image and realizes reconstruction of the missing textures. In order to obtain this relationship, KCFA is applied to each cluster containing similar known textures, and the optimal cluster is used for reconstructing each target missing area. Specifically, a new criterion obtained by monitoring errors caused in the latent space enables selection of the optimal cluster. Then each missing texture is adaptively estimated by the optimal cluster's latent relationship, which enables accurate reconstruction of similar textures. In our method, the above criterion is also used for estimating patch priority, which determines the reconstruction order of missing areas within the target image. Since patches, whose textures are accurately modeled by our KCFA-based method, can be selected by using the new criterion, it becomes feasible to perform successful reconstruction of the missing areas. Experimental results show improvements of our KCFA-based reconstruction method over previously reported methods. (C) 2013 Elsevier B.V. All rights reserved.
  • Kazuya Iwai, Sho Takahashi, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E97D 7 1885 - 1892 2014年07月 [査読有り][通常論文]
     
    In this paper, an accurate player tracking method in far-view soccer videos based on a composite energy function is presented. In far-view soccer videos, player tracking methods that perform processing based only on visual features cannot accurately track players since each player region becomes small, and video coding causes color bleeding between player regions and the soccer field. In order to solve this problem, the proposed method performs player tracking on the basis of the following three elements. First, we utilize visual features based on uniform colors and player shapes. Second, since soccer players play in such a way as to maintain a formation, which is a positional pattern of players, we use this characteristic for player tracking. Third, since the movement direction of each player tends to change smoothly in successive frames of soccer videos, we also focus on this characteristic. Then we adopt three energies: a potential energy based on visual features, an elastic energy based on formations and a movement direction-based energy. Finally, we define a composite energy function that consists of the above three energies and track players by minimizing this energy function. Consequently, the proposed method achieves accurate player tracking in far-view soccer videos.
  • Takahiro Ogawa, Shintaro Takahashi, Sho Takahashi, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2014 115 - 115 2014年07月 [査読有り][通常論文]
     
    This paper presents a new method for estimating error degrees in numerical weather prediction via multiple kernel discriminant analysis (MKDA)-based ordinal regression. The proposed method tries to estimate how large prediction errors will occur in each area from known observed data. Therefore, ordinal regression based on KDA is used for estimating the prediction error degrees. Furthermore, the following points are introduced into the proposed approach. Since several meteorological elements are related to each other based on atmospheric movements, the proposed method merges such heterogeneous features in the target and neighboring areas based on a multiple kernel algorithm. This approach is based on the characteristics of actual meteorological data. Then, MKDA-based ordinal regression for estimating the prediction error degree of a target meteorological element in each area becomes feasible. Since the amount of training data obtained from known observed data becomes very large in the training stage of MKDA, the proposed method performs simple sampling of those training data to reduce the number of samples. We effectively use the remaining training data for determining the parameters of MKDA to realize successful estimation of the prediction error degree.
  • 吉田壮, 小川貴弘, 長谷山美紀
    電子情報通信学会論文誌 D(Web) J97-D 7 WEB ONLY 1177-1188  2014年07月01日 [査読無し][通常論文]
  • 長谷山美紀
    化学工学 78 6 394 - 397 2014年06月05日 [査読無し][通常論文]
  • Marie Katsurai, Takahiro Ogawa, Miki Haseyama
    IEEE TRANSACTIONS ON MULTIMEDIA 16 4 1059 - 1074 2014年06月 [査読有り][通常論文]
     
    This paper presents a cross-modal approach for extracting semantic relationships between concepts using tagged images. In the proposed method, we first project both text and visual features of the tagged images to a latent space using canonical correlation analysis (CCA). Then, under the probabilistic interpretation of CCA, we calculate a representative distribution of the latent variables for each concept. Based on the representative distributions of the concepts, we derive two types of measures: the semantic relatedness between the concepts and the abstraction level of each concept. Because these measures are derived from a cross-modal scheme that enables the collaborative use of both text and visual features, the semantic relationships can successfully reflect semantic and visual contexts. Experiments conducted on tagged images collected from Flickr show that our measures are more coherent to human cognition than the conventional measures that use either text or visual features, or the WordNet-based measures. In particular, a new measure of semantic relatedness, which satisfies the triangle inequality, obtains the best results among different distance measures in our framework. The applicability of our measures to multimedia-related tasks such as concept clustering, image annotation and tag recommendation is also shown in the experiments.
  • 長谷山 美紀
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 113 493 73 - 77 一般社団法人電子情報通信学会 2014年03月06日 [査読無し][通常論文]
     
    本文では,画像や映像などの非構造化データを有機的に連携し,互いの類似性を効果的に抽出し提示することで,検索者に気づきを与え,発想を支援する検索システムについて紹介する.このような検索システムの実現のためには,マルチモーダル処理が有効である.マルチモーダル処理は,音声信号や楽曲信号などの音響情報,画像・映像情報や行動履歴等,複数の異なるメディアから得られるデータを効率的に利用することで,単一の信号を用いるだけでは解決が困難であった問題に新たな解法を与える.本文では,マルチモーダル処理を用いた映像検索について紹介し,望むコンテンツを効率的に取得するために発想を支援する検索システムの実現の試みについて説明する.
  • SONG Yan, 小川貴弘, 長谷山美紀
    電子情報通信学会論文誌 D J97-D 3 560 - 573 2014年03月 [査読無し][通常論文]
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会論文誌. D, 情報・システム 97 3 560 - 573 一般社団法人電子情報通信学会 2014年03月01日 [査読無し][通常論文]
     
    以前,我々は,映像の類似したショットが隣接せずに出現する構造(映像の構造)に注目したシーン分割手法を提案した.しかしながら,映像の構造に注目したシーン分割手法の共通の問題として,映像の構造を取得する際に用いられるシーンの最長時間幅の設定が困難であるという点が存在した.そこで,本論文では,その改良手法として映像の構造に注目したMCMC法に基づくシーン分割手法を提案する.提案手法では,シーンの最長時間幅を変化させて映像の構造に基づき取得された全ての境界をシーン境界候補とし,それらの中からMCMC法に基づいて最適なシーン境界を推定する.これにより,従来の手法を適用する際に設定が困難であったシーンの最長時間幅を一意に決定することなく,MCMC法により最適なシーン境界を求めることが可能となる.本論文の最後では,実際にテレビで放送された映像に対して提案手法を適用し,その有効性を確認する.
  • Ai Haojun, Miki Haseyama, Wang Kang
    INFORMATION SCIENCE AND MANAGEMENT ENGINEERING, VOLS 1-3 46 1413 - 1420 2014年 
    We focus the attention on the extraction of Mel-frequency cepstral coefficients (MFCC) features from MDCT spectrum in AAC domain for audio content analysis. In particular, a MFCC extraction method is proposed, which is adaptive to the window switch in AAC encoding process, and independent of the audio sampling frequency. We discuss the fusion method of MFCC features from different window type in order to keep the balance of the frequency and temporal resolution. The audio scene segmentation and audio classification experimental results show that such approach based on compression domain can approach the performance of the system based on PCM audio, and the CPU overload decreased dramatically. It is meaningful to the real-time analysis of audio content.
  • Kenta Ishihara, Takahiro Ogawa, Miki Haseyama
    2014 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 2769 - 2773 2014年 [査読有り][通常論文]
     
    This paper presents an automatic detection method of Helicobacter pylori (H. pylori) infection from multiple gastric X-ray images. As the biggest contribution of this paper, we combine multiple detection results based on a decision level fusion. In order to obtain multiple detection results, the proposed method first focuses on characteristics of gastric X-ray images with H. pylori infection and computes several visual features from multiple X-ray images taken in several specific directions. Second, we select effective features for H. pylori infection detection from all features based on the minimal-Redundancy-Maximal-Relevance algorithm, and the selected features are used to train the Support Vector Machine (SVM) classifiers that are constructed for each direction of gastric radiography. Therefore, the detection of H. pylori infection becomes feasible, and we can obtain multiple detection results from the SVM classifiers. Furthermore, we combine multiple detection results based on the decision level fusion scheme considering the detection performance of each SVM classifier. Experimental results obtained by applying the proposed method to real X-ray images prove the effectiveness of the proposed method.
  • Takahiro Ogawa, Miki Haseyama
    2014 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 1837 - 1841 2014年 [査読有り][通常論文]
     
    This paper presents an inpainting method based on 2D semi-supervised canonical correlation analysis (2D semi-CCA) including new priority estimation. The proposed method estimates relationship, i.e., the optimal correlation, between missing area and its neighboring area from known parts within the target image by using 2D CCA. In this approach, we newly introduce a semi-supervised scheme into the 2D CCA for deriving the 2D semi-CCA which corresponds to a hybrid version of 2D CCA and 2D principle component analysis (2D PCA). This enables successful relationship estimation even if sufficient number of training pairs cannot be provided. Then, by using the obtained relationship, accurate estimation of the missing intensities can be realized. Furthermore, in the proposed method, errors caused in the new variate space obtained by the 2D semi-CCA are effectively used for deriving patch priority determining inpainting order of missing areas. Experimental results show our inpainting method can outperform previously reported methods.
  • Takuya Kawakami, Takahiro Ogawa, Miki Haseyama
    2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 5874 - 5878 2014年 [査読有り][通常論文]
     
    This paper presents a novel image classification based on decision-level fusion of EEG and visual features. In the proposed method, we extract the EEG features from EEG signals recorded while users stare at images, and the visual features are computed from these images. Then the classification of images is performed based on Support Vector Machine (SVM) by separately using the EEG and visual features. Furthermore, we merge the above classification results based on Supervised Learning from Multiple Experts to obtain the final classification result. This method focuses on the classification accuracy calculated from each classification result. Therefore, although classification accuracy based on EEG and visual features are different from each other, our method realizes effective integration of these classification results. In addition, we newly derive a kernelized version of the method in order to realize more accurate integration of the classification results. Consequently, our method realizes successful multimodal classification of images by the object categories that they contain.
  • Takahiro Ogawa, Miki Haseyama
    2014 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 175 - 179 2014年 [査読有り][通常論文]
     
    A missing intensity restoration method via perceptually optimized subspace projection based on entropy component analysis (ECA) is presented in this paper. The proposed method calculates the optimal subspace of known patches within a target image based on structural similarity (SSIM) index, and the optimal bases are determined based on ECA. Then missing intensity estimation whose results maximize the SSIM index is realized by using a projection onto convex sets (POCS) algorithm whose constraints are the obtained subspace and known intensities within the target image. In this approach, a non-convex maximization problem for calculating the projection onto the subspace is reformulated as a quasi-convex problem, and the restoration of the missing intensities becomes feasible. Experimental results show that our restoration method outperforms previously reported methods.
  • Takahiro Ogawa, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2013 179 - 179 2013年12月 [査読有り][通常論文]
     
    This paper presents an image inpainting method based on sparse representations optimized with respect to a perceptual metric. In the proposed method, the structural similarity (SSIM) index is utilized as a criterion to optimize the representation performance of image data. Specifically, the proposed method enables the formulation of two important procedures in the sparse representation problem, 'estimation of sparse representation coefficients' and 'update of the dictionary', based on the SSIM index. Then, using the generated dictionary, approximation of target patches including missing areas via the SSIM-based sparse representation becomes feasible. Consequently, image inpainting for which procedures are totally derived from the SSIM index is realized. Experimental results show that the proposed method enables successful inpainting of missing areas.
  • Marie Katsurai, Miki Haseyama
    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 3617 - 3621 2013年10月18日 [査読有り][通常論文]
     
    This paper presents a method for exploring and visualizing tag relationships in photo sharing websites based on distributional representations of tags. First, we find a representative distribution of a tag, which is summarized by the mean and covariance, using features of tagged photos. This distributional representation can jointly consider the semantic meaning of tags and their abstraction levels. Then, based on the representative distributions, we derive two kinds of semantic measures on tag relationships. The extracted information is visualized in a graphical network to facilitate the understanding of tag usage. Experiments conducted using tagged photos collected from Flickr show that our tag network is more coherent to human cognition than other networks constructed by conventional methods. © 2013 IEEE.
  • Takuya Kawakami, Takahiro Ogawa, Miki Haseyama
    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 1197 - 1201 2013年10月18日 [査読有り][通常論文]
     
    This paper presents a novel estimation method of segments including vocals in music pieces based on collaborative use of features extracted from electroencephalogram (EEG) signals recorded while users are listening to music pieces and features extracted from these audio signals. From extracted EEG features and audio features, we estimate segments including vocals based on Support Vector Machine (SVM) by separately utilizing these two features. Furthermore, the final classification results are obtained by integrating these estimation results based on supervised learning from multiple experts. Therefore, our method realizes multimodal estimation of segments including vocals in music pieces. Experimental results show the improvement of our method over the methods utilizing only EEG or audio features. © 2013 IEEE.
  • 間部克裕, 長谷山美紀, 小川貴弘, 吉澤和哉, 大泉晴史, 中島滋美, 加藤元嗣
    日本消化器がん検診学会雑誌 51 3 96  2013年05月15日 [査読無し][通常論文]
  • 高橋 翔, 林 原局, 長谷山 美紀
    電子情報通信学会論文誌. D, 情報・システム 96 3 695 - 703 一般社団法人電子情報通信学会 2013年03月 [査読有り][通常論文]
     
    本論文では,サッカー映像からレベルセット法を用いて選手を追跡する手法を提案する.提案手法では,サッカー映像を各フレームが時間軸方向に重なるように連結した三次元データとして扱う.このデータに対して,レベルセット法を適用することで抽出される三次元の領域は,複数フレームに渡って存在する同一選手を包含する.提案手法では,この三次元の領域をサッカー映像から抽出することで,選手の追跡を実現する.したがって,提案手法では,フレームごとに選手を検出する必要がないため,フレームを個別に処理する従来手法における選手の検出と追跡それぞれの誤差によって精度が低下する問題を解決可能である.また,我々は,ユニフォームの色成分をサッカー映像から色コリログラムを用いて推定し,これをレベルセット法を用いて追跡する選手の特徴として導入する.これにより,提案手法では,追跡対象の特徴を事前に与えることなく,選手の頑健な追跡が可能となる.本文の最後では,実際にテレビで放送されたサッカー映像に対する実験により,提案手法の有効性を確認する.
  • Takahiro Ogawa, Miki Haseyama
    IEEE TRANSACTIONS ON IMAGE PROCESSING 22 3 1252 - 1257 2013年03月 [査読有り][通常論文]
     
    A missing texture reconstruction method based on an error reduction (ER) algorithm, including a novel estimation scheme of Fourier transform magnitudes is presented in this brief. In our method, Fourier transform magnitude is estimated for a target patch including missing areas, and the missing intensities are estimated by retrieving its phase based on the ER algorithm. Specifically, by monitoring errors converged in the ER algorithm, known patches whose Fourier transform magnitudes are similar to that of the target patch are selected from the target image. In the second approach, the Fourier transform magnitude of the target patch is estimated from those of the selected known patches and their corresponding errors. Consequently, by using the ER algorithm, we can estimate both the Fourier transform magnitudes and phases to reconstruct the missing areas.
  • Takahiro Ogawa, Daisuke Izumi, Akane Yoshizaki, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2013 1 - 17 2013年02月 [査読有り][通常論文]
     
    A super-resolution method for simultaneously realizing resolution enhancement and motion blur removal based on adaptive prior settings are presented in this article. In order to obtain high-resolution (HR) video sequences from motion-blurred low-resolution video sequences, both of the resolution enhancement and the motion blur removal have to be performed. However, if one is performed after the other, errors in the first process may cause performance deterioration of the subsequent process. Therefore, in the proposed method, a new problem, which simultaneously performs the resolution enhancement and the motion blur removal, is derived. Specifically, a maximum a posterior estimation problem which estimates original HR frames with motion blur kernels is introduced into our method. Furthermore, in order to obtain the posterior probability based on Bayes' rule, a prior probability of the original HR frame, whose distribution can adaptively be set for each area, is newly defined. By adaptively setting the distribution of the prior probability, preservation of the sharpness in edge regions and suppression of the ringing artifacts in smooth regions are realized. Consequently, based on these novel approaches, the proposed method can perform successful reconstruction of the HR frames. Experimental results show impressive improvements of the proposed method over previously reported methods.
  • Sho Takahashi, Miki Haseyama
    Electronic Proceedings of the 2013 IEEE International Conference on Multimedia and Expo Workshops, ICMEW 2013 1 - 6 2013年 [査読有り][通常論文]
     
    This paper presents a method for visualizing pass regions that have high probabilities of the pass succeeding from broadcast soccer videos. In soccer matches, players discover pass regions based on player position geometry and player velocities. Therefore, by using player position geometry and player velocities, which are obtained from a broadcast soccer video, we can visualize pass regions. The proposed method is realized by the following two steps. 1) Generation of new three-dimensional data (volume data) for analyzing pass regions, which are not visible. 2) Visualization of pass regions. In the first step, volume data are generated from player position geometry and player velocities. By generating the volume data, which express the player position geometry and the player velocities, analysis of invisible pass regions is enabled. In the second step, by applying Active grid to the generated volume data, pass regions are visualized. Specifically, lattice points of the Active grid converge to the pass regions. Therefore, positions of the pass regions on the pitch can be visualized from densities of the lattice points. In the experiment, the proposed method is applied to actual TV programs to verify its effectiveness. © 2013 IEEE.
  • Ryosuke Harakawa, Yasutaka Hatakeyama, Takahiro Ogawa, Miki Haseyama
    2013 IEEE International Conference on Image Processing, ICIP 2013 - Proceedings 4397 - 4401 2013年 [査読有り][通常論文]
     
    This paper presents an extraction method of hierarchical Web communities for Web video retrieval. In the proposed method, Web communities containing Web videos whose topics are similar to each other are extracted by using hyperlinks between Web pages including Web videos and their video features. Furthermore, we focus on graph structure of hyperlinks between Web pages including Web videos which belong to the Web communities. Then, by using strongly connected components and betweenness centrality of the graph, hierarchical structure of the Web communities can be estimated. Consequently, users can easily find Web videos including related topics in each hierarchy, and desired Web videos can be effectively retrieved. © 2013 IEEE.
  • Akihiro Takahashi, Takahiro Ogawa, Miki Haseyama
    2013 IEEE International Conference on Image Processing, ICIP 2013 - Proceedings 3269 - 3273 2013年 [査読有り][通常論文]
     
    This paper presents a method of insect classification using images taken by Scanning Electron Microscope (SEM) considering magnifications. Generally, when images of the same insects are taken by SEM with different magnifications, visual features of these images are different from each other. Thus, the proposed method adopts a new scheme which groups images of different magnifications in such a way that the classification performance becomes the highest. Then a classifier is constructed for each group, and the insect classification becomes feasible based on a target image magnification. In addition, by integrating the classification results of several images obtained from the same sample, i.e., the same insect, performance improvement of the insect classification considering magnifications can be realized. Experimental results show the effectiveness of the proposed method. © 2013 IEEE.
  • Yuta Igarashi, Takahiro Ogawa, Miki Haseyama
    2013 20TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP 2013) 2388 - 2392 2013年 [査読有り][通常論文]
     
    This paper presents a novel method for estimating a spectral reflectance from two kinds of input images: an image including both visible light components and near-infrared (NIR) components, and an image including only NIR components. From these input images, we estimate the spectral reflectance based on the Non-negative Matrix Factorization algorithm using spectral sensitivities of a digital camera. The estimated spectral reflectance enables several important applications. In this paper, the e ff ectiveness of the proposed method is verified by using the estimated spectral reflectance in the two image processing applications.
  • Takahiro Ogawa, Miki Haseyama
    2013 20TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP 2013) 704 - 708 2013年 [査読有り][通常論文]
     
    A kernel cross-modal factor analysis (KCFA) based missing area restoration method including a new priority estimation scheme is presented in this paper. The proposed method estimates latent relationship between missing areas and their neighboring areas by deriving projection matrices minimizing their errors in the latent space based on KCFA. This latent relationship represented by the derived projection matrices is optimal for accurately restoring missing areas within the target image. Furthermore, the proposed method adopts a new priority estimation scheme which determines the restoration order of missing areas. Specifically, this priority is estimated based on the criterion representing the restoration performance derived from KCFA, and it enables adaptive selection of missing areas successfully restored by our method. Consequently, it becomes feasible to accurately perform the restoration of missing areas by using the proposed KCFA-based method. Experimental results show subjective and quantitative improvements of the proposed method over previously reported restoration methods.
  • Miki Haseyama, Takahiro Ogawa
    INTERNATIONAL JOURNAL OF HUMAN-COMPUTER INTERACTION 29 2 96 - 109 2013年01月 [査読有り][通常論文]
     
    A trial realization of human-centered navigation for video retrieval is presented in this article. This system consists of the following functions: (a) multimodal analysis for collaborative use of multimedia data, (b) preference extraction for the system to adapt to users' individual demands, and (c) adaptive visualization for users to be guided to their desired contents. By using these functions, users can find their desired video contents more quickly and accurately than with the conventional retrieval schemes since our system can provide new pathways to the desired contents. Experimental results verify the effectiveness of the proposed system.
  • 公文宏明, 長谷山美紀
    映像情報メディア学会誌(Web) 67 3 2013年
  • Hirokazu Tanaka, Sunmi Kim, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E95A 11 2015 - 2022 2012年11月 [査読有り][通常論文]
     
    A new spatial and temporal error concealment method for three-dimensional discrete wavelet transform (3D DWT) video coding is analyzed. 3D DWT video coding employing dispersive grouping (DG) and two-step error concealment is an efficient method in a packet loss channel [20], [21]. In the two-step error concealment method, the interpolations are only spatially applied however, higher efficiency of the interpolation can be expected by utilizing spatial and temporal similarities. In this paper, we propose an enhanced spatial and temporal error concealment method in order to achieve higher error concealment (EC) performance in packet loss networks. In the temporal error concealment method, structural similarity (SSIM) index is employed for inter group of pictures (GOP) EC and minimum mean square error (MMSE) is used for intra GOP EC. Experimental results show that the proposed method can obtain remarkable performance compared with the conventional methods.
  • Miki Haseyama, Daisuke Izumi, Makoto Takizawa
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E95D 9 2355 - 2358 2012年09月 [査読有り][通常論文]
     
    A method for spatio-temporal resolution enhancement of video sequences based on super-resolution reconstruction is proposed. A new observation model is defined for accurate resolution enhancement, which enables subpixel motion in intermediate frames to be obtained. A modified optimization formula for obtaining a high-resolution sequence is also adopted.
  • 永井 信夫, 任 捷, 長谷山 美紀
    信号処理 16 5 359 - 368 [信号処理学会] 2012年09月 [査読無し][通常論文]
  • 永井 信夫, 任 捷, 長谷山 美紀
    信号処理 16 4 263 - 272 [信号処理学会] 2012年07月 [査読無し][通常論文]
  • Marie Katsurai, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E95A 5 927 - 937 2012年05月 [査読有り][通常論文]
     
    In this paper, a novel framework for extracting visual feature-based keyword relationships from an image database is proposed. From the characteristic that a set of relevant keywords tends to have common visual features, the keyword relationships in a target image database are extracted by using the following two steps. First, the relationship between each keyword and its corresponding visual features is modeled by using a classifier. This step enables detection of visual features related to each keyword. In the second step, the keyword relationships are extracted from the obtained results. Specifically, in order to measure the relevance between two keywords, the proposed method removes visual features related to one keyword from training images and monitors the performance of the classifier obtained for the other keyword. This measurement is the biggest difference from other conventional methods that focus on only keyword co-occurrences or visual similarities. Results of experiments conducted using an image database showed the effectiveness of the proposed method.
  • 永井 信夫, 任 捷, 長谷山 美紀
    信号処理 16 3 187 - 196 [信号処理学会] 2012年05月 [査読無し][通常論文]
  • 永井 信夫, 任 捷, 長谷山 美紀
    信号処理 16 2 101 - 110 [信号処理学会] 2012年03月 [査読無し][通常論文]
  • 長谷山 美紀
    信号処理 16 2 121 - 126 [信号処理学会] 2012年03月 [査読無し][通常論文]
  • 長谷川尭史, 小川貴弘, 渡邉日出海, 長谷山美紀
    電子情報通信学会技術研究報告 111 442(IE2011 105-132) 73 - 78 2012年02月 [査読無し][通常論文]
  • Marie Katsurai, Takahiro Ogawa, Miki Haseyama
    ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 2373 - 2376 2012年 [査読有り][通常論文]
     
    This paper presents a cross-modal approach for extracting semantic relationships of concepts from an image database. First, canonical correlation analysis (CCA) is used to capture the cross-modal correlations between visual features and tag features in the database. Then, in order to measure inter-concept relationships and estimate semantic levels, the proposed method focuses on the distributions of images under the probabilistic interpretation of CCA. Results of experiments conducted by using an image database showed the improvement of the proposed method over existing methods. © 2012 IEEE.
  • Takahiro Ogawa, Miki Haseyama
    2012 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP) 1141 - 1144 2012年 [査読有り][通常論文]
     
    This paper presents a perceptually optimized subspace estimation method for missing texture reconstruction. The proposed method calculates the optimal subspace of known patches within a target image based on structural similarity (SSIM) index instead of calculating mean square error (MSE)-based eigenspace. Furthermore, from the obtained subspace, missing texture reconstruction whose results maximize the SSIM index is performed. In this approach, the non-convex maximization problem is reformulated as a quasi convex problem, and the reconstruction of the missing textures becomes feasible. Experimental results show that our method overcomes previously reported MSE-based reconstruction methods.
  • 永井 信夫, 任 捷, 長谷山 美紀
    信号処理 16 1 13 - 22 [信号処理学会] 2012年01月 [査読無し][通常論文]
  • 高橋 翔, 長谷山 美紀
    映像情報メディア学会冬季大会講演予稿集 2012 8 - 3-1 一般社団法人 映像情報メディア学会 2012年 
    This paper realizes an improvement of 3D pass region estimation method by using player velocity in soccer videos. In the previous method, since the pass region was estimated regardless of player velocity, the accuracy was limited. Therefore, by introducing the player velocity to the pass region estimation, we improve the performance of the previous method.
  • 長谷山 美紀, 田中 章, 小川 貴弘
    電子情報通信学会 基礎・境界ソサイエティ Fundamentals Review 5 4 344 - 344 The Institute of Electronics, Information and Communication Engineers 2012年
  • 長谷川尭史, 小川貴弘, 渡邉日出海, 長谷山美紀
    映像情報メディア学会誌(Web) 66 7 2012年
  • Takahiro Ogawa, Miki Haseyama
    IEEE TRANSACTIONS ON MULTIMEDIA 13 5 974 - 992 2011年10月 [査読有り][通常論文]
     
    In this paper, a missing image data reconstruction method based on an adaptive inverse projection via sparse representation is proposed. The proposed method utilizes sparse representation for obtaining low-dimensional subspaces that approximate target textures including missing areas. Then, by using the obtained low-dimensional subspaces, inverse projection for reconstructing missing areas can be derived to solve the problem of not being able to directly estimate missing intensities. Furthermore, in this approach, the proposed method monitors errors caused by the derived inverse projection, and the low-dimensional subspaces optimal for target textures are adaptively selected. Therefore, we can apply adaptive inverse projection via sparse representation to target missing textures, i.e., their adaptive reconstruction becomes feasible. The proposed method also introduces some schemes for color processing into the calculation of subspaces on the basis of sparse representation and attempts to avoid spurious color caused in the reconstruction results. Consequently, successful reconstruction of missing areas by the proposed method can be expected. Experimental results show impressive improvement of our reconstruction method over previously reported reconstruction methods.
  • Zaixing He, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E94A 9 1793 - 1803 2011年09月 [査読有り][通常論文]
     
    In this paper, a novel algorithm, Cross Low-dimension Pursuit, based on a new structured sparse matrix, Permuted Block Diagonal (PBD) matrix, is proposed in order to recover sparse signals from incomplete linear measurements. The main idea of the proposed method is using the PBD matrix to convert a high-dimension sparse recovery problem into two (or more) groups of highly low-dimension problems and crossly recover the entries of the original signal from them in an iterative way. By sampling a sufficiently sparse signal with a PBD matrix, the proposed algorithm can recover it efficiently. It has the following advantages over conventional algorithms: (1) low complexity, i.e., the algorithm has linear complexity, which is much lower than that of existing algorithms including greedy algorithms such as Orthogonal Matching Pursuit and (2) high recovery ability, i.e., the proposed algorithm can recover much less sparse signals than even l(1)-norm minimization algorithms. Moreover, we demonstrate both theoretically and empirically that the proposed algorithm can reliably recover a sparse signal from highly incomplete measurements.
  • 永井 信夫, 任 捷, 長谷山 美紀
    信号処理 15 5 331 - 340 〔信号処理学会〕 2011年09月 [査読無し][通常論文]
  • Takahiro Ogawa, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2011 2011年 [査読有り][通常論文]
     
    An adaptive single image superresolution (SR) method using a support vector data description (SVDD) is presented. The proposed method represents the prior on high-resolution (HR) images by hyperspheres of the SVDD obtained from training examples and reconstructs HR images from low-resolution (LR) observations based on the following schemes. First, in order to perform accurate reconstruction of HR images containing various kinds of objects, training HR examples are previously clustered based on the distance from a center of a hypersphere obtained for each cluster. Furthermore, missing high-frequency components of the target image are estimated in order that the reconstructed HR image minimizes the above distances. In this approach, the minimized distance obtained for each cluster is utilized as a criterion to select the optimal hypersphere for estimating the high-frequency components. This approach provides a solution to the problem of conventional methods not being able to perform adaptive estimation of the high-frequency components. In addition, local patches in the target low-resolution (LR) image are utilized as the training HR examples from the characteristic of self-similarities between different resolution levels in general images, and our method can perform the SR without utilizing any other HR images.
  • Takahiro Ogawa, Miki Haseyama
    2011 18TH IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING (ICIP) 1133 - 1136 2011年 [査読有り][通常論文]
     
    This paper presents an adaptive kernel principal component analysis (KPCA) based missing texture reconstruction approach including a classification scheme via difference subspaces. The proposed method utilizes a KPCA-based nonlinear eigenspace, which is obtained from each kind of known texture within a target image, as a constraint for reconstructing missing textures with a constraint of known neighboring areas. Then since these two constraints are convex, we can estimate missing textures based on a projection onto convex sets (POCS) algorithm. Furthermore, in this approach, the proposed method derives a new criterion for selecting the optimal eigenspace by monitoring errors caused in the projection via a difference subspace of each kind of known texture. This provides a solution to conventional problems of not being able to perform accurate texture classification, and the adaptive reconstruction of missing textures can be realized by the proposed method. Experimental results show subjective and quantitative improvement of the proposed method over previously reported reconstruction methods.
  • Zaixing He, Takahiro Ogawa, Miki Haseyama
    2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 3172 - 3175 2011年 [査読有り][通常論文]
     
    This paper proposes a novel algorithm for decoding real-field codes over erroneous channels, where the encoded message is corrupted by sparse errors, i.e., impulsive noise. The main problem of decoding such a corrupted encoded message is to reconstruct the error vector; recently, a common way to reconstruct it is to find the sparsest solution to an underdetermined system that is constructed using a parity-check matrix. Unlike the conventional approaches reconstructing the high-dimensional error vector directly, the proposed method crossly recovers the elements of error vector from two (or several) groups of low-dimensional equations. Compared with the traditional algorithms, the proposed method can decode an encoded message with a much higher corruption rate. Furthermore, the complexity of our method is linear, which is much lower than those of the traditional methods. The experimental results verified the high error correction ability and speed of the proposed method.
  • Takahiro Ogawa, Miki Haseyama
    2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING 1157 - 1160 2011年 [査読有り][通常論文]
     
    This paper presents an adaptive reconstruction method of missing textures based on structural similarity (SSIM) index. The proposed method firstly performs SSIM-based selection of the optimal known local textures to adaptively obtain subspaces for reconstructing missing textures. Furthermore, from the selected known textures, the missing texture reconstruction maximizing the SSIM index is performed. In this approach, the non-convex maximization problem is reformulated as a quasi convex problem, and the adaptive reconstruction of the missing textures becomes feasible. Experimental results show impressive improvement of the proposed method over previously reported reconstruction methods.
  • Takahiro Ogawa, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2011 1 - 29 2011年 [査読有り][通常論文]
     
    An adaptive example-based super-resolution (SR) using kernel principal component analysis (PCA) with a novel classification approach is presented in this paper. In order to enable estimation of missing high-frequency components for each kind of texture in target low-resolution (LR) images, the proposed method performs clustering of high-resolution (HR) patches clipped from training HR images in advance. Based on two nonlinear eigenspaces, respectively, generated from HR patches and their corresponding low-frequency components in each cluster, an inverse map, which can estimate missing high-frequency components from only the known low-frequency components, is derived. Furthermore, by monitoring errors caused in the above estimation process, the proposed method enables adaptive selection of the optimal cluster for each target local patch, and this corresponds to the novel classification approach in our method. Then, by combining the above two approaches, the proposed method can adaptively estimate the missing high-frequency components, and successful reconstruction of the HR image is realized.
  • Hiroyuki Ohkushi, Takahiro Ogawa, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2011 121 - 121 2011年 [査読有り][通常論文]
     
    In this article, a method for recommendation of music pieces according to human motions based on their kernel canonical correlation analysis (CCA)-based relationship is proposed. In order to perform the recommendation between different types of multimedia data, i.e., recommendation of music pieces from human motions, the proposed method tries to estimate their relationship. Specifically, the correlation based on kernel CCA is calculated as the relationship in our method. Since human motions and music pieces have various time lengths, it is necessary to calculate the correlation between time series having different lengths. Therefore, new kernel functions for human motions and music pieces, which can provide similarities between data that have different time lengths, are introduced into the calculation of the kernel CCA-based correlation. This approach effectively provides a solution to the conventional problem of not being able to calculate the correlation from multimedia data that have various time lengths. Therefore, the proposed method can perform accurate recommendation of best matched music pieces according to a target human motion from the obtained correlation. Experimental results are shown to verify the performance of the proposed method.
  • KIM Sunmi, TANAKA Hirokazu, OGAWA Takahiro, HASEYAMA Miki
    映像情報メディア学会技術報告 35 165 - 170 一般社団法人 映像情報メディア学会 2011年 
    In this paper, we present an adaptive spatial-temporal error concealment method for the wavelet based video coding in wireless networks. A three-dimensional discrete wavelet transform (3-D DWT) is performed 2-D spatial DWT coding and temporal DWT coding on a group of pictures (GOP). The transmission of compressed video suffers from errors such as packet losses that not only corrupt frame but also propagate successive frames. The proposed adaptive spatial-temporal error concealment method consists of spatial EC and temporal EC to overcome error propagation problems. The proposed method is concealing erroneous coefficients of the spatiotemporal low-frequency subband by their duplication information, and uses the proposed adaptive spatial-temporal concealment method to recover errors for entire video sequence. The performance of proposed method was evaluated with wireless packet transmission networks. Experimental results show the proposed method can serve robust and stable performance in error-prone environments.
  • 足跡を用いた男女識別
    画像ラボ 22 1 17 - 21 2011年 [査読無し][通常論文]
  • 田中章, 小川貴弘, 長谷山美紀, 宮腰政明
    電子情報通信学会 論文誌(A) J94-A 2 116 - 126 2011年 [査読無し][通常論文]
  • Sunmi Kim, Hirokazu Tanaka, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E93A 11 2173 - 2183 2010年11月 [査読有り][通常論文]
     
    In this paper we propose a two step error concealment algorithm based on an error resilient three dimensional discrete wavelet transform (3 D DWT) video coding scheme. The proposed scheme consists of an error resilient encoder duplicating the lowest sub band bit streams for dispersive grouped frames and an error concealment decoder. The error concealment method of this decoder is decomposed of two steps the first step is replacement of erroneous coefficients in the lowest sub band by the duplicated coefficients and the second step is interpolation of the missing wavelet coefficients by minimum mean square error (MMSE) estimation. The proposed scheme can achieve robust transmission over unreliable channels. Experimental results provide performance comparisons in terms of peak signal to noise ratio (PSNR) and demonstrate increased performances compared to state of the art error concealment schemes.
  • 長谷山 美紀
    電子情報通信学会誌 93 9 764 - 769 一般社団法人電子情報通信学会 2010年09月 [査読無し][通常論文]
     
    画像・映像意味理解の研究動向とその検索への応用について紹介する.更に,画像及び映像が持つ固有の多義性とあいまい性から検索結果の可視化システムの必要性を議論し,その実現の試みについて紹介するとともに今後の展開について考える.
  • 浅水 仁, 長谷山 美紀
    電子情報通信学会論文誌. D, 情報・システム 93 5 642 - 646 一般社団法人電子情報通信学会 2010年05月01日 [査読無し][通常論文]
     
    本論文では,施設や店舗などに出入りする人物の足跡を用いて男女識別する手法について検証する.取得した足跡から算出が可能な特徴量を用いてSVMにより男女を識別する.本手法を用いて被験者実験を行い,90%の識別率を実現した.
  • Takahiro Ogawa, Miki Haseyama
    2010 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME 2010) 352 - 357 2010年 [査読有り][通常論文]
     
    This paper presents an adaptive reconstruction method of missing textures based on an inverse projection via sparse representation. The proposed method approximates original and corrupted textures in lower-dimensional subspaces by using the sparse representation technique. Then, this approach effectively solves problems of not being able to directly estimate an inverse projection for reconstructing missing textures. Furthermore, even if target textures contain missing areas, the proposed method enables adaptive generation of the subspaces by monitoring errors caused in their known neighboring textures by the estimated inverse projection. Consequently, since the optimal inverse projection is adaptively estimated for each texture, successful reconstruction of the missing areas can be expected. Experimental results show impressive improvement of the proposed reconstruction technique over previously reported reconstruction techniques.
  • Zaixing He, Takahiro Ogawa, Miki Haseyama
    2010 IEEE INTERNATIONAL CONFERENCE ON IMAGE PROCESSING 4301 - 4304 2010年 [査読有り][通常論文]
     
    There exist two main problems in currently existing measurement matrices for compressed sensing of natural images, the difficulty of hardware implementation and low sensing efficiency. In this paper, we present a novel simple and efficient measurement matrix, Binary Permuted Block Diagonal (BPBD) matrix. The BPBD matrix is binary and highly sparse (all but one or several "1"s in each column are "0"s). Therefore, it can simplify the compressed sensing procedure dramatically. The proposed measurement matrix has the following advantages, which cannot be entirely satisfied by existing measurement matrices. (1) It has easy hardware implementation because of the binary elements; (2) It has high sensing efficiency because of the highly sparse structure; (3) It is incoherent with different popular sparsity basis' like wavelet basis and gradient basis; (4) It provides fast and nearly optimal reconstructions. Moreover, the simulation results demonstrate the advantages of the proposed measurement matrix.
  • Miki Haseyama, Daisuke Izumi, Makoto Takizawa
    Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2010, 14-19 March 2010, Sheraton Dallas Hotel, Dallas, Texas, USA 870 - 873 2010年 [査読有り][通常論文]
  • Jun Inagaki, Tomoaki Shirakawa, Tetsuo Shimono, Miki Haseyama
    2010 IEEE CONGRESS ON EVOLUTIONARY COMPUTATION (CEC) 1 - 4 2010年 [査読有り][通常論文]
     
    Path generation is an optimization problem mainly performed on grid square maps that combines generation of paths with minimization of their cost. Several methods that belong to the class of exhaustive searches are available; however, these methods are only able to obtain a single path as a solution for each iteration of the search. Hence, this paper proposes a new method using genetic algorithms for this problem with the goal of simultaneously searching for multiple candidate paths.
  • Takahiro Ogawa, Miki Haseyama
    EURASIP JOURNAL ON ADVANCES IN SIGNAL PROCESSING 2010 2010年 [査読有り][通常論文]
     
    This paper presents a simple and effective missing texture reconstruction method based on a perceptually optimized algorithm. The proposed method utilizes the structural similarity (SSIM) index as a new visual quality measure for reconstructing missing areas. Furthermore, in order to adaptively reconstruct target images containing several kinds of textures, the following two novel approaches are introduced into the SSIM-based reconstruction algorithm. First, the proposed method performs SSIM-based selection of the optimal known local textures to adaptively obtain subspaces for reconstructing missing textures. Secondly, missing texture reconstruction that maximizes the SSIM index in the known neighboring areas is performed. In this approach, the nonconvex maximization problem is reformulated as a quasi convex problem, and adaptive reconstruction of the missing textures based on the perceptually optimized algorithm becomes feasible. Experimental results show impressive improvements of the proposed method over previously reported reconstruction methods.
  • KIM Sunmi, TANAKA Hirokazu, OGAWA Takahiro, HASEYAMA Miki
    IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences 93 12 2763_e1 - 2763_e1 The Institute of Electronics, Information and Communication Engineers 2010年
  • 渡邉 日出海, 金子 俊一, 長谷山 美紀
    電子情報通信学会誌 92 10 822 - 827 一般社団法人電子情報通信学会 2009年10月 [査読無し][通常論文]
  • Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E92A 8 1950 - 1960 2009年08月 [査読有り][通常論文]
     
    In this paper, a method for adaptive reconstruction of missing textures based on kernel canonical correlation analysis (CCA) with a new clustering scheme is presented. The proposed method estimates the correlation between two areas, which respectively correspond to a missing area and its neighboring area, from known parts within the target image and realizes reconstruction of the missing texture. In order to obtain this correlation, the kernel CCA is applied to each cluster containing the same kind of textures, and the optimal result is selected for the target missing area. Specifically, a new approach monitoring errors caused in the above kernel CCA-based reconstruction process enables selection of the optimal result. This approach provides a solution to the problem in traditional methods of not being able to perform adaptive reconstruction of the target textures due to missing intensities. Consequently, all of the missing textures are successfully estimated by the optimal cluster's correlation, which provides accurate reconstruction of the same kinds of textures. In addition, the proposed method can obtain the correlation more accurately than our previous works, and more successful reconstruction performance can be expected. Experimental results show impressive improvement of the proposed reconstruction technique over previously reported reconstruction techniques.
  • Tomoki Hiramatsu, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E92A 8 1939 - 1949 2009年08月 [査読有り][通常論文]
     
    In this paper, an ER (Error-Reduction) algorithm-based method for removal of adherent water drops from images obtained by a rear view camera mounted on a vehicle in rainy conditions is proposed. Since Fourier-domain and object-domain constraints are needed for any ER algorithm-based method, the proposed method introduces the following two novel constraints for the removal of adherent water drops. The first one is the Fourier-domain constraint that utilizes the Fourier transform magnitude of the previous frame in the obtained images as that of the target frame. Noting that images obtained by the rear view camera have the unique characteristics of objects moving like ripples because the rear view camera is generally composed of a fish-eye lens for a wide view angle, the proposed method assumes that the Fourier transform magnitudes of the target frame and the previous frame are the same in the polar coordinate system. The second constraint is the object-domain constraint that utilizes intensities in an area of the target frame to which water drops have adhered. Specifically, the proposed method models a deterioration process of intensities that are corrupted by the water drop adhering to the rear view camera lens. By utilizing these novel constraints, the proposed ER algorithm can remove adherent water drops from images obtained by the rear view camera. Experimental results that verify the performance of the proposed method are represented.
  • Hiroyuki Arai, Isao Miyagawa, Hideki Koike, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E92A 8 1932 - 1938 2009年08月 [査読有り][通常論文]
     
    We propose a novel technique for estimating the number of people in a video sequence; it has the advantages of being stable even in crowded situations and needing no ground-truth data. By analyzing the geometrical relationships between image pixels and their intersection volumes in the real world quantitatively, a foreground image directly indicates the number of people. Because foreground detection is possible even in crowded situations, the proposed method can be applied in such situations. Moreover, it can estimate the number of people in an a priori manner, so it needs no ground-truth data unlike existing feature-based estimation techniques. Experiments show the validity of the proposed method.
  • Makoto Yamamoto, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E92A 8 1883 - 1891 2009年08月 [査読有り][通常論文]
     
    A method for accurate scene segmentation using two kinds of directed graph obtained by object matching and audio features is proposed. Generally, in audiovisual materials, such as broadcast programs and movies, there are repeated appearances of similar shots that include frames of the same background, object or place, and such shots are included in a single scene. Many scene segmentation methods based on this idea have been proposed; however, since they use color information as visual features, they cannot provide accurate scene segmentation results if the color features change in different shots for which frames include the same object due to camera operations such as zooming and panning. In order to solve this problem, scene segmentation by the proposed method is realized by using two novel approaches. In the first approach, object matching is performed between two frames that are each included in different shots. By using these matching. results, repeated appearances of shots for which frames include the same object can be successfully found and represented as a directed graph. The proposed method also generates another directed graph that represents the repeated appearances of shots with similar audio features in the second approach. By combined use of these two directed graphs, degradation of scene segmentation accuracy, which results from using only one kind of graph, can be avoided in the proposed method and thereby accurate scene segmentation can be realized. Experimental results performed by applying the proposed method to actual broadcast programs are shown to verify the effectiveness of the proposed method.
  • 須藤 康裕, 柳田 拓人, 栗原 正仁, 長谷山 美紀
    知能と情報 : 日本知能情報ファジィ学会誌 : journal of Japan Society for Fuzzy Theory and Intelligent Informatics 21 3 372 - 380 日本知能情報ファジィ学会 2009年06月15日 [査読無し][通常論文]
     
    ファジィ制約充足問題は人工知能の基礎戦術として知られる制約充足問題(CSP:Constraint Satisfaction Problem)を充足度を持たせることにより拡張した数理モデルである.一方,動的CSPの枠組みは現実世界における問題の部分的な変化と再求解を想定したモデルであり,その特徴は,問題を解きなおすコストの削減と解の安定性が求められることである.これら2つを組み合わせた数理モデルである動的ファジィCSP(DFCSP:Dynamic Fuzzy CSP)に関する研究は既存するが,CSPはNP完全問題として知られ,最悪計算量は指数オーダーとなることから,完全で高速な解法は存在しない. 本論文では,ファジィCSPのハイブリッド解法であるSRSアルゴリズムをDFCSPに適用し,さらに後処理としてのフィルタリングとしてSRSDアルゴリズムを導入することにより,大規模で複雑な問題に対しても,安定した実用的な許容解が得られることを,他の代表的な手法と比較することにより定量的に示す.
  • 高橋 翔, 今 宏史, 長谷山 美紀
    電子情報通信学会論文誌. D, 情報・システム 92 4 501 - 510 一般社団法人電子情報通信学会 2009年04月01日 [査読無し][通常論文]
     
    本論文では,チームスポーツ映像からアクティブネットを用いてパス可能領域を推定する手法を提案する.チームスポーツ映像の一つであるサッカー映像の意味内容解析を行うために重要なサッカーの戦術は,選手の移動とボール運びによって表現されるため,ボール運びを実現するパスを分析することは重要である.一般にパスコースはボール保持者と味方チームの選手へとつながる緩やかな曲線で表される.提案手法では,新たなエネルギーの定義とパス可能領域を推定するための画像生成により,アクティブネットを用いて前述の曲線が存在する領域を抽出する.また,パス可能領域は守備の選手から離れるほど,パスが成功する可能性が高いという特徴をもつ.提案手法では,格子点の密度に着眼することで,パスが成功する可能性をパス可能領域の推定と同時に得る.更に,アクティブネットの収束結果は多少の選手位置の誤差を許容するため,選手の動きを用いた従来手法における,選手位置の誤差の影響を受けやすいという問題点を解決することが可能である.したがって,提案手法はカメラワークが存在し,高精度な選手位置の推定が困難であるテレビ映像に対しても,高精度にパス可能領域の推定が可能である.
  • Shigeki Takahashi, Takahiro Ogawa, Hirokazu Tanaka, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E92A 3 779 - 787 2009年03月 [査読有り][通常論文]
     
    A novel error concealment method using a Kalman filter is presented ill this paper, In order to successfully utilize the Kalman filter, its state transition and observation models that are suitable for the video error concealment are newly defined as follows. The state transition model represents the video decoding process by a notion-compensated prediction. Furthermore, the new observation model that represents all image blurring process is defined. and calculation of the Kalman gain becomes possible. The problem of the traditional methods is solved by using the Kalman filter in the proposed method, and accurate reconstruction of corrupted video frames, is achieved. Consequently. an effective error concealment method using the Kalman filter is realized. Experimental results showed that the proposed method has better performance than that of traditional methods.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    電子情報通信学会論文誌. D, 情報・システム 92 3 382 - 392 一般社団法人電子情報通信学会 2009年03月01日 [査読無し][通常論文]
     
    本論文では,エッジの連続性を考慮した, Iterated Function System (IFS)に基づく画像拡大法を提案する.従来のIFS画像拡大法では,拡大後の画像において処理の最小単位となるブロックの境界で,本来存在しないはずの輝度値の変化が生じる.また,エッジの連続性を考慮しておらず,拡大後の画像におけるエッジが不連続となる問題が存在した.そこで提案手法では,まず,処理の最小単位となるブロックの重なりを許すことで, IFSによる高近似縮小写像を実現し,ブロック境界での輝度値の変化を抑制する.更に,連続性を保ったエッジの推定が可能であるラインプロセスを新たにIFS画像拡大法に導入する.このとき我々は,ラインプロセスを拡大後の画像のエッジを推定する手法に拡張することで,輝度値が未知である拡大後の画像に対しても,連続性を保ったエッジの推定を可能とする.また,提案手法では得られるエッジの存在を考慮した上でIFSに基づく画像拡大を行うことにより,従来法で発生していた拡大後の画像におけるエッジの不連続を解決し,高精細な拡大を実現する.本論文の最後では,提案手法の有効性を示すため比較実験を行い,その拡大性能を評価する.
  • Tomoki Hiramatsu, Takahiro Ogawa, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E92A 2 577 - 584 2009年02月 [査読有り][通常論文]
     
    In this paper, a Kalman filter-based method for restoration of video images acquired by an in-vehicle camera in foggy conditions is proposed. In order to realize Kalman filter-based restoration, the proposed method clips local blocks from the target frame by using a sliding window and regards the intensities in each block as elements of the state variable of the Kalman filter. Furthermore, the proposed method designs the following two models for restoration of foggy images. The first one is an observation model, which represents a fog deterioration model. The proposed method automatically determines all parameters of the fog deterioration model from only the foggy images to design the observation model. The second one is a non-linear state transition model, which represents the target frame in the original video image from its previous frame based on motion vectors. By utilizing the observation and state transition models, the correlation between successive frames can be effectively utilized for restoration, and accurate restoration of images obtained in foggy conditions can be achieved. Experimental results show that the proposed method has better performance than that of the traditional method based on the fog deterioration model.
  • 長谷山 美紀, 久光 徹
    映像情報メディア学会誌 : 映像情報メディア 63 1 42 - 47 一般社団法人映像情報メディア学会 2009年 [査読無し][通常論文]
     
    2007年度に3年計画でスタートした情報大航海プロジェクトは,モデルサービスによる実証を通じて次世代の情報検索・解析技術を開発することを目的としている.同時に,実証を通じた制度的課題の洗い出しにより,市場創出に必要な環境整備を目指している.本稿では,開発された技術の中から,マルチメディア情報処理の中核を担う,画像・映像処理技術を紹介する.
  • 近藤 敏志, 松野 孝也, 長谷山 美紀
    映像情報メディア学会誌 : 映像情報メディア = The journal of the Institute of Image Information and Television Engineers 63 11 1592 - 1597 映像情報メディア学会 2009年 [査読無し][通常論文]
     
    We propose a method to improve performance of video coding using an adaptive interpolation filter technique. The adaptive interpolation technique was based on clustering using the k-means method and did not need filter selection information. To improve the performance of the clustering, we introduced autocorrelation coefficients of the pixel values and the directions of the motion vectors as the new features and the Mahalanobis distance as the distance scale in the k-means method. We also used vector quantization to reduce the number of interpolation filter coefficients. In the simulation, our proposed method was implemented in the MPEG-2 based video codec. The simulation results show that the proposed method can reduce the bit rate by up to nearly 7 % compared to conventional adaptive interpolation filter methods.
  • Makoto Yamamoto, Miki Haseyama
    ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2 670 - 671 2009年 [査読有り][通常論文]
     
    A method for accurate scene segmentation utilizing two kinds of directed graph obtained by object matching and by using audio features is proposed. Generally, in audiovisual materials, there are repeated appearances of shots that include frames of the same background, object or place. It should be assumed that such shots are included in a single scene. In the proposed method, by performing object matching between two frames that are each included in different shots, multiple shots for which frames include the same object can be successfully found and their repeated appearances are represented as a directed graph. The proposed method also generates another directed graph that represents the repeated appearances of shots with similar audio features. By the combined use of these two graphs, accurate scene segmentation can be realized. The effectiveness of the proposed method is verified by applying this method to news programs and another broadcast program.
  • Takahiro Ogawa, Miki Haseyama
    ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2 342 - 343 2009年 [査読有り][通常論文]
     
    This paper presents a projection onto convex sets (POCS)-based semantic image retrieval method and its performance verification. The main contributions of the proposed method are twofold: introduction of nonlinear eigenspace of visual and semantic features into the constraint of the POCS-based semantic image retrieval algorithm and adaptive selection of the annotated images utilized for this algorithm. Then, by combining these two approaches., the semantic features of the query image are successfully estimated, and accurate image retrieval can be expected. Finally, relationship between the performance of the proposed method and the kinds of the kernel functions utilized for the kernel PICA is shown in this paper.
  • Miki Haseyama, Toshifumi Murata, Hisashi Ukawa
    ISCE: 2009 IEEE 13TH INTERNATIONAL SYMPOSIUM ON CONSUMER ELECTRONICS, VOLS 1 AND 2 624 - + 2009年 [査読有り][通常論文]
     
    New image retrieval technology, which is used for a service demonstration project "View Search Hokkaido" in "Information Grand Voyage Project" conducted by Ministry of Economy, Trade and Industry, Japan, is presented in this paper. The new technology enables image retrieval based on low-level features without utilizing any tag-based scheme and realizes a 3D interface for image retrieval. This 3D interface can provide new user experience, which has not been provided by the conventional retrieval services. The effectiveness of the 3D interface has been verified in "View Search Hokkaido".
  • 道山 大悟, 長谷山 美紀
    画像ラボ 19 7 1 - 4 日本工業出版 2008年07月 [査読無し][通常論文]
  • 長谷山 美紀
    映像情報メディア学会誌 : 映像情報メディア 62 4 K12 - K12 一般社団法人映像情報メディア学会 2008年04月01日 [査読無し][通常論文]
  • 上倉 一人, 長谷山 美紀, 村上 和人
    映像情報メディア学会誌 : 映像情報メディア 62 8 1251 - 1254 一般社団法人映像情報メディア学会 2008年 [査読無し][通常論文]
  • Hiroyuki Arai, Isao Miyagawa, Hideki Koike, Miki Haseyama
    19th International Conference on Pattern Recognition (ICPR 2008)(ICPR) 1 - 4 2008年
  • Takahiro Ogawa, Miki Haseyama
    2008 IEEE International Conference on Image Processing, Proceedings 969 - 972 2008年 [査読有り][通常論文]
     
    A kernel PCA-based semantic feature estimation approach for similar image retrieval is presented in this paper. Utilizing database images previously annotated by keywords, tire proposed method estimates unknown semantic features of a query image. First, our method performs semantic clustering of the database images and derives a new map from a nonlinear eigenspace of visual and semantic features in each c aster. This map accurately provides the semantic features for the images belonging to each cluster by using their visual features. Further, in order to select the optional cluster including the query image, the proposed method monitors errors of the visual features caused by the Semantic feature estimation process. Then, even if any semantics of the query image arc unknown, its semantic features are successfully estimated by tire optimal cluster. Experimental results verify the effectiveness of the proposed method for semantic image retrieval.
  • 長谷山 美紀
    日本音響学会誌 63 8 社団法人日本音響学会 2007年08月01日 [査読無し][通常論文]
  • Naoki Nitanda, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E90A 8 1542 - 1548 2007年08月 [査読有り][通常論文]
     
    An audio-based shot classification method for audiovisual indexing is proposed in this paper. The proposed method mainly consists of two parts, an audio analysis part and a shot classification part. In the audio analysis part, the proposed method utilizes both principal component analysis (PCA) and Mahalanobis generalized distance (MGD). The effective features for the analysis can be automatically obtained by using PCA, and these features are analyzed based on MGD, which can take into account the correlations of the data set. Thus, accurate analysis results can be obtained by the combined use of PCA and MGD. In the shot classification part, the proposed method utilizes a fuzzy algorithm. By using the fuzzy algorithm, the mixing rate of the multiple audio sources can be roughly measured, and thereby accurate shot classification can be attained. Results of experiments performed by applying the proposed method to actual audiovisual materials are shown to verify the effectiveness of the proposed method.
  • Hiroftuni Kon, Miki Haseyama
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E90A 8 1528 - 1533 2007年08月 [査読有り][通常論文]
     
    In this paper, a new method for clustering of players in order to analyze games in soccer videos is proposed. The proposed method classifies players who are closely related in terms of soccer tactics into one group. Considering soccer tactics, the players in one group are located near each other. For this reason, the Euclidean distance between the players is an effective measurement for the clustering of players. However, the distance is not sufficient to extract tactics-based groups. Therefore, we utilize a modified version of the community extraction method, which finds community structure by dividing a non-directed graph. The use of this method in addition to the distance enables accurate clustering of players.
  • 二反田 直己, 鎌倉 純一, 長谷山 美紀
    信号処理 11 2 179 - 185 〔信号処理学会〕 2007年03月 [査読無し][通常論文]
  • Keiko Kondo, Miki Haseyama, Hideo Kitajima
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E90D 1 283 - 287 2007年01月 [査読無し][通常論文]
     
    A new phase retrieval method using an active contour model (snake) for image reconstruction is proposed. The proposed method reconstructs a target image by retrieving the phase from the magnitude of its Fourier transform and the measured area of the image. In general, the measured area is different from the true area where the target image exists. Thus a snake, which can extract the shape of the target image, is utilized to renew the measured area. By processing this renewal iteratively, the area obtained by the snake converges to the true area and as a result the proposed method can accurately reconstruct a target image even when the measured area is different from the true area. Experimental results show the effectiveness of the proposed method.
  • Shin'ichi Shiraishi, Miki Haseyama, Hideo Kitajima
    IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS AND COMPUTER SCIENCES E89A 12 3724 - 3729 2006年12月 [査読無し][通常論文]
     
    This paper analyzes the steady-state properties of a CORDIC-based adaptive ARMA lattice filter. In our previous study, the convergence properties of the filter in the non-steady state were clarified; however, its behavior in the steady state was not discussed. Therefore, we develop a distinct analysis technique based on a Markov chain in order to investigate the steady-state properties of the filter. By using the proposed technique, the relationship between step size and coefficient estimation error is revealed.
  • 長谷山 美紀
    信号処理 10 5 309 - 315 〔信号処理学会〕 2006年09月 [査読無し][通常論文]
  • 平本 政夫, 小川 貴弘, 長谷山 美紀
    電子情報通信学会論文誌. D, 情報・システム 89 6 1348 - 1358 一般社団法人電子情報通信学会 2006年06月01日 [査読無し][通常論文]
     
    本論文では,撮像素子の多面素化や高画質化の流れを踏まえ,画像の回転・移動等の幾何学的変換にも対応できる大局的な画像識別方法を提案している.提案手法は,ベクトルを利用した投票方式を用いかものであり,画像を輝度こう配を表すベクトルと位置を示すベクトルで表現し,識別のための投票ベクトルと類似度を定義している.また提案手法では,同一画像であれば得票場所が原点に集中し,得票結果が幾何学的な変換に影響されないという特徴がある.原画像に対してガウシアン,メジアンのフィルタリング処理,JPEG圧縮処理を施した画像も含め,自然画像の識別実験を行ったところ,類似性において明確な差が現れ,画像に対して人工的な処理を加えても識別可能であることが分かった.更に提案手法の応用として,最多得票点を利用した画像の識別について検討したところ,識別能力が高く,1画像内に含まれる部分画像の識別も可能であることを示すことができた.
  • 長谷山 美紀
    信号処理 10 3 153 - 159 〔信号処理学会〕 2006年05月 [査読無し][通常論文]
  • 長谷山 美紀
    回路とシステム軽井沢ワークショップ論文集 19 199 - 203 [電子情報通信学会] 2006年04月24日 [査読無し][通常論文]
  • 趙 延軍, 長谷山 美紀, 北島 秀夫
    電子情報通信学会論文誌. D, 情報・システム 89 4 836 - 849 一般社団法人電子情報通信学会 2006年04月01日 [査読無し][通常論文]
     
    画像内容に基づく画像処理では,画素ではなく,画像中の物体を構成する領域を対象とし,画像の圧縮,検索,認識等様々な処理を行う.そのため,領域を検出し,ラベルを付与する画像分割が必要になる.本論文では画像における輝度値の空間分布を地形とみなすWatershedアルゴリズムによる領域分割を検討する.Watershedアルゴリズムにより,閉じた単一の領域分割線が得られるが,分割結果には領域の未分割及び過剰分割という問題が発生する.本論文においてはこれらの問題を解決するために,原画像を直接処理することではなく,連続エッジと均質部分の両方が強調できる色エッジの強度画像を分割対象とする.更に,未分割と過剰分割とを防ぐために,色エッジの強度画像に対する分割結果を初期領域として,ノイズ抑制を考慮した並列実行の領域統合を行う.提案手法を各種の画像へ適用した結果によりその有効性を示す.
  • Jun Inagaki, Jun Nakajima, Miki Haseyama
    2006 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS, VOLS 1-11, PROCEEDINGS 1784 - + 2006年 [査読有り][通常論文]
     
    Service restoration problem in distribution systems is formulated as a multi-objective optimization problem which is demanded not only for minimizing the amount of unrestored total loads but also for minimizing the number of the switching operations. The solution of the multi-objective optimization problem is usually obtained with a set of Pareto optimal solutions. The Pareto optimal solutions for the service restoration problem are useful for users to obtain their desired restoration by comparing a Pareto optimal solution with the others. However, the conventional methods cannot obtain several Pareto optimal solutions in one trial. Therefore, this paper proposes a method for obtaining the Pareto optimal set for the service restoration problem with a genetic algorithm. The genetic algorithm produces many possible solutions in its search process. By utilizing this feature, the proposed method can obtain the Pareto optimal set.
  • T Ogawa, M Haseyama, H Kitajima
    2005 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), VOLS 1-6, CONFERENCE PROCEEDINGS 4931 - 4934 2005年 [査読有り][通常論文]
     
    This paper proposes a GMRF-model based restoration method of missing areas in still images. The GMRF model used in the proposed method is realized by a new assumption that reasonably holds for an image source. This model can express important image features such as edges because of the use of the new assumption. Therefore, the proposed method restores the missing areas using the modified GMRF model and can correctly reconstruct the missing edges. Consequently, the proposed method achieves more accurate restoration than those of the traditional methods on both objective and subjective measures. Extensive experimental results demonstrate the improvement of the proposed method over the previous methods.
  • J Inagaki, M Haseyama
    2005 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), VOLS 1-6, CONFERENCE PROCEEDINGS 2239 - 2242 2005年 [査読有り][通常論文]
     
    This paper presents a method of searching for the shortest route via the most designated points among the routes whose lengths are less than the upper bound using a genetic algorithm (GA). If chromosomes whose route lengths exceed the upper bound are simply screened out in the GA process, the optimization probability gets worse. For the purpose of solving this problem, this paper proposes a new fitness function including an upper bound constraint which can be flexibly changed during the searching process. By using this function, the optimum is efficiently obtained and the optimization probability can be raised. Furthermore, the effectiveness of the proposed method is verified by the experiments applying it to the actual map data.
  • N Nitanda, M Haseyama, H Kitajima
    2005 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), VOLS 1-6, CONFERENCE PROCEEDINGS 4030 - 4033 2005年 [査読有り][通常論文]
     
    A scene is regarded as a basic unit of audiovisual material, and thereby the boundaries between two adjacent scenes, which are called scene-cuts, must be detected in advance for audiovisual indexing. This paper proposes a scene-cut detection method. Since scene-cuts are associated with a simultaneous change of visual and audio characteristics, both audio and visual analyses are required for the scene-cut detection. For the audio signal analysis, the proposed method utilizes an audio signal segmentation and classification method using fuzzy c-means clustering, which has been proposed by the authors. For the visual signal analysis, the proposed method utilizes some visual segmentation methods. By using these methods simultaneously, the proposed method can accurately detect the scene-cuts, and thereby it is highly valuable for the preprocessing of the audiovisual indexing. Experimental results performed by applying the proposed method to real audiovisual material are shown to verify its high performance.
  • M Takezawa, H Sanada, K Watanabe, M Haseyama
    2005 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS), VOLS 1-6, CONFERENCE PROCEEDINGS 6320 - 6323 2005年 [査読有り][通常論文]
     
    This paper proposes a quality improvement technique for JPEG images by using fractal image coding. JPEG coding is a commonly used standard method of compressing images. However, in its decoded images, quantization noise is sometimes visible in high frequency regions, such as the edges of objects. Hence, in order for the JPEG coding to become a more powerful image-coding method, the JPEG image quality must be improved. Therefore, our method solves this problem by adding the obtained codes by the fractal image coding to improve the image quality. Some simulation results verify that the proposed method achieved higher coding-performance than the traditional JPEG coding.
  • M Takezawa, M Haseyama
    8TH WORLD MULTI-CONFERENCE ON SYSTEMICS, CYBERNETICS AND INFORMATICS, VOL VI, PROCEEDINGS 333 - 336 2004年 [査読有り][通常論文]
     
    This paper proposes an effective JPEG coding algorithm using fractal image coding for color images. In the JPEG images, quantization noise is sometimes visible in high frequency regions, such as the edges of objects. Hence, in order for the JPEG coding to become a more powerful image-coding method, the JPEG image quality must be improved. Therefore, in this paper, a quality improvement method for the color JPEG images is proposed by using the fractal image coding. Some simulation results verify that the proposed method can improve the image quality. in the high frequency regions and provide the decoded image with 0.4 dB higher quality than the traditional JPEG.
  • M Haseyama, A Matsumura
    2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL III, PROCEEDINGS 673 - 676 2003年 [査読有り][通常論文]
     
    This paper proposes a novel method to retrieve cartoon character images in a database or network. In this method, partial features of an image, defined as Regions and Aspects, are used as keys to identify cartoon character images. The similarities between a query cartoon character image and the images in the database are computed by using these features. Based on the similarities the cartoon images same or similar to the query image are identified and retrieved from the database. Moreover, our method adopts a training scheme to reflect the user's subjectivity. The training emphasizes the signficant Regions or Aspects by assigning more weight based on the user's preferences and actions, such as selecting a desired image or an area of an image. These processes make the retrieval more effective and accurate. Experiment results verify the effectiveness and retrieval accuracy of the method.
  • M Haseyama, Kondo, I
    2003 INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO, VOL II, PROCEEDINGS 377 - 380 2003年 [査読有り][通常論文]
     
    This paper proposes a 2-D Functional AR Model for image identification. The definition of the proposed model includes functions that can exploit the self-similarity nature in images to throughly extract image features. By introducing the functional scheme into the model, only a few number of parameters, which are called 2-D Functional AR parameters, can describe the image features simply and accurately. These characteristics make the model suitable for image identification applications. Some experiments of image identification are performed, and the results verify that the proposed model accurately represents the image feature, and the image can be correctly, identified. The calculation time is fast enough for practical use in image retrieval.
  • K Kondo, M Haseyama, H Kitajima
    ISPA 2003: PROCEEDINGS OF THE 3RD INTERNATIONAL SYMPOSIUM ON IMAGE AND SIGNAL PROCESSING AND ANALYSIS, PTS 1 AND 2 1009 - 1012 2003年 [査読有り][通常論文]
     
    This paper proposes a novel impulse detection method for the restoration of images corrupted by impulse noise. Conventional impulse detection methods tend to work well for fixed-valued impulse noise but poorly for random-valued impulse noise. The proposed method can accurately detect not only fixed-valued but also random-valued impulse noise by using two different systems. The first system detects impulse noise by considering the di erences between the intensity of a target pixel and the output of a median filter The second system verifies whether the impulse detection results obtained by the first system are correct. By using these systems, the proposed method can accurately detect both types of impulse noise even in highly corrupted images. Furthermore, the proposed method can be e ectively used as a preprocessor for noise reduction filtering. Experiments are presented to demonstrate the e ectiveness of the proposed method.
  • Takekuma, I, M Haseyama, K Sueoka, K Mukasa
    JOURNAL OF MAGNETISM AND MAGNETIC MATERIALS 239 1-3 359 - 362 2002年02月 [査読有り][通常論文]
     
    This study analyzed the directional dependence of magnetic microstructures of media by focusing on the distribution of magnetic poles. Media, whose magnetic poles tend to be distributed along a specific direction in the DC-demagnetized state, have larger magnetization fluctuations in the transition region, larger medium noise and higher partial erasure (PE) probability than media with uniform magnetic pole distribution. (C) 2002 Elsevier Science B.V. All rights reserved.
  • Miki Haseyama, Megumi Takezawa, Junichi Miura, Hideo Kitajima
    10th European Signal Processing Conference(EUSIPCO) 1 - 4 2000年
  • M Akiho, M Haseyama, H Kitajima
    ICASSP '99: 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS VOLS I-VI 2387 - 2390 1999年 [査読有り][通常論文]
     
    In this paper, we propose a practical method to reduce a number of reference signals for the active noise cancellation (ANC) system and the filter characteristics to generate the reduced number of reference signals, which maintain the original value of the coherence function. This method finds the number of independent noise sources and provides the filter characteristics based on SVD (singular value decomposition) of the power spectrum matrix of the reference signals. Then, we also use the multiple coherence function analysis to select dominant components in the reference signals. The method contributes greatly in reducing the number of reference signals for the ANC system that uses the large number of reference signals. We also discuss the characteristics of the filters that synthesis the new set of reference signals. And an experimental test is performed to confirm the theory.
  • M Haseyama, M Kumagai, H Kitajima
    ICASSP '99: 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS VOLS I-VI 3445 - 3448 1999年 [査読有り][通常論文]
     
    In this paper a new genetic algorithm (GA) based image segmentation method is proposed for image analysis. This method using a mean square error (MSE) based criterion can segment an image into some regions, while estimating a suitable region representation. The criterion is defined as MSE caused by interpolating each region of an observed image with a parametric model. Since the criterion is expressed with not only the parameters of the model but also shape and location of the regions, the criterion can not be easily minimized by the usual optimization methods, the proposed method minimizes the criterion by a GA. The proposed method also includes a processor to eliminate fragile regions with the Markov random field (MRF) model. Though the thresholds of the existent methods negatively affect image segmentation results; since no thresholds are required in the proposed method, it segments images more accurately than the existent methods.
  • M HASEYAMA, T HIROHKU, H KITAJIMA
    1995 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS, VOLS 1-3 365 - 368 1995年 [査読有り][通常論文]
  • M HASEYAMA, N NAGAI, N MIKI
    IEEE INTERNATIONAL CONFERENCE ON SYSTEMS ENGINEERING 543 - 546 1992年 [査読有り][通常論文]

書籍

  • バイオメティクス・エコミメティクスー持続可能な循環型社会へ導く技術革新のヒントー
    (担当:共著範囲:pp.92-97)
    2021年01月
  • 人と共生する AI革命 活用事例から見る生活・産業・社会の未来展望
    (担当:共著範囲:pp.21-29)
    2019年06月
  • 持続可能社会を拓くバイオミメティクス--生物学と工学が築く材料科学
    (担当:共著範囲:pp.38-45)
    2018年03月
  • トコトンやさしいバイオミメティクスの本
    (担当:共著範囲:pp.136-137)
    2016年03月
  • 生物の形や能力を利用する学問 バイオミメティクス
    (担当:共著範囲:pp.124-132)
    2016年03月
  • 生物模倣技術と新材料・新製品開発への応用
    長谷山 美紀 (担当:共著範囲:第5節)
    2014年07月
  • 長谷山 美紀 
    [北海道大学大学院情報科学研究科] 2005年

講演・口頭発表等

  • 高橋翔, 長谷山美紀
    映像情報メディア学会技術報告 2015年12月
  • 高橋翔, 長谷山美紀
    映像情報メディア学会技術報告 2015年12月
  • 佐坂勇磨, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 高橋翔, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 菅田健斗, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 藤後廉, 石原賢太, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 前田圭介, 高橋翔, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 竹原大智, 原川良介, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 高橋翔, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 斉藤直輝, 小川貴弘, 浅水仁, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2015年11月
  • 山口由晃, 小川貴弘, 浅水仁, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 石原賢太, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 廣川真梨子, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • PIAO Jun, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 原川良介, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 斉藤直輝, 小川貴弘, 浅水仁, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 五十嵐祐太, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 三改木裕矢, 高橋翔, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 澤田充奨, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 川上拓也, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2015年02月
  • 高橋翔, 長谷山美紀
    映像情報メディア学会技術報告 2014年12月
  • 木下奨平, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 三改木裕矢, 高橋翔, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 田中佑磨, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 前田圭介, 高橋翔, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 竹原大智, 原川良介, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 斉藤直輝, 小川貴弘, 浅水仁, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 館農浩平, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 山口由晃, 小川貴弘, 浅水仁, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2014年10月
  • 長谷山美紀
    高分子学会予稿集(CD-ROM) 2014年09月
  • 長谷山美紀
    日本動物学会大会予稿集 2014年08月
  • 長谷山美紀
    電子情報通信学会技術研究報告 2014年03月
  • 中西亮太, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 和田直史, 数井誠人, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 五十嵐祐太, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 川上拓也, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • PIAO Jun, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 原川良介, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 吉田壮, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • SONG Yan, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 廣川真梨子, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 高橋昌弘, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 岩井和也, 高橋翔, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 小林克希, 高橋翔, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • 大貫修平, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2014年02月
  • OGAWA Takahiro, HASEYAMA Miki
    Proc IEEE Int Conf Acoust Speech Signal Process 2014年
  • HARAKAWA Ryosuke, OGAWA Takahiro, HASEYAMA Miki
    Dig Tech Pap IEEE Int Conf Consum Electron 2014年
  • KAWAKAMI Takuya, OGAWA Takahiro, HASEYAMA Miki
    Proc IEEE Int Conf Acoust Speech Signal Process 2014年
  • 石原賢太, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2013年10月
  • 澤田充奨, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2013年10月
  • 川島孝行, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2013年10月
  • 長谷山美紀
    電子情報通信学会技術研究報告 2013年09月
  • 大村 光徳, 山嵜 彰一郎, 松嶋 智子, 田中 宏和, 長谷山 美紀
    電子情報通信学会技術研究報告. SIS, スマートインフォメディアシステム 2013年09月 
    3次元離散ウェーブレット変換(3D DWT)を用いて符号化されたビデオ伝送における誤り耐性強化の方式として,共著者らにより3D DWT出力の最低周波数成分(LL)の二重化方式が提案されている.本稿ではLL係数二重化のビット数を減らし,LL隣接係数を二重化する方式,および誤りのある係数を値"ゼロ"に置換することにより修復する,誤り耐性強化方式を提案する.伝送路にバースト誤りモデルを適用したシミュレーションにより比較評価を行い,PSNRおよびビデオの再生画質において,提案方式による誤り耐性強化の有効性が確認された.
  • 大村 光徳, 山嵜 彰一郎, 松嶋 智子, 田中 宏和, 長谷山 美紀
    電子情報通信学会技術研究報告. IT, 情報理論 2013年07月 
    本稿では,3次元離散ウェーブレット変換(three-dimensional discrete wavelet transform: 3D DWT)を用いたビデオ伝送において,インバーティブル誤り訂正符号を利用した誤り耐性強化方式を提案する.近年,ビデオ伝送にウェーブレット変換を適用する多くの研究がなされてきているが,そのなかで,ウェーブレット変換出力の最低周波数成分がビデオの再生画質に大きな影響を与えることが知られている.本提案では,この最低周波数成分の伝送に符号化率1/2のインバーティブル誤り訂正符号を適用し,誤り耐性を強化する.シミュレーションでは,共著者が提案している最低周波数成分の二重化による従来方式と比較し,誤り耐性の向上を評価する.
  • 長谷山美紀
    高分子夏季大学講演予稿集 2013年07月
  • 大貫修平, 高橋翔, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 白石哲夫, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 山之内豊, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 桂井麻里衣, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 松野恵一, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 畠山泰貴, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 高橋信太郎, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 岩井和也, 高橋翔, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 中西亮太, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 吉田壮, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 小林克希, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 吉崎茜, 桂井麻里衣, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 久保純貴, 高橋翔, 小川貴弘, 長谷山美紀
    電子情報通信学会技術研究報告 2013年02月
  • 高橋翔, 長谷山美紀
    映像情報メディア学会冬季大会講演予稿集(CD-ROM) 2012年11月
  • 大貫修平, 高橋翔, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 中西亮太, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 小林克希, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 白石哲夫, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 高橋信太郎, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 松野恵一, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 山之内豊, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 宋妍, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 吉田壮, 小川貴弘, 長谷山美紀
    電気・情報関係学会北海道支部連合大会講演論文集(CD-ROM) 2012年10月
  • 畠山 泰貴, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 高橋 信太郎, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 何 再興, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 畠山 泰貴, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 高橋 翔, 嶌田 聡, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • ペンコフ マイケル, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 白石 哲夫, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 何 再興, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 高橋 信太郎, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 高橋 翔, 嶌田 聡, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • ペンコフ マイケル, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 白石 哲夫, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告 : 信学技報 2012年02月
  • 海田 健, 長谷山 美紀, 北島 秀夫, 富田 眞吾
    電子情報通信学会技術研究報告. ITS 2012年02月 
    クラスタ分析手法(クラスタリング手法)であるDynamic Coalescence Model(DCM)の計算量が削減された,DCMの改良手法を提案する.多くの混合分布において,その構成分布の数は未知であり,形は複雑である.その上,構成分布の位置関係は複雑である.DCMを用いることにより,その様な構成分布を点の集まり(クラスタ)に分割することが可能になる.しかし,DCMが計算量は多いため,実用的でない.提案する改良DCMの計算時間は,オリジナルDCMの計算時間より短い.
  • 海田 健, 長谷山 美紀, 北島 秀夫, 富田 眞吾
    電子情報通信学会技術研究報告. ITS 2012年02月
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2012年02月
  • 海田 健, 長谷山 美紀, 北島 秀夫, 富田 眞吾
    電子情報通信学会技術研究報告. IE, 画像工学 2012年02月
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2012年02月
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2012年02月 
    本文では,電子レセプトから医療資源を最も投入した傷病を推定する手法を提案する.提案手法では,確率的トピックモデルの一手法であるLabeled LDAにより,傷病に対する診療内容を診療行為,医薬品および特定保険医療材料の確率分布として表し,電子レセプトに記載された複数の傷病に対する診療内容をそれらの混合分布として表すモデルを構築する.この結果を用いることで傷病毎の診療報酬点数の推計を行うことが可能となり,高精度な傷病の推定が実現する.
  • 海田 健, 長谷山 美紀, 北島 秀夫, 富田 眞吾
    電子情報通信学会技術研究報告. IE, 画像工学 2012年02月 
    クラスタ分析手法(クラスタリング手法)であるDynamic Coalescence Model(DCM)の計算量が削減された,DCMの改良手法を提案する.多くの混合分布において,その構成分布の数は未知であり,形は複雑である.その上,構成分布の位置関係は複雑である.DCMを用いることにより,その様な構成分布を点の集まり(クラスタ)に分割することが可能になる.しかし,DCMが計算量は多いため,実用的でない.提案する改良DCMの計算時間は,オリジナルDCMの計算時間より短い.
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2012年02月 
    本文では,電子レセプトから医療資源を最も投入した傷病を推定する手法を提案する.提案手法では,確率的トピックモデルの一手法であるLabeled LDAにより,傷病に対する診療内容を診療行為,医薬品および特定保険医療材料の確率分布として表し,電子レセプトに記載された複数の傷病に対する診療内容をそれらの混合分布として表すモデルを構築する.この結果を用いることで傷病毎の診療報酬点数の推計を行うことが可能となり,高精度な傷病の推定が実現する.
  • 海田 健, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2012年02月
  • 久保 純貴, 高橋 翔, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会年次大会講演予稿集 2011年08月 
    This paper presents a detection method of important events based on relationship between player action and sound on stadium in soccer videos. Generally, since player action and sound on stadium have high correlation in the important events, we realize the detection by using their relationship based on canonical correlation analysis.
  • 吉崎 茜, 和泉 大佑, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会年次大会講演予稿集 2011年08月 
    This paper presents a method for blurred image restoration. The proposed method adopts object matching for PSF estimation and adaptive parameter setting of a prior probability distribution for latent image estimation. Then, accurate blur removal becomes feasible without suffering from ringing artifacts.
  • 高谷 太紹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,購買履歴データを解析することで,複数のユーザにより構成されるユーザ集合の嗜好を分析し,それを可視化する手法を提案する.提案手法は,同時に購買された商品の組み合わせから特徴ベクトルを定義し,あらかじめユーザをプロフィールにより分類することで求めたユーザ集合を,互いに比較することでユーザ集合間の嗜好の差異を表現する.提案手法は,Bag-oLWbrdsに着想を得たデータ解析を行っており,あるユーザの購買履歴データが十分に得られていない場合でも,そのユーザを含むユーザ集合の購買履歴データを利用し,ユーザ集合の嗜好を推定することが可能となる.さらに,算出されたユーザ集合の嗜好を表す特徴ベクトルに対し,多次元尺度構成法を施すことにより,その嗜好の可視化も可能とする.
  • 西野 泰典, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,道路監視カメラにより撮像された映像から走行車両の検出を行い,その検出結果より車速計測,車種判別を行う手法を提案する.提案手法では,日照条件によって,車体またはヘッドライトの光に基づいた,車速計測,車種判別を実現する.また,薄暮時など,短時間で日照が変化する環境下での交通流計測の高精度化を行うために,検出に利用される特徴である車体またはヘッドライトの光を対象の映像より自動で選択する処理を導入する.これにより,薄暮時の映像において,輝度ヒストグラムを用いて昼夜の交通流計測手法を切り替えた場合よりも,頑健な交通流計測が期待される.
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,電子レセプトデータに記載されている診療情報から医療資源を最も投入した傷病名を推定する手法について提案する.提案手法では,医療資源を最も投入した傷病名が明記されているDiagnosis Procedure Combination(DPC)データを教師データとし,診療情報から算出される特徴ベクトルと医療資源を最も投入した傷病名を表すラベルの組を用いて識別器を構築する.これにより,電子レセプトデータから医療資源を最も投入した傷病名の推定が可能となる.また本文では,複数種類の識別器より得られる推定結果を併用することにより,傷病名推定の高精度化について検討する.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,ぶれにより劣化した低解像度動画像に対して,ぶれ関数を推定し,ぶれの除去及び高解像度化を同時に行う手法を提案する.提案手法では,高解像度フレームとぶれ関数の事後確率を定義することで,最大事後確率推定を用いて,それらを同時に推定する.このとき,ぶれ関数については,輝度勾配に注目し,フレーム中から自動で選択したエッジを多く含む領域を用いて,その推定を行う.このように,ぶれ関数の推定に適した領域を用いることで,その精度の向上が期待できる.以上により,提案手法では,ぶれ関数の推定誤差により生じる再構成結果の劣化を抑制し,高精度にぶれの除去及び高解像度化を実現する.
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,撮像物体の対応を考慮したMarkov Chain Monte Carlo(MCMC)法に基づくシーン分割手法を提案する.提案手法では,映像中に含まれる対象物体の回転,スケール変化及び照明の変化に頑健なSIFT特徴量を用いて,特徴点による物体の対応付けを行い,得られるショット間の類似度に基づいて映像の構造に基づくシーン境界候補の抽出を行う.このとき,SIFTを用いることで,従来の手法で多く用いられる色ヒストグラム特徴量を用いた場合に撮像環境における対象物体の変化が大きいために発生していたシーンの過分割を抑制することが可能となる.さらに,提案手法ではMCMC法に基づいてシーン境界候補から真のシーン境界を推定する.このとき,映像の構造に注目して,シーン分割を行うことにより,従来のMCMC法を用いた手法に比べ,映像の構造を明確に持つ映像コンテンツのシーン分割が可能となる.本文の最後では,実際にテレビで放送された映像に対して提案手法を適用し,その有効性を確認する.さらに,提案手法及び従来手法で用いられる各特徴量がシーン分割に与える影響について考察を行う.
  • 長谷川 尭史, 小川 貴弘, 渡邉 日出海, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,Support Vector Data Description(SVDD)を用いた顕微鏡画像中に含まれる生物の自動分類法を提案する.提案手法では,数種類の底生生物の画像を対象としてSVDDを用いた学習を行い,生成された識別器を用いて実際に撮像した顕微鏡画像中に含まれる生物の生物種分類を行う.このとき,SVDDの識別のみでは一度に多くの生物種を高精度に分類することは困難であるため,階層的な分岐処理を導入する.具体的に高精度に識別可能な生物種を順次取り除き生物種を絞り込むことで,複数の生物種を扱った場合でもより高精度な分類を行うことを可能とする.
  • 李 徳智, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,複数の気象データを用いたフロー推定の高精度化に関する検討を行う.提案手法では,雲量のデータから三次元空間におけるフローを推定するため,二次元データを処理するための従来手法を三次元へ拡張する.さらに,風速や上昇流のデータからフロー推定の際の制約条件を新たに設定する.これにより,雲量のみを利用したフロー推定法と比較して,より高精度なフローの算出を可能とする.
  • 岡田 周史, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,対象物検出機能を含むSVDDに基づく識別器の高精度化手法を提案する.提案手法では,対象物を含む学習画像からSVDDにより算出される超球の中心からの距離に基づいて,対象物を含む領域を自動で選択し,新たな学習画像を生成する.これにより,対象物の位置や向き,大きさ,形状などが多様な学習画像を用いた場合であっても,対象物を含む領域のみを新たに正例として識別器の学習に利用することが可能となる.また,選択された領域を内包する様々なサイズの局所ブロックも同時に新たな正例として利用することで,対象物を含む正例のバリエーションを増やすことが可能となる.以上により,近年の学習に基づく手法や局所特徴に基づく手法において困難であった,対象物を含む領域の自動選択,および得られる領域に基づく新たな学習画像の生成が可能となり,識別精度の向上が実現される.本文の最後では,提案手法の有効性を確認するため,実画像を用いた比較実験により性能の評価を行う.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,以前に我々が提案した映像から取得される人間の動きと楽曲の関係に基づく楽曲推薦手法の高精度化と自動化について検討を行う.提案手法では,カーネル正準相関分析に基づく人間の動きと楽曲との関係のモデル化を行う際人間が含まれる領域を予め与える必要がある.そこで,本文では,映像から得られる動き特徴に基づき,人間が撮像されている領域の自動抽出を可能とし,自動で楽曲を推薦することを可能とする.本文の最後では,映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 高橋 翔, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本稿では,サッカー映像においてパスが可能な領域を推定する際に用いている2つのパラメータ,選手の走行速度およびボールの速度の適応的な設定法を導入することで,より高精度なパス可能領域の推定を実現する.我々はこれまで,ボールの速度や選手の走行速度としてその平均値を用い,選手位置に基づいてパス可能領域の推定を行った.しかしながら,実際のサッカー競技においてパスが行われる場面では,試合の状況や選手の身体能力によってボールおよび選手の速度が大きく異なり,それらは攻撃および守備の選手同士の距離や密度によって変化している.よって,より高精度なパス可能領域の推定を実現するためには,ボールの速度および選手の走行速度を攻撃および守備の選手同士の距離や密度に基づいて適応的に設定する必要がある。そこで,提案手法では,サッカー映像から取得する選手位置を用いて,選手の走行速度およびボールの速度に関するパラメータの適応的な設定を行う.これにより,パス可能領域の推定手法の高精度化が実現される.
  • 畠山 泰貴, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,Locality Sensitive Hashingを用いた映像特徴量に基づく高速なWebコミュニティ抽出手法を提案する.提案手法は映像から得られる画像,音響及び映像を含むWebページから得られるテキスト特徴に対し,Locality Sensitive Hashingを施すことで高速に映像間の類似度計算を可能とする.さらに,得られた映像問の類似度と映像を含むWebページのリンク関係に基づいて類似した内容の映像集合であるWebコミュニティの抽出を行う.したがって,提案手法は高速にWebコミュニティの抽出が可能となり,大規模なデータセットに対しても高速な映像検索が実現される.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    本文では,画像特徴を用いたキーワードの階層化手法を提案し,その画像アノテーションへの応用について検討する.提案手法では,意味的に上位となるキーワードほど,そのキーワードの付与された画像セットにおける画像特徴のばらつきが大きくなることに着目し,以下のアプローチによりキーワードの階層化を行う.まず,あるキーワードに関する画像セットにおいて,画像特徴に基づくクラスタリングを適用する。次に,得られた結果に対し,キーワードの視覚的多様性を表す指標を導入する.具体的に,この指標は,各クラスタにおける画像特徴の分散及びクラスタ間の類似度から算出し,値を降順に並べることで,画像特徴に基づくキーワードの階層化が可能となる.得られた階層性に基づき,まず意味的に下位となるキーワードを画像特徴を用いて推定し,それらのキーワードと強い関係を持つ上位のキーワードを付与することで,画像アノテーションの高精度化が期待される.
  • 高谷 太紹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,購買履歴データを解析することで,複数のユーザにより構成されるユーザ集合の嗜好を分析し,それを可視化する手法を提案する.提案手法は,同時に購買された商品の組み合わせから特徴ベクトルを定義し,あらかじめユーザをプロフィールにより分類することで求めたユーザ集合を,互いに比較することでユーザ集合間の嗜好の差異を表現する.提案手法は,Bag-oLWbrdsに着想を得たデータ解析を行っており,あるユーザの購買履歴データが十分に得られていない場合でも,そのユーザを含むユーザ集合の購買履歴データを利用し,ユーザ集合の嗜好を推定することが可能となる.さらに,算出されたユーザ集合の嗜好を表す特徴ベクトルに対し,多次元尺度構成法を施すことにより,その嗜好の可視化も可能とする.
  • 西野 泰典, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,道路監視カメラにより撮像された映像から走行車両の検出を行い,その検出結果より車速計測,車種判別を行う手法を提案する.提案手法では,日照条件によって,車体またはヘッドライトの光に基づいた,車速計測,車種判別を実現する.また,薄暮時など,短時間で日照が変化する環境下での交通流計測の高精度化を行うために,検出に利用される特徴である車体またはヘッドライトの光を対象の映像より自動で選択する処理を導入する.これにより,薄暮時の映像において,輝度ヒストグラムを用いて昼夜の交通流計測手法を切り替えた場合よりも,頑健な交通流計測が期待される.
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,電子レセプトデータに記載されている診療情報から医療資源を最も投入した傷病名を推定する手法について提案する.提案手法では,医療資源を最も投入した傷病名が明記されているDiagnosis Procedure Combination(DPC)データを教師データとし,診療情報から算出される特徴ベクトルと医療資源を最も投入した傷病名を表すラベルの組を用いて識別器を構築する.これにより,電子レセプトデータから医療資源を最も投入した傷病名の推定が可能となる.また本文では,複数種類の識別器より得られる推定結果を併用することにより,傷病名推定の高精度化について検討する.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,ぶれにより劣化した低解像度動画像に対して,ぶれ関数を推定し,ぶれの除去及び高解像度化を同時に行う手法を提案する.提案手法では,高解像度フレームとぶれ関数の事後確率を定義することで,最大事後確率推定を用いて,それらを同時に推定する.このとき,ぶれ関数については,輝度勾配に注目し,フレーム中から自動で選択したエッジを多く含む領域を用いて,その推定を行う.このように,ぶれ関数の推定に適した領域を用いることで,その精度の向上が期待できる.以上により,提案手法では,ぶれ関数の推定誤差により生じる再構成結果の劣化を抑制し,高精度にぶれの除去及び高解像度化を実現する.
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,撮像物体の対応を考慮したMarkov Chain Monte Carlo(MCMC)法に基づくシーン分割手法を提案する.提案手法では,映像中に含まれる対象物体の回転,スケール変化及び照明の変化に頑健なSIFT特徴量を用いて,特徴点による物体の対応付けを行い,得られるショット間の類似度に基づいて映像の構造に基づくシーン境界候補の抽出を行う.このとき,SIFTを用いることで,従来の手法で多く用いられる色ヒストグラム特徴量を用いた場合に撮像環境における対象物体の変化が大きいために発生していたシーンの過分割を抑制することが可能となる.さらに,提案手法ではMCMC法に基づいてシーン境界候補から真のシーン境界を推定する.このとき,映像の構造に注目して,シーン分割を行うことにより,従来のMCMC法を用いた手法に比べ,映像の構造を明確に持つ映像コンテンツのシーン分割が可能となる.本文の最後では,実際にテレビで放送された映像に対して提案手法を適用し,その有効性を確認する.さらに,提案手法及び従来手法で用いられる各特徴量がシーン分割に与える影響について考察を行う.
  • 岡田 周史, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,対象物検出機能を含むSVDDに基づく識別器の高精度化手法を提案する.提案手法では,対象物を含む学習画像からSVDDにより算出される超球の中心からの距離に基づいて,対象物を含む領域を自動で選択し,新たな学習画像を生成する.これにより,対象物の位置や向き,大きさ,形状などが多様な学習画像を用いた場合であっても,対象物を含む領域のみを新たに正例として識別器の学習に利用することが可能となる.また,選択された領域を内包する様々なサイズの局所ブロックも同時に新たな正例として利用することで,対象物を含む正例のバリエーションを増やすことが可能となる.以上により,近年の学習に基づく手法や局所特徴に基づく手法において困難であった,対象物を含む領域の自動選択,および得られる領域に基づく新たな学習画像の生成が可能となり,識別精度の向上が実現される.本文の最後では,提案手法の有効性を確認するため,実画像を用いた比較実験により性能の評価を行う.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,以前に我々が提案した映像から取得される人間の動きと楽曲の関係に基づく楽曲推薦手法の高精度化と自動化について検討を行う.提案手法では,カーネル正準相関分析に基づく人間の動きと楽曲との関係のモデル化を行う際人間が含まれる領域を予め与える必要がある.そこで,本文では,映像から得られる動き特徴に基づき,人間が撮像されている領域の自動抽出を可能とし,自動で楽曲を推薦することを可能とする.本文の最後では,映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 高橋 翔, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本稿では,サッカー映像においてパスが可能な領域を推定する際に用いている2つのパラメータ,選手の走行速度およびボールの速度の適応的な設定法を導入することで,より高精度なパス可能領域の推定を実現する.我々はこれまで,ボールの速度や選手の走行速度としてその平均値を用い,選手位置に基づいてパス可能領域の推定を行った.しかしながら,実際のサッカー競技においてパスが行われる場面では,試合の状況や選手の身体能力によってボールおよび選手の速度が大きく異なり,それらは攻撃および守備の選手同士の距離や密度によって変化している.よって,より高精度なパス可能領域の推定を実現するためには,ボールの速度および選手の走行速度を攻撃および守備の選手同士の距離や密度に基づいて適応的に設定する必要がある。そこで,提案手法では,サッカー映像から取得する選手位置を用いて,選手の走行速度およびボールの速度に関するパラメータの適応的な設定を行う.これにより,パス可能領域の推定手法の高精度化が実現される.
  • 長谷川 尭史, 小川 貴弘, 渡邉 日出海, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,Support Vector Data Description(SVDD)を用いた顕微鏡画像中に含まれる生物の自動分類法を提案する.提案手法では,数種類の底生生物の画像を対象としてSVDDを用いた学習を行い,生成された識別器を用いて実際に撮像した顕微鏡画像中に含まれる生物の生物種分類を行う.このとき,SVDDの識別のみでは一度に多くの生物種を高精度に分類することは困難であるため,階層的な分岐処理を導入する.具体的に高精度に識別可能な生物種を順次取り除き生物種を絞り込むことで,複数の生物種を扱った場合でもより高精度な分類を行うことを可能とする.
  • 李 徳智, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,複数の気象データを用いたフロー推定の高精度化に関する検討を行う.提案手法では,雲量のデータから三次元空間におけるフローを推定するため,二次元データを処理するための従来手法を三次元へ拡張する.さらに,風速や上昇流のデータからフロー推定の際の制約条件を新たに設定する.これにより,雲量のみを利用したフロー推定法と比較して,より高精度なフローの算出を可能とする.
  • 畠山 泰貴, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,Locality Sensitive Hashingを用いた映像特徴量に基づく高速なWebコミュニティ抽出手法を提案する.提案手法は映像から得られる画像,音響及び映像を含むWebページから得られるテキスト特徴に対し,Locality Sensitive Hashingを施すことで高速に映像間の類似度計算を可能とする.さらに,得られた映像問の類似度と映像を含むWebページのリンク関係に基づいて類似した内容の映像集合であるWebコミュニティの抽出を行う.したがって,提案手法は高速にWebコミュニティの抽出が可能となり,大規模なデータセットに対しても高速な映像検索が実現される.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    本文では,画像特徴を用いたキーワードの階層化手法を提案し,その画像アノテーションへの応用について検討する.提案手法では,意味的に上位となるキーワードほど,そのキーワードの付与された画像セットにおける画像特徴のばらつきが大きくなることに着目し,以下のアプローチによりキーワードの階層化を行う.まず,あるキーワードに関する画像セットにおいて,画像特徴に基づくクラスタリングを適用する。次に,得られた結果に対し,キーワードの視覚的多様性を表す指標を導入する.具体的に,この指標は,各クラスタにおける画像特徴の分散及びクラスタ間の類似度から算出し,値を降順に並べることで,画像特徴に基づくキーワードの階層化が可能となる.得られた階層性に基づき,まず意味的に下位となるキーワードを画像特徴を用いて推定し,それらのキーワードと強い関係を持つ上位のキーワードを付与することで,画像アノテーションの高精度化が期待される.
  • 高谷 太紹, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,購買履歴データを解析することで,複数のユーザにより構成されるユーザ集合の嗜好を分析し,それを可視化する手法を提案する.提案手法は,同時に購買された商品の組み合わせから特徴ベクトルを定義し,あらかじめユーザをプロフィールにより分類することで求めたユーザ集合を,互いに比較することでユーザ集合間の嗜好の差異を表現する.提案手法は,Bag-of-Wordsに着想を得たデータ解析を行っており,あるユーザの購買履歴データが十分に得られていない場合でも,そのユーザを含むユーザ集合の購買履歴データを利用し,ユーザ集合の嗜好を推定することが可能となる.さらに,算出されたユーザ集合の嗜好を表す特徴ベクトルに対し,多次元尺度構成法を施すことにより,その嗜好の可視化も可能とする.
  • 西野 泰典, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,道路監視カメラにより撮像ざれた映像から走行車両の検出を行い,その検出結果より車速計測,車種判別を行う手法を提案する.提案手法では,日照条件によって,車体またはヘッドライトの光に基づいた,車速計測,車種判別を実現する.また,薄暮時など,短時間で日照が変化する環境下での交通流計測の高精度化を行うために,検出に利用される特徴である車体またはヘッドライトの光を対象の映像より自動で選択する処理を導入する.これにより,薄暮時の映像において,輝度ヒストグラムを用いて昼夜の交通流計測手法を切り替えた場合よりも,頑健な交通流計測が期待される.
  • 池田 啓典, 畠山 泰貴, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,電子レセプトデータに記載されている診療情報から医療資源を最も投入した傷病名を推定する手法について提案する.提案手法では,医療資源を最も投入した傷病名が明記されているDiagnosis Procedure Combination(DPC)データを教師データとし,診療情報から算出される特徴ベクトルと医療資源を最も投入した傷病名を表すラベルの組を用いて識別器を構築する.これにより,電子レセプトデータから医療資源を最も投入した傷病名の推定が可能となる.また本文では,複数種類の識別器より得られる推定結果を併用することにより,傷病名推定の高精度化について検討する.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,ぶれにより劣化した低解像度動画像に対して,ぶれ関数を推定し,ぶれの除去及び高解像度化を同時に行う手法を提案する.提案手法では,高解像度フレームとぶれ関数の事後確率を定義することで,最大事後確率推定を用いて,それらを同時に推定する.このとき,ぶれ関数については,輝度勾配に注目し,フレーム中から自動で選択したエッジを多く含む領域を用いて,その推定を行う.このように,ぶれ関数の推定に適した領域を用いることで,その精度の向上が期待できる.以上により,提案手法では,ぶれ関数の推定誤差により生じる再構成結果の劣化を抑制し,高精度にぶれの除去及び高解像度化を実現する.
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,撮像物体の対応を考慮したMarkov Chain Monte Carlo (MCMC)法に基づくシーン分割手法を提案する.提案手法では,映像中に含まれる対象物体の回転,スケール変化及び照明の変化に頑健なSIFT特徴量を用いて,特徴点による物体の対応付けを行い,得られるショット間の類似度に基づいて映像の構造に基づくシーン境界候補の抽出を行う.このとき,SIFTを用いることで,従来の手法で多く用いられる色ヒストグラム特徴量を用いた場合に撮像環境における対象物体の変化が大きいために発生していたシーンの過分割を抑制することが可能となる.さらに,提案手法ではMCMC法に基づいてシーン境界候補から真のシーン境界を推定する.このとき,映像の構造に注目して,シーン分割を行うことにより,従来のMCMC法を用いた手法に比べ,映像の構造を明確に持つ映像コンテンツのシーン分割が可能となる.本文の最後では,実際にテレビで放送された映像に対して提案手法を適用し,その有効性を確認する.さらに,提案手法及び従来手法で用いられる各特徴量がシーン分割に与える影響について考察を行う.
  • 長谷川 尭史, 小川 貴弘, 渡邉 日出海, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,Support Vector Data Description(SVDD)を用いた顕微鏡画像中に含まれる生物の自動分類法を提案する.提案手法では,数種類の底生生物の画像を対象としてSVDDを用いた学習を行い,生成された識別器を用いて実際に撮像した顕微鏡画像中に含まれる生物の生物種分類を行う.このとき,SVDDの識別のみでは一度に多くの生物種を高精度に分類することは困難であるため,階層的な分岐処理を導入する.具体的に高精度に識別可能な生物種を順次取り除き生物種を絞り込むことで,複数の生物種を扱った場合でもより高精度な分類を行うことを可能とする.
  • 李 徳智, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,複数の気象データを用いたフロー推定の高精度化に関する検討を行う.提案手法では,雲量のデータから三次元空間におけるフローを推定するため,二次元データを処理するための従来手法を三次元へ拡張する.さらに,風速や上昇流のデータからフロー推定の際の制約条件を新たに設定する.これにより,雲量のみを利用したフロー推定法と比較して,より高精度なフローの算出を可能とする.
  • 岡田 周史, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,対象物検出機能を含むSVDDに基づく識別器の高精度化手法を提案する.提案手法では,対象物を含む学習画像からSVDDにより算出される超球の中心からの距離に基づいて,対象物を含む領域を自動で選択し,新たな学習画像を生成する.これにより,対象物の位置や向き,大きさ,形状などが多様な学習画像を用いた場合であっても,対象物を含む領域のみを新たに正例として識別器の学習に利用することが可能となる.また,選択された領域を内包する様々なサイズの局所ブロックも同時に新たな正例として利用することで,対象物を含む正例のバリエーションを増やすことが可能となる.以上により,近年の学習に基づく手法や局所特徴に基づく手法において困難であった,対象物を含む領域の自動選択,および得られる領域に基づく新たな学習画像の生成が可能となり,識別精度の向上が実現される.本文の最後では,提案手法の有効性を確認するため,実画像を用いた比較実験により性能の評価を行う.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,以前に我々が提案した映像から取得される人間の動きと楽曲の関係に基づく楽曲推薦手法の高精度化と自動化について検討を行う.提案手法では,カーネル正準相関分析に基づく人間の動きと楽曲との関係のモデル化を行う際,人間が含まれる領域を予め与える必要がある.そこで,本文では,映像から得られる動き特徴に基づき,人間が撮像されている領域の自動抽出を可能とし,自動で楽曲を推薦することを可能とする.本文の最後では,映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 高橋 翔, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本稿では,サッカー映像においてパスが可能な領域を推定する際に用いている2つのパラメータ,選手の走行速度およびボールの速度の適応的な設定法を導入することで,より高精度なパス可能領域の推定を実現する.我々はこれまで,ボールの速度や選手の走行速度としてその平均値を用い,選手位置に基づいてパス可能領域の推定を行った.しかしながら,実際のサッカー競技においてパスが行われる場面では,試合の状況や選手の身体能力によってボールおよび選手の速度が大きく異なり,それらは攻撃および守備の選手同士の距離や密度によって変化している.よって,より高精度なパス可能領域の推定を実現するためには,ボールの速度および選手の走行速度を攻撃および守備の選手同士の距離や密度に基づいて適応的に設定する必要がある.そこで,提案手法では,サッカー映像から取得する選手位置を用いて,選手の走行速度およびボールの速度に関するパラメータの適応的な設定を行う,これにより,パス可能領域の推定手法の高精度化が実現される.
  • 畠山 泰貴, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,Locality Sensitive Hashingを用いた映像特徴量に基づく高速なWebコミュニティ抽出手法を提案する.提案手法は映像から得られる画像,音響及び映像を含むWebページから得られるテキスト特徴に対し,Locality Sensitive Hashingを施すことで高速に映像間の類似度計算を可能とする.さらに,得られた映像間の類似度と映像を含むWebページのリンク関係に基づいて類似した内容の映像集合であるWebコミュニティの抽出を行う.したがって,提案手法は高速にWebコミュニティの抽出が可能となり,大規模なデータセットに対しても高速な映像検索が実現される.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    本文では,画像特徴を用いたキーワードの階層化手法を提案し,その画像アノテーションへの応用について検討する.提案手法では,意味的に上位となるキーワードほど,そのキーワードの付与された画像セットにおける画像特徴のばらつきが大きくなることに着目し,以下のアプローチによりキーワードの階層化を行う.まず,あるキーワードに関する画像セットにおいて,画像特徴に基づくクラスタリングを適用する。次に,得られた結果に対し,キーワードの視覚的多様性を表す指標を導入する.具体的に,この指標は,各クラスタにおける画像特徴の分散及びクラスタ間の類似度から算出し,値を降順に並べることで,画像特徴に基づくキーワードの階層化が可能となる.得られた階層性に基づき,まず意味的に下位となるキーワードを画像特徴を用いて推定し,それらのキーワードと強い関係を持つ上位のキーワードを付与することで,画像アノテーションの高精度化が期待される.
  • 任 捷, 永井 信夫, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2011年02月 
    1次元格子振動は運動方程式で表され,その方程式は差分方程式で表される.差分方程式は回路理論を用いると,等価回路としてLC梯子形回路が得られる.ここに,Lはインダクタンスを表し,Cはキャパシタンスを表す.本文では差分方程式から得られるLC梯子形等価回路を利用して,一次元格子振動の特徴を回路解析手法を応用し,固有振動を共鳴現象の終端を開放や短絡の状態として求める.
  • 任 捷, 永井 信夫, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2011年02月 
    1次元格子振動は運動方程式で表され,その方程式は差分方程式で表される.差分方程式は回路理論を用いると,等価回路としてLC梯子形回路が得られる.ここに,Lはインダクタンスを表し,Cはキャパシタンスを表す.本文では差分方程式から得られるLC梯子形等価回路を利用して,一次元格子振動の特徴を回路解析手法を応用し,固有振動を共鳴現象の終端を開放や短絡の状態として求める.
  • 任 捷, 永井 信夫, 長谷山 美紀
    映像情報メディア学会技術報告 2011年02月 
    1次元格子振動は運動方程式で表され,その方程式は差分方程式で表される.差分方程式は回路理論を用いると,等価回路としてLC梯子形回路が得られる.ここに,Lはインダクタンスを表し,Cはキャパシタンスを表す.本文では差分方程式から得られるLC梯子形等価回路を利用して,一次元格子振動の特徴を回路解析手法を応用し,固有振動を共鳴現象の終端を開放や短絡の状態として求める.
  • 田中 章, 小川 貴弘, 長谷山 美紀, 宮腰 政明
    電子情報通信学会論文誌. A, 基礎・境界 2011年02月 
    欠損領域を有する数値データの補間技術として, 固有空間BPLP(Back Projection for Lost Pixels)法, 及び, その改良手法が提案されている.これらの手法は, 所与のデータから切り出したブロックデータの主成分構造を利用して欠損領域を推定する手法であり, 主要な固有空間の次元等を適切に選択することによって, 効果的に欠損部を補間することができる.一方, 重要なパラメータの一つである, 主要な固有空間の次元の選択の指針はこれまで与えられていなかった.本論文では, 主成分分析に用いる分散共分散行列と欠損ブロックに対応する分散共分散行列が等しいという理想的な条件下では, 固有空間BPLP法の改良手法の, 期待二乗誤差最小の意味での最適解が古典的なウィーナーフィルタであることを指摘するとともに, 固有空間として全空間を用いた解が, 上で述べた最適解であるウィーナーフィルタによる解に帰着することを示し, 結果として固有空間の最適な次元がブロックの次元そのものであることを示す.また, 主成分分析に用いる分散共分散行列と欠損ブロックに対応する分散共分散行列が完全に一致しない場合についても考察し, 上記理想的な条件下同様, 固有空間として全空間を採用することが最適となる十分条件を与える.また, 当該十分条件を満たさない場合についても, 数値実験によりウィーナーフィルタによる解の優位性を確認する.
  • 浅水 仁, 長谷山 美紀
    画像ラボ 2011年01月
  • Human-Centric Navigation System Video Vortex for Video Retrieval  [通常講演]
    2011 IEEE International Conference on Consumer Electronics 2011年
  • OGAWA Takahiro, HASEYAMA Miki
    IEEE Transactions on Image Processing 2011年
  • Linear Time Decoding of Real-Field Codes over High Error Rate Channels  [通常講演]
    IEEE International Conference on AcousticsSpeech, and Signal Processing 2011 2011年
  • Adaptive Reconstruction Method of Missing Textures Based on Perceptually Optimized Algotithm  [通常講演]
    IEEE International Conference on AcousticsSpeech, and Signal Processing 2011 2011年
  • Adaptive KPCA-Based Missing Texture Reconstruction Approach Including Classification Scheme via Difference Subspaces  [通常講演]
    IEEE International Conference on Image Processing(ICIP 2011) 2011年
  • IEICE Trans. Fundamentals of Electronics, Communications and Computer Sciences 2011年
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CST, コンカレント工学 2010年06月 
    本文では,映像の繰り返し構造に注目したMarkov Chain Monte Carlo (MCMC)法によるシーン分割手法を提案する.提案手法では,映像の構造に基づいてショット境界からシーン境界候補を抽出し,それらの中から映像中の画像特徴量に基づくMCMC法により真のシーン境界を選択する.映像の構造に注目して,シーン分割を行うことにより,従来のMCMCを用いた手法に比べ,映像の構造を有効に利用したシーン分割が可能となる.尚,MCMC法による従来のシーン分割手法では映像中に存在するシーンの総数に関する事前確率を求める必要があるが,提案手法ではその確率に含まれるパラメータの推定を学習映像を用いた重回帰分析により行う.本文の最後では,実際にテレビで放映された映像に対して提案手法を適用し,その有効性を確認する.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CST, コンカレント工学 2010年06月 
    本文では,超解像処理を用いて,ぶれにより劣化した動画像の復元及び高解像度化を同時に行う手法を提案する.提案手法では,MAP推定による復元及び高解像度化に必要となる高解像度フレームの事前確率分布を輝度勾配に着目することで,局所領域毎に推定する.これにより,エッジを含む領域において,高解像度画像の輝度勾配が小さくなることを抑制し,再構成結果における過剰な平滑化が抑制される.また,平坦部においては,劣化画像を用いて輝度勾配が大きくなることを抑制し,再構成結果におけるエッジ周辺の平坦部に発生するリンギングを抑制する.以上により,復元および高解像度化を行う場合に発生する過剰な平滑化とリンギングの両者を抑制した復元及び高解像度化の同時実現が可能となる.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CST, コンカレント工学 2010年06月 
    本文では,画像特徴を用いたキーワードの関係抽出と,それを応用した画像アノテーション手法を提案する.提案手法では,関係の強いキーワードが画像特徴を共有することに着目し,以下のアプローチによりキーワードの関係を抽出する.まず,クラス分類のための一手法であるロジスティック回帰モデルを用いて画像特徴と各キーワードの間の関係を学習する.次に,あるキーワードに関連する画像特徴が取り除かれることによる他のキーワードへの影響の大きさを,両者が画像特徴を共有する度合とみなし,これに基づきキーワード間の関係の強さを算出する.提案手法は,以上のように画像特徴を用いてキーワード間の関係の強さを算出することで,従来よりも画像アノテーションに適したキーワードの関係抽出を可能とする.さらに,画像特徴のみを用いて行われたアノテーション結果に対し,得られたキーワード間の関係を導入することで,画像アノテーションの高精度化を実現する.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CST, コンカレント工学 2010年06月 
    本文では,正準相関分析に基づいて人間の動きに適した楽曲を推薦する手法を提案する.提案手法では,人間の動きと楽曲間の関係をモデル化するためにカーネル正準相関分析を利用する.このとき,カーネル正準相関分析において用いるカーネル関数は,人間の動き,楽曲共に各々の時間の伸縮を許容するように定義する必要がある.そこで,提案手法ではまず,人間の動きにおける時間の伸縮を許容するための再検討を行う.これにより,人間の動きと楽曲との間の関係が適切にモデル化され,その結果に基づいて人間の動きに適した楽曲の推薦が可能となる.本文の最後では,実際の映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2010年06月 
    本文では,映像の繰り返し構造に注目したMarkov Chain Monte Carlo(MCMC)法によるシーン分割手法を提案する.提案手法では,映像の構造に基づいてショット境界からシーン境界候補を抽出し,それらの中から映像中の画像特徴量に基づくMCMC法により真のシーン境界を選択する.映像の構造に注目して,シーン分割を行うことにより,従来のMCMCを用いた手法に比べ,映像の構造を有効に利用したシーン分割が可能となる.尚,MCMC法による従来のシーン分割手法では映像中に存在するシーンの総数に関する事前確率を求める必要があるが,提案手法ではその確率に含まれるパラメータの推定を学習映像を用いた重回帰分析により行う.本文の最後では,実際にテレビで放映された映像に対して提案手法を適用し,その有効性を確認する.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2010年06月 
    本文では,超解像処理を用いて,ぶれにより劣化した動画像の復元及び高解像度化を同時に行う手法を提案する.提案手法では,MAP推定による復元及び高解像度化に必要となる高解像度フレームの事前確率分布を輝度勾配に着目することで,局所領域毎に推定する.これにより,エッジを含む領域において,高解像度画像の輝度勾配が小さくなることを抑制し,再構成結果における過剰な平滑化が抑制される.また,平坦部においては,劣化画像を用いて輝度勾配が大きくなることを抑制し,再構成結果におけるエッジ周辺の平坦部に発生するリンギングを抑制する.以上により,復元および高解像度化を行う場合に発生する過剰な平滑化とリンギングの両者を抑制した復元及び高解像度化の同時実現が可能となる.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2010年06月 
    本文では,画像特徴を用いたキーワードの関係抽出と,それを応用した画像アノテーション手法を提案する.提案手法では,関係の強いキーワードが画像特徴を共有することに着目し,以下のアプローチによりキーワードの関係を抽出する.まず,クラス分類のための一手法であるロジスティック回帰モデルを用いて画像特徴と各キーワードの間の関係を学習する.次に,あるキーワードに関連する画像特徴が取り除かれることによる他のキーワードへの影響の大きさを,両者が画像特徴を共有する度合とみなし,これに基づきキーワード間の関係の強さを算出する.提案手法は,以上のように画像特徴を用いてキーワード間の関係の強さを算出することで,従来よりも画像アノテーションに適したキーワードの関係抽出を可能とする.さらに,画像特徴のみを用いて行われたアノテーション結果に対し,得られたキーワード問の関係を導入することで,画像アノテーションの高精度化を実現する.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2010年06月 
    本文では,正準相関分析に基づいて人間の動きに適した楽曲を推薦する手法を提案する.提案手法では,人間の動きと楽曲間の関係をモデル化するためにカーネル正準相関分析を利用する.このとき,カーネル正準相関分析において用いるカーネル関数は,人間の動き,楽曲共に各々の時間の伸縮を許容するように定義する必要がある.そこで,提案手法ではまず,人間の動きにおける時間の伸縮を許容するための再検討を行う.これにより,人間の動きと楽曲との問の関係が適切にモデル化され,その結果に基づいて人間の動きに適した楽曲の推薦が可能となる.本文の最後では,実際の映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2010年06月 
    本文では,映像の繰り返し構造に注目したMarkov Chain Monte Carlo (MCMC)法によるシーン分割手法を提案する.提案手法では,映像の構造に基づいてショット境界からシーン境界候補を抽出し,それらの中から映像中の画像特徴量に基づくMCMC法により真のシーン境界を選択する.映像の構造に注目して,シーン分割を行うことにより,従来のMCMCを用いた手法に比べ,映像の構造を有効に利用したシーン分割が可能となる.尚,MCMC法による従来のシーン分割手法では映像中に存在するシーンの総数に関する事前確率を求める必要があるが,提案手法ではその確率に含まれるパラメータの推定を学習映像を用いた重回帰分析により行う.本文の最後では,実際にテレビで放映された映像に対して提案手法を適用し,その有効性を確認する.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2010年06月 
    本文では,超解像処理を用いて,ぶれにより劣化した動画像の復元及び高解像度化を同時に行う手法を提案する.提案手法では,MAP推定による復元及び高解像度化に必要となる高解像度フレームの事前確率分布を輝度勾配に着目することで,局所領域毎に推定する.これにより,エッジを含む領域において,高解像度画像の輝度勾配が小さくなることを抑制し,再構成結果における過剰な平滑化が抑制される.また,平坦部においては,劣化画像を用いて輝度勾配が大きくなることを抑制し,再構成結果におけるエッジ周辺の平坦部に発生するリンギングを抑制する.以上により,復元および高解像度化を行う場合に発生する過剰な平滑化とリンギングの両者を抑制した復元及び高解像度化の同時実現が可能となる.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2010年06月 
    本文では,画像特徴を用いたキーワードの関係抽出と,それを応用した画像アノテーション手法を提案する.提案手法では,関係の強いキーワードが画像特徴を共有することに着目し,以下のアプローチによりキーワードの関係を抽出する.まず,クラス分類のための一手法であるロジスティック回帰モデルを用いて画像特徴と各キーワードの間の関係を学習する.次に,あるキーワードに関連する画像特徴が取り除かれることによる他のキーワードへの影響の大きさを,両者が画像特徴を共有する度合とみなし,これに基づきキーワード間の関係の強さを算出する.提案手法は,以上のように画像特徴を用いてキーワード間の関係の強さを算出することで,従来よりも画像アノテーションに適したキーワードの関係抽出を可能とする.さらに,画像特徴のみを用いて行われたアノテーション結果に対し,得られたキーワード間の関係を導入することで,画像アノテーションの高精度化を実現する.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2010年06月 
    本文では,正準相関分析に基づいて人間の動きに適した楽曲を推薦する手法を提案する.提案手法では,人間の動きと楽曲間の関係をモデル化するためにカーネル正準相関分析を利用する.このとき,カーネル正準相関分析において用いるカーネル関数は,人間の動き,楽曲共に各々の時間の伸縮を許容するように定義する必要がある.そこで,提案手法ではまず,人間の動きにおける時間の伸縮を許容するための再検討を行う.これにより,人間の動きと楽曲との間の関係が適切にモデル化され,その結果に基づいて人間の動きに適した楽曲の推薦が可能となる.本文の最後では,実際の映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 大串 裕幸, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2010年06月 
    本文では,正準相関分析に基づいて人間の動きに適した楽曲を推薦する手法を提案する.提案手法では,人間の動きと楽曲間の関係をモデル化するためにカーネル正準相関分析を利用する.このとき,カーネル正準相関分析において用いるカーネル関数は,人間の動き,楽曲共に各々の時間の伸縮を許容するように定義する必要がある.そこで,提案手法ではまず,人間の動きにおける時間の伸縮を許容するための再検討を行う.これにより,人間の動きと楽曲との間の関係が適切にモデル化され,その結果に基づいて人間の動きに適した楽曲の推薦が可能となる.本文の最後では,実際の映像から取得した人間の動きから楽曲を推薦する実験を行い,その有効性の確認を行う.
  • 和泉 大佑, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2010年06月 
    本文では,超解像処理を用いて,ぶれにより劣化した動画像の復元及び高解像度化を同時に行う手法を提案する.提案手法では,MAP推定による復元及び高解像度化に必要となる高解像度フレームの事前確率分布を輝度勾配に着目することで,局所領域毎に推定する.これにより,エッジを含む領域において,高解像度画像の輝度勾配が小さくなることを抑制し,再構成結果における過剰な平滑化が抑制される.また,平坦部においては,劣化画像を用いて輝度勾配が大きくなることを抑制し,再構成結果におけるエッジ周辺の平坦部に発生するリンギングを抑制する.以上により,復元および高解像度化を行う場合に発生する過剰な平滑化とリンギングの両者を抑制した復元及び高解像度化の同時実現が可能となる.
  • 宋 妍, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2010年06月 
    本文では,映像の繰り返し構造に注目したMarkov Chain Monte Carlo (MCMC)法によるシーン分割手法を提案する.提案手法では,映像の構造に基づいてショット境界からシーン境界候補を抽出し,それらの中から映像中の画像特徴量に基づくMCMC法により真のシーン境界を選択する.映像の構造に注目して,シーン分割を行うことにより,従来のMCMCを用いた手法に比べ,映像の構造を有効に利用したシーン分割が可能となる.尚,MCMC法による従来のシーン分割手法では映像中に存在するシーンの総数に関する事前確率を求める必要があるが,提案手法ではその確率に含まれるパラメータの推定を学習映像を用いた重回帰分析により行う.本文の最後では,実際にテレビで放映された映像に対して提案手法を適用し,その有効性を確認する.
  • 桂井 麻里衣, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2010年06月 
    本文では,画像特徴を用いたキーワードの関係抽出と,それを応用した画像アノテーション手法を提案する.提案手法では,関係の強いキーワードが画像特徴を共有することに着目し,以下のアプローチによりキーワードの関係を抽出する.まず,クラス分類のための一手法であるロジスティック回帰モデルを用いて画像特徴と各キーワードの間の関係を学習する.次に,あるキーワードに関連する画像特徴が取り除かれることによる他のキーワードへの影響の大きさを,両者が画像特徴を共有する度合とみなし,これに基づきキーワード間の関係の強さを算出する.提案手法は,以上のように画像特徴を用いてキーワード間の関係の強さを算出することで,従来よりも画像アノテーションに適したキーワードの関係抽出を可能とする.さらに,画像特徴のみを用いて行われたアノテーション結果に対し,得られたキーワード間の関係を導入することで,画像アノテーションの高精度化を実現する.
  • 高橋 翔, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本稿では,アクティブグリッドを用いてサッカー映像からパスが可能な3次元領域を推定する手法を提案する.これまで,我々はサッカーフィールド上に推定されるボールの位置や選手位置を用い,パス可能領域をサッカーフィールド上に2次元の領域として推定した.しかしながら,パスコースは3次元空間上に存在するため,より高精度にパス可能領域を推定するためには3次元の領域として推定する必要がある.そこで,提案手法では,選手とボールの位置を用いて選手が移動可能な3次元空間を定式化し,3次元のボリュームデータを生成することで,領域抽出手法であるアクティブグリッドの適用を可能とする.これにより,アクティブグリッドを用いた3次元のパス可能領域推定が実現される.
  • 村山 聖太, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本文では,道路監視カメラにより撮影された映像に対して,撮影環境の変化による精度低下を抑制した交通流の計測を行う手法を提案する.提案手法では,車線内を走行する車両を,車体やヘッドライトの濃度値に基づいて検出する.その際,車両領域の存在および通過を判定するために用いるパラメータは,天候の変化に伴う照度変化に合わせて適切に設定する必要がある.そこで,提案手法では,照度と関連が強い画像特徴を用いて,重回帰分析によりパラメータを推定する.これにより,撮影環境が異なる映像においても,適用可能となるようにパラメータが設定され,高精度な交通流計測が期待される.
  • 小林 和也, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本文では,個人の嗜好の類似性に注目した新たな楽曲推薦手法を提案する.提案手法ではまず,ユーザ毎に好みに関する評価が行われている楽曲を教師データとし,それらから算出される特徴ベクトルに対してSupport Vector Data Description(SVDD)を適用することで,好みの楽曲を識別する超球をユーザ毎に算出する.ここで,提案手法ではユーザ間における嗜好の類似性を表す指標を新たに定義し,この指標に基づいて嗜好の類似するユーザの組み合わせを選択する.次に,提案手法では推薦対象ユーザに対する超球の中心とテストデータとして与えられるデータベース内の特徴ベクトルとの距離に基づいて算出される確率,及び選択された嗜好の類似するユーザの超球を用いて同様に算出される確率に基づいて,推薦結果を出力する.その結果,提案手法はユーザ間における嗜好の類似性に注目した高精度な楽曲推薦が期待できる.
  • 畠山 泰貴, 小川 貴弘, 浅水 仁, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本文では,映像の類似性に注目したクラスタリング手法を導入したWebコミュニティ抽出に基づく高精度な検索手法を提案する.提案手法では,映像及びその映像を含むWebページから得られる特徴の類似性に基づき,重み付けを行ったリンク関係にリンク解析を施し,類似した映像を含むWebページの集合であるWebコミュニティを抽出する.さらに,抽出されたWebコミュニティ内に含まれる映像の類似性に基づいてクラスタリングを行う.これにより,ユーザはWebコミュニティから得られた類似した特徴の映像を含むクラスタを用いて効果的に検索することが可能となる.したがって,提案手法は類似した内容と特徴を持つ映像の効果的な検索を実現する.
  • 山本 誠, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本文では,映像中に存在する連続した複数のショットに注目した構造解析に基づき,高精度なシーン分割を可能とする手法を提案する.提案手法では,Sequence Alignmentの一手法であるDynamic Time Warping(DTW)により複数ショット間において伸縮を許容した類似度の算出を可能とし,これを用いることで構造解析を行う.このとき,映像中のショットから得られる特徴量に対してProbabilistic Latent Semantic Analysis(PLSA)を適用し,得られる結果を用いて新たにDTWのコストを定義する.以上により,複数ショットの類似性に注目した高度な構造解析が可能となり,提案手法では高精度なシーン分割が実現される.
  • 徳本 了太, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本稿では,ゲシュタルト心理学における群化の性質に基づき,連想型映像検索結果を定量的に評価する評価値を提案する.以前,我々はユーザが検索を行うためのクエリを具体的に想像することが困難な場合でも,繰り返し検索を行うことでユーザが望む映像を提示する連想型映像検索システムを提案した.しかしながら,この手法では検索結果の定量的評価に至ることができなかった.そこで,本稿では,連想型映像検索結果を評価するためのモデルを定義する.そのモデルにおいて形成される映像の群を群化とし,その程度を表す定量値を算出する.さらに,定量値を用いて連想型映像検索結果の有効性を評価するための評価値を定義する.その評価値の大小を比較することで,連想型映像検索結果の定量的な評価が可能となる.
  • 高橋 茂樹, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本文では,バレーボール映像における新たなボール追跡手法を提案し,レシーブやトス等の試合中のイベント推定への応用について検討を行なう.提案するボール追跡手法では,まず,バレーボール映像中において選手間でボールが放物運動を行なう点に着目し,追跡された選手位置に基づいたボールの軌跡を求める.次に,提案手法は,得られたボールの軌跡を用いることで,その追跡と共にイベント推定において重要となるボールに接触した選手とその時刻の取得を可能とする.さらに,我々は,バレーボールのルールに基づいて,提案手法をイベント推定へ応用する方法について検討を行なう.本文の最後では,実際のバレーボール映像を用いた実験を行い,提案手法の有効性を確認する.
  • 角野 公亮, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2010年02月 
    本文では,パラメトリック固有空間法を用いて2次元の画像中に存在する多関節物体の姿勢を推定する手法を提案する.提案手法では,多関節物体の3次元モデルから様々な姿勢でのシルエット画像を生成し,それらの画素値をデータとして固有ベクトルを求め,固有空間を得る.次に,各シルエット画像を固有空間上の点に投影し,点の補間を行うことで,姿勢の連続的な変化を表す多様体を構成する.さらに,入力画像に撮像された姿勢推定対象の多関節物体のシルエット画像を固有空間に投影し,多様体上の点との距離を観察することで,最適なパラメータを推定する.このとき,多関節物体を木構造とみなし,根元から末端に向かって段階的にパラメータの最適解を求める事で,計算コストを削減した姿勢推定を実現する.
  • 高橋 翔, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本稿では,アクティブグリッドを用いてサッカー映像からパスが可能な3次元領域を推定する手法を提案する.これまで,我々はサッカーフィールド上に推定されるボールの位置や選手位置を用い,パス可能領域をサッカーフィールド上に2次元の領域として推定した.しかしながら,パスコースは3次元空間上に存在するため,より高精度にパス可能領域を推定するためには3次元の領域として推定する必要がある.そこで,提案手法では,選手とボールの位置を用いて選手が移動可能な3次元空間を定式化し,3次元のボリュームデータを生成することで,領域抽出手法であるアクティブグリッドの適用を可能とする.これにより,アクティブグリッドを用いた3次元のパス可能領域推定が実現される.
  • 村山 聖太, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本文では,道路監視カメラにより撮影された映像に対して,撮影環境の変化による精度低下を抑制した交通流の計測を行う手法を提案する.提案手法では,車線内を走行する車両を,車体やヘッドライトの濃度値に基づいて検出する.その際車両領域の存在および通過を判定するために用いるパラメータは,天候の変化に伴う照度変化に合わせて適切に設定する必要がある.そこで,提案手法では,照度と関連が強い画像特徴を用いて,重回帰分析によりパラメータを推定する.これにより,撮影環境が異なる映像においても,適用可能となるようにパラメータが設定され,高精度な交通流計測が期待される.
  • 小林 和也, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本文では,個人の嗜好の類似性に注目した新たな楽曲推薦手法を提案する.提案手法ではまず,ユーザ毎に好みに関する評価が行われている楽曲を教師データとし,それらから算出される特徴ベクトルに対してSupport Vector Data Description (SVDD)を適用することで,好みの楽曲を識別する超球をユーザ毎に算出する.ここで,提案手法ではユーザ間における嗜好の類似性を表す指標を新たに定義し,この指標に基づいて嗜好の類似するユーザの組み合わせを選択する.次に,提案手法では推薦対象ユーザに対する超球の中心とテストデータとして与えられるデータベース内の特徴ベクトルとの距離に基づいて算出される確率,及び選択された嗜好の類似するユーザの超球を用いて同様に算出される確率に基づいて,推薦結果を出力する.その結果,提案手法はユーザ問における嗜好の類似性に注目した高精度な楽曲推薦が期待できる.
  • 畠山 泰貴, 小川 貴弘, 浅水 仁, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本文では,映像の類似性に注目したクラスタリング手法を導入したWebコミュニティ抽出に基づく高精度な検索手法を提案する.提案手法では,映像及びその映像を含むWebページから得られる特徴の類似性に基づき,重み付けを行ったリンク関係にリンク解析を施し,類似した映像を含むWebページの集合であるWebコミュニティを抽出する.さらに,抽出されたWebコミュニティ内に含まれる映像の類似性に基づいてクラスタリングを行う.これにより,ユーザはWebコミュニティから得られた類似した特徴の映像を含むクラスタを用いて効果的に検索することが可能となる.したがって,提案手法は類似した内容と特徴を持つ映像の効果的な検索を実現する.
  • 山本 誠, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本文では,映像中に存在する連続した複数のショットに注目した構造解析に基づき,高精度なシーン分割を可能とする手法を提案する.提案手法では,Sequence Alignmentの一手法であるDynamic Time Warping (DTW)により複数ショット間において伸縮を許容した類似度の算出を可能とし,これを用いることで構造解析を行う.このとき,映像中のショットから得られる特徴量に対してProbabilistic Latent Semantic Analysis (PLSA)を適用し,得られる結果を用いて新たにDTWのコストを定義する.以上により,複数ショットの類似性に注目した高度な構造解析が可能となり,提案手法では高精度なシーン分割が実現される.
  • 徳本 了太, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本稿では,ゲシュタルト心理学における群化の性質に基づき,連想型映像検索結果を定量的に評価する評価値を提案する.以前,我々はユーザが検索を行うためのクエリを具体的に想像することが困難な場合でも,繰り返し検索を行うことでユーザが望む映像を提示する連想型映像検索システムを提案した.しかしながら,この手法では検索結果の定量的評価に至ることができなかった.そこで,本稿では,連想型映像検索結果を評価するためのモデルを定義する.そのモデルにおいて形成される映像の群を群化とし,その程度を表す定量値を算出する.さらに,定量値を用いて連想型映像検索結果の有効性を評価するための評価値を定義する.その評価値の大小を比較することで,連想型映像検索結果の定量的な評価が可能となる.
  • 高橋 茂樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本文では,バレーボール映像における新たなボール追跡手法を提案し,レシーブやトス等の試合中のイベント推定への応用について検討を行なう.提案するボール追跡手法では,まず,バレーボール映像中において選手間でボールが放物運動を行なう点に着目し,追跡された選手位置に基づいたボールの軌跡を求める.次に,提案手法は,得られたボールの軌跡を用いることで,その追跡と共にイベント推定において重要となるボールに接触した選手とその時刻の取得を可能とする.さらに,我々は,バレーボールのルールに基づいて,提案手法をイベント推定へ応用する方法について検討を行なう。本文の最後では,実際のバレーボール映像を用いた実験を行い,提案手法の有効性を確認する.
  • 角野 公亮, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2010年02月 
    本文では,パラメトリック固有空間法を用いて2次元の画像中に存在する多関節物体の姿勢を推定する手法を提案する.提案手法では,多関節物体の3次元モデルから様々な姿勢でのシルエット画像を生成し,それらの画素値をデータとして固有ベクトルを求め,固有空間を得る.次に,各シルエット画像を固有空間上の点に投影し,点の補間を行うことで,姿勢の連続的な変化を表す多様体を構成する.さらに,入力画像に撮像された姿勢推定対象の多関節物体のシルエット画像を固有空間に投影し,多様体上の点との距離を観察することで,最適なパラメータを推定する.このとき,多関節物体を木構造とみなし,根元から末端に向かって段階的にパラメータの最適解を求める事で,計算コストを削減した姿勢推定を実現する.
  • 高橋 翔, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本稿では,アクティブグリッドを用いてサッカー映像からパスが可能な3次元領域を推定する手法を提案する.これまで,我々はサッカーフィールド上に推定されるボールの位置や選手位置を用い,パス可能領域をサッカーフィールド上に2次元の領域として推定した.しかしながら,パスコースは3次元空間上に存在するため,より高精度にパス可能領域を推定するためには3次元の領域として推定する必要がある.そこで,提案手法では,選手とボールの位置を用いて選手が移動可能な3次元空間を定式化し,3次元のボリュームデータを生成することで,領域抽出手法であるアクティブグリッドの適用を可能とする.これにより,アクティブグリッドを用いた3次元のパス可能領域推定が実現される.
  • 村山 聖太, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本文では,道路監視カメラにより撮影された映像に対して,撮影環境の変化による精度低下を抑制した交通流の計測を行う手法を提案する.提案手法では,車線内を走行する車両を,車体やヘッドライトの濃度値に基づいて検出する.その際,車両領域の存在および通過を判定するために用いるパラメータは,天候の変化に伴う照度変化に合わせて適切に設定する必要がある.そこで,提案手法では,照度と関連が強い画像特徴を用いて,重回帰分析によりパラメータを推定する.これにより,撮影環境が異なる映像においても,適用可能となるようにパラメータが設定され,高精度な交通流計測が期待される.
  • 小林 和也, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本文では,個人の嗜好の類似性に注目した新たな楽曲推薦手法を提案する.提案手法ではまず,ユーザ毎に好みに関する評価が行われている楽曲を教師データとし,それらから算出される特徴ベクトルに対してSupport Vector Data Description(SVDD)を適用することで,好みの楽曲を識別する超球をユーザ毎に算出する.ここで,提案手法ではユーザ間における嗜好の類似性を表す指標を新たに定義し,この指標に基づいて嗜好の類似するユーザの組み合わせを選択する.次に,提案手法では推薦対象ユーザに対する超球の中心とテストデータとして与えられるデータベース内の特徴ベクトルとの距離に基づいて算出される確率,及び選択された嗜好の類似するユーザの超球を用いて同様に算出される確率に基づいて,推薦結果を出力する.その結果,提案手法はユーザ間における嗜好の類似性に注目した高精度な楽曲推薦が期待できる.
  • 畠山 泰貴, 小川 貴弘, 浅水 仁, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本文では,映像の類似性に注目したクラスタリング手法を導入したWebコミュニティ抽出に基づく高精度な検索手法を提案する.提案手法では,映像及びその映像を含むWebページから得られる特徴の類似性に基づき,重み付けを行ったリンク関係にリンク解析を施し,類似した映像を含むWebページの集合であるWebコミュニティを抽出する.さらに,抽出されたWebコミュニティ内に含まれる映像の類似性に基づいてクラスタリングを行う.これにより,ユーザはWebコミュニティから得られた類似した特徴の映像を含むクラスタを用いて効果的に検索することが可能となる.したがって,提案手法は類似した内容と特徴を持つ映像の効果的な検索を実現する.
  • 山本 誠, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本文では,映像中に存在する連続した複数のショットに注目した構造解析に基づき,高精度なシーン分割を可能とする手法を提案する.提案手法では,Sequence Alignmentの一手法であるDynamic Time Warping(DTW)により複数ショット間において伸縮を許容した類似度の算出を可能とし,これを用いることで構造解析を行う.このとき,映像中のショットから得られる特徴量に対してProbabilistic Latent Semantic Analysis(PLSA)を適用し,得られる結果を用いて新たにDTWのコストを定義する.以上により,複数ショットの類似性に注目した高度な構造解析が可能となり,提案手法では高精度なシーン分割が実現される.
  • 徳本 了太, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本稿では,ゲシュタルト心理学における群化の性質に基づき,連想型映像検索結果を定量的に評価する評価値を提案する.以前,我々はユーザが検索を行うためのクエリを具体的に想像することが困難な場合でも,繰り返し検索を行うことでユーザが望む映像を提示する連想型映像検索システムを提案した.しかしながら,この手法では検索結果の定量的評価に至ることができなかった.そこで,本稿では,連想型映像検索結果を評価するためのモデルを定義する.そのモデルにおいて形成される映像の群を群化とし,その程度を表す定量値を算出する.さらに,定量値を用いて連想型映像検索結果の有効性を評価するための評価値を定義する.その評価値の大小を比較することで,連想型映像検索結果の定量的な評価が可能となる.
  • 高橋 茂樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本文では,バレーボール映像における新たなボール追跡手法を提案し,レシーブやトス等の試合中のイベント推定への応用について検討を行なう.提案するボール追跡手法では,まず,バレーボール映像中において選手間でボールが放物運動を行なう点に着目し,追跡された選手位置に基づいたボールの軌跡を求める.次に,提案手法は,得られたボールの軌跡を用いることで,その追跡と共にイベント推定において重要となるボールに接触した選手とその時刻の取得を可能とする.さらに,我々は,バレーボールのルールに基づいて,提案手法をイベント推定へ応用する方法について検討を行なう.本文の最後では,実際のバレーボール映像を用いた実験を行い,提案手法の有効性を確認する.
  • 角野 公亮, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2010年02月 
    本文では,パラメトリック固有空間法を用いて2次元の画像中に存在する多関節物体の姿勢を推定する手法を提案する.提案手法では,多関節物体の3次元モデルから様々な姿勢でのシルエット画像を生成し,それらの画素値をデータとして固有ベクトルを求め,固有空間を得る.次に,各シルエット画像を固有空間上の点に投影し,点の補間を行うことで,姿勢の連続的な変化を表す多様体を構成する.さらに,入力画像に撮像された姿勢推定対象の多関節物体のシルエット画像を固有空間に投影し,多様体上の点との距離を観察することで,最適なパラメータを推定する.このとき,多関節物体を木構造とみなし,根元から末端に向かって段階的にパラメータの最適解を求める事で,計算コストを削減した姿勢推定を実現する.
  • An fast Web community extraction using LSH-based Web video features and its application  [通常講演]
    Workshop on Picture Coding and Image Processing, PCSJ2010/IMPS2010 2010年
  • Players tracking approach using level-set method based on color components of players in soccer videos  [通常講演]
    Workshop on Picture Coding and Image Processing, PCSJ2010/IMPS2010 2010年
  • 高橋 茂樹, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2009年10月 
    本文では,distributed video coding(DVC)の符号化効率向上を可能とする手法を提案する.提案手法では,符号化前にKeyフレームに対して消失領域を発生させることで符号量の削減を行う.また,提案手法の復号器では,消失領域を補間し,さらに,Wyner-Zivフレーム(WZフレーム)の復号の際の誤り訂正に基づき,WZフレーム及び隣接するKeyフレームを再構成する.その結果,WZフレームの復号結果がより高精度に再構成されると共に,Keyフレームにおける消失領域の補間誤差が効果的に低減され,従来のDVCに比べ高いRate-Distortion(RD)性能を実現することが可能となる.本文の最後では,実験を行い提案手法の有効性を示す.
  • 徳本 了太, 長谷山 美紀
    映像情報メディア学会技術報告 2009年10月 
    本文では,ゲシュタルト心理学における群化の性質に基づき,検索履歴を考慮して映像検索結果を可視化する手法を提案する.群化とは,視野に存在する複数の図形をある一定のまとまりとして認識する人間の知覚現象である.以前,我々はユーザが検索を行うためのクエリを具体的に想像することが困難な場合でも,繰り返し検索を行うことでユーザが望む映像を提示する映像検索システムを提案した.しかしながら,従来手法におけるインターフェースでは過去の検索履歴を考慮した可視化が行われていない.そのため,ユーザは過去と現在の映像検索結果との間において類似している映像,および現在の検索において新規に得られた映像を明確に区別することができず,検索履歴に沿った一連の流れにおける映像検索結果の変化を確認することが困難だった.そこで本文では,動画像特徴量と検索履歴を元に3次元空間に映像を配置し,さらに群化の性質に基づいた可視化を行うことで,効果的な映像検索結果の可視化を検討する.
  • 山本 誠, 長谷山 美紀
    映像情報メディア学会技術報告 2009年10月 
    本文では,映像から抽出される特徴量に内在する特性を統計的に解析し,その結果を用いることで高精度にシーン分割を行う手法を提案する.提案手法では,同一番組の映像のみで構成されるデータセットに対して,確率モデルに基づいてデータ中に内在する特性を解析する統計的手法Probabilistic Latent Semantic Analysis(PLSA)を適用し,それらの映像の特徴量に内在する特性を解析する.これにより得られる解析結果から新たな特徴量を算出することで,映像の特徴量を直接用いた場合に生じる精度の劣化を抑制したシーン分割が実現される.本文の最後では,実際にテレビで放映された映像に対して提案手法を適用し,その有効性を確認する.
  • 小林 和也, 長谷山 美紀
    映像情報メディア学会技術報告 2009年10月 
    本文では,高精度な類似楽曲検索を実現するため,ユーザの嗜好を考慮した楽曲間の新たな距離尺度を提案する.提案手法では,メロディー,リズム,音色を表す特徴ベクトルを用いてマハラノビス距離の形式を持つ距離関数を定義し,その際用いられる行列をユーザの嗜好を表すパラメータとして学習する.このとき,提案手法は類似楽曲間の距離が他の楽曲間との距離と比較して小さな場合に低い値を示すコスト関数を設定し,これを最小化することで行列を求める.この行列をユーザ毎に変更することで,提案手法は各々のユーザに対して類似楽曲間の距離が小さくなる距離尺度が得られ,ユーザの望む類似楽曲を高精度に検索することが可能となる.
  • 岡田 周史, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2009年08月 
    本文では,画像検索のためのSVDDに基づく対象物の自動抽出手法を提案する.提案手法では,教師画像として与えられる対象物を含む画像および含まない画像にSVDDを適用することで,対象物が存在する領域を自動で抽出する.具体的に,SVDDにより算出される識別超球の中心からの距離に基づき,局所ブロックから得られる特徴ベクトルが対象クラスに属する確率を定義し,この確率の下,教師画像から対象物が存在する正例領域および存在しない負例領域の取得を可能とする.このとき,提案手法では,正例領域と負例領域をより高精度に分離することが可能な識別超球を与えるように,用いる特徴量を適応的に選択する.以上の超球の算出と正例領域および負例領域の抽出を,領域のサイズを変更して繰り返し行うことにより,あらかじめ教師画像から対象物を抽出することなく,画像中から対象物の検出が可能となるため,対象物に注目した画像検索が期待できる.
  • 成田 容, 長谷山 美紀
    映像情報メディア学会技術報告 2009年08月 
    本文では,音声認識結果に基づく新たな特徴量を定義し,その特徴量を用いてシーン分割の高精度化を行う手法を提案する.提案手法では,処理対象映像中の固定長の小区間において,音声認識結果から得られる単語の出現分布に基づき新たな特徴量を定義する.さらに,この特徴量を用いることで算出される区間同士の類似度を話題の類似度として定義する.この話題の類似度の時間変化から話題が切り替わるおよその時刻が検出されるため,その時刻に注目することで,既存のシーン分割手法との併用によりシーンカットの過剰検出を抑制することが可能となる.その結果,従来よりも映像の内容に基づいた高精度なシーン分割が実現される.
  • 長谷山 美紀
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 2009年05月 
    大量に蓄積された映像の視聴や検索を目的として行われた,映像処理技術と検索インタフェース実現に関する研究について紹介する.提案する検索インタフェースを用いることで,従来では困難であったユーザが明確なクエリを持ち合わせない場合においても,効果的に検索を行うことが可能となる.本文では,実際に実現されたインタフェースにより行われた検索結果を提示し,映像固有の多義性と曖昧性から,ユーザが効率的に望む映像に到達するために,検索結果を効果的に可視化するシステムの必要性について議論する.
  • 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年05月 
    大量に蓄積された映像の視聴や検索を目的として行われた,映像処理技術と検索インタフェース実現に関する研究について紹介する.提案する検索インタフェースを用いることで,従来では困難であったユーザが明確なクエリを持ち合わせない場合においても,効果的に検索を行うことが可能となる.本文では,実際に実現されたインタフェースにより行われた検索結果を提示し,映像固有の多義性と曖昧性から,ユーザが効率的に望む映像に到達するために,検索結果を効果的に可視化するシステムの必要性について議論する.
  • 長谷山 美紀
    電子情報通信学会技術研究報告. MI, 医用画像 2009年05月 
    大量に蓄積された映像の視聴や検索を目的として行われた,映像処理技術と検索インタフェース実現に関する研究について紹介する.提案する検索インタフェースを用いることで,従来では困難であったユーザが明確なクエリを持ち合わせない場合においても,効果的に検索を行うことが可能となる.本文では,実際に実現されたインタフェースにより行われた検索結果を提示し,映像固有の多義性と曖昧性から,ユーザが効率的に望む映像に到達するために,検索結果を効果的に可視化するシステムの必要性について議論する.
  • 金 善美, 田中 宏和, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    無線伝送に適した3次元ウェーブレットによる誤り耐性動画像符号化法とそのエラーコンシールメント技術について検討する。本文において我々は、各動画像フレームを空間方向にウェーブレット変換したとき、近隣のウェーブレット係数は相関性が存在することに着目する。そこで、提案手法では係数を複数グループに分散的にグループ化した後、これらのグループ毎に時間方向のウェーブレット変換を行う新たな符号化法を導入する。さらに、受信側においてこれらのグループの複数が伝送路誤りによって欠落した際においても効率良く補間可能なエラーコンシールメント法を提案する。.本文の最後では、評価実験により提案方式の有効性を確認する。
  • 林 原局, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    本稿では,2つのパーティクルフィルタを用いることで,サッカー映像から選手位置および撮像されたフィールド領域を高精度に推定する手法を提案する.提案手法では,サッカー映像における選手の位置を推定するパーティクルフィルタおよびサッカー映像を撮像しているカメラのパラメータを推定するパーティクルフィルタを定義する.このとき,各パーティクルフィルタにより得られる推定結果を互いの観測モデルへ導入し,それぞれ状態遷移を行うことにより選手位置およびフィールド領域の高精度な推定を可能とする.
  • 平松 朋樹, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    本文では,位相回復手法の一つであるERアルゴリズムを用いた静止画像の高解像度化手法を提案する.提案手法では,まず,低解像度画像における自己相関関数に対して相関値の補間処理を施すことで,高解像度画像における自己相関関数を推定する.このとき,Wiener-Khintchineの定理により,推定された高解像度画像の自己相関関数をフーリエ変換することで,高解像度画像におけるフーリエ振幅を得ることが可能となるため,これをERアルゴリズムにおけるフーリエ領域の拘束条件として導入する.さらに,低解像度画像から得られる周波数成分を高解像度画像における既知の低周波成分とし,これを画像領域における拘束条件として導入する.以上のようにして導出されるERアルゴリズムを用いてフーリエ位相の回復を行うことで,失われた高周波成分が自己相関関数の補間により生成され,低解像度画像のみから高解像度画像を得ることが可能となる.
  • 瀧澤 誠, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    本文では,超解像処理を用いて,手ぶれにより劣化した動画像を復元・高解像度化する手法を提案する.提案手法では,動画像の各フレームに対し,手ぶれの劣化関数であるPSF(Point Spread Function)を推定し,得られるPSFを用いてフレーム間における対応を算出する.さらに,手ぶれ方向への平滑化を抑制する重み係数を新たに導入した超解像処理を適用することで,ぶれ方向への過剰な平滑化が抑制された高精度な復元および高解像度化を実現する.本文の最後では,比較実験を行い,提案手法の有効性を確認する.
  • 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    本文では,Support Vector Data Description(SVDD)に基づいた静止画像の適応的高解像度化手法を提案する.提案手法ではまず,教師データとして与えられる高解像度の局所画像にSVDDを適用することで,識別超球の算出を行い,その中心との距離が最小となるように高解像度化の対象となる画像の未知の高周波成分を推定する.ここで,我々は画像の異なる階層間において局所画像が互いに類似する特徴に注目し,低解像度画像中の局所画像を教師データとして利用する.さらに,様々な種類のテクスチャを含む自然画像に対して高精度な高解像度化を可能とするため,提案手法では教師データとなる局所画像をあらかじめクラスタリングし,各クラスタについて得られる超球を用いて上記の未知の高周波成分の推定を行う.このとき,提案手法では各クラスタについて,推定される結果と超球の中心との距離に基づいて定義される確率の下,最終出力を決定する.その結果,テクスチャの種類に応じた未知の高周波成分の推定が可能となり,高精度な画像の高解像度化が期待できる.本文の最後では,提案手法の有効性を示すため,実画像を用いた比較実験を行い,その性能の評価を行う.
  • 畠山 泰貴, 小川 貴弘, 浅水 仁, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    本文では,映像の特徴に注目した高精度なWeb映像検索手法を提案する.提案手法では,まず映像信号から得られる画像特徴及び音響特徴,映像を含むWebページのテキストから得られるテキスト特徴に対して正準相関分析を施すことで,新変量の空間における異なる特徴間での映像の類似度定義を可能とする.さらに,各映像の特徴をそれぞれ一つのWebページとみなし,得られる類似度に基づいた隣接行列の生成を行なう.その結果,提案手法では隣接行列にリンク解析を施すことで,類似した内容を含む映像の集合であるコミュニティの抽出が可能となり,映像の特徴に注目した効果的な映像検索が実現される.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2009年02月 
    本文では,パーティクルフィルタを拡張し,ヘルムホルツ分解定理に基づくフロー推定法に応用する.提案手法では,互いに影響を与える2つの状態変数を含む状態遷移モデル,および一時刻前の観測が影響を与える観測モデルを用いる.これらのモデルを従来のパーティクルフィルタで用いる場合,従来法の仮定である,現時刻の状態変数の値が一時刻前の自身の値に従属すること,および現時刻の観測の値が現時刻の状態変数の値に従属することを満たさない.そのため,上述のモデルを満たす仮定を新たに用いることで,パーティクルフィルタを拡張する.さらに本文では,拡張したパーティクルフィルタをヘルムホルツ分解定理に基づくフロー推定法に応用する.提案手法では,2つの状態変数を順方向および逆方向のフローとして,それぞれの状態遷移モデルをフローの性質に基づいて定義する.また,勾配法および平行移動を表す成分に注目して拡張したヘルムホルツ分解定理のモデルを用いて,観測モデルおよび観測密度を定義する.これらの定義に基づくパーティクルフィルタでは,一時刻前の推定誤差の影響を受けない,輝度値の勾配,回転,発散,および平行移動に基づくフロー推定が可能である.その結果,高精度なフロー推定法が実現される.
  • 金 善美, 田中 宏和, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    無線伝送に適した3次元ウェーブレットによる誤り耐性動画像符号化法とそのエラーコンシールメント技術について検討する。本文において我々は、各動画像フレームを空間方向にウェーブレット変換したとき、近隣のウェーブレット係数は相関性が存在することに着目する。そこで、提案手法では係数を複数グループに分散的にグループ化した後、これらのグループ毎に時間方向のウェーブレット変換を行う新たな符号化法を導入する。さらに、受信側においてこれらのグループの複数が伝送路誤りによって欠落した際においても効率良く補間可能なエラーコンシールメント法を提案する。本文の最後では、評価実験により提案方式の有効性を確認する。
  • 畠山 泰貴, 小川 貴弘, 浅水 仁, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    本文では,映像の特徴に注目した高精度なWeb映像検索手法を提案する.提案手法では,まず映像信号から得られる画像特徴及び音響特徴,映像を含むWebページのテキストから得られるテキスト特徴に対して正準相関分析を施すことで,新変量の空間における異なる特徴間での映像の類似度定義を可能とする.さらに,各映像の特徴をそれぞれ一つのWebページとみなし,得られる類似度に基づいた隣接行列の生成を行なう.その結果,提案手法では隣接行列にリンク解析を施すことで,類似した内容を含む映像の集合であるコミュニティの抽出が可能となり,映像の特徴に注目した効果的な映像検索が実現される.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    本文では,パーティクルフィルタを拡張し,ヘルムホルツ分解定理に基づくフロー推定法に応用する.提案手法では,互いに影響を与える2つの状態変数を含む状態遷移モデル,および一時刻前の観測が影響を与える観測モデルを用いる.これらのモデルを従来のパーティクルフィルタで用いる場合,従来法の仮定である,現時刻の状態変数の値が一時刻前の自身の値に従属すること,および現時刻の観測の値が現時刻の状態変数の値に従属することを満たさない.そのため,上述のモデルを満たす仮定を新たに用いることで,パーティクルフィルタを拡張する.さらに本文では,拡張したパーティクルフィルタをヘルムホルツ分解定理に基づくフロー推定法に応用する.提案手法では,2つの状態変数を順方向および逆方向のフローとして,それぞれの状態遷移モデルをフローの性質に基づいて定義する.また,勾配法および平行移動を表す成分に注目して拡張したヘルムホルツ分解定理のモデルを用いて,観測モデルおよび観測密度を定義する.これらの定義に基づくパーティクルフィルタでは,一時刻前の推定誤差の影響を受けない,輝度値の勾配,回転,発散,および平行移動に基づくフロー推定が可能である.その結果,高精度なフロー推定法が実現される.
  • 林 原局, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    本稿では,2つのパーティクルフィルタを用いることで,サッカー映像から選手位置および撮像されたフィールド領域を高精度に推定する手法を提案する.提案手法では,サッカー映像における選手の位置を推定するパーティクルフィルタおよびサッカー映像を撮像しているカメラのパラメータを推定するパーティクルフィルタを定義する.このとき,各パーティクルフィルタにより得られる推定結果を互いの観測モデルへ導入し,それぞれ状態遷移を行うことにより選手位置およびフィールド領域の高精度な推定を可能とする.
  • 平松 朋樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    本文では,位相回復手法の一つであるERアルゴリズムを用いた静止画像の高解像度化手法を提案する.提案手法では,まず,低解像度画像における自己相関関数に対して相関値の補間処理を施すことで,高解像度画像における自己相関関数を推定する.このとき,Wiener-Khintchineの定理により,推定された高解像度画像の自己相関関数をフーリエ変換することで,高解像度画像におけるフーリエ振幅を得ることが可能となるため,これをERアルゴリズムにおけるフーリエ領域の拘束条件として導入する.さらに,低解像度画像から得られる周波数成分を高解像度画像における既知の低周波成分とし,これを画像領域における拘束条件として導入する.以上のようにして導出されるERアルゴリズムを用いてフーリエ位相の回復を行うことで,失われた高周波成分が自己相関関数の補間により生成され,低解像度画像のみから高解像度画像を得ることが可能となる.
  • 瀧澤 誠, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    本文では,超解像処理を用いて,手ぶれにより劣化した動画像を復元・高解像度化する手法を提案する.提案手法では,動画像の各フレームに対し,手ぶれの劣化関数であるPSF(Point Spread Function)を推定し,得られるPSFを用いてフレーム間における対応を算出する.さらに,手ぶれ方向への平滑化を抑制する重み係数を新たに導入した超解像処理を適用することで,ぶれ方向への過剰な平滑化が抑制された高精度な復元および高解像度化を実現する.本文の最後では,比較実験を行い,提案手法の有効性を確認する.
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2009年01月 
    本文では,Support Vector Data Description(SVDD)に基づいた静止画像の適応的高解像度化手法を提案する.提案手法ではまず,教師データとして与えられる高解像度の局所画像にSVDDを適用することで,識別超球の算出を行い,その中心との距離が最小となるように高解像度化の対象となる画像の未知の高周波成分を推定する.ここで,我々は画像の異なる階層間において局所画像が互いに類似する特徴に注目し,低解像度画像中の局所画像を教師データとして利用する.さらに,様々な種類のテクスチャを含む自然画像に対して高精度な高解像度化を可能とするため,提案手法では教師データとなる局所画像をあらかじめクラスタリングし,各クラスタについて得られる超球を用いて上記の未知の高周波成分の推定を行う.このとき,提案手法では各クラスタについて,推定される結果と超球の中心との距離に基づいて定義される確率の下,最終出力を決定する.その結果,テクスチャの種類に応じた未知の高周波成分の推定が可能となり,高精度な画像の高解像度化が期待できる.本文の最後では,提案手法の有効性を示すため,実画像を用いた比較実験を行い,その性能の評価を行う.
  • 金 善美, 田中 宏和, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    無線伝送に適した3次元ウェーブレットによる誤り耐性動画像符号化法とそのエラーコンシールメント技術について検討する。本文において我々は、各動画像フレームを空間方向にウェーブレット変換したとき、近隣のウェーブレット係数は相関性が存在することに着目する。そこで、提案手法では係数を複数グループに分散的にグループ化した後、これらのグループ毎に時間方向のウェーブレット変換を行う新たな符号化法を導入する。さらに、受信側においてこれらのグループの複数が伝送路誤りによって欠落した際においても効率良く補間可能なエラーコンシールメント法を提案する。本文の最後では、評価実験により提案方式の有効性を確認する。
  • 畠山 泰貴, 小川 貴弘, 浅水 仁, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    本文では,映像の特徴に注目した高精度なWeb映像検索手法を提案する.提案手法では,まず映像信号から得られる画像特徴及び音響特徴,映像を含むWebページのテキストから得られるテキスト特徴に対して正準相関分析を施すことで,新変量の空間における異なる特徴間での映像の類似度定義を可能とする.さらに,各映像の特徴をそれぞれ一つのWebページとみなし,得られる類似度に基づいた隣接行列の生成を行なう.その結果,提案手法では隣接行列にリンク解析を施すことで,類似した内容を含む映像の集合であるコミュニティの抽出が可能となり,映像の特徴に注目した効果的な映像検索が実現される.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    本文では,パーティクルフィルタを拡張し,ヘルムホルツ分解定理に基づくフロー推定法に応用する.提案手法では,互いに影響を与える2つの状態変数を含む状態遷移モデル,および一時刻前の観測が影響を与える観測モデルを用いる.これらのモデルを従来のパーティクルフィルタで用いる場合,従来法の仮定である,現時刻の状態変数の値が一時刻前の自身の値に従属すること,および現時刻の観測の値が現時刻の状態変数の値に従属することを満たさない.そのため,上述のモデルを満たす仮定を新たに用いることで,パーティクルフィルタを拡張する.さらに本文では,拡張したパーティクルフィルタをヘルムホルツ分解定理に基づくフロー推定法に応用する.提案手法では,2つの状態変数を順方向および逆方向のフローとして,それぞれの状態遷移モデルをフローの性質に基づいて定義する.また,勾配法および平行移動を表す成分に注目して拡張したヘルムホルツ分解定理のモデルを用いて,観測モデルおよび観測密度を定義する.これらの定義に基づくパーティクルフィルタでは,一時刻前の推定誤差の影響を受けない,輝度値の勾配,回転,発散,および平行移動に基づくフロー推定が可能である.その結果,高精度なフロー推定法が実現される.
  • 林 原局, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    本稿では,2つのパーティクルフィルタを用いることで,サッカー映像から選手位置および撮像されたフィールド領域を高精度に推定する手法を提案する.提案手法では,サッカー映像における選手の位置を推定するパーティクルフィルタおよびサッカー映像を撮像しているカメラのパラメータを推定するパーティクルフィルタを定義する.このとき,各パーティクルフィルタにより得られる推定結果を互いの観測モデルへ導入し,それぞれ状態遷移を行うことにより選手位置およびフィールド領域の高精度な推定を可能とする.
  • 平松 朋樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    本文では,位相回復手法の一つであるERアルゴリズムを用いた静止画像の高解像度化手法を提案する.提案手法では,まず,低解像度画像における自己相関関数に対して相関値の補間処理を施すことで,高解像度画像における自己相関関数を推定する.このとき,Wiener-Khintchineの定理により,推定された高解像度画像の自己相関関数をフーリエ変換することで,高解像度画像におけるフーリエ振幅を得ることが可能となるため,これをERアルゴリズムにおけるフーリエ領域の拘束条件として導入する.さらに,低解像度画像から得られる周波数成分を高解像度画像における既知の低周波成分とし,これを画像領域における拘束条件として導入する.以上のようにして導出されるERアルゴリズムを用いてフーリエ位相の回復を行うことで,失われた高周波成分が自己相関関数の補間により生成され,低解像度画像のみから高解像度画像を得ることが可能となる.
  • 瀧澤 誠, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    本文では,超解像処理を用いて,手ぶれにより劣化した動画像を復元・高解像度化する手法を提案する.提案手法では,動画像の各フレームに対し,手ぶれの劣化関数であるPSF(Point Spread Function)を推定し,得られるPSFを用いてフレーム間における対応を算出する.さらに,手ぶれ方向への平滑化を抑制する重み係数を新たに導入した超解像処理を適用することで,ぶれ方向への過剰な平滑化が抑制された高精度な復元および高解像度化を実現する.本文の最後では,比較実験を行い,提案手法の有効性を確認する.
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2009年01月 
    本文では,Support Vector Data Description(SVDD)に基づいた静止画像の適応的高解像度化手法を提案する.提案手法ではまず,教師データとして与えられる高解像度の局所画像にSVDDを適用することで,識別超球の算出を行い,その中心との距離が最小となるように高解像度化の対象となる画像の未知の高周波成分を推定する.ここで,我々は画像の異なる階層間において局所画像が互いに類似する特徴に注目し,低解像度画像中の局所画像を教師データとして利用する.さらに,様々な種類のテクスチャを含む自然画像に対して高精度な高解像度化を可能とするため,提案手法では教師データとなる局所画像をあらかじめクラスタリングし,各クラスタについて得られる超球を用いて上記の未知の高周波成分の推定を行う.このとき,提案手法では各クラスタについて,推定される結果と超球の中心との距離に基づいて定義される確率の下,最終出力を決定する.その結果,テクスチャの種類に応じた未知の高周波成分の推定が可能となり,高精度な画像の高解像度化が期待できる.本文の最後では,提案手法の有効性を示すため,実画像を用いた比較実験を行い,その性能の評価を行う.
  • 瀧澤 誠, 長谷山 美紀
    映像情報メディア学会技術報告 2008年10月 
    本文では,超解像処理を用いて動画像の高解像度化および高フレームレート化を行う手法を提案する.提案手法では,フレーム間における画素の対応を,複数の特徴点の対応に基づき得られる射影変換のパラメータで表す.このとき,特徴点の対応をクラスタリングし,最大のクラスタを構成する特徴点の対応から射影変換のパラメータを求めることで,動物体が複数存在する場合にも高精度なカメラパラメータの推定を実現する.その結果,連続する既知のフレームとそれらの間に存在する未知のフレームとの画素の対応を推定し,さらに超解像処理を適用することで,動画像の高精細な高解像度化および高フレームレート化か可能となる.本文の最後では,比較実験を行い,提案手法の有効性を確認する.
  • 村山 聖太, 長谷山 美紀
    映像情報メディア学会技術報告 2008年10月 
    本文では,リンク解析に基づくWebページ中に存在する画像の類似度算出法を提案する.我々は,共通の内容を含むWebページの集合において,リンク関係の存在するWebページ中の画像には共通の内容を含む領域が存在し,かつそれらの領域における画像特徴は類似していると仮定する.この仮定に基づき,提案手法では共通の内容を含む領域の画像特微量に注目した類似度を新たに定義する.新たに定義した類似度を用いることで,画像に異なる内容を含む領域が存在する場合に適切な類似度算出が困難である従来の問題が解決され,高精度な画像検索の実現が期待できる.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2008年10月 
    本文では,ヘルムホルツ分解定理に着眼したパーティクルフィルタによるフロー推定法を提案する.ヘルムホルツ分解定理を用いた従来法では,平行移動および過去に推定されたフローの推定誤差を考慮していないため,その推定性能が低下する場合が存在する.そこで提案手法では,平行移動に注目して,ヘルムホルツ分解定理のモデルを拡張する.これにより,平行移動を考慮したフローの推定が可能となり,その推定性能の向上が期待できる.さらに提案手法では,パーティクルフィルタの状態変数をフローとし,一時刻前のフレームの各画素におけるフローが現時刻のフレームの各画素におけるフローへ推移する過程を状態遷移モデルで定義する.また,以下に示す2つの過程を観測モデルとして定義する.1つ目は,現時刻のフレーム中の各画素におけるフローからそのフレーム中の各画素における輝度値が生成され,雑音が重畳する過程である.2つ目は,現時刻のフレーム中の各画素におけるフローがヘルムホルツ分解定理により回転成分および発散成分に分解され,雑音が重畳する過程である.それらのモデルに基づくパーティクルフィルタを用いることで,提案手法では一時刻前のフレーム中の各画素におけるフローの推定誤差の影響を受けずに現時刻のフレーム中の各画素におけるフローを推定することが可能となる.
  • 新井 啓之, 宮川 勲, 小池 秀樹, 長谷山 美紀
    映像情報メディア学会技術報告 2008年06月 
    デジタルサイネージの広告効果測定への適用を想定した,混雑時にも適用可能でかつ簡易な初期設定で利用可能な映像からの人数推定方法を提案する.本手法では,各画素が実空間の人物表面上でどのくらいの面積を占めるかを考慮することにより,画素から人数への変換係数を定義する.そして入力画像において検出された前景画素に沿ってこの変換係数を積算することにより推定人数を得る.局所的な処理結果の単純な積算として人数を推定できるため,混雑時においても安定な処理が可能となる.また処理に必要な幾何パラメータは,人の平均身長など先験的知識から決定されるものとカメラ校正により取得できるもののみであり,カメラ校正を行っておけばカメラ毎の細かなチューニングは不要となる.実画像を用いた実験により本手法の妥当性を確認した.
  • 田中 宏和, 蒋 慶雲, 山崎 彰一郎, 長谷山 美紀
    電子情報通信学会技術研究報告. SIS, スマートインフォメディアシステム 2008年06月 
    CDMAとOFDMを組み合わせたMulti-carrier(MC)CDMAシステムは移動通信環境における高速伝送に効果的なシステムである。一方でハードウェアによる実現を考えると、ハイパワーアンプ(HPA)の非線形特性によって生じる帯域外輻射やPAPRの影響を出来るだけ少なくするため、HPAの特性は通常高い線形性が要求される。これらの問題を解決する手段の1つとしてbi-orthogonal変調を用いる方式が提案されている。 bi-orthogonal変調を適用したMC-CDMAの誤りを考えた場合、受信機におけるsign bit復調誤りよりもHadamard符号語の符号選択誤りの方が影響が大きいという特徴がある。本論文では、周波数方向にReed-Solomon(RS)符号化を行うことで、効率よく符号選択誤りを低減する方式を提案する。更に受信機側でRS復号結果を相関復調装置にフィードバックすることで、sign bitのビット誤り率も合わせて低減できることを示す。そして、これら提案方式について理論解析とシミュレーションによる特性評価を行う。
  • 田中 宏和, 蒋 慶雲, 山崎 彰一郎, 長谷山 美紀
    電子情報通信学会技術研究報告. SIS, スマートインフォメディアシステム 2008年06月
  • 林 原局, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本稿では,レベルセット法を用いてサッカー映像中の選手を高精度に追跡する手法を提案する.提案手法では、レベルセット法における評価関数に,境界面が滑らかさを保つための特徴量に加え,選手のユニフォームの色成分に着眼した新たな特徴量を導入する.これにより提案手法では,異なるチームを区別した高精度な選手の追跡が可能となる.
  • 加賀 陽介, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本文では,複数の検出器を用いることで動画像から高精度に人物を検出する手法を提案する.提案手法では,歩行者検出と顔検出の2種類の検出結果を2次元平面上へ投票し,最終的な人物検出結果を得る.これにより,種類の異なる検出結果が一つに統合され,単一の検出器では検出が困難となる場合でも高精度な人物検出が実現可能となる.本文の最後では提案手法を実画像に適用する実験を行い,その有効性を確認する.
  • 松野 孝也, 近藤 敏志, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本文では,マクロブロックの特徴に着目したクラスタリングに基づく適応内挿フィルタ設計手法を提案する.提案手法では,マクロブロックについてそれらの動きベクトルに着目し,内挿フィルタにより補間される小数位置に基づいたクラスタリングを行う.さらに各クラスタごとに整数位置画素から小数位置画素を補間する内挿フィルタを最小二乗規範に基づき設計する.補間される位置に着目してクラスタリングを行い得られるクラスタごとに内挿フィルタを設計することで,得られるフィルタはフレーム内の水平方向と垂直方向における自己相関の差異を考慮することが可能となる.その結果,内挿フィルタを用いることで動き補償予測誤差を低減することが可能となり,符号化効率の向上が実現される.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本稿では,適応的な対応点推定に基づくモーフィングを用いたフレーム補間法を提案する.提案手法では,フレーム補間を行う処理対象の2フレーム間において,エッジなどの特徴を対応付ける点を推定し,その対応点に基づいてモーフィングを行うことにより,補間フレームを生成する.対応点を推定する際には,処理対象フレームを動物体領域と背景領域に分割し,それぞれの領域に適した手法を用いることで,高精度な対応点の推定を可能とする.このとき,提案手法では領域分割処理において,一時刻前の補間フレームとその領域分割結果を用いて検証を行うことで,高精度な背景領域と動物体領域の推定を可能とする.さらに,提案手法では得られた対応点を用いて補間フレームを生成する際に,動物体領域と背景領域を異なる処理により補間することで,動物体と背景の境界付近において高精度な補間を行うことを可能とする.
  • 高橋 茂樹, 小川 貴弘, 田中 宏和, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本文では,カルマンフィルタを用いた動画像の高精度なエラーコンシールメント手法を提案する.提案手法では,カルマンフィルタの状態変数を動画像の各フレームにおける輝度値とみなし,以下の状態遷移モデルと観測モデルを設計することでエラーコンシールメントを実現する.まず,動きベクトルを用いることで,動画像の復号過程を表す状態遷移モデルを設計する.さらに,新たな劣化過程を導入した観測モデルを設計することで,カルマンゲインの算出を可能とし,状態遷移による推定値の補正を実現する.このように,新たな状態遷移モデルと観測モデルを導入することで,提案手法では最小二乗規範に基づいてカルマンフィルタによるエラーコンシールメントを行うことが可能となる.本文の最後では,実際にエラーを与えた動画像に対して提案手法を適用し,その有効性を確認する.
  • 林 原局, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本稿では,レベルセット法を用いてサッカー映像中の選手を高精度に追跡する手法を提案する.提案手法では、レベルセット法における評価関数に,境界面が滑らかさを保つための特徴量に加え,選手のユニフォームの色成分に着眼した新たな特徴量を導入する.これにより提案手法では,異なるチームを区別した高精度な選手の追跡が可能となる.
  • 加賀 陽介, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本文では,複数の検出器を用いることで動画像から高精度に人物を検出する手法を提案する.提案手法では,歩行者検出と顔検出の2種類の検出結果を2次元平面上へ投票し,最終的な人物検出結果を得る.これにより,種類の異なる検出結果が一つに統合され,単一の検出器では検出が困難となる場合でも高精度な人物検出が実現可能となる.本文の最後では提案手法を実画像に適用する実験を行い,その有効性を確認する.
  • 松野 孝也, 近藤 敏志, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本文では,マクロブロックの特徴に着目したクラスタリングに基づく適応内挿フィルタ設計手法を提案する.提案手法では,マクロブロックについてそれらの動きベクトルに着目し,内挿フィルタにより補間される小数位置に基づいたクラスタリングを行う.さらに各クラスタごとに整数位置画素から小数位置画素を補間する内挿フィルタを最小二乗規範に基づき設計する.補間される位置に着目してクラスタリングを行い得られるクラスタごとに内挿フィルタを設計することで,得られるフィルタはフレーム内の水平方向と垂直方向における自己相関の差異を考慮することが可能となる.その結果,内挿フィルタを用いることで動き補償予測誤差を低減することが可能となり,符号化効率の向上が実現される.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本稿では,適応的な対応点推定に基づくモーフィングを用いたフレーム補間法を提案する.提案手法では,フレーム補間を行う処理対象の2フレーム間において,エッジなどの特徴を対応付ける点を推定し,その対応点に基づいてモーフィングを行うことにより,補間フレームを生成する.対応点を推定する際には,処理対象フレームを動物体領域と背景領域に分割し,それぞれの領域に適した手法を用いることで,高精度な対応点の推定を可能とする.このとき,提案手法では領域分割処理において,一時刻前の補間フレームとその領域分割結果を用いて検証を行うことで,高精度な背景領域と動物体領域の推定を可能とする.さらに,提案手法では得られた対応点を用いて補間フレームを生成する際に,動物体領域と背景領域を異なる処理により補間することで,動物体と背景の境界付近において高精度な補間を行うことを可能とする.
  • 高橋 茂樹, 小川 貴弘, 田中 宏和, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本文では,カルマンフィルタを用いた動画像の高精度なエラーコンシールメント手法を提案する.提案手法では,カルマンフィルタの状態変数を動画像の各フレームにおける輝度値とみなし,以下の状態遷移モデルと観測モデルを設計することでエラーコンシールメントを実現する.まず,動きベクトルを用いることで,動画像の復号過程を表す状態遷移モデルを設計する.さらに,新たな劣化過程を導入した観測モデルを設計することで,カルマンゲインの算出を可能とし,状態遷移による推定値の補正を実現する.このように,新たな状態遷移モデルと観測モデルを導入することで,提案手法では最小二乗規範に基づいてカルマンフィルタによるエラーコンシールメントを行うことが可能となる.本文の最後では,実際にエラーを与えた動画像に対して提案手法を適用し,その有効性を確認する.
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本文では,画像内容に基づく類似画像検索を実現するため,カーネル主成分分析を用いた画像の意味的特徴量の推定手法を提案する.提案手法では,あらかじめキーワードが付与されているデータベース中の画像をクラスタリングし,各クラスタから得られる画像特徴量および意味的特徴量の非線形固有空間を用いて,新たな写像を導出する.このとき得られる写像は,同一のクラスタに属する画像に対して,その画像特徴量から意味的特徴量を高精度に推定する.そこで,提案手法ではキーワードが未知のクエリ画像に対して,その意味的特徴量を推定する際に画像特徴量で生じる誤差に注目することで,属するクラスタの適応的選択を行う.これにより,クエリ画像の意味的特徴量は最適なクラスタによって精度良く推定されるため,その結果から画像内容に基づいた類似画像検索を行うことが可能となる.
  • 山本 誠, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本文では,動画像信号と音響信号の両者の繰り返し構造に基づき,映像信号のシーン分割を行う手法を提案する.提案手法では,映像信号のショットに対して,動画像信号と音響信号から得られる特徴量を用いてクラスタリングを行い,類似したショットの繰り返し構造をそれぞれ取得する.具体的に,これらの構造は,類似したショットを含むクラスタをノード,ショットの時間推移を辺とすることにより有向グラフで表現される.したがって,作成された二つの有向グラフの両者に対して,共通するカット辺を求めることで,二つの信号を有効に用いた映像信号のシーン分割が可能となる.その結果,提案手法は従来の動画像信号のみを用いたシーン分割法において発生するシーンの過分割の抑制を実現した.
  • 道山 大悟, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本稿では,映像検索のための画像及び音響信号に基づくシーン間の相違度定義を行う手法を提案する.提案手法では,シーン間の任意の2ショットにおいて,画像特徴量,音響特徴量,及びそれらを統合して得られた特徴量を比較し,最も類似した特徴量に対しDynamic Time Warpingを施すことによりシーン間の相違度を算出する.この際,正準相関分析を用いて得られる写像により画像特徴量と音響特徴量を同一の特徴空間にて表し,この特徴空間にて特徴量の比較を行う.新たな特徴空間は,映像から得られる画像特徴量と音響特徴量の相関が最大となるような写像を用いて定義されるため,画像信号と音響信号に含まれる共通の特徴に着目した比較が可能となる.これにより,提案手法ではシーン間で類似した特徴量を適切に選択することで,高精度なシーン間の相違度算出を実現する.本稿の最後では,提案手法により得られる相違度を用いてシーン検索の実験を行うことで,その有効性を評価する.
  • 小林 和也, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2008年02月 
    本文では,我々が以前に提案した楽曲間の相違度算出手法を楽曲データベースに適用し,類似楽曲抽出を行うことでその有効性の評価を行う.この手法では,楽曲のメロディーの推移に着眼した特徴量を算出し,得られる特徴量に対してDynamic Time Warpingを適用することで楽曲間の相違度の算出を可能とした.ただし,以前我々が精度評価のために行った実験では,数曲の楽曲を用いた相違度算出に留まっており,類似楽曲抽出の十分な検証を行っていなかった.そこで,本文では284曲で構成される楽曲データベースを用いて評価実験を行い,類似楽曲抽出の精度について考察する.さらに,他手法との比較を行い,本手法の有効性について検討を行う.
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本文では,画像内容に基づく類似画像検索を実現するため,カーネル主成分分析を用いた画像の意味的特徴量の推定手法を提案する.提案手法では,あらかじめキーワードが付与されているデータベース中の画像をクラスタリングし,各クラスタから得られる画像特徴量および意味的特徴量の非線形固有空間を用いて,新たな写像を導出する.このとき得られる写像は,同一のクラスタに属する画像に対して,その画像特徴量から意味的特徴量を高精度に推定する.そこで,提案手法ではキーワードが未知のクエリ画像に対して,その意味的特徴量を推定する際に画像特徴量で生じる誤差に注目することで,属するクラスタの適応的選択を行う.これにより,クエリ画像の意味的特徴量は最適なクラスタによって精度良く推定されるため,その結果から画像内容に基づいた類似画像検索を行うことが可能となる.
  • 山本 誠, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本文では,動画像信号と音響信号の両者の繰り返し構造に基づき,映像信号のシーン分割を行う手法を提案する.提案手法では,映像信号のショットに対して,動画像信号と音響信号から得られる特徴量を用いてクラスタリングを行い,類似したショットの繰り返し構造をそれぞれ取得する.具体的に,これらの構造は,類似したショットを含むクラスタをノード,ショットの時間推移を辺とすることにより有向グラフで表現される.したがって,作成された二つの有向グラフの両者に対して,共通するカット辺を求めることで,二つの信号を有効に用いた映像信号のシーン分割が可能となる.その結果,提案手法は従来の動画像信号のみを用いたシーン分割法において発生するシーンの過分割の抑制を実現した.
  • 道山 大悟, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本稿では,映像検索のための画像及び音響信号に基づくシーン間の相違度定義を行う手法を提案する.提案手法では,シーン間の任意の2ショットにおいて,画像特徴量,音響特徴量,及びそれらを統合して得られた特徴量を比較し,最も類似した特徴量に対しDynamic Time Warpingを施すことによりシーン間の相違度を算出する.この際,正準相関分析を用いて得られる写像により画像特徴量と音響特徴量を同一の特徴空間にて表し,この特徴空間にて特徴量の比較を行う.新たな特徴空間は,映像から得られる画像特徴量と音響特徴量の相関が最大となるような写像を用いて定義されるため,画像信号と音響信号に含まれる共通の特徴に着目した比較が可能となる.これにより,提案手法ではシーン間で類似した特徴量を適切に選択することで,高精度なシーン間の相違度算出を実現する.本稿の最後では,提案手法により得られる相違度を用いてシーン検索の実験を行うことで,その有効性を評価する.
  • 小林 和也, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2008年02月 
    本文では,我々が以前に提案した楽曲間の相違度算出手法を楽曲データベースに適用し,類似楽曲抽出を行うことでその有効性の評価を行う.この手法では,楽曲のメロディーの推移に着眼した特徴量を算出し,得られる特徴量に対してDynamic Time Warpingを適用することで楽曲間の相違度の算出を可能とした.ただし,以前我々が精度評価のために行った実験では,数曲の楽曲を用いた相違度算出に留まっており,類似楽曲抽出の十分な検証を行っていなかった.そこで,本文では284曲で構成される楽曲データベースを用いて評価実験を行い,類似楽曲抽出の精度について考察する.さらに,他手法との比較を行い,本手法の有効性について検討を行う.
  • 小川 貴弘, 佐久間 大輔, 白石 真一, 長谷山 美紀
    映像情報メディア学会誌 : 映像情報メディア 2007年12月 
    We propose the use of a system that provides information about emergency rescue procedures for mobile phone users. To enable the users to easily understand the procedures, avatars demonstrate how they are used. Since the avatars are efficiently constructed on a subset of scalable vector graphics (SVG), they can be quickly transmitted to the mobile phone and with low computational loads. In addition to the avatars, complementary voice and text data that explain the procedures are also transmitted via a synchronized multimedia integration language (SMIL, pronounced "smile") format. Moreover, to verify the performance and the effectiveness of the proposed system, we implemented a dedicated SMIL player suitable for use with mobile phones.
  • 海田 健, 北島 秀夫, 長谷山 美紀, 富田 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 2007年11月 
    移動,回転,拡縮パターンの識別に,観測面の画素3個で表される三角形の相似関係を用いる3次系は有用である.しかし,類似するパターンで,相対的な位置が同じ三角形に,相似でないものがある.そのため,識別率の改善に,識別されるクラスが既知である学習パターンが多数必要であった.本論文で提案する2次元2値点分布の識別系では,まず,学習パターンから,その類似パターンにも共通する特徴を表す類似パターンを生成し,これも学習パターンにする.次に,学習パターンを,統計的に推測されるその類似パターンも表す特徴ベクトルに変換する.特徴ベクトルは,2点の相対的な距離や位置向きを表す.さらに,その特徴ベクトルから,その統計的な特徴を表す特徴ベクトルも生成する.学習パターンが3個与えられると,文字や混合分布の識別率は飽和することを確認する.
  • 海田 健, 北島 秀夫, 長谷山 美紀, 富田 眞吾
    電子情報通信学会技術研究報告. PRMU, パターン認識・メディア理解 2007年11月 
    本論文では,クラスタリング手法Dynamic Coalescence Model (DCM)で発見されるクラスタの代表点を,相対的に不変である位置に発見する手法を提案する. DCMでは,点が球で表され,場の概念に基づいて,球を動かして接触した球を凝縮することが繰り返される.凝縮後の球はクラスタの代表点を表す.しかし,球の位置や移動変位は連続値で表される.そのため,球が凝縮される位置を越えて動かされる場合があった.その上,球の移動距離は,他の球から受ける引力の総和の大きさに比例する値である.そのため,単峰であるクラスタの代表点が,その重心から遠い位置に発見される場合が多かった.提案手法では,点が質点で表され,その位置が離散値で表され,質点の移動変位はその加速度を量子化したベクトルで表される.点分布から,その特徴を表し,相対的な位置が不変である,代表点の分布が生成される.本論文では,提案手法の射影や領域分割,文字認識などへの応用の可能性も示す.
  • 海田 健, 北島 秀夫, 長谷山 美紀, 富田 眞吾
    電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎 2007年11月 
    移動,回転,拡縮パターンの識別に,観測面の画素3個で表される三角形の相似関係を用いる3次系は有用である.しかし,類似するパターンで,相対的な位置が同じ三角形に,相似でないものがある.そのため,識別率の改善に,識別されるクラスが既知である学習パターンが多数必要であった.本論文で提案する2次元2値点分布の識別系では,まず,学習パターンから,その類似パターンにも共通する特徴を表す類似パターンを生成し,これも学習パターンにする.次に,学習パターンを,統計的に推測されるその類似パターンも表す特徴ベクトルに変換する.特徴ベクトルは,2点の相対的な距離や位置向きを表す.さらに,その特徴ベクトルから,その統計的な特徴を表す特徴ベクトルも生成する.学習パターンが3個与えられると,文字や混合分布の識別率は飽和することを確認する.
  • 海田 健, 北島 秀夫, 長谷山 美紀, 富田 眞吾
    電子情報通信学会技術研究報告. MVE, マルチメディア・仮想環境基礎 2007年11月 
    本論文では,クラスタリング手法Dynamic Coalescence Model (DCM)で発見されるクラスタの代表点を,相対的に不変である位置に発見する手法を提案する. DCMでは,点が球で表され,場の概念に基づいて,球を動かして接触した球を凝縮することが繰り返される.凝縮後の球はクラスタの代表点を表す.しかし,球の位置や移動変位は連続値で表される.そのため,球が凝縮される位置を越えて動かされる場合があった.その上,球の移動距離は,他の球から受ける引力の総和の大きさに比例する値である.そのため,単峰であるクラスタの代表点が,その重心から遠い位置に発見される場合が多かった.提案手法では,点が質点で表され,その位置が離散値で表され,質点の移動変位はその加速度を量子化したベクトルで表される.点分布から,その特徴を表し,相対的な位置が不変である,代表点の分布が生成される.本論文では,提案手法の射影や領域分割,文字認識などへの応用の可能性も示す.
  • 浅水 仁, 長谷山 美紀
    映像情報メディア学会技術報告 2007年10月
  • 瀧澤 誠, 長谷山 美紀
    映像情報メディア学会技術報告 2007年10月
  • 松野 孝也, 近藤 敏志, 長谷山 美紀
    映像情報メディア学会技術報告 2007年10月
  • 西村 浩哉, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2007年10月
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2007年10月
  • 平松 朋樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2007年06月 
    本文ではカルマンフィルタを用い,霧の影響により劣化した車載カメラ画像を高精度に復元する手法を提案する.提案手法では,霧発生時に車載カメラにより撮像された画像からレーンマーキング等の複比を用いた消失点の推定を行うことで,霧の劣化モデルにおけるパラメータの自動設定を可能とする.さらに,パラメータが自動設定された霧の劣化モデルをカルマンフィルタの観測モデルにおける観測方程式として用いる.また,状態遷移モデルとして動画像に対して動きベクトルを用いたフレーム間での輝度値の推定とその誤差を補正するモデルを導入する.これにより提案手法では,隣接するフレーム間の相関を用いた高精度な復元が実現される.
  • 平松 朋樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2007年06月 
    本文ではカルマンフィルタを用い,霧の影響により劣化した車載カメラ画像を高精度に復元する手法を提案する.提案手法では,霧発生時に車載カメラにより撮像された画像からレーンマーキング等の複比を用いた消失点の推定を行うことで,霧の劣化モデルにおけるパラメータの自動設定を可能とする.さらに,パラメータが自動設定された霧の劣化モデルをカルマンフィルタの観測モデルにおける観測方程式として用いる.また,状態遷移モデルとして動画像に対して動きベクトルを用いたフレーム間での輝度値の推定とその誤差を補正するモデルを導入する.これにより提案手法では,隣接するフレーム間の相関を用いた高精度な復元が実現される.
  • 平松 朋樹, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2007年06月 
    本文ではカルマンフィルタを用い,霧の影響により劣化した車載カメラ画像を高精度に復元する手法を提案する.提案手法では,霧発生時に車載カメラにより撮像された画像からレーンマーキング等の複比を用いた消失点の推定を行うことで,霧の劣化モデルにおけるパラメータの自動設定を可能とする.さらに,パラメータが自動設定された霧の劣化モデルをカルマンフィルタの観測モデルにおける観測方程式として用いる.また,状態遷移モデルとして動画像に対して動きベクトルを用いたフレーム間での輝度値の推定とその誤差を補正するモデルを導入する.これにより提案手法では,隣接するフレーム間の相関を用いた高精度な復元が実現される.
  • 佐久間 大輔, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本稿では,バスケットボール映像において高精度に選手位置を推定する手法を提案する.提案手法では,色ヒストグラムを基に動物体を追跡するMean-Shift法を利用する.このとき,隣接フレームにおける各選手の追跡結果からオクルージョンの影響を受けた選手を特定する処理をMean-Shift法に導入する.さらに,提案手法ではこのような選手を安定して追跡するために,オクルージョン発生以降のフレームにおいて,発生前と色ヒストグラムが類似する領域を探索する.これにより,オクルージョンに対し頑強な選手追跡が実現され,選手位置の高精度な推定が可能となる.本稿の最後では,提案手法を実際に放送されたバスケットボール映像へ適用し,その有効性について評価を行う.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本文では,モーフィングを用いた高精度なフレーム補間法を提案する.提案手法では,動画像の各フレーム間において撮像物体の対応付けを行い,得られる対応を用いてモーフィングを行うことで補間フレームを生成する.モーフィングにより高精度な中間画像を生成するためには,撮像物体の特徴を考慮する必要がある.そこで,提案手法は,各フレームにおいて撮像物体の特徴点を抽出し,得られる特徴点に基づいて対応付けを行う.これにより,撮像物体の適切な対応付けを実現し,高精度な補間フレームの生成を可能とする.本文の最後では,提案手法を実際の動画像に適用し,高精度なフレーム補間結果が得られたので,それを報告する.
  • 佐久間 大輔, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本稿では,バスケットボール映像において高精度に選手位置を推定する手法を提案する.提案手法では,色ヒストグラムを基に動物体を追跡するMean-Shift法を利用する.このとき,隣接フレームにおける各選手の追跡結果からオクルージョンの影響を受けた選手を特定する処理をMean-Shift法に導入する.さらに,提案手法ではこのような選手を安定して追跡するために,オクルージョン発生以降のフレームにおいて,発生前と色ヒストグラムが類似する領域を探索する.これにより,オクルージョンに対し頑強な選手追跡が実現され,選手位置の高精度な推定が可能となる.本稿の最後では,提案手法を実際に放送されたバスケットボール映像へ適用し,その有効性について評価を行う.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本文では,モーフィングを用いた高精度なフレーム補間法を提案する.提案手法では,動画像の各フレーム間において撮像物体の対応付けを行い,得られる対応を用いてモーフィングを行うことで補間フレームを生成する.モーフィングにより高精度な中間画像を生成するためには,撮像物体の特徴を考慮する必要がある.そこで,提案手法は,各フレームにおいて撮像物体の特徴点を抽出し,得られる特徴点に基づいて対応付けを行う.これにより,撮像物体の適切な対応付けを実現し,高精度な補間フレームの生成を可能とする.本文の最後では,提案手法を実際の動画像に適用し,高精度なフレーム補間結果が得られたので,それを報告する.
  • 武吉 朋也, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本文では,リンク構造の類似性に着目したHITSの改善法を提案する.HITSは,リンク構造の解析によりWebページに対してスコア付けを行う代表的手法であり,その改善手法も種々提案されている.しかしながら,従来手法では個人または一つの団体が作成したWebページと,これをコピーしたページ,さらにはこれらからリンクを張られているページのみが高いスコアを得るという問題が存在する.そこで,提案手法ではスコア付けの対象となるWebページの集合に対し,予め各Webページがもつリンク構造の類似性に着目したクラスタリングを行う.得られたクラスタにはある一つの団体が作成したページと,そのコピーが含まれる可能性が高い.従って,同じクラスタに属する複数のWebページと,一つのWebページの間にリンクが多数存在する場合に,これらのリンクの重みを減少させ,スコア付けを行う.これにより,従来手法ではスコアを得やすいリンク構造をもつWebページが高いスコアを得ることが抑制され,提案手法では様々な検索目的や好みをもつユーザの要求に応えることが可能となる.本文の最後では,提案手法の有用性を示すため比較実験を行う.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本文では,Iterated Function System(IFS)に基づく画像拡大法を提案する.提案手法では,従来のIFS画像拡大法で問題となるエッジの不連続を抑制するため,IFSの拡大処理の過程にラインプロセスを導入する.ラインプロセスはエッジの連続性に注目して,その位置を推定する手法であるが,画像の全ての輝度値が既知である場合に適用可能であり,輝度値が未知である拡大後の画像には適用できない.したがって提案手法では,拡大対象画像にラインプロセスを適用して取得されるエッジから拡大後の画像のエッジを推定し,得られるエッジに基づき,IFSの再構成処理で拡大後の画像の輝度値を算出する.その結果,得られる画像では,エッジの不連続が抑制される.本文の最後では,提案手法の有効性を示すため比較実験を行い,その拡大性能を評価する.
  • 今野 聡司, 二反田 直己, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本稿では,楽曲中のリズムに着眼し,楽曲間の類似度を算出する新たな手法を提案する.提案手法では,音楽信号より算出される自己相関関数により楽曲のリズムを表現し,DTWを適用することで類似度を算出する.これにより,楽曲のリズムに基づく適切な類似度算出を可能とする.さらに,提案手法は,メロディーに基づく楽曲間の類似度を併せて用いることで,類似度の可視化を試みる.これにより,提案手法の類似楽曲検索への応用を検討する.
  • 今 宏史, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本稿では,サッカー映像において,戦術上関連がある選手のグループに対して解析を行うことで,チームが優勢な度合(以降,グループ優勢度)を算出する手法を提案する.提案手法ではまず,選手をグループに分類する.そして,各グループにおいて,選手間が有する戦術的な関係を選手の位置関係に基づいて推定する.選手の関係がわかれば,各選手の戦術上の役割や状況などがわかる.このことから,グループ内の選手の関係を評価することでどちらのチームが戦術上優位な状況にいる選手が多いのかを推定できる.したがって,提案手法では選手の関係に基づいてグループ優勢度を算出する.提案手法によってグループ優勢度を算出し,可視化することで,視聴者の試合内容の理解を補助することや,戦術的な観点からのインデキシングの実現が期待できる.
  • 渡辺 隆志, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本稿では,データベース中に含まれる画像を類似した画像の集合に分類する手法を提案する.以前我々は,画像を色ヒストグラム間の2次形式距離に基づいて分類し,さらに画像の構図に着目することで分類結果の高精度化を図る手法を提案した.しかしながら,予め定義した少数の構図のみを用いていたため,画像中の色の分布について十分に考慮することができず,異なる被写体を撮像した画像であっても,同一の集合に分類されてしまうことが確認された.そこで本稿では,画像中のより詳細な色分布に着目した新たな類似画像分類手法を導入する.提案手法では,画像中の色分布について考慮することが可能である色コリログラムを用い,K-means法により画像の分類を行う.さらに,エッジとその周辺画素の色に着目した再分類処理を施すことで,より高精度な類似画像分類を実現する.
  • 大原 貴都, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. IE, 画像工学 2007年02月 
    本文では,データベース中の画像を自動で分類する手法の提案を行う.これまでに我々は,画像の構造に基づいた特徴量として主にエッジに着目し,ニューラルネットワークの一つであるネオコグニトロンに入力することで,類似した画像の分類を実現した.しかしながら,この手法で用いられる特徴量は,撮像方向が異なる場合等において変化しやすく,同一の対象を撮像した画像であっても,異なるクラスタに分類される可能性がある.そこで,本文では画像のエッジと色情報に基づいた分類手法を提案する.色情報の一つである色ヒストグラムは,撮像方向の変化に影響を受けにくい特徴量として知られている.したがって,提案手法では画像の色ヒストグラムを特徴量とした自己組織化マップによる分類を行う.さらに,得られた分類結果に基づいてネオコグニトロンにおける最終層の構造を適応的に変更することで,画像のエッジに加え,色情報を考慮した高精度な分類を可能とする.本文の最後では,提案手法の有効性を示すために実験を行い,その分類性能を評価する.
  • 武吉 朋也, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本文では,リンク構造の類似性に着目したHITSの改善法を提案する.HITSは,リンク構造の解析によりWebページに対してスコア付けを行う代表的手法であり,その改善手法も種々提案されている.しかしながら,従来手法では個人または一つの団体が作成したWebページと,これをコピーしたページ,さらにはこれらからリンクを張られているページのみが高いスコアを得るという問題が存在する.そこで,提案手法ではスコア付けの対象となるWebページの集合に対し,予め各Webページがもつリンク構造の類似性に着目したクラスタリングを行う.得られたクラスタにはある一つの団体が作成したページと,そのコピーが含まれる可能性が高い.従って,同じクラスタに属する複数のWebページと,一つのWebページの間にリンクが多数存在する場合に,これらのリンクの重みを減少させ,スコア付けを行う.これにより,従来手法ではスコアを得やすいリンク構造をもつWebページが高いスコアを得ることが抑制され,提案手法では様々な検索目的や好みをもつユーザの要求に応えることが可能となる.本文の最後では,提案手法の有用性を示すため比較実験を行う.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本文では,Iterated Function System(IFS)に基づく画像拡大法を提案する.提案手法では,従来のIFS画像拡大法で問題となるエッジの不連続を抑制するため,IFSの拡大処理の過程にラインプロセスを導入する.ラインプロセスはエッジの連続性に注目して,その位置を推定する手法であるが,画像の全ての輝度値が既知である場合に適用可能であり,輝度値が未知である拡大後の画像には適用できない.したがって提案手法では,拡大対象画像にラインプロセスを適用して取得されるエッジから拡大後の画像のエッジを推定し,得られるエッジに基づき,IFSの再構成処理で拡大後の画像の輝度値を算出する.その結果,得られる画像では,エッジの不連続が抑制される.本文の最後では,提案手法の有効性を示すため比較実験を行い,その拡大性能を評価する.
  • 今野 聡司, 二反田 直己, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本稿では,楽曲中のリズムに着眼し,楽曲間の類似度を算出する新たな手法を提案する.提案手法では,音楽信号より算出される自己相関関数により楽曲のリズムを表現し,DTWを適用することで類似度を算出する.これにより,楽曲のリズムに基づく適切な類似度算出を可能とする.さらに,提案手法は,メロディーに基づく楽曲間の類似度を併せて用いることで,類似度の可視化を試みる.これにより,提案手法の類似楽曲検索への応用を検討する.
  • 今 宏史, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本稿では,サッカー映像において,戦術上関連がある選手のグループに対して解析を行うことで,チームが優勢な度合(以降,グループ優勢度)を算出する手法を提案する.提案手法ではまず,選手をグループに分類する.そして,各グループにおいて,選手間が有する戦術的な関係を選手の位置関係に基づいて推定する.選手の関係がわかれば,各選手の戦術上の役割や状況などがわかる.このことから,グループ内の選手の関係を評価することでどちらのチームが戦術上優位な状況にいる選手が多いのかを推定できる.したがって,提案手法では選手の関係に基づいてグループ優勢度を算出する.提案手法によってグループ優勢度を算出し,可視化することで,視聴者の試合内容の理解を補助することや,戦術的な観点からのインデキシングの実現が期待できる.
  • 渡辺 隆志, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本稿では,データベース中に含まれる画像を類似した画像の集合に分類する手法を提案する.以前我々は,画像を色ヒストグラム間の2次形式距離に基づいて分類し,さらに画像の構図に着目することで分類結果の高精度化を図る手法を提案した.しかしながら,予め定義した少数の構図のみを用いていたため,画像中の色の分布について十分に考慮することができず,異なる被写体を撮像した画像であっても,同一の集合に分類されてしまうことが確認された.そこで本稿では,画像中のより詳細な色分布に着目した新たな類似画像分類手法を導入する.提案手法では,画像中の色分布について考慮することが可能である色コリログラムを用い,K-means法により画像の分類を行う.さらに,エッジとその周辺画素の色に着目した再分類処理を施すことで,より高精度な類似画像分類を実現する.
  • 大原 貴都, 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2007年02月 
    本文では,データベース中の画像を自動で分類する手法の提案を行う.これまでに我々は,画像の構造に基づいた特徴量として主にエッジに着目し,ニューラルネットワークの一つであるネオコグニトロンに入力することで,類似した画像の分類を実現した.しかしながら,この手法で用いられる特徴量は,撮像方向が異なる場合等において変化しやすく,同一の対象を撮像した画像であっても,異なるクラスタに分類される可能性がある.そこで,本文では画像のエッジと色情報に基づいた分類手法を提案する.色情報の一つである色ヒストグラムは,撮像方向の変化に影響を受けにくい特徴量として知られている.したがって,提案手法では画像の色ヒストグラムを特徴量とした自己組織化マップによる分類を行う.さらに,得られた分類結果に基づいてネオコグニトロンにおける最終層の構造を適応的に変更することで,画像のエッジに加え,色情報を考慮した高精度な分類を可能とする.本文の最後では,提案手法の有効性を示すために実験を行い,その分類性能を評価する.
  • 佐久間 大輔, 長谷山 美紀
    電子情報通信学会技術研究報告. SDM, シリコン材料・デバイス 2007年01月
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. SDM, シリコン材料・デバイス 2007年01月
  • 今野 聡司, 二反田 直己, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 二反田 直己, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 大原 貴都, 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 今 宏史, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 高橋 寛明, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 渡辺 隆志, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 松野 孝也, 長谷山 美紀
    映像情報メディア学会技術報告 2006年10月
  • 佐久間 大輔, 長谷山 美紀
    映像情報メディア学会技術報告 2006年08月
  • 小川 貴弘, 長谷山 美紀
    映像情報メディア学会技術報告 2006年08月
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2006年06月 
    本文では,位相回復手法の一つであるERアルゴリズムを用いた静止画像中に存在する消失領域の高精度な復元手法を提案する.我々はテクスチャ画像の特徴から,対象画像中の異なる位置に存在する局所領域間において,カーネル関数により高次元特徴空間へ写像される画像およびフーリエ振幅が互いに類似すると仮定する.さらに,復元対象領域の画像およびそのフーリエ振幅を高次元特徴空間へ写像した結果が,それぞれに対して対象画像から生成される固有空間内に存在するように,ERアルゴリズムの拘束条件を設定する.これにより,提案手法では復元対象領域に対して高精度なフーリエ振幅の算出および,その誤差が再構成領域に影響を与えにくい位相の回復を可能とし,消失領域の高精度な復元を実現する.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. CAS, 回路とシステム 2006年06月 
    本文では,モーフィング技術を用いた動画像のフレーム補間法を提案する.提案手法では,動画像の隣接する2フレーム間に存在する動物体の対応を,フレーム間における動き推定の結果を用いて自動で設定する.さらに,得られる対応に基づきモーフィングを行い,フレーム補間を実現する.ある画像から異なる画像に滑らかに変化する過程の画像を生成することが可能なモーフィング技術を用いることで,提案手法では動物体が滑らかに変化する高精度な補間フレームを生成することが可能となる.
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2006年06月 
    本文では,位相回復手法の一つであるERアルゴリズムを用いた静止画像中に存在する消失領域の高精度な復元手法を提案する.我々はテクスチャ画像の特徴から,対象画像中の異なる位置に存在する局所領域間において,カーネル関数により高次元特徴空間へ写像される画像およびフーリエ振幅が互いに類似すると仮定する.さらに,復元対象領域の画像およびそのフーリエ振幅を高次元特徴空間へ写像した結果が,それぞれに対して対象画像から生成される固有空間内に存在するように,ERアルゴリズムの拘束条件を設定する.これにより,提案手法では復元対象領域に対して高精度なフーリエ振幅の算出および,その誤差が再構成領域に影響を与えにくい位相の回復を可能とし,消失領域の高精度な復元を実現する.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. SIP, 信号処理 2006年06月 
    本文では,モーフィング技術を用いた動画像のフレーム補間法を提案する.提案手法では,動画像の隣接する2フレーム間に存在する動物体の対応を,フレーム間における動き推定の結果を用いて自動で設定する.さらに,得られる対応に基づきモーフィングを行い,フレーム補間を実現する.ある画像から異なる画像に滑らかに変化する過程の画像を生成することが可能なモーフィング技術を用いることで,提案手法では動物体が滑らかに変化する高精度な補間フレームを生成することが可能となる.
  • 小川 貴弘, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2006年06月 
    本文では,位相回復手法の一つであるERアルゴリズムを用いた静止画像中に存在する消失領域の高精度な復元手法を提案する.我々はテクスチャ画像の特徴から,対象画像中の異なる位置に存在する局所領域間において,カーネル関数により高次元特徴空間へ写像される画像およびフーリエ振幅が互いに類似すると仮定する.さらに,復元対象領域の画像およびそのフーリエ振幅を高次元特徴空間へ写像した結果が,それぞれに対して対象画像から生成される固有空間内に存在するように,ERアルゴリズムの拘束条件を設定する.これにより,提案手法では復元対象領域に対して高精度なフーリエ振幅の算出および,その誤差が再構成領域に影響を与えにくい位相の回復を可能とし,消失領域の高精度な復元を実現する.
  • 山本 貴史, 長谷山 美紀
    電子情報通信学会技術研究報告. VLD, VLSI設計技術 2006年06月 
    本文では,モーフィング技術を用いた動画像のフレーム補間法を提案する.提案手法では,動画像の隣接する2フレーム間に存在する動物体の対応を,フレーム間における動き推定の結果を用いて自動で設定する.さらに,得られる対応に基づきモーフィングを行い,フレーム補間を実現する.ある画像から異なる画像に滑らかに変化する過程の画像を生成することが可能なモーフィング技術を用いることで,提案手法では動物体が滑らかに変化する高精度な補間フレームを生成することが可能となる.
  • 小川 貴弘, 長谷山 美紀, 北島 秀夫
    電子情報通信学会論文誌. D, 情報・システム 2006年06月 
    本論文では,GMRFモデルを用いた静止画像における失われた輝度値の復元手法を提案する.画像中に存在する輝度値消失領域を高精度に復元するためには,エッジ部を精度良く再構成する必要がある.そこで,我々はGMRFモデルを用いて,特に失われたエッジ部を高精変に復元する手法の実現を試みる.このとき,提案手法において用いられるGMRFモデルは,画像が複数の領域により構成され,各領域は弱定常な確率過程であるという仮定のもとで導出される.したがって,提案手法のモデルは画像中の異なる領域間でエッジの表現が可能となり,エッジ部において高精度な復元結果を与える.更に,・このモデルは輝度値消失領域に複数の領域が合まれ,それらが複数のエッジを構成する場合についても,その適用が可能であり,このような場合に従来手法が抱えていた問題である再構成されたエッジ部の過剰な平滑化が抑制される.本論文の最後では,提案手法の有効性を示すために実画像を用いた比較実験を行い,エッジ部における復元性能を評価する.
  • 竹沢 恵, 真田 博文, 渡辺 一央, 長谷山 美紀
    映像情報メディア学会技術報告 2006年02月
  • 鎌倉 純一, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 山口 巧, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 山浦 隆博, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 新井 啓之, 安野 貴之, 水上 緑, 長谷山 美紀
    映像情報メディア学会技術報告 2006年02月
  • 小川 貴弘, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 二反田 直己, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 今 宏史, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 渡辺 友樹, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 横山 幸徳, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 今野 聡司, 二反田 直己, 長谷山 美紀, 北島 秀夫
    映像情報メディア学会技術報告 2006年02月
  • 山浦 隆博, 長谷山 美紀, 北島 秀夫
    電子情報通信学会技術研究報告. ITS 2006年02月 
    現在,DVD,ディジタル放送などのビデオ符号化方式として,MPEG-2が広く用いられている.MPEG-2は,ブロック単位での動き補償とDCTを用い,効率的に圧縮を実現している.しかしながら,低ビットレートで符号化を行った場合,復号画像にブロックひずみやリンギングなどの劣化が発生するという問題がある.そこで,以前我々は,これらの劣化を軽減するために,符号化側でフレームごとに符号化誤差を最小にする2次元FIRフィルタを設計し,その係数を符号に付加する手法を提案した.本文では,フィルタの設計をフレームごとではなく,復号画像のエッジの方向に注目して領域分割を行い,その領域ごとにフィルタ設計を行う手法を提案する.本提案手法を用いることで,従来手法と比較して,より高品質な画像を得ることが可能となる.
  • 小川 貴弘, 長谷山 美紀, 北島 秀夫
    電子情報通信学会技術研究報告. ITS 2006年02月 
    本文では,位相回復手法の一つであるER(Error Reduction)アルゴリズムを用いた静止画像中に存在する消失テクスチャの高精度な再構成法を提案する.提案手法ではERアルゴリズムで用いられる拘束条件を,復元対象領域およびそのフーリエ振幅がそれぞれ対象画像中の複数の局所領域およびそれらのフーリエ振幅から生成される二つの部分空間内に存在するように設定する.これにより,復元対象領域において未知であるフーリエ振幅および位相の推定が可能となり,消失領域の再構成が可能となる.さらに,提案手法では復元対象領域およびそのフーリエ振幅についてそれぞれ類似した局所領域とフーリエ振幅を選択し,これらを二つの部分空間の生成に用いている.これにより,得られる部分空間は復元対象領域に対して適応的に生成され,提案手法では高精度な消失テクスチャの再構成が可能となる.本文の最後では,提案手法の有効性を示すために実験を行い,その復元性能を評価する.
  • 覚幸 典弘, 小川 貴弘, 長谷山 美紀, 北島 秀夫
    電子情報通信学会技術研究報告. ITS 2006年02月 
    本文では,Iterated Function System(IFS)に基づく画像拡大法を提案する.IFSでは原画像とはサイズが異なる画像を再構成することが可能である.この特徴を用いて,IFSによる画像拡大法が従来より提案されている.しかしながら,従来手法により拡大された画像では,IFSによる処理の最小単位であるレンジブロックの境界において輝度値の不連続,およびエッジの不連続が発生する.これは,従来手法が重ならないレンジブロックを用いていること,および隣接するレンジブロックの境界においてエッジの連続性を考慮せず処理を行っていることによる.そこで提案手法では,レンジブロックの境界における輝度値の不連続を抑制するため,レンジブロックを重なりを許して選択可能とする.さらに,拡大処理の過程にラインプロセスを導入する.このとき,ラインプロセスを用いて得られるエッジは連続性を持つことから,拡大画像においてエッジの連続性が保たれる.以上に示す提案手法を用いれば,高精細な拡大画像を得ることが可能となる.本文の最後では,提案手法の有効性を示すため比較実験を行い,その拡大性能を評価する.
  • 竹沢 恵, 真田 博文, 渡辺 一央, 長谷山 美紀
    電子情報通信学会技術研究報告. ITS 2006年02月 
    画像符号化手法の一つとして知られているフラクタル画像符号化は,画像の自己相似性を利用し,画像データを圧縮する.よって,得られる復号画像の品質は自己相似性と密接な関係があると考えられる.しかしながら,従来,この自己相似性と復号画質との関係について明らかにされてこなかった.そこで,以前我々は,これらの関係を明らかにするために,画像が持つ自己相似性の高さを表すための指標を示し,静止画像を対象として自己相似性と復号画質との関係について考察を行った.本文では,この自己相似性と復号画質との関係に基づき,フラクタル画像符号化の動画像への新たな適用法について考察を行う.

その他活動・業績