研究者データベース

研究者情報

マスター

アカウント(マスター)

  • 氏名

    深谷 猛(フカヤ タケシ), フカヤ タケシ

所属(マスター)

  • 情報基盤センター スーパーコンピューティング研究部門

所属(マスター)

  • 情報基盤センター スーパーコンピューティング研究部門

独自項目

syllabus

  • 2021, 情報理工学実験Ⅱ, Experiment in Computer Science and Information Technology II, 学士課程, 工学部, データベース、Web、機械学習、並列プログラミング

researchmap

プロフィール情報

学位

  • 博士(工学)(名古屋大学)

プロフィール情報

  • 深谷, フカヤ
  • 猛, タケシ
  • ID各種

    201301004228272988

業績リスト

研究キーワード

  • 並列計算   数値線形代数   高性能計算   

研究分野

  • 情報通信 / 計算科学
  • 情報通信 / 高性能計算

経歴

  • 2022年11月 - 現在 北海道大学 情報基盤センター 准教授
  • 2015年04月 - 2022年10月 北海道大学 情報基盤センター 助教
  • 2020年11月 - 2022年03月 科学技術振興機構 さきがけ研究員
  • 2013年10月 - 2015年03月 理化学研究所 計算科学研究機構 研究部門 大規模並列数値計算技術研究チーム 特別研究員
  • 2012年04月 - 2013年09月 神戸大学 大学院システム情報学研究科 特命助教

学歴

  • 2007年04月 - 2012年03月   名古屋大学   大学院工学研究科   計算理工学専攻
  • 2002年04月 - 2007年03月   名古屋大学   工学部   物理工学科

委員歴

  • 2022年04月 - 現在   情報処理学会 ハイパフォーマンスコンピューティング研究会   運営委員
  • 2020年04月 - 現在   日本応用数理学会 行列・固有値問題の解法とその応用 研究部会   幹事
  • 2019年04月 - 現在   日本応用数理学会 行列・固有値問題の解法とその応用 研究部会   運営委員
  • 2017年04月 - 現在   HPCI 連携サービス運営・作業部会   会員
  • 2019年04月 - 2023年03月   自動チューニング研究会   幹事
  • 2019年04月 - 2023年03月   日本応用数理学会 JSIAM Letters   編集委員
  • 2019年04月 - 2023年03月   情報処理学会 ACS論文誌   編集委員
  • 2022年 - 2022年   PDSEC ‘22 Program Committee   member
  • 2022年   SC22 Program Committee   member
  • 2022年   HPC Asia 2022 Organizing Committee   Poster chair
  • 2022年   IPDPS2022 Program Committee   member
  • 2019年04月 - 2021年03月   日本応用数理学会 若手の会   幹事
  • 2021年 - 2021年   MCSoC-21:Special Session ATMG Program Committee   Program Vice-Chair
  • 2021年   PDSEC ‘21 Program Committee   member
  • 2021年   iWAPT2021 Program Committee   member
  • 2021年   xSIG2021 プログラム委員会   委員
  • 2021年   IHPCES2021 Program committee   member
  • 2016年04月 - 2020年03月   情報処理学会 ハイパフォーマンスコンピューティング研究会   運営委員
  • 2020年   xSIG2020 プログラム委員会   委員
  • 2020年   IHPCES2020 Program committee   member
  • 2020年   ICPP2020 Program Committee   member
  • 2020年   HPC Asia 2020 Organizing Committee   Publicity chair
  • 2020年   PDSEC'20 Program Committee   member
  • 2020年   iWAPT2020 Program Committee   member
  • 2017年04月 - 2019年03月   日本応用数理学会 若手の会   主査
  • 2019年   MCSoC-19: Special Session ATMG Program Committee   member
  • 2019年   ICPP2019 Program Committee   member
  • 2019年   PDSEC'19 Program Committee   member
  • 2019年   iWAPT2019 Program Committee   member
  • 2018年   MCSoC-18: Special Session ATMG Program Committee   member
  • 2018年   PDSEC'18 Program Committee   member
  • 2018年   iWAPT2018 Program Committee   member
  • 2015年04月 - 2017年03月   日本応用数理学会 若手の会   幹事
  • 2017年   MCSoC-17: Special Session ATMG Program Committee   Chair
  • 2017年   PDSEC'17 Program Committee   member
  • 2017年   iWAPT2017 Program Committee   member
  • 2017年   HPCS2017 プログラム委員会   委員
  • 2016年   iWAPT2016 Program Committee   member
  • 2016年   HPCS2016 プログラム委員会   副委員長(広報・ポスター担当)
  • 2015年   EPASA2015 Program committee   vice chair
  • 2015年   iWAPT2015 Program Committee   member
  • 2015年   HPCS2015 プログラム委員会   委員

受賞

  • 2023年08月 情報処理学会シンポジウム xSIG2013 Outstanding Research Award
     連立一次方程式の求解を前提とした大規模疎行列の条件数推定 
    受賞者: 工藤 侑也;深谷 猛;岩下 武史
  • 2022年12月 PDCAT2022 Best Paper Award
     Distributed Parallel Tall-Skinny QR factorization: Performance Evaluation of Various Algorithms on Various Systems 
    受賞者: Takeshi Fukaya
  • 2019年03月 情報処理学会 2018年度(平成30年度)山下記念研究賞
     タイルレベルの並列処理を可能とする時空間タイリング手法を用いた3次元FDTDカーネルの実装と性能評価 
    受賞者: 深谷猛
  • 2018年05月 情報処理学会シンポジウム xSIG2018 Best Research Award
     Enhancement of Algebraic Block Multi-Color Ordering for ILU Preconditioning and Its Performance Evaluation in Preconditioned GMRES Solver 
    受賞者: Senxi Li;Takeshi Iwashita;Takeshi Fukaya
  • 2010年03月 名古屋大学 学術奨励賞
     
    受賞者: 深谷猛
  • 2009年06月 EASIAM 2009 EASIAM Student Paper Competition 2nd Prize
     A Dynamic Programming Approach to Optimizing the Blocking Strategy for the Householder QR Decomposition 
    受賞者: Fukaya Takeshi
  • 2009年01月 2009年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2009) 最優秀論文賞
     正方行列向け特異値分解のCUDA による高速化 
    受賞者: 深谷 猛;山本 有作;畝山 多加志;中村 佳正

論文

  • Takeshi Fukaya, Yuji Nakatsukasa, Yusaku Yamamoto
    2024 IEEE International Parallel and Distributed Processing Symposium (IPDPS) 63 - 75 2024年05月27日 [査読有り][通常論文]
  • Hirotoshi Tamori, Takeshi Fukaya, Takeshi Iwashita
    Journal of Information Processing 31 875 - 884 2023年12月 [査読有り]
  • Yingqi Zhao, Takeshi Fukaya, Takeshi Iwashita
    Journal of Information Processing 31 860 - 874 2023年12月 [査読有り]
  • Takeshi Iwashita, Kota Ikehara, Takeshi Fukaya, Takeshi Mifune
    Numerical Linear Algebra with Applications 30 6 2023年05月31日 [査読有り]
     
    Abstract In this article, we focus on solving a sequence of linear systems that have identical (or similar) coefficient matrices. For this type of problem, we investigate subspace correction (SC) and deflation methods, which use an auxiliary matrix (subspace) to accelerate the convergence of the iterative method. In practical simulations, these acceleration methods typically work well when the range of the auxiliary matrix contains eigenspaces corresponding to small eigenvalues of the coefficient matrix. We develop a new algebraic auxiliary matrix construction method based on error vector sampling in which eigenvectors with small eigenvalues are efficiently identified in the solution process. We use the generated auxiliary matrix for convergence acceleration in the following solution step. Numerical tests confirm that both SC and deflation methods with the auxiliary matrix can accelerate the solution process of the iterative solver. Furthermore, we examine the applicability of our technique to the estimation of the condition number of the coefficient matrix. We also present the algorithm of the preconditioned conjugate gradient method with condition number estimation.
  • Takeshi Fukaya
    Parallel and Distributed Computing, Applications and Technologies 275 - 287 2023年04月08日 [査読有り][通常論文]
  • Kengo Suzuki, Takeshi Fukaya, Takeshi Iwashita
    Journal of Computational and Applied Mathematics 419 114687 - 114687 2023年02月 [査読有り]
  • Kengo Suzuki, Takeshi Fukaya, Takeshi Iwashita
    Journal of Information Processing 30 755 - 765 2022年10月 [査読有り]
  • Yingqi Zhao, Takeshi Fukaya, Linjie Zhang, Takeshi Iwashita
    Journal of Information Processing 30 525 - 537 2022年08月 [査読有り]
  • Hisashi Kohashi, Harumichi Iwamoto, Takeshi Fukaya, Yusaku Yamamoto, Takeo Hoshi
    JSIAM Letters 14 13 - 16 2022年 [査読有り]
  • Takeshi Iwashita, Kengo Suzuki, Takeshi Fukaya
    2020 IEEE/ACM 11th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA) 1 - 8 2020年11月 [査読有り]
  • Takeshi Iwashita, Senxi Li, Takeshi Fukaya
    CCF Transactions on High Performance Computing 2 2 84 - 97 2020年06月 [査読有り]
     
    AbstractIn this paper, we propose a new parallel ordering method to vectorize and parallelize the sparse triangular solver, which is called hierarchical block multi-color ordering. In this method, the parallel forward and backward substitutions can be vectorized while preserving the advantages of block multi-color ordering, that is, fast convergence and fewer thread synchronizations. To evaluate the proposed method in a parallel ICCG (Incomplete Cholesky Conjugate Gradient) solver, numerical tests were conducted using seven test matrices on three types of computational nodes. The numerical results indicate that the proposed method outperforms the conventional block and nodal multi-color ordering methods in 18 out of 21 test cases, which confirms the effectiveness of the method.
  • Rise Ooi, Takeshi Iwashita, Takeshi Fukaya, Akihiro Ida, Rio Yokota
    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region 92 - 101 2020年01月15日 [査読有り]
  • Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Yuka Yanagisawa
    SIAM Journal on Scientific Computing 42 1 A477 - A503 2020年01月 [査読有り]
  • Kazuyuki Tanaka, Hiroto Imachi, Tomoya Fukumoto, Akiyoshi Kuwata, Yuki Harada, Takeshi Fukaya, Yusaku Yamamoto, Takeo Hoshi
    Japan Journal of Industrial and Applied Mathematics 36 2 719 - 742 2019年07月 [査読有り]
  • Takeshi Fukaya
    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region 81 - 90 2019年01月14日 [査読有り]
  • Senxi Li, Takeshi Iwashita, Takeshi Fukaya
    Journal of Information Processing 27 201 - 210 2019年 [査読有り]
  • Takeshi Fukaya, Toshiyuki Imamura, Yusaku Yamamoto
    2018 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW) 1113 - 1122 2018年05月 [査読有り]
  • Takeshi Fukaya, Takeshi Iwashita
    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region 116 - 126 2018年01月28日 [査読有り]
  • Seiji Nagashima, Takeshi Fukaya, Yusaku Yamamoto
    2016 IEEE 10th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSOC) 345 - 352 2016年09月 [査読有り][通常論文]
     
    We consider the problem of online automatic tuning. In this setting, we execute the target program with some tuning parameters N times, where N is given, while optimizing the parameters to minimize some objective function such as the total execution time. Thus we have to choose the parameters for each execution by taking into account the trade-off between exploration and exploitation. The ATMathCoreLib library developed by Suda is a set of software that solves this problem. To model the performance of the target software, ATMathCoreLib uses a linear statistical model, and its basis functions must be provided by the user. In this paper, we investigate how to choose the basis functions appropriately, using the singular value decomposition of a square matrix as an example. We consider three cases, namely, (I) when the performance characteristics of the target problem are well understood by the user, (II) when the tuning parameter has a complicated structure, as occurs in the case of simultaneous selection of an algorithm and its parameter, and (III) when the performance characteristics of the target problem are not known to the user. The results of using ATMathCoreLib with different basis functions for each case are given. They help one understand the tuning by ATMathCoreLib and contribute to the progress of ATMathCoreLib.
  • 熊谷 洋佑, 藤井 昭宏, 田中 輝雄, 深谷 猛, 須田 礼仁
    情報処理学会論文誌コンピューティングシステム(ACS) 9 3 1 - 13 2016年08月04日 [査読有り][通常論文]
     
    スーパコンピュータの性能はコア数の増加とともに向上している.大規模な線形解法として共役勾配法(CG法)が広く用いられる.高並列な環境において,内積計算で発生する集団通信が深刻なボトルネックになると指摘されている.近年,Communication-avoiding CG法の一種としてChebyshev基底共役勾配法(CBCG法)が提案されている.本論文では,CBCG法で現れる集団通信の回数を減らしたCBCGR法を示し,CBCGR法に対して通信削減手法であるMatrix Powers Kernel(MPK)の適用を行った.また,2次元と3次元のPoisson方程式に対してFX10(oakleaf-fx)スーパコンピュータシステムで最大1,440ノードを使用したOpenMP/MPIのHybrid並列での計測を行った.2次元Poisson方程式ではCBCGR法およびCBCGR-MPK法が一定の並列数以上でCG法およびCBCG法よりも高速になり,3次元Poisson方程式では一定の並列数以上でCBCGR法が高速となった.
  • Yosuke Kumagai, Akihiro Fujii, Teruo Tanaka, Yusuke Hirota, Takeshi Fukaya, Toshiyuki Imamura, Reiji Suda
    Parallel Processing and Applied Mathematics 9573 74 - 85 2016年 [査読有り]
  • Toshiyuki Imamura, Takeshi Fukaya, Yusuke Hirota, Susumu Yamada, Masahiko Machida
    Advances in Parallel Computing 27 381 - 390 2016年 [査読有り]
     
    © 2016 The authors and IOS Press. The present paper describes an efficient communication optimization technique for Householder tridiagonalization called CAHTR and evaluates its parallel performance. CAHTR is intended to reduce the number of problems in collective communication, especially MPI Allreduce operations. We demonstrate the optimal version of CAHTR(3) compared with a naive implementation CAHTR(0). The CAHTR algorithms are evaluated on the K supercomputer system, and speedup exceeds x1.4 for the case of N = 5000 and P = 1024.
  • Yamamoto Yusaku, Nakatsukasa Yuji, Yanagisawa Yuka, Fukaya Takeshi
    JSIAM Letters 8 5 - 8 一般社団法人 日本応用数理学会 2016年 [査読有り]
     
    The Cholesky QR algorithm is an ideal QR decomposition algorithm for high performance computing, but known to be unstable. We present error analysis of the Cholesky QR algorithm in an oblique inner product defined by a positive definite matrix, and show that by repeating the algorithm twice (called CholeskyQR2), its stability is greatly improved.
  • Takeshi Fukaya, Toshiyuki Imamura
    2015 IEEE International Parallel and Distributed Processing Symposium Workshop 2015年05月 [査読有り]
  • Yusaku Yamamoto, Yuji Nakatsukasa, Yuka Yanagisawa, Takeshi Fukaya
    ELECTRONIC TRANSACTIONS ON NUMERICAL ANALYSIS 44 306 - 326 2015年 [査読有り][通常論文]
     
    We consider the QR decomposition of an m x n matrix X with full column rank, where m >= n. Among the many algorithms available, the Cholesky QR algorithm is ideal from the viewpoint of high performance computing since it consists entirely of standard level 3 BLAS operations with large matrix sizes, and requires only one reduce and broadcast in parallel environments. Unfortunately, it is well-known that the algorithm is not numerically stable and the deviation from orthogonality of the computed Q factor is of order O((kappa(2)(X))(2) u), where kappa(2)(X) is the 2-norm condition number of X and u is the unit roundoff. In this paper, we show that if the condition number of X is not too large, we can greatly improve the stability by iterating the Cholesky QR algorithm twice. More specifically, if kappa(2)(X) is at most O(u(-1/2)), both the residual and deviation from orthogonality are shown to be of order 0(u). Numerical results support our theoretical analysis.
  • Takeshi Fukaya, Toshiyuki Imamura, Yusaku Yamamoto
    Lecture Notes in Computer Science 8969 269 - 283 2015年 [査読有り]
  • Takeshi Fukaya, Yuji Nakatsukasa, Yuka Yanagisawa, Yusaku Yamamoto
    2014 5th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems 31 - 38 2014年11月 [査読有り]
  • 深谷 猛, 山本 有作, 張 紹良
    情報処理学会論文誌 論文誌トランザクション 2011 2 146 - 157 情報処理学会 2012年04月 [査読有り][通常論文]
  • Jun-ichi Muramatsu, Takeshi Fukaya, Shao-Liang Zhang, Kinji Kimura, Yusaku Yamamoto
    IJNC 1 2 132 - 143 2011年 [査読有り][通常論文]
  • Yamamoto Yusaku, Fukaya Takeshi
    JSIAM Letters 2 69 - 72 The Japan Society for Industrial and Applied Mathematics 2010年 [査読有り][通常論文]
     
    We propose an approach for introducing the origin shift into the multiple dqd algorithm for computing the eigenvalues of a totally nonnegative matrix. Numerical experiments show that the shift speeds up the convergence while retaining the accuracy of the computed eigenvalue.
  • 深谷 猛, 山本 有作, 畝山 多加志, 中村 佳正
    情報処理学会論文誌コンピューティングシステム(ACS) 2 2 98 - 109 情報処理学会 2009年07月02日 [査読有り][通常論文]
     
    本論文では GPGPU 向けの統合開発環境 CUDA を用いた,正方行列の特異値分解の高速化について報告する.正方行列の特異値分解では,計算対象の行列を二重対角行列に変換してから特異値分解を行い,その後逆変換を行うことで,もとの行列の特異値分解を得る.本論文では CUDA の BLAS ライブラリ (CUBLAS) の中の高性能な SGEMM (行列乗算ルーチン) を効率的に利用することで,比較的少ないコストで大幅な高速化を行うことを目指し,演算の大部分が BLAS によって行われる二重対角化と逆変換部分を GPU を用いて高速化した.実装にあたっては,行列乗算を中心に二重対角化が可能な Bischof の手法が GPU 向けに適していることを簡単な性能予測を通して確認し,この手法を採用した.また,各計算ステップにおける CPU と GPU との仕事の適切な分担や計算のオーバラップについても考慮した.GPU として NVIDIA の GeForce8800 GTX を用いた性能評価の結果,CPU (Intel Core2 Duo 1.86GHz 2 コア使用)のみで計算する場合と比べて,5,120 次元の正方行列の特異値分解の計算が約 4 倍高速化できることを確認した.In this paper, we report the result of acceleration of computing the singular value decomposition (SVD) for a square matrix using CUDA, which is an integrated development environment for GPGPU. Computing of the SVD for a square matrix consists of the following three parts: bidiagonalization of the input matrix, the SVD of the bidiagonal matrix, and inverse transformation. Among them, we accelerate the first and the third step using GPU. This is because it is easy to use the CUBLAS, the BLAS library provided in CUDA, in these two steps. Through simple performance prediction, we assessed that the Bischof's method, in which bidiagonalization can be computed with matrix multiplications, is effective for computation using GPU. Therefore we implemented the algorithm for the SVD based on such method. When computing the SVD of a 5,120×5,120 matrix, we obtained about four times speedup using a GPU over using only a CPU (Intel Core2 Duo, 1.86 GHz, using 2 cores).
  • An efficient bidiagonalization algorithm for combined CPU-accelerator environments
    Yusaku Yamamoto, Takeshi Fukaya, Takashi Uneyama, Yoshimasa Nakamura
    Proceedings of the IASTED International Conference on Parallel and Distributed Computing and Networks, PDCN 2009 121 - 126 2009年 
    In computing the singular values of a square matrix, transformation of the input matrix to bidiagonal form accounts for most of the computation time. In this paper, we consider speeding up this process using a combination of CPU and floating-point accelerator. As an algorithm for bidiagonalization, we can use the conventional Householder's method or Bischof's two-phase algorithm, which can use the level-3 BLAS efficiently. We can also choose to store the whole matrix in the CPU memory or in the on-board memory of the accelerator. So there are four possible strategies. We investigate the advantages and disadvantages of each strategy and construct an analytical performance model for each of them. Using the models, we predict the performance of bidiagonalzation on the CSX600 accelerator and show that it is the best to achieve high performance to use Bischof's algorithm with the matrix stored in the on-board memory. This conclusion should hold for many other accelerators with similar performance characteristics.
  • Yamamoto Yusaku, Fukaya Takeshi
    JSIAM Letters 1 56 - 59 The Japan Society for Industrial and Applied Mathematics 2009年 [査読有り][通常論文]
     
    We analyze convergence properties and numerical properties of the differential qd algorithm generalized for totally nonnegative band matrices. In particular, we show that the algorithm is globally convergent and can compute all eigenvalues to high relative accuracy.
  • Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    2008 IEEE International Conference on Cluster Computing 402 - 410 2008年09月 [査読有り][通常論文]
  • 深谷猛, 山本有作, 畝山多加志, 堀玄, 梅野健
    情報処理学会論文誌 48 SIG8(ACS18) 31 - 43 2007年05月 [査読有り][通常論文]
  • Yusaku Yamamoto, Takeshi Fukaya, Takashi Uneyama, Masami Takata, Kinji Kimura, Masashi Iwasaki, Yoshimasa Nakamura
    Lecture Notes in Computer Science 4671 340 - 345 2007年 [査読有り][通常論文]

MISC

  • Takeshi Fukaya, Koki Ishida, Akie Miura, Takeshi Iwashita, Hiroshi Nakashima CoRR abs/2105.04937 2021年05月11日 [査読無し]
     
    Sparse Matrix Vector multiplication (SpMV) is one of basic building blocks in scientific computing, and acceleration of SpMV has been continuously required. In this research, we aim for accelerating SpMV on recent CPUs for sparse matrices that have a specific sparsity structure, namely a diagonally structured sparsity pattern. We focus a hybrid storage format that combines the DIA and CSR formats, so-called the HDC format. First, we recall the importance of introducing cache blocking techniques into HDC-based SpMV kernels. Next, based on the observation of the cache blocked kernel, we present a modified version of the HDC formats, which we call the M-HDC format, in which partial diagonal structures are expected to be more efficiently picked up. For these SpMV kernels, we theoretically analyze the expected performance improvement based on performance models. Then, we conduct comprehensive experiments on state-of-the-art multi-core CPUs. By the experiments using typical matrices, we clarify the detailed performance characteristics of each SpMV kernel. We also evaluate the performance for matrices appearing in practical applications and demonstrate that our approach can accelerate SpMV for some of them. Through the present paper, we demonstrate the effectiveness of exploiting partial diagonal structures by the M-HDC format as a promising approach to accelerating SpMV on CPUs for a certain kind of practical sparse matrices.
  • 縦長行列のQR分解に対する各種アルゴリズムの比較:Oakforest-PACS上での性能評価
    深谷猛 東京大学情報基盤センター スーパーコンピューティングニュース 22 (6) 28 -39 2020年12月 [査読無し][通常論文]
  • ブロックに基づくfill-in選択手法を利用したILU-GMRESソルバ
    鈴木 謙吾, 深谷 猛, 岩下 武史 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2020-HPC-177 (20) 1 -7 2020年12月 [査読無し][通常論文]
  • Roman Iakymchuk, Daichi Mukunoki, Artur Podobas, Fabienne Jézéquel, Toshiyuki Imamura, Norihisa Fujita, Jens Huthmann, Shuhei Kudo, Yiyu Tan, Jens Domke, Kai Torben Ohlhus, Takeshi Fukaya, Takeo Hoshi, Yuki Murakami, Maho Nakata, Takeshi Ogita, Kentaro Sano, Taisuke Boku https://arxiv.org/abs/2004.04628 abs/2004.04628 2020年04月09日 [査読無し][通常論文]
     
    In numerical computations, precision of floating-point computations is a key factor to determine the performance (speed and energy-efficiency) as well as the reliability (accuracy and reproducibility). However, precision generally plays a contrary role for both. Therefore, the ultimate concept for maximizing both at the same time is the minimal-precision computing through precision-tuning, which adjusts the optimal precision for each operation and data. Several studies have been already conducted for it so far (e.g. Precimoniuos and Verrou), but the scope of those studies is limited to the precision-tuning alone. Hence, we aim to propose a broader concept of the minimal-precision computing system with precision-tuning, involving both hardware and software stack. In 2019, we have started the Minimal-Precision Computing project to propose a more broad concept of the minimal-precision computing system with precision-tuning, involving both hardware and software stack. Specifically, our system combines (1) a precision-tuning method based on Discrete Stochastic Arithmetic (DSA), (2) arbitrary-precision arithmetic libraries, (3) fast and accurate numerical libraries, and (4) Field-Programmable Gate Array (FPGA) with High-Level Synthesis (HLS). In this white paper, we aim to provide an overview of various technologies related to minimal- and mixed-precision, to outline the future direction of the project, as well as to discuss current challenges together with our project members and guest speakers at the LSPANC 2020 workshop; https://www.r-ccs.riken.jp/labs/lpnctrt/lspanc2020jan/.
  • ランタイムシステムを用いたマルチフロンタルコレスキー分解の開発
    中野 智輝, 横川 三津夫, 深谷 猛, 山本 有作 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2020-HPC-173 (10) 1 -14 2020年03月 [査読無し][通常論文]
  • テンソル分解におけるMTTKRPのスレッド並列化に関する考察
    深谷猛 計算工学講演会論文集 24 2019年05月 [査読無し][通常論文]
  • 緩和型スーパーノードマルチフロンタル法の最適な緩和パラメータについて
    中野 智輝, 横川 三津夫, 深谷 猛, 山本 有作 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2018-HPC-167 (25) 1 -8 2018年12月 [査読無し][通常論文]
     
    数値シミュレーションにおける多くの問題は,偏微分方程式を離散化して得られる連立一次方程式を解く問題に帰着される.そして,多くの場合,連立一次方程式を解く時間は全体のシミュレーション時間の大部分を占める.よって,連立一次方程式を高速に解くことは非常に重要である.本研究では,正定値対称行列に適用できるコレスキー分解を扱う.疎行列に対して,コレスキー分解を行う手法はいくつかあるが,本稿では,緩和型スーパーノードマルチフロンタル法を用いた.同手法では,2 つのスーパーノードを融合する際に非零と見なす零要素数の上限である緩和パラメータが性能に大きな影響を与える。そこで,このパラメータの最適値を求めることを目的として,Intel Xeon (Ivy Bridge-EX) とIntel Xeon Phi(Knights Landing, KNL) のそれぞれ1 コ
  • 大島聡史, 藤井昭宏, 田中輝雄, 深谷猛, 須田礼仁 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2018-HPC-165 (17) 1 -9 2018年07月 [査読無し][通常論文]
  • 深谷猛, 岩下武史 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2018-HPC-164 (6) 1 -9 2018年05月 [査読無し][通常論文]
  • 中野智輝, 横川三津夫, 深谷猛, 山本有作 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2017-HPC-162 (19) 1 -10 2017年12月11日 [査読無し][通常論文]
  • 深谷猛, 岩下武史 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2017-HPC-160 (35) 1 -11 2017年07月19日 [査読無し][通常論文]
  • 深谷猛, 三浦瑛絵, 岩下武史 計算工学講演会論文集 22 4p 2017年05月31日 [査読無し][通常論文]
  • 森倉悠介, 椋木大地, 深谷猛, 山中脩也, 大石進一 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2016-HPC-157 (1) 1 -7 2016年12月14日 [査読無し][通常論文]
  • 深谷猛, 深谷猛, 深谷猛, 山本有作, 山本有作, 今村俊幸, 今村俊幸 計算工学講演会論文集 20 2015年06月08日 [査読無し][通常論文]
  • 深谷猛 計算工学 20 (2) 3247 -3250 2015年04月30日 [査読無し][通常論文]
  • FX10 4800ノードを用いた通信削減型QR分解アルゴリズムの性能評価
    深谷猛 東京大学情報基盤センター スーパーコンピューティングニュース 16 (4) 11 -20 2014年07月 [査読無し][通常論文]
  • 今村俊幸, 廣田悠輔, 深谷猛, 山田進, 町田昌彦 計算工学講演会論文集 19 2014年06月11日 [査読無し][通常論文]
  • 深谷猛, 今村俊幸 計算工学講演会論文集 19 2014年06月11日 [査読無し][通常論文]
  • 片桐孝洋, 高山恒一, 米村崇, 熊洞宏樹, 猪貝光祥, 北上純一, 江口義之, 深谷猛, 山本有作, 岩田潤一, 内田和之, 大島聡史, 中島研吾 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2014-HPC-144 (3) 1 -6 2014年05月19日 [査読無し][通常論文]
  • FX10 4800ノードを用いた密行列向け固有値ソルバEigenExaの性能評価
    深谷 猛, 今村 俊幸 東京大学情報基盤センター スーパーコンピューティングニュース 16 (3) 20 -27 2014年05月 [査読無し][通常論文]
  • 超並列環境向け固有値計算プログラムの性能予測モデルの開発(続)
    深谷猛 東京大学情報基盤センター スーパーコンピューティングニュース 16 (1) 21 -28 2014年01月 [査読無し][通常論文]
  • 超並列環境向け固有値計算プログラムの性能予測モデルの開発
    深谷猛 東京大学情報基盤センター スーパーコンピューティングニュース 15 (6) 33 -43 2013年11月 [査読無し][通常論文]
  • 深谷猛, 今村俊幸, 山本有作 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2013-HPC-140 (41) 1 -8 2013年07月24日 [査読無し][通常論文]
  • 深谷猛, 山本有作 計算工学講演会論文集 18 2013年06月19日 [査読無し][通常論文]
  • 深谷猛, 今村俊幸, 山本有作 先進的計算基盤システムシンポジウム論文集 2013 132 -133 2013年05月15日
  • 深谷 猛, 山本 有作, 張 紹良 情報処理学会論文誌コンピューティングシステム(ACS) 4 (4) 146 -157 2011年10月05日 
    密行列計算においては,高性能化のためにアルゴリズムのブロック化が必須である.その際に,ブロック化の方法次第で性能が大きく変化するため,その最適化が重要な課題となっている.しかしながら,ブロック化の自由度が大きいため,従来は限定された範囲内で最適化を行うことがほとんどである.本論文では,QR 分解アルゴリズムを対象として,二分木を使うことで従来より格段に広いクラスのブロック化の方法を系統的に扱い,その中から動的計画法により最適なブロック化の方法を決定する手法を提案する.数値実験の結果,提案手法がブロック分割法に対する自動チューニング手法として有望であることが示された.Blocking techniques are widely used in high performance matrix computations. When using them, it is important to optimize a blocking way, which influences the performance of computations. However, because of the high degree of freedom in blocking techniques, such optimization is generally done in a limited class of blocking ways. In this paper, we propose a framework to determine the efficient blocking way for the algorithm of QR decomposition. In our framework, various kinds of blocking ways are represented systematically with binary trees and an optimal one is determined by dynamic programming. Results of numerical experiments show that our framework has good possibilities in the view of the automatic performance tuning.
  • 深谷猛, 山本有作, ZHANG Shao‐Liang 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2011-HPC-130 (42) 1 -6 2011年08月15日 [査読無し][通常論文]
  • 深谷猛, 山本有作, 張紹良 ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集 2011 65 -65 2011年01月11日
  • 深谷猛, 山本有作, ZHANG Shao‐Liang 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2010-HPC-126 (33) 1 -6 2010年10月15日 [査読無し][通常論文]
  • 山本有作, 深谷猛 応用数理 20 (3) 201 -211 2010年09月24日 [査読無し][通常論文]
  • 深谷 猛, 山本 有作, 張 紹良 研究報告ハイパフォーマンスコンピューティング(HPC) 2010 (33) 1 -6 2010年07月27日 
    高性能な行列計算を行う場合,プログラムの性能チューニングが必要不可欠である.我々は基本的な密行列計算が BLAS ルーチンを使って実行される点に着目し,チューニング済みの BLAS ルーチンを効率的に使えるようにプログラムをチューニングすることを目指す.ブロック化されたアルゴリズムにおいて,効率的に BLAS を使うためには行列のブロック分割法を最適化することが重要となる.本稿では,LU 分解のアルゴリズムをブロック化して,ブロック分割法が性能に与える影響を評価し,さらに適切な分割法を決定するための手法の検討を行う.For high performance matrix computations, it is necessity to tune the software. Since basic dense matrix computations consist almost entirely of the BLAS routines, it is important how to tune programs for exploiting the peak performance of optimized BLAS routines. In blocked algorithm, this means how to optimize the partitioning of the target matrix. In this paper, we evaluate and discuss the blocking strategy for the blocked LU decomposition.
  • 深谷猛, 山本有作, ZHANG Shao‐Liang 情報処理学会研究報告:ハイパフォーマンスコンピューティング 2009-HPC-121 (18) 1 -7 2009年10月15日 [査読無し][通常論文]
  • 深谷 猛, 山本 有作, 張 紹良 研究報告ハイパフォーマンスコンピューティング(HPC) 2009 (18) 1 -7 2009年07月28日 
    行列計算を並列化する場合,行列ベクトル積や行列乗算などの BLAS ルーチンを並列化する方法と,それらのルーチンをコールする階層で並列化する方法が考えられる.また,行列をブロックに分割して計算を行うことが一般的となっている.そのため,ユーザーは並列化方法とブロック分割法の両者のチューニングを行う必要があるが,自由度が非常に大きいため,効果的なチューニングをすることが難しい.そこで,本稿ではハウスホルダー QR 分解を対象として,自動チューニング手法の検討を行う.In matrix computation, we can parallelize an algorithm by two ways: parallelization of BLAS routines such as matrix-vector multiplication, and parallelization in algorithm levels where BLAS routines are called. In addition, blocking techniques are widely used for matrix computations. Therefore we have many choices when tuning our programs for parallel computers. But it is very difficult for general users to tune their programs effectively. In this paper, we discuss an approach to automatic tuning the algorithm of the blocked Householder QR decomposition.
  • 深谷猛, 山本有作, 畝山多加志, 中村佳正 2009年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2009)論文集 107 -114 2009年01月15日 [査読有り][通常論文]
  • 深谷猛, 山本有作, 畝山多加志, 堀玄, 梅野健 2007年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2007)論文集 111 -118 2007年01月17日 [査読有り][通常論文]

書籍等出版物

  • Tomoki Nakano, Mitsuo Yokokawa, Yusaku Yamamoto, Takeshi Fukaya (担当:分担執筆範囲:Affecting the Relaxation Parameter in the Multifrontal Method)
    Springer 2020年 (ISBN: 9783030391805) 215-224
  • 櫻井 鉄也, 松尾 宇泰, 片桐 孝洋, 日本応用数理学会 (担当:分担執筆範囲:第6章 固有値・特異値問題における並列計算 6.1 直接法)
    共立出版 2018年 (ISBN: 9784320019553) 229-249
  • 直野, 健, 寺西, 慶太, Cavazos, John, 須田, 礼仁 (担当:分担執筆範囲:Dynamic Programming Approaches to Optimizing the Blocking Strategy for Basic Matrix Decompositions)
    Springer 2010年 (ISBN: 9781441969347) xiv, 377 p. 69-85

講演・口頭発表等

  • 低精度演算を用いた線形計算アルゴリズムの研究  [通常講演]
    深谷 猛
    第7回北大・部局横断シンポジウム 2021年10月 口頭発表(一般) オンライン
  • ベイズ推定による超並列計算の性能予測  [通常講演]
    星 健夫, 小橋 恒士, 山本 有作, 深谷 猛
    日本応用数理学会2021年度年会 2021年09月 口頭発表(一般) オンライン 日本応用数理学会
  • GPUに適した近似逆行列前処理の簡略化手法  [通常講演]
    鈴木 謙吾, 深谷 猛, 岩下 武史
    日本応用数理学会2021年度年会 2021年09月 口頭発表(一般) オンライン 日本応用数理学会
  • GMRES(m)法に対する低精度演算・データの積極的導入の可能性に関する検証  [通常講演]
    深谷 猛, 岩下 武史
    日本応用数理学会2021年度年会 2021年09月 口頭発表(一般) オンライン 日本応用数理学会
  • 最近のマルチコアCPU環境における疎行列ベクトル積の性能に関する一考察  [通常講演]
    深谷 猛, 岩下 武史, 中島 浩
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会 第31回研究会(SwoPP2021) 2021年07月 口頭発表(一般) オンライン 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • SIMD演算に適したブロック構造を有する新しいILU分解前処理手法  [通常講演]
    鈴木 謙吾, 深谷 猛, 岩下 武史
    The 5th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2021) 2021年07月 口頭発表(一般) オンライン 情報処理学会 ARC/HPC/OS/PRO 各研究会
  • Exploiting Lower Precision Computing in the GMRES(m) Method  [通常講演]
    Takeshi Fukaya, Yingqi Zhao, Takeshi Iwashita
    SIAM Conference on Applied Linear Algebra (LA21) 2021年05月 口頭発表(一般) online SIAM
  • Exploiting Lower Precision Computing in the GMRES(m) Method  [通常講演]
    Takeshi Fukaya
    2021 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2021) 2021年03月 口頭発表(一般) Taoyuan City & online
  • GMRES(m)法における行列データの低精度化に関する検討  [通常講演]
    深谷 猛, 岩下 武史
    日本応用数理学会 第17回研究部会連合発表会 2021年03月 口頭発表(一般) オンライン 日本応用数理学会
  • Hierarchical Block Multi-Color Ordering for Vectorization and Parallelization of the ICCG Method  [通常講演]
    Takeshi Iwashita, Senxi Li, Takeshi Fukaya
    SIAM Conference on Computational Science and Engineering (CSE21) 2021年03月 口頭発表(一般) online SIAM
  • 低精度・低信頼性演算を活用した数値計算アルゴリズムの創出  [通常講演]
    深谷 猛
    第12回 自動チューニング技術の現状と応用に関するシンポジウム(ATTA2020) 2020年12月 口頭発表(一般) オンライン 自動チューニング研究会
  • 縦長行列の列ピボット付きQR分解に対するコレスキーQR型アルゴリズムの検討  [通常講演]
    深谷 猛, 中務 佑治, 山本 有作
    日本応用数理学会2020年度年会 2020年09月 口頭発表(一般) オンライン 日本応用数理学会
  • Automated Subspace Correction法を前処理とするCGソルバの開発と評価  [通常講演]
    池原 紘太, 深谷 猛, 岩下 武史
    The 4th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2020) 2020年07月 口頭発表(一般) オンライン 情報処理学会 ARC/HPC/OS/PRO 各研究会
  • Shifted CholeskyQR3 for High Performance Tall-Skinny QR Factorization  [通常講演]
    Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Yuka Yanagisawa
    SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP20) 2020年02月 口頭発表(一般) Seattle SIAM
  • Investigation into the convergence behavior of the mixed-precision GMRES(m) method using FP64 and FP32  [通常講演]
    Takeshi Fukaya
    Workshop on Large-scale Parallel Numerical Computing Technology (LSPANC 2020 January) 2020年01月 口頭発表(一般) Kobe RIKEN R-CCS
  • Benchmarking Basic Dense Linear Algebra Kernels on the supercomputer Grand Chariot  [通常講演]
    Takeshi Fukaya
    Sapporo Winter HPC Seminar 2020 2020年01月 口頭発表(一般) Sapporo Information Initiative Center, Hokkaido University
  • HPC視点に基づくテンソル分解アルゴリズムの高性能化  [通常講演]
    深谷 猛
    第11回 自動チューニング技術の現状と応用に関するシンポジウム(ATTA2019) 2019年12月 口頭発表(一般) 東京都 自動チューニング研究会
  • 北海道大学情報基盤センター 新スーパーコンピュータシステム利用者からの問い合わせ分析  [通常講演]
    吉川 潤, 更科 高広, 吉川 浩, 金子 修己, 岩﨑 誠, 折野 神惠, 岩舩 歩美, 深谷 猛, 岩下 武史
    大学ICT推進協議会2019年度年次大会(AXIES2019) 2019年12月 口頭発表(一般) 福岡市 一般社団法人 大学ICT推進協議会
  • 3 次元FDTD 法に対する並列処理に適した時空間タイリング手法  [通常講演]
    深谷 猛
    北海道大学共同利用・共同研究拠点アライアンス 部局横断シンポジウム「計算科学が拓く汎分野研究」 2019年10月 口頭発表(一般) 札幌市 北海道大学共同利用・共同研究拠点アライアンス
  • 倍精度と単精度を用いた混合精度GMRES(m)法の収束性に関する実験的評価  [通常講演]
    深谷 猛, グドール 聖哉, 張 臨傑, 岩下 武史
    日本応用数理学会2019年度年会 2019年09月 口頭発表(一般) 東京都 日本応用数理学会
  • Recent progress of the Cholesky QR factorization  [通常講演]
    Takeshi Fukaya
    2019 Mini-Workshop on Computational Science (MWCS2019) 2019年08月 口頭発表(一般) Dalian
  • Mixed-Precision GMRES(m) Method using Double and Single Precision: Experimental Evaluation of its Convergence Properties  [通常講演]
    Takeshi Fukaya
    Sapporo Summer HPC Seminar 2019 2019年08月 口頭発表(一般) Sapporo Information Initiative Center, Hokkaido University
  • 倍精度と単精度を用いた混合精度 GMRES(m) 法の性能評価  [通常講演]
    深谷 猛, グドール 聖哉, 張 臨傑, 岩下 武史
    第48回数値解析シンポジウム(NAS2019) 2019年06月 口頭発表(一般) 福井市
  • ALS法を用いた密テンソルのCP分解におけるMTTKRPの性能評価  [通常講演]
    深谷 猛
    The 3rd cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2019) 2019年05月 口頭発表(一般) 横浜市 情報処理学会 ARC/HPC/OS/PRO 各研究会
  • ベクトル直交化手法に関する最近の進展  [通常講演]
    深谷 猛
    大規模並列数値計算技術に関する研究集会 (LSPANC2019 March) 2019年03月 口頭発表(一般) 神戸市 理研 R-CCS
  • Accelerating Multithreaded Linear Solver with Mixed Precision Hierarchical Matrix Computation and Data Structure  [通常講演]
    Rise Ooi Kok Thong, Takeshi Fukaya, Takeshi Iwashita
    日本応用数理学会若手の会主催 第4回学生研究発表会 2019年03月 ポスター発表 つくば市 日本応用数理学会 若手の会
  • High performance QR factorization of ill-conditioned matrices based on the Cholesky QR algorithm  [通常講演]
    Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Yuka Yanagisawa
    SIAM Conference on Computational Science and Engineering (CSE19) 2019年02月 口頭発表(一般) Spokane SIAM
  • Shifted Cholesky QR algorithm for computing the QR factorization of ill-conditioned matrices  [通常講演]
    Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Yuka Yanagisawa
    2019 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2019) 2019年02月 口頭発表(一般) Kaohsiung
  • 超並列計算に対するベイズ推定型性能予測  [通常講演]
    原田 祐希, 田中 和幸, 深谷 猛, 山本 有作, 星 健夫
    ポスト「京」重点課題(7)「次世代の産業を支える新機能デバイス・ 高性能材料の創成(CDMSI)」第4回シンポジウム 2018年12月 ポスター発表 東京都
  • 北海道大学情報基盤センター新スーパーコンピュータシステムの概要  [通常講演]
    深谷 猛, 岩下 武史, 金子 修己, 折野 神惠, 更科 高広
    大学ICT推進協議会2018年度年次大会(AXIES2018) 2018年11月 口頭発表(一般) 札幌市 一般社団法人 大学ICT推進協議会
  • Performance Evaluation of the Shifted Cholesky QR Algorithm for Ill-Conditioned Matrices  [通常講演]
    Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Yuka Yanagisawa
    SC’18: The International Conference for High Performance Computing, Networking, Storage, and Analysis 2018年 ポスター発表 Dallas IEEE/ACM
  • コレスキー分解を用いたQR分解の高性能計算手法  [通常講演]
    深谷 猛
    名古屋大学 張研究室 コロキウム 2018年10月 口頭発表(一般) 名古屋市 名古屋大学 張研究室
  • Bayesian Inference Based Performance Prediction For Massively Parallel Numerical Solver  [通常講演]
    Yuki Harada, Kazuyuki Tanaka, Takeshi Fukaya, Yusaku Yamamoto, Takeo Hoshi
    3rd International Symposium on Research and Education of Computational Science (RECS2018) 2018年09月 ポスター発表 Tokyo The Computational Science Alliance, The University of Tokyo
  • An overview of various algorithms for computing tall-skinny QR factorization  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto
    The 37th JSST Annual International Conference on Simulation Technology (JSST2018) 2018年09月 口頭発表(一般) Muroran JAPAN SOCIETY FOR SMILATION TECHNOLOGY
  • High performance multi-threaded ILU-GMRES solver with algebraic block multi-color ordering  [通常講演]
    Takeshi Iwashita, Senxi Li, Takeshi Fukaya
    CoSaS 2018: International Symposium on Computational Science at Scale 2018年 ポスター発表 Erlangen
  • マルチコア・メニーコア計算機環境におけるChebyshev基底通信削減CG法の性能評価  [通常講演]
    大島 聡史, 藤井 昭宏, 田中 輝雄, 深谷 猛, 須田 礼仁
    日本応用数理学会2018年度年会 2018年09月 口頭発表(一般) 名古屋市 日本応用数理学会
  • 密テンソルに対するALS法の実装方法に関する考察  [通常講演]
    深谷 猛
    日本応用数理学会2018年度年会 2018年09月 口頭発表(一般) 名古屋市 日本応用数理学会
  • シフト付きCholeskyQR法を用いた一般内積空間におけるQR分解の計算  [通常講演]
    深谷 猛, 中務 佑治, Kannan Ramaseshan, 山本 有作, 柳澤 優香
    日本応用数理学会2018年度年会 2018年09月 ポスター発表 名古屋市 日本応用数理学会
  • ベイズ推定を用いた並列数値計算ライブラリの性能予測  [通常講演]
    原田 祐希, 田中 和幸, 福本 智哉, 深谷 猛, 山本 有作, 星 健夫
    日本応用数理学会2018年度年会 2018年09月 ポスター発表 名古屋市 日本応用数理学会
  • QR factorization via Cholesky factorization  [通常講演]
    Takeshi Fukaya
    Sapporo Summer HPC Seminar 2018 2018年08月 口頭発表(一般) Sapporo Information Initiative Center, Hokkaido University
  • H行列ベクトル積のスレッド並列化における負荷均衡に関する検討  [通常講演]
    岩下 武史, 川村 卓人, 深谷 猛, 伊田 明弘
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会 第25回研究会(SwoPP2018) 2018年07月 口頭発表(一般) 熊本市 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • ベイズ推定を用いた並列固有値ソルバーの性能予測  [通常講演]
    田中 和幸, 深谷 猛, 山本 有作, 星 健夫
    H30年度 ポスト「京」重点課題(7) 第3回CDMSI研究会 2018年07月 口頭発表(一般) 東京都
  • DIA 形式と CRS 形式を組み合わせた Hybrid 形式を用いた疎行列ベクトル積のキャッシュブロッキング  [通常講演]
    石田 幸輝, 三浦 瑛絵, 深谷 猛, 岩下 武史, 中島 浩
    The 2nd. cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2018) 2018年05月 口頭発表(一般) 東京都 情報処理学会 ARC/HPC/OS/PRO 各研究会
  • Enhancement of Algebraic Block Multi-Color Ordering for ILU Preconditioning and Its Performance Evaluation in Preconditioned GMRES Solver  [通常講演]
    Senxi Li, Takeshi Iwashita, Takeshi Fukaya
    The 2nd. cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2018) 2018年05月 口頭発表(一般) 東京都 情報処理学会 ARC/HPC/OS/PRO 各研究会
  • Performance Evaluation of Time-Space Tiling with Tile-Level Parallelism for Iterative Stencil Computations  [通常講演]
    Takeshi Fukaya, Takeshi Iwashita
    2018 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT in HPSC 2018) 2018年03月 口頭発表(一般) Tainan
  • Oakforest-PACSにおける一般化固有値計算の性能解析と性能予測  [通常講演]
    星 健夫, 福本 智哉, 深谷 猛, 山本 有作
    日本応用数理学会 2018年研究部会連合発表会 2018年03月 口頭発表(一般) 吹田市 日本応用数理学会
  • 高性能計算入門:より高速な計算を目指して  [通常講演]
    深谷 猛
    日本応用数理学会若手の会主催 応用数理 学生・若手研究者のための研究交流会 2018年03月 公開講演,セミナー,チュートリアル,講習,講義等 吹田市 日本応用数理学会 若手の会
  • 複数のデータ構造を用いた疎行列ベクトル積のキャッシュブロッキング手法の検討と評価  [通常講演]
    石田 幸輝, 三浦 瑛絵, 深谷 猛, 岩下 武史, 中島 浩
    日本応用数理学会若手の会主催 応用数理 学生・若手研究者のための研究交流会 2018年03月 口頭発表(一般) 吹田市 日本応用数理学会 若手の会
  • An Approach to Accelerating the SpMV Kernel by Exploiting Specific Sparse Structures  [通常講演]
    Takeshi Fukaya, Koki Ishida, Akie Miura, Takeshi Iwashita, Hiroshi. Nakashima
    SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18) 2018年03月 口頭発表(一般) Tokyo SIAM
  • Shifted Cholesky QR for Computing the QR Factorization for Ill-conditioned Matrices  [通常講演]
    Yuka Yanagisawa, Takeshi Fukaya, Yuji Nakatsukasa, Yusaku Yamamoto, Ranseshan Kannan
    SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18) 2018年03月 口頭発表(一般) Tokyo SIAM
  • Effect of Algebraic Block Multi-Color Ordering for Multi-Threaded ILU-GMRES Solver  [通常講演]
    Senxi Li, Takeshi Fukaya, Takeshi Iwashita
    SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18) 2018年03月 ポスター発表 Tokyo SIAM
  • Performance Evaluation of Tiled 3D FDTD Solver on Recent Multicore Processors  [通常講演]
    Takeshi Iwashita, Takeshi Fukaya
    SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18) 2018年03月 口頭発表(一般) Tokyo SIAM
  • Current status of EigenExa, high-performance parallel dense eigensolver  [通常講演]
    Toshiyuki Imamura, Yusuke Hirota, Takeshi Fukaya
    2018 International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2018) 2018年03月 ポスター発表 Tsukuba
  • Analysis and prediction of the performance in generalized eigenvalue solvers on Oakforest-PACS  [通常講演]
    Takeo Hoshi, Tomoya Fukumoto, Takeshi Fukaya, Yusaku Yamamoto
    2018 International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2018) 2018年03月 ポスター発表 Tsukuba
  • Overview of the EigenExa project, past, present and future  [通常講演]
    Toshiyuki Imamura, Yusuke Hirota, Takeshi Fukaya
    2018 International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2018) 2018年03月 口頭発表(一般) Tsukuba
  • 並列計算機上での反復型ステンシル計算に対する効果的な時空間タイリングとその応用  [通常講演]
    深谷 猛
    科研費基盤B課題「O(1億)コア環境におけるスケーラブルな数値計算ソフトウェアの理論と応用」ワークショップ 2018年01月 口頭発表(一般) 札幌市
  • 疎行列のステンシル構造の活用による疎行列ベクトル積の性能向上の調査  [通常講演]
    深谷 猛, 三浦 瑛絵, 岩下 武史
    大学ICT推進協議会 2017年度年次大会(AXIES2017) 2017年12月 口頭発表(一般) 広島市 一般社団法人 大学ICT推進協議会
  • A parallel solver for a linear system with a symmetric sparse matrix by one-dissection ordering  [通常講演]
    Tomoki Nakano, Mitsuo Yokokawa, Takeshi Fukaya, Yusaku Yamamoto
    Workbench on Sustained Simulation Performance (WSSP) 2017年10月 口頭発表(一般) Stuttgart
  • 時空間タイリングを用いた反復型ステンシル計算とその応用  [通常講演]
    岩下 武史, 深谷 猛
    日本機械学会 第30回計算力学講演会(CMD2017) 2017年09月 口頭発表(一般) 東大阪市 日本機械学会
  • TSQRアルゴリズムにおける三角行列のリダクション処理に関する考察  [通常講演]
    深谷 猛
    日本応用数理学会2017年度年会 2017年09月 口頭発表(一般) 東京都 日本応用数理学会
  • Temporal and spatial tiling technique with tile-level parallelism and its application to 3D FDTD method  [通常講演]
    Takeshi Fukaya
    Sapporo Summer HPC Seminar 2017 2017年08月 口頭発表(一般) Sapporo Information Initiative Center, Hokkaido University
  • 縦長行列のQR分解に対する通信削減型アルゴリズムの性能評価  [通常講演]
    深谷 猛, 山本 有作
    第2回CDMSI(ポスト「京」重点課題(7))研究会 2017年07月 ポスター発表 東京都
  • 複数の格納形式を利用した疎行列ベクトル積の高速化に関する検討  [通常講演]
    石田 幸輝, 三浦 瑛絵, 深谷 猛, 岩下 武史, 中島 浩
    2017年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2017) 2017年06月 ポスター発表 神戸市 情報処理学会 HPC研究会
  • H行列ベクトル積のスレッド並列化手法に関する性能評価  [通常講演]
    川村 卓人, 深谷 猛, 岩下 武史, 伊田 明弘
    2017年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2017) 2017年06月 ポスター発表 神戸市 情報処理学会 HPC研究会
  • Shifted CholeskyQR for Computing the factorization of ill-conditioned matrices  [通常講演]
    Yuka Yanagisawa, Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Oishi Shin’ichi
    The International Workshop on Numerical Verification and its Applications 2017 (INVA2017) 2017年03月 口頭発表(一般) Miyakojima
  • ステンシル構造を利用した疎行列ベクトル積の高速化に関する検討  [通常講演]
    三浦 瑛絵, 深谷 猛, 岩下 武史
    日本応用数理学会 若手の会 第2回学生研究発表会 2017年03月 ポスター発表 東京都 日本応用数理学会 若手の会
  • Performance Evaluation of Time-Space Tiling Strategies for Iterative Stencil Computations on Multi/Many-Core CPU Systems  [通常講演]
    Takeshi Fukaya, Takeshi Iwashita
    SIAM Conference on Computational Science and Engineering (CSE17) 2017年02月 口頭発表(一般) Atlanta SIAM
  • 最近の計算機環境における基本的な行列計算カーネルの性能とその考察  [通常講演]
    深谷 猛
    ワークショップ「行列計算のための数値計算法」 2017年01月 口頭発表(一般) 名古屋市
  • 時空間タイリングによる反復型ステンシル計算の性能向上に関する基礎評価  [通常講演]
    深谷 猛, 岩下 武史
    大学ICT推進協議会 2016年度年次大会(AXIES2016) 2016年12月 口頭発表(一般) 京都市 一般社団法人 大学ICT推進協議会
  • ScaLAPACKの性能分析と次世代アルゴリズム研究への指針  [通常講演]
    深谷 猛
    計算物質科学における時空間アップスケーリングと数理手法 2016年11月 公開講演,セミナー,チュートリアル,講習,講義等 調布市
  • マルチコア・メニーコア環境における反復型ステンシル計算と時空間タイリング  [通常講演]
    深谷 猛, 岩下 武史
    日本応用数理学会2016年度年会 2016年09月 口頭発表(一般) 北九州市 日本応用数理学会
  • Time-space tiling strategies for iterative stencil computations on multi/many-core CPU systems  [通常講演]
    Takeshi Fukaya, Takeshi Iwashita
    Sapporo Summer HPC Seminar 2016 2016年08月 口頭発表(一般) Sapporo Information Initiative Center, Hokkaido University
  • 反復型ステンシル計算のマルチコア・メニーコア向け実装に関する考察  [通常講演]
    深谷 猛, 岩下 武史
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会 第21回研究会(SwoPP2016) 2016年08月 口頭発表(一般) 松本市 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • Performance Evaluation of Verified Computation for Linear System on Supercomputer  [通常講演]
    Yusuke Morikura, Daichi Mukunoki, Takeshi Fukaya, Naoya Yamanaka
    The 11th East Asia Section of SIAM Conference (EASIAM 2016) 2016年06月 口頭発表(一般) Macau EASIAM
  • 分散並列計算機における密行列ベクトル積の通信隠蔽実装の評価  [通常講演]
    川村 卓人, 深谷 猛, 岩下 武史
    2016年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2016) 2016年06月 ポスター発表 仙台市 情報処理学会 HPC研究会
  • An Impact of Tuning the Kernel of the Structured QR Factorization in the TSQR  [通常講演]
    Takeshi Fukaya, Toshiyuki Imamura
    SIAM Conference on Parallel Processing for Scientific Computing (PP16) 2016年04月 口頭発表(一般) Paris SIAM
  • 分散並列計算環境における通信隠蔽手法を用いた密行列ベクトル積実装の性能評価  [通常講演]
    川村 卓人, 深谷 猛, 岩下 武史
    日本応用数理学会 若手の会 第1回学生研究発表会 2016年03月 ポスター発表 神戸市 日本応用数理学会 若手の会
  • Performance evaluation of the tall-skinny QR factorization on recent parallel systems  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Toshiyuki Imamura
    The 6th AICS International Symposium 2016年02月 ポスター発表 Kobe RIKEN AICS
  • Performance Evaluation of Verified Computation for Linear Systems on Parallel Computers  [通常講演]
    Yusuke Morikura, Daichi Mukunoki, Takeshi Fukaya, Naoya Yamanaka, Shin’ichi Oishi
    2nd Annual Meeting on Advanced Computing System and Infrastructure (ACSI 2016) 2016年01月 ポスター発表 福岡市
  • 線形計算アルゴリズムと通信回避  [通常講演]
    深谷 猛
    研究会「数理構造保存を接点として数学・HPC・実科学のクロスオーバー」 2015年11月 口頭発表(一般) 東京都
  • Roundoff Error Analysis of the Choleskyqr2 and Related Algorithms  [通常講演]
    Yusaku Yamamoto, Yuji Nakatsukasa, Yuka Yanagisawa, Takeshi Fukaya
    SIAM Conference on Applied Linear Algebra (LA15) 2015年10月 口頭発表(一般) Atlanta SIAM
  • Performance Evaluation of the Choleskyqr2 Algorithm  [通常講演]
    Takeshi Fukaya, Yuji Nakatsukasa, Yuka Yanagiswa, Yusaku Yamamoto
    SIAM Conference on Applied Linear Algebra (LA15) 2015年10月 口頭発表(一般) Atlanta SIAM
  • The CholeskyQR2 algorithm and its applications  [通常講演]
    Takeshi Fukaya
    20th ASE Seminar (Advanced Supercomputing Environment) 2015年10月 口頭発表(一般) Tokyo Information Technology Center, The University of Tokyo
  • Performance evaluation of the divide-and conquer method in the EigenExa eigensolver  [通常講演]
    Takeshi Fukaya, Toshiyuki Imamura
    International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2015) 2015年09月 ポスター発表 Tsukuba
  • 重み付き内積空間における行列のQR分解アルゴリズムの考察-高性能計算の視点から  [通常講演]
    深谷 猛, 中務 佑治, 柳澤 優香, 山本 有作
    日本応用数理学会2015年度年会 2015年09月 ポスター発表 金沢市 日本応用数理学会
  • CAHTR: Communication-Avoiding Householder TRidiagonalization  [通常講演]
    Toshiyuki Imamura, Takeshi Fukaya, Yusuke Hirota, Susumu Yamada, Masahiko Machida
    International Conference on Parallel Computing (ParCo) 2015 2015年09月 口頭発表(一般) Edinburgh
  • Moving a specified eigenvalue and eigenvector  [通常講演]
    Yuji Nakatsukasa, Takeshi Fukaya, Agnieszka Miedlar
    The 8th International Congress on Industrial and Applied Mathematics (ICIAM2015) 2015年08月 口頭発表(一般) Beijing ICIAM
  • ペタ・ポストペタスケールシステムにおける密行列向けアルゴリズムの実行時間:EigenExaの開発を通して得られた実測データに基づく考察  [通常講演]
    深谷 猛, 山本 有作, 今村 俊幸
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会 第19回研究会(SWoPP2015) 2015年08月 口頭発表(一般) 別府市 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • コレスキーQR分解を用いたブロック直交変換の生成  [通常講演]
    深谷 猛, 中務 佑治, 山本 有作
    第44回数値解析シンポジウム(NAS2015) 2015年06月 口頭発表(一般) 甲府市
  • ストペタスケール計算機上での密行列向け固有値ソルバーの性能の展望  [通常講演]
    深谷 猛, 山本 有作, 今村 俊幸
    2015年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2015) 2015年05月 ポスター発表 東京都 情報処理学会 HPC研究会
  • Performance Evaluation of EigenExa Dense Eigensolver on the Oakleaf-Fx Supercomputer System  [通常講演]
    Takeshi Fukaya, Toshiyuki Imamura
    SIAM Conference on Computational Science and Engineering (CSE15) 2015年03月 口頭発表(一般) Salt Lake City SIAM
  • Numerical Eigenvalue Engine towards Extreme-scale Computing Era  [通常講演]
    Toshiyuki Imamura, Takeshi Fukaya, Yusuke Hirota, Susumu Yamada, Masahiko Machida
    SIAM Conference on Computational Science and Engineering (CSE15) 2015年03月 口頭発表(一般) Salt Lake City SIAM
  • オンライン自動チューニングのための性能モデルの構築法 ~ 正方行列の特異値分解を例にして ~  [通常講演]
    長島 聖児, 深谷 猛, 山本有作, 横川三津
    日本応用数理学会2015年研究部会連合発表会 2015年03月 口頭発表(一般) 東京都 日本応用数理学会
  • CholeskyQR2: an algorithm of the Cholesky QR factorization with reorthogonalization  [通常講演]
    Takeshi Fukaya
    2015 Conference on Advanced Topics and Auto Tuning in High Performance Scientific Computing (2015 ATAT in HPSC) 2015年02月 口頭発表(一般) Taipei
  • Performance evaluation of the EigenExa eigensolver on the Oakleaf-FX supercomputing system  [通常講演]
    Takeshi Fukaya, Imamura Toshiyuki
    Annual Meeting on Advanced Computing System and Infrastructure (ACSI 2015) 2015年01月 口頭発表(一般) つくば市
  • 高性能計算におけるコレスキーQR分解  [招待講演]
    深谷 猛
    第12回計算数学研究会 2014年12月 口頭発表(招待・特別) 焼津市
  • Performance evaluation og the EigenExa dense eigensolver on the K computer  [通常講演]
    Takeshi Fukaya, Toshiyuki Imamura
    5th AICS International Symposium 2014年12月 ポスター発表 Kobe RIKEN AICS
  • Modeling the performance of parallel dense eigensolvers on peta/post-petascale systems  [通常講演]
    Takeshi Fukaya
    JST/CREST International Symposium on Post Petascale System Software (ISP2S2) 2014年12月 ポスター発表 Kobe
  • コレスキー分解に基づくQR分解の計算方法について
    深谷 猛
    第8回協定講座シンポジウム「計算科学 次代を担う若手の集い2014」 2014年09月 ポスター発表 神戸市 神戸大学大学院 システム情報学研究科
  • シフト付きコレスキーQR分解アルゴリズムの提案  [通常講演]
    柳澤 優香, 深谷 猛, 中務 佑治, Kannan Ramaseshan, 山本 有作, 大石 進一
    日本応用数理学会2014年度年会 2014年09月 口頭発表(一般) 東京都 日本応用数理学会
  • 大規模並列計算機上での再直交化付きコレスキーQR分解の性能評価  [通常講演]
    深谷 猛, 中務 佑治, 柳澤 優香, 山本 有作
    本応用数理学会2014年度年会 2014年09月 口頭発表(一般) 東京都 日本応用数理学会
  • ハウスホルダー変換のブロック化と通信回数削減に関する一考察  [通常講演]
    深谷 猛, 山本 有作, 今村 俊幸
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第17回研究会(SWoPP2014) 2014年07月 口頭発表(一般) 新潟市 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • EigenExa: high performance dense eigensolver, present and future  [通常講演]
    Toshiyuki Imamura, Yusuke Hirota, Takeshi Fukaya, Susumu Yamada, Masahiko Machida
    8th International Workshop on Parallel Matrix Algorithm and Applications (PMSS14) 2014年 口頭発表(一般) Lugano
  • 通信削減型QR分解アルゴリズムと自動チューニング  [通常講演]
    深谷 猛
    第9回AT研究会オープンアカデミックセッション(ATOS9) 2014年05月 口頭発表(一般) 東京都 自動チューニング研究会
  • A Communication-Avoiding Algorithm for the Gram-Schmidt Orthogonalization  [通常講演]
    Takeshi Fukaya
    2014 Conference on Advanced Topics and Auto Tuning in High Performance Scientific Computing (2014 ATAT in HPSC) 2014年03月 口頭発表(一般) Taipei
  • Cholesky-QR and Householder-QR factorizations in nonstandard inner product spaces  [通常講演]
    Yuka Yanagisawa, Yuji Nakatsukasa, Takeshi Fukaya
    International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA 2014) 2014年03月 ポスター発表 Tsukuba
  • An overview of parallel algorithms for tall-skinny QR factorizations  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Toshiyuki Imamura
    International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA 2014) 2014年03月 ポスター発表 Tsukuba
  • Auto-tuning Tall and Skinny QR Factorization  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto
    SIAM Conference on Parallel Processing for Scientific Computing (PP14) 2014年02月 口頭発表(一般) Portland SIAM
  • グラム・シュミットの直交化に基づくTSQRアルゴリズムとその性能評価  [通常講演]
    深谷 猛, 山本 有作, 今村 俊幸
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第16回研究会 2013年12月 口頭発表(一般) 東京都 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • 大規模並列環境における縦長行列のQR分解の性能評価  [通常講演]
    深谷 猛, 山本 有作, 今村 俊幸
    第11回計算数学研究会 2013年11月 口頭発表(一般) 三朝町
  • 超並列環境におけるTSQRアルゴリズムの性能に関する一考察  [通常講演]
    深谷 猛
    第5回協定講座シンポジウム「計算科学 次代を担う若手の集い2013」 2013年09月 ポスター発表 神戸市 神戸大学大学院 システム情報学研究科
  • オンライン自動チューニング数理基盤ライブラリATMathCoreLibの特異値分解問題への適用  [通常講演]
    長島 聖児, 深谷 猛, 山本 有作
    日本応用数理学会2013年度年会 2013年09月 口頭発表(一般) 福岡市 日本応用数理学会
  • ブロックヤコビ法に基づく固有値解法の超並列計算機上での実装  [通常講演]
    工藤 周平, 高橋 佑輔, 深谷 猛, 山本 有作
    日本応用数理学会2013年度年会 2013年09月 口頭発表(一般) 福岡市 日本応用数理学会
  • 京コンピュータにおける対称密行列向け固有値計算プログラムの性能評価と性能予測  [通常講演]
    深谷 猛, 今村 俊幸, 山本 有作
    日本応用数理学会2013年度年会 2013年09月 口頭発表(一般) 福岡市 日本応用数理学会
  • 超並列環境における縦長行列のQR分解に対する種々の計算方法の性能比較  [通常講演]
    深谷 猛, 山本 有作
    第42回数値解析シンポジウム(NAS2013) 2013年06月 口頭発表(一般) 松山市
  • 京における密行列固有値ソルバEigen-Kの性能評価と性能モデリング  [通常講演]
    深谷 猛, 今村 俊幸, 山本 有作
    SACSIS2013 -先進的計算基盤システムシンポジウム 2013年05月 ポスター発表 仙台市
  • Performance Evaluation and Tuning of Tall Skinny Type QR Factorization on the K Computer  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto
    2013 Conference on Advanced Topics and Auto Tuning in High Performance Scientific Computing (2013 ATAT in HPSC) 2013年03月 口頭発表(一般) Taipei
  • Performance Modeling of the Eigen-K Dense Eigensolver on Massively Parallel Machines  [通常講演]
    Takeshi Fukaya, Toshiyuki Imamura and Yusaku Yamamoto
    SIAM Conference on Computational Science and Engineering (CSE13) 2013年02月 口頭発表(一般) Boston SIAM
  • TSQRアルゴリズムに基づくQR分解の並列計算に対する自動チューニング  [招待講演]
    深谷 猛
    日本応用数理学会 若手の会 単独研究集会 2012年12月 口頭発表(招待・特別) 東京都 日本応用数理学会 若手の会
  • ハウスホルダーQR分解の数値計算アルゴリズムと高性能計算のための工夫  [招待講演]
    深谷 猛
    一橋大学 第14回「数理科学セミナー」 2012年11月 口頭発表(招待・特別) 東京都 一橋大学 商学研究科
  • 超並列環境向け固有値計算プログラムの性能予測モデルの開発  [通常講演]
    深谷 猛
    E-サイエンス若手・女性研究者シンポジウム2012 2012年10月 口頭発表(一般) 柏市 東京大学情報基盤センター
  • SMP上での並列QR分解に対する自動チューニングの検討  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    日本応用数理学会2012年度年会 2012年08月 口頭発表(一般) 稚内市 日本応用数理学会
  • QR分解の並列計算における自動チューニングの検討  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第2回協定講座シンポジウム「計算科学 次代を担う若手の集い」 2012年08月 ポスター発表 神戸市 神戸大学大学院 システム情報学研究科
  • TSQR アルゴリズムを用いたSMP 上でのQR 分解計算に対する自動チューニングの検討  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第41回数値解析シンポジウム(NAS2012) 2012年06月 ポスター発表 渋川市
  • ブロックQR分解アルゴリズムの性能最適化 -動的計画法を利用したブロック分割方法の決定  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第1回協定講座シンポジウム「計算アルゴリズムと化学・生物学の融合」 2012年02月 ポスター発表 神戸市 神戸大学大学院 システム情報学研究科
  • Automatic Performance Tuning for the Blocked Householder QR Algorithm  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    The 7th East Asia SIAM Conference & RIMS Workshop on Methods in Industrial and Applied Mathematics 2011年06月 口頭発表(一般) Kiakyushu EASIAM/RIMS
  • ブロックQR分解アルゴリズムの性能最適化 -ブロック化による性能向上についての考察-  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第40回数値解析シンポジウム(NAS2011) 2011年06月 ポスター発表 鳥羽市
  • Auto-tuning for BLAS-based Matrix Computations  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    SIAM Conference on Computational Science and Engineering (CSE11) 2011年02月 口頭発表(一般) Reno SIAM
  • 動的計画法に基づく密行列計算アルゴリズムの再帰的ブロック化  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    2011年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2011) 2011年01月 ポスター発表 つくば市 情報処理学会 HPC研究会
  • 密行列計算の再帰構造を利用した適応的なブロック化
    深谷 猛, 山本 有作, 張 紹良
    2010年度特異値・固有値合同ワークショップ 2010年11月 口頭発表(一般) つくば市
  • LU分解アルゴリズムにおけるブロック分割法と性能の関係について  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第8回計算数学研究会 2010年10月 ポスター発表 神戸市
  • 動的計画法によるQR分解のブロック分割法の決定  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第39回数値解析シンポジウム(NAS2010) 2010年05月 ポスター発表 鳥羽市
  • A Dynamic Programming Approach to Auto-Tuning the Blocking Strategy For the Householder QR Decomposition  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto and Shao-Liang Zhang
    Workshop on Advanced Auto-tuning on Numerical Software (AANS2010) 2010年04月 口頭発表(一般) Tokyo
  • An Approach to Automatic Tuning for the Parallel Householder Qr Decomposition  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    SIAM Conference on Parallel Processing for Scientific Computing (PP10) 2010年02月 口頭発表(一般) Seattle SIAM
  • A Dynamic Programming Approach to Performance Optimization for the QR Decomposition  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    International Symposium of Electronic Structure Calculations 2009年12月 ポスター発表 Tokyo
  • マルチコア環境向けハウスホルダーQR 分解アルゴリズムの性能チューニング  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    特異値・固有値合同ワークショップ 2009年11月 口頭発表(一般) つくば市
  • ハウスホルダーQR分解の並列計算の効率化  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第7回計算数学研究会 2009年10月 口頭発表(一般) 北塩原村
  • An Approach to Automatic Tuning for Parallel Householder QR Decomposition  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    The Fourth International Workshop on Automatic Performance Tuning (iWAPT 2009) 2009年10月 ポスター発表 Tokyo
  • Totally Nonnegative帯行列向けqd法へのシフト導入について  [通常講演]
    山本 有作, 深谷 猛
    日本応用数理学会2009年度年会 2009年09月 口頭発表(一般) 大阪市 日本応用数理学会
  • Totally Nonnegativeな帯行列に対するqd法  [通常講演]
    山本 有作, 深谷 猛
    第38回数値解析シンポジウム (NAS2009) 2009年06月 ポスター発表 東伊豆町
  • A Dynamic Programming Approach to Optimizing the Blocking Strategy for the Householder QR Decomposition  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    The 2nd International Conference in Mathematical Modelling and Computation and The 5th East Asia SIAM Conference 2009年06月 口頭発表(一般) Bandar Seri Begawan EASIAM
  • ハウスホルダーQR分解のためのブロック分割法の動的決定  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    第6回計算数学研究会 2009年03月 口頭発表(一般) 熱海市
  • A Dynamic Programming Approach to Auto-Tuning the Blocking Strategy For the Householder QR Decomposition  [通常講演]
    Takeshi Fukaya, Yusaku Yamamoto, Shao-Liang Zhang
    SIAM Conference on Computational Science and Engineering (CSE09) 2009年03月 口頭発表(一般) Miami SIAM
  • ハウスホルダーQR分解におけるブロック分割パターンの最適化  [通常講演]
    深谷 猛, 山本 有作, 張 紹良
    日本応用数理学会「行列・固有値問題の解法とその応用」研究部会 第5回研究会(SWoPP2008) 2008年08月 口頭発表(一般) 佐賀市 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会
  • Level3 BLASを用いたQR分解アルゴリズムの性能評価  [通常講演]
    深谷 猛, 山本 有作
    第5回計算数学研究会 2007年10月 ポスター発表 新潟市

所属学協会

  • SIAM   日本応用数理学会   情報処理学会   

共同研究・競争的資金等の研究課題

  • 日本学術振興会:科学研究費助成事業
    研究期間 : 2023年04月 -2027年03月 
    代表者 : 岩下 武史, 塙 敏博, 伊田 明弘, 美舩 健, 横田 理央, 高橋 康人, 今倉 暁, 深谷 猛
  • 日本学術振興会:科学研究費助成事業 基盤研究(C)
    研究期間 : 2021年04月 -2024年03月 
    代表者 : 深谷 猛, 相島 健助
     
    本研究課題では,Society 5.0におけるビッグデータ解析の基盤となり得る新しい線形計算アルゴリズムの研究開発を行う.エッジコンピューティングに代表される,従来のスーパーコンピュータとは異なる特徴を有する分散並列計算インフラ上で,IoTなどから生成される分散データを効率的に解析するために必要となる線形計算技術に関して,HPCと数理の両方の知見に基づいてアルゴリズムの研究開発を実施する. 2021年度は,分散並列環境における代表的なデータ分析手法(例:主成分分析,回帰分析)の現状に関する調査を行った.調査の結果,組み込み機器におけるストリームデータの主成分分析等の具体的なアプリケーション事例の現状を把握することができた.今回の調査の限りでは,アルゴリズムや実装方法において,性能改善に向けた検討の余地が十分にあることが分かった.一方で,使用メモリ量など,従来のHPCアプリケーションとは評価尺度の優先度が異なることも確認できた.今後は,今回の調査結果を踏まえて,本課題で取り組む具体的な問題設定や評価尺度などを整理する. 上述の調査と並行して,これまで研究を行ってきた行列計算アルゴリズムの中で,本課題と関わりの深い,行列のQR分解のアルゴリズムに関する研究を実施した.具体的には,縦長行列のQR分解を行う様々なアルゴリズムに関して,異なる特徴を持ったスーパーコンピュータ上での実行時間を評価した.特に,全体の実行時間に加えて,内部の通信時間などに関する詳細な測定を実施しており,得られた結果を用いて各アルゴリズムの実行時間の性能モデルを構築することで,エッジコンピューティング環境における各アルゴリズムの実行コストの予測等が可能となる.
  • 国立研究開発法人 科学技術振興機構:戦略的創造研究推進事業 さきがけ
    研究期間 : 2020年11月 -2024年03月 
    代表者 : 深谷猛
  • 日本学術振興会:科学研究費助成事業 挑戦的研究(萌芽)
    研究期間 : 2020年07月 -2023年03月 
    代表者 : 岩下 武史, 深谷 猛
     
    2021年度の研究実績の概要は,以下に示す通りである.① 代表的な反復型ステンシル計算であるFDTD(Finite Difference Time Domain)法について,整数演算(固定小数点演算)のみを用いて,解析を行う方法についてその基本的な実装方針を構築した.本方針では,解析対象となる物理空間を複数の部分領域に分割し,部分領域ごとに異なるスケーリングファクタを用いることで,各領域内の物理量を与えられたビット幅の整数(固定小数点数)で表現する方式を採用する.領域間での物理量の連続性を保つ方策が実装面では必要となる.② 次世代の計算デバイスにおいて,高性能な整数演算処理はSIMD型の整数演算命令として実装される可能性がある.そこで,線形反復法を対象として,その代表的な前処理手法であるILU分解前処理をSIMD演算を前提として高速化する方法を考案し,性能評価を行った.本研究成果について口頭発表を行うとともに,学術論文としての発表準備を進めた.③ 2020年度に考案した整数演算のみを使用した線形ソルバは反復改良法の概念を利用しており,広義には混合精度演算を用いたソルバの一種と理解できる.実際,2021年度に発表された英国マンチェスター大学の数値線形代数における混合精度演算技術のレビュー論文において,本研究の成果が引用されている.そこで,反復改良法に基づく混合精度演算を利用した線形ソルバの性能評価について,主に計算結果の精度面から評価を行った.
  • 日本学術振興会:科学研究費助成事業 基盤研究(B)
    研究期間 : 2019年04月 -2022年03月 
    代表者 : 岩下 武史, 伊田 明弘, 塙 敏博, 美舩 健, 高橋 康人, 深谷 猛
     
    本研究では,有限要素法や境界要素法に基づく電磁場解析の高速化を目的に,線形ソルバの高性能化について研究を行った.計算機科学的アプローチと数理・解法的アプローチの両面から研究を行い,前者では,時間並列処理の高度化,SIMD演算に適合する前処理手法の開発,アクセラレータ向けの解法研究,混合精度演算導入による高速化について,多くの研究成果を得た.また,後者については,同一の係数行列を持つ連立一次方程式を複数回解く場合に着目した高速化に関する研究を実施した.
  • 日本学術振興会:科学研究費助成事業 若手研究
    研究期間 : 2018年04月 -2021年03月 
    代表者 : 深谷 猛
     
    本研究課題では,ビッグデータ解析等において注目を集めているテンソル分解の計算手法を,高性能計算の視点から高速化することを目的としている.2018年度は,主に,代表的なテンソル分解の計算手法について,高性能計算の視点から解決すべき課題を調査した.具体的には,代表的なテンソル分解であるCP分解を計算するALS法を対象に,基本的な実装の性能分析を行った.高性能な線形代数ライブラリ(BLAS)に基づいたプログラムコードを実装し,最新のマルチコアCPU環境上で性能評価を行った結果,MTTKRPと呼ばれる計算カーネルが実行時間の大半を占めることが確認された.また,反復計算において,条件(テンソルのモード)によって,MTTKRPの実行時間が大きく異なっており,その原因がスレッド並列化の方法に起因することが分かった.そこで,別のスレッド並列化の方法を試した結果,該当箇所の実行時間を大きく削減できることが確認できた.
    上記の成果に加えて,テンソル分解の計算では,テンソルを行列化して処理を行うことが多々あるが,その際に生じる行列の形状が特徴的であり,そのような行列に対する高性能な計算手法が必要となる.そこで,これまでの行列計算に関する研究を生かして,テンソルの計算で必要となる行列計算手法の高速化について研究を進めた.具体的には,HOSVDと呼ばれるテンソル分解の計算手法等で必要となる,縦長行列の特異値分解計算の前処理のQR分解に関して,行列のQR分解を利用して高速に計算する手法(コレスキーQR分解)を研究した.主な成果としては,従来,対象とする縦長行列の条件数が大きい場合にアルゴリズムが破綻していた問題を,シフトの技術を導入することで回避した.そして,実際にプログラムコードを実装して,最新の計算機環境において,改良した手法が計算速度の点において,従来の計算手法よりも優れていることを示した.
  • 日本学術振興会:科学研究費助成事業 基盤研究(B)
    研究期間 : 2015年04月 -2018年03月 
    代表者 : 今村 俊幸, 大井 祥栄, 深谷 猛, 廣田 悠輔, 椋木 大地, 山本 有作, 藤堂 眞治
     
    本研究は、数万から数億のコアプロセッサが搭載される計算システム環境下において、過去に蓄積された高性能な数値計算サービスを新しい数学原理に基づき実現することを目的にし、「異粒度数値カーネル構築」と共に「非同期的な数値計算アルゴリズム」の2大テーマのもと、1)非同期的数値計算アルゴリズムに関する理論と実用レベルにある省通信・省同期アルゴリズムについて研究しCAHTRやFDTD向けの手法を提案した。更に、2)超メニイコアでのスケーラブルな軽量コード生成のための自動チューニングなどの核基盤技術研究を推進し次世代数値計算ソフトウェアの新技術創出に繋がる新機軸探究を進めた。
  • 日本学術振興会:科学研究費助成事業 若手研究(B)
    研究期間 : 2015年04月 -2018年03月 
    代表者 : 深谷 猛
     
    大規模並列計算における通信コストを削減するために,通信回避型の行列分解アルゴリズムが注目されている.本研究では,これらのアルゴリズムの実装方法やチューニング手法に主眼を置き,実際の計算機上でより高い性能を得るための基盤技術を研究した.具体的には,通信回避型アルゴリズムで必要となる計算カーネルの実装方法や,異なる通信回避型アルゴリズムの性能比較などを実施した.また,これらの研究を支える,並列計算機上でのアルゴリズムの性能モデルの構築方法についても検討を行った.
  • 日本学術振興会:科学研究費助成事業 特別研究員奨励費
    研究期間 : 2010年 -2011年 
    代表者 : 深谷 猛
     
    計算機環境の複雑化・多様化により,それぞれの条件(問題や計算機環境)に応じてアルゴリズムをチューニングすることが,高性能計算を実現するために不可避となっている。その際,従来の人手によるチューニングだけでなく,何らかの仕組みに基づいて計算機自身がチューニングを行う「自動チューニング」技術の開発が求められている。このような背景の下で,昨年度は基本的な行列計算の一つであるQR分解におけるブロック化の方法を自動的に決定する仕組みを構築し,有効な自動チューニング手法として期待できることを示した。そこで,本年度はこの手法をベースにして,実用化の観点から研究を進めた。 構築した手法では,動的計画法を用いることでアルゴリズムの候補を効率的に比較することが可能となっていた。また,比較の際に使用する評価値は性能予測モデルにより算出されることを前提としていた。そこで,本年度は,使用する性能予測モデルによる,チューニングの効果と実行コストの変化について考察した。また,行列サイズが大規模になった場合,全ての候補を比較することが困難になることが予想されるため,候補を限定してチューニングを行う手法の効果について検討した。さらに,限定の仕方を徐々に変化させることで,チューニングの効果とコストのトレードオブを効率的に制御する手法についても検討した。一方,並列計算を想定して,共有メモリ型並列計算機を用いてQR分解を行う場合の自動チューニング手法に関して検討した。並列計算では,TSQRと呼ばれるブロック分割が可能となり,同時に有効であることが知られているので,これを新たに取り入れたチューニング手法を構築し,その効果を検証した。 その他,QR分解以外として,LU分解アルゴリズムに対する自動チューニング手法を検討した。 以上の研究により,大規模行列計算アルゴリズムに対する実用的な自動チューニング手法の開発に向けた一つの方向性を示すとともに,その過程で解決すべき課題を具体的に明らかにすることができた。


Copyright © MEDIA FUSION Co.,Ltd. All rights reserved.