深谷猛 (フカヤタケシ)(情報基盤センター　スーパーコンピューティング研究部門)

SEARCH

検索詳細

深谷　猛 (フカヤ　タケシ)

情報基盤センター　スーパーコンピューティング研究部門准教授

研究者基本情報

■ 学位

博士（工学）, 名古屋大学

■ URL
researchmap URL

https://researchmap.jp/takeshi_fukaya

■ ID 各種
J-Global ID

201301004228272988

■ 研究キーワード・分野
研究キーワード

並列計算

数値線形代数

高性能計算

研究分野

情報通信, 計算科学

情報通信, 高性能計算

■ 担当教育組織

修士課程, 情報科学院

博士課程, 情報科学院

経歴

■ 経歴
経歴

2022年11月 - 現在
北海道大学, 情報基盤センター, 准教授, 日本国

2015年04月 - 2022年10月
北海道大学, 情報基盤センター, 助教

2020年11月 - 2022年03月
科学技術振興機構, さきがけ研究員

2013年10月 - 2015年03月
理化学研究所計算科学研究機構, 研究部門大規模並列数値計算技術研究チーム, 特別研究員

2012年04月 - 2013年09月
神戸大学, 大学院システム情報学研究科, 特命助教

学歴

2007年04月 - 2012年03月, 名古屋大学, 大学院工学研究科, 計算理工学専攻, 日本国

2002年04月 - 2007年03月, 名古屋大学, 工学部, 物理工学科, 日本国

委員歴

2026年04月 - 現在
HPCI連携サービス委員会, 委員, その他

2025年04月 - 現在
HPCI 連携サービス運営・作業部会, 副部会長, その他

2025年04月 - 現在
日本応用数理学会行列・固有値問題の解法とその応用研究部会, 主査, 学協会

2020年04月 - 現在
日本応用数理学会行列・固有値問題の解法とその応用研究部会, 幹事, 学協会

2019年04月 - 現在
日本応用数理学会行列・固有値問題の解法とその応用研究部会, 運営委員, 学協会

2017年04月 - 現在
HPCI 連携サービス運営・作業部会, 会員, その他

2022年04月 - 2026年03月
情報処理学会ハイパフォーマンスコンピューティング研究会, 運営委員, 学協会

2026年
IHPCES2026 Program committee, member, その他

2026年
MCSoC-26：Special Session POAT Program Committee, member, その他

2026年
PDSEC 2026 Program Committee, member, その他

2026年
iWAPT 2026 Program Committee, vice-chair, その他

2026年
Cluster 2026 Program Committee, member, その他

2026年
SCA/HPC Asia 2026 Organizing Committee, WS Co-Chair, その他

2026年
xSIG2026 プログラム委員会, 委員, その他

2025年
IHPCES2025 Program committee, member, その他

2025年
MCSoC-25：Special Session POAT Program Committee, member, その他

2025年
PASC 2025 Papers Program Committee, member, その他

2025年
PDSEC 2025 Program Committee, member, その他

2025年
iWAPT 2025 Program Committee, member, その他

2025年
ICPP2025 Program Committee, member, その他

2025年
SC25 Poster Committee, member, その他

2025年
CSA in CANDAR 2025 Program committee, member, その他

2025年
xSIG2025 プログラム委員会, 委員, その他

2025年
大学ICT推進協議会年次大会（AXIES）プログラム委員会, 副委員長, 学協会

2024年
IHPCES2024 Program committee, member, その他

2024年
MCSoC-24：Special Session POAT Program Committee, member, その他

2024年
PDSEC 2024 Program Committee, member, その他

2024年
iWAPT 2024 Program Committee, member, その他

2024年
Euro-Par 2024 Program committee, member, その他

2024年
Cluster 2024 Technical Committee, Poster Chair, その他

2024年
IPDPS2024 Program Committee, memebr, その他

2024年
CSA in CANDAR 2024 Program committee, member, その他

2024年
xSIG2024 プログラム委員会, 委員, その他

2024年
大学ICT推進協議会年次大会（AXIES）プログラム委員会, 委員, 学協会

2019年04月 - 2023年03月
自動チューニング研究会, 幹事, 学協会

2019年04月 - 2023年03月
日本応用数理学会 JSIAM Letters, 編集委員, 学協会

2019年04月 - 2023年03月
情報処理学会 ACS論文誌, 編集委員, 学協会

2023年
ICIAM 2023 Local Scientific Program Committee, member, その他

2023年
IHPCES2023 Program committee, member, その他

2023年
MCSoC-23：Special Session POAT Program Committee, member, その他

2023年
ICCS 2023 Program Committee, member, その他

2023年
PDSEC 2023 Program Committee, member, その他

2023年
iWAPT 2023 Program Committee, member, その他

2023年
CSA in CANDAR 2023 Program committee, member, その他

2023年
xSIG2023 プログラム委員会, 委員, その他

2022年
SNTA 2022 Program Committee, member, その他

2022年
IHPCES2022 Program committee, member, その他

2022年
MCSoC-22：Special Session ATMG Program Committee, member, その他

2022年
iWAPT 2022 Program Committee, member, その他

2022年
xSIG2022 プログラム委員会, 委員, その他

2022年
SC22 Program Committee, member, 学協会

2022年
PDSEC ‘22 Program Committee, member, その他

2022年
HPC Asia 2022 Organizing Committee, Poster chair, その他

2022年
IPDPS2022 Program Committee, member, その他

2019年04月 - 2021年03月
日本応用数理学会若手の会, 幹事, 学協会

2021年
PDSEC ‘21 Program Committee, member, その他

2021年
iWAPT2021 Program Committee, member, その他

2021年
xSIG2021 プログラム委員会, 委員, その他

2021年
MCSoC-21：Special Session ATMG Program Committee, Program Vice-Chair, その他

2021年
IHPCES2021 Program committee, member, その他

2016年04月 - 2020年03月
情報処理学会ハイパフォーマンスコンピューティング研究会, 運営委員, 学協会

2020年
xSIG2020 プログラム委員会, 委員, その他

2020年
IHPCES2020 Program committee, member, その他

2020年
ICPP2020 Program Committee, member, その他

2020年
HPC Asia 2020 Organizing Committee, Publicity chair, その他

2020年
PDSEC'20 Program Committee, member, その他

2020年
iWAPT2020 Program Committee, member, その他

2017年04月 - 2019年03月
日本応用数理学会若手の会, 主査, 学協会

2019年
MCSoC-19: Special Session ATMG Program Committee, member, その他

2019年
ICPP2019 Program Committee, member, その他

2019年
PDSEC'19 Program Committee, member, その他

2019年
iWAPT2019 Program Committee, member, その他

2018年
MCSoC-18: Special Session ATMG Program Committee, member, その他

2018年
PDSEC'18 Program Committee, member, その他

2018年
iWAPT2018 Program Committee, member, その他

2015年04月 - 2017年03月
日本応用数理学会若手の会, 幹事, 学協会

2017年
MCSoC-17: Special Session ATMG Program Committee, Chair, その他

2017年
PDSEC'17 Program Committee, member, その他

2017年
iWAPT2017 Program Committee, member, その他

2017年
HPCS2017 プログラム委員会, 委員, 学協会

2016年
iWAPT2016 Program Committee, member, その他

2016年
HPCS2016 プログラム委員会, 副委員長（広報・ポスター担当）, 学協会

2015年
EPASA2015 Program committee, vice chair, その他

2015年
iWAPT2015 Program Committee, member, その他

2015年
HPCS2015 プログラム委員会, 委員, 学協会

研究活動情報

■ 受賞

2023年08月, 情報処理学会シンポジウム xSIG2013, Outstanding Research Award
連立一次方程式の求解を前提とした大規模疎行列の条件数推定
工藤侑也;深谷猛;岩下武史, 国内学会・会議・シンポジウム等の賞, アイスランド共和国

2022年12月, PDCAT2022 Best Paper Award
Distributed Parallel Tall-Skinny QR factorization: Performance Evaluation of Various Algorithms on Various Systems
Takeshi Fukaya, 33945505;35173684

2019年03月, 情報処理学会, 2018年度（平成30年度）山下記念研究賞
タイルレベルの並列処理を可能とする時空間タイリング手法を用いた3次元FDTDカーネルの実装と性能評価
深谷猛, 国内学会・会議・シンポジウム等の賞

2018年05月, 情報処理学会シンポジウム xSIG2018, Best Research Award
Enhancement of Algebraic Block Multi-Color Ordering for ILU Preconditioning and Its Performance Evaluation in Preconditioned GMRES Solver
Senxi Li;Takeshi Iwashita;Takeshi Fukaya, 国内学会・会議・シンポジウム等の賞

2010年03月, 名古屋大学, 学術奨励賞
深谷猛, その他の賞

2009年06月, EASIAM, 2009 EASIAM Student Paper Competition 2nd Prize
A Dynamic Programming Approach to Optimizing the Blocking Strategy for the Householder QR Decomposition
Fukaya Takeshi, 国際学会・会議・シンポジウム等の賞

2009年01月, 2009年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2009）, 最優秀論文賞
正方行列向け特異値分解のCUDA による高速化
深谷猛;山本有作;畝山多加志;中村佳正, 国内学会・会議・シンポジウム等の賞

■ 論文

A Study on the Performance and Usability of Managed Memory and Unified Memory for Accelerating Numerical Calculation Program
Satoshi Ohshima; Akihiro Ida; Masatoshi Kawai; Takeshi Fukaya; Rio Yokota
2025 IEEE 18th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSoC), 41, 48, IEEE, 2025年12月15日, ［査読有り］
英語, 研究論文（国際会議プロシーディングス）

Condition Number Estimation in a Solution Process of a Large Sparse Symmetric Linear System
Yuya Kudo; Yuki Satake; Takeshi Fukaya; Takeshi Iwashita
Journal of Information Processing, 33, 398, 409, Information Processing Society of Japan, 2025年07月, ［査読有り］
英語, 研究論文（学術雑誌）

Performance Evaluation of the Parallel ES-SC-ILU-BiCGSTAB Method
Hirotoshi Tamori; Takeshi Fukaya; Takeshi Iwashita
Journal of Information Processing, 33, 387, 397, Information Processing Society of Japan, 2025年07月, ［査読有り］
英語, 研究論文（学術雑誌）

An Integer Arithmetic-Based AMG Preconditioned FGMRES Solver
Kengo Suzuki; Takeshi Fukaya; Takeshi Iwashita
ACM Transactions on Mathematical Software, 51, 1, 1, 25, Association for Computing Machinery (ACM), 2025年03月13日, ［査読有り］
英語, 研究論文（学術雑誌）, We consider solving a sparse linear system using integer (fixed-point) arithmetic. Integer arithmetic has attracted attention in scientific computing because of its high computational efficiency. Furthermore, considering the current circumstances of hardware development, integer arithmetic is expected to become increasingly important. Nevertheless, integer arithmetic has not been widely used for solving linear systems because it lacks robustness against overflow and underflow, making it hard to solve practical problems. Thus, we propose a new integer-based implementation framework for the Flexible GMRES (FGMRES) method, which enables integer-based solvers to solve linear systems with the same accuracy as conventional floating-point solvers. In addition, we propose an integer-only algebraic multigrid preconditioner. Combining it with the integer-based FGMRES framework, we develop an integer-based solver. Numerical experiments on CPUs showed that the developed integer-based solver has a comparable convergence rate to floating-point solvers. We also found the test cases where the integer-based solver runs faster than the floating-point solvers.

A Cholesky QR type algorithm for computing tall-skinny QR factorization with column pivoting
Takeshi Fukaya; Yuji Nakatsukasa; Yusaku Yamamoto
2024 IEEE International Parallel and Distributed Processing Symposium (IPDPS), 63, 75, IEEE, 2024年05月27日, ［査読有り］, ［筆頭著者, 責任著者］
英語, 研究論文（国際会議プロシーディングス）

Subspace Correction Preconditioning for Solving a Sequence of Asymmetric Linear Systems Using the Bi-CGSTAB Method
Hirotoshi Tamori; Takeshi Fukaya; Takeshi Iwashita
Journal of Information Processing, 31, 875, 884, Information Processing Society of Japan, 2023年12月, ［査読有り］
英語, 研究論文（学術雑誌）

Numerical Behavior of Mixed Precision Iterative Refinement Using the BiCGSTAB Method
Yingqi Zhao; Takeshi Fukaya; Takeshi Iwashita
Journal of Information Processing, 31, 860, 874, Information Processing Society of Japan, 2023年12月, ［査読有り］
英語, 研究論文（学術雑誌）

Convergence acceleration of preconditioned conjugate gradient solver based on error vector sampling for a sequence of linear systems
Takeshi Iwashita; Kota Ikehara; Takeshi Fukaya; Takeshi Mifune
Numerical Linear Algebra with Applications, 30, 6, Wiley, 2023年05月31日, ［査読有り］
英語, 研究論文（学術雑誌）, Abstract

In this article, we focus on solving a sequence of linear systems that have identical (or similar) coefficient matrices. For this type of problem, we investigate subspace correction (SC) and deflation methods, which use an auxiliary matrix (subspace) to accelerate the convergence of the iterative method. In practical simulations, these acceleration methods typically work well when the range of the auxiliary matrix contains eigenspaces corresponding to small eigenvalues of the coefficient matrix. We develop a new algebraic auxiliary matrix construction method based on error vector sampling in which eigenvectors with small eigenvalues are efficiently identified in the solution process. We use the generated auxiliary matrix for convergence acceleration in the following solution step. Numerical tests confirm that both SC and deflation methods with the auxiliary matrix can accelerate the solution process of the iterative solver. Furthermore, we examine the applicability of our technique to the estimation of the condition number of the coefficient matrix. We also present the algorithm of the preconditioned conjugate gradient method with condition number estimation.

Distributed Parallel Tall-Skinny QR Factorization: Performance Evaluation of Various Algorithms on Various Systems
Takeshi Fukaya
Parallel and Distributed Computing, Applications and Technologies, 275, 287, Springer Nature Switzerland, 2023年04月08日, ［査読有り］, ［筆頭著者, 責任著者］
英語, 研究論文（国際会議プロシーディングス）, 33945505;35173684

A novel ILU preconditioning method with a block structure suitable for SIMD vectorization
Kengo Suzuki; Takeshi Fukaya; Takeshi Iwashita
Journal of Computational and Applied Mathematics, 419, 114687, 114687, Elsevier BV, 2023年02月, ［査読有り］
英語, 研究論文（学術雑誌）

A New AINV Preconditioner for the CG Method in Hybrid CPU-GPU Computing Environment
Kengo Suzuki; Takeshi Fukaya; Takeshi Iwashita
Journal of Information Processing, 30, 755, 765, Information Processing Society of Japan, 2022年10月, ［査読有り］
英語, 研究論文（学術雑誌）

Numerical Investigation into the Mixed Precision GMRES(m) Method Using FP64 and FP32
Yingqi Zhao; Takeshi Fukaya; Linjie Zhang; Takeshi Iwashita
Journal of Information Processing, 30, 525, 537, Information Processing Society of Japan, 2022年08月, ［査読有り］
英語, 研究論文（学術雑誌）

Performance prediction of massively parallel computation by Bayesian inference
Hisashi Kohashi; Harumichi Iwamoto; Takeshi Fukaya; Yusaku Yamamoto; Takeo Hoshi
JSIAM Letters, 14, 13, 16, The Japan Society for Industrial and Applied Mathematics, 2022年, ［査読有り］
英語, 研究論文（学術雑誌）

An Integer Arithmetic-Based Sparse Linear Solver Using a GMRES Method and Iterative Refinement
Takeshi Iwashita; Kengo Suzuki; Takeshi Fukaya
2020 IEEE/ACM 11th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA), 1, 8, IEEE, 2020年11月, ［査読有り］, ［国際誌］
研究論文（国際会議プロシーディングス）

Hierarchical block multi-color ordering: a new parallel ordering method for vectorization and parallelization of the sparse triangular solver in the ICCG method
Takeshi Iwashita; Senxi Li; Takeshi Fukaya
CCF Transactions on High Performance Computing, 2, 2, 84, 97, Springer Science and Business Media LLC, 2020年06月, ［査読有り］, ［国際誌］
研究論文（学術雑誌）, AbstractIn this paper, we propose a new parallel ordering method to vectorize and parallelize the sparse triangular solver, which is called hierarchical block multi-color ordering. In this method, the parallel forward and backward substitutions can be vectorized while preserving the advantages of block multi-color ordering, that is, fast convergence and fewer thread synchronizations. To evaluate the proposed method in a parallel ICCG (Incomplete Cholesky Conjugate Gradient) solver, numerical tests were conducted using seven test matrices on three types of computational nodes. The numerical results indicate that the proposed method outperforms the conventional block and nodal multi-color ordering methods in 18 out of 21 test cases, which confirms the effectiveness of the method.

Effect of Mixed Precision Computing on H-Matrix Vector Multiplication in BEM Analysis
Rise Ooi; Takeshi Iwashita; Takeshi Fukaya; Akihiro Ida; Rio Yokota
Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region, 92, 101, ACM, 2020年01月15日, ［査読有り］
英語, 研究論文（国際会議プロシーディングス）

Shifted Cholesky QR for Computing the QR Factorization of Ill-Conditioned Matrices
Takeshi Fukaya; Ramaseshan Kannan; Yuji Nakatsukasa; Yusaku Yamamoto; Yuka Yanagisawa
SIAM Journal on Scientific Computing, 42, 1, A477, A503, Society for Industrial & Applied Mathematics (SIAM), 2020年01月, ［査読有り］, ［筆頭著者］, ［国際共著］, ［国際誌］
研究論文（学術雑誌）

EigenKernel A middleware for parallel generalized eigenvalue solvers to attain high scalability and usability
Kazuyuki Tanaka; Hiroto Imachi; Tomoya Fukumoto; Akiyoshi Kuwata; Yuki Harada; Takeshi Fukaya; Yusaku Yamamoto; Takeo Hoshi
Japan Journal of Industrial and Applied Mathematics, 36, 2, 719, 742, 2019年07月, ［査読有り］, ［国際誌］
研究論文（学術雑誌）

An investigation into the impact of the structured QR kernel on the overall performance of the TSQR algorithm
Takeshi Fukaya
Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region, 81, 90, ACM, 2019年01月14日, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
研究論文（国際会議プロシーディングス）

Enhancement of Algebraic Block Multi-Color Ordering for ILU Preconditioning and Its Performance Evaluation in Preconditioned GMRES Solver
Senxi Li; Takeshi Iwashita; Takeshi Fukaya
Journal of Information Processing, 27, 201, 210, Information Processing Society of Japan, 2019年, ［査読有り］, ［国内誌］
研究論文（学術雑誌）

A Case Study on Modeling the Performance of Dense Matrix Computation: Tridiagonalization in the EigenExa Eigensolver on the K Computer
Takeshi Fukaya; Toshiyuki Imamura; Yusaku Yamamoto
2018 IEEE International Parallel and Distributed Processing Symposium Workshops (IPDPSW), 1113, 1122, IEEE, 2018年05月, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
研究論文（国際会議プロシーディングス）

Time-space tiling with tile-level parallelism for the 3D FDTD method
Takeshi Fukaya; Takeshi Iwashita
Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region, 116, 126, ACM, 2018年01月28日, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
研究論文（国際会議プロシーディングス）

On Constructing Cost Models for Online Automatic Tuning Using ATMathCoreLib: Case Studies through the SVD Computation on a Multicore Processor
Seiji Nagashima; Takeshi Fukaya; Yusaku Yamamoto
2016 IEEE 10th International Symposium on Embedded Multicore/Many-core Systems-on-Chip (MCSOC), 345, 352, 2016年09月, ［査読有り］, ［国際誌］
英語, 研究論文（国際会議プロシーディングス）

共役勾配法への種々の通信削減手法の適用と評価
熊谷洋佑; 藤井昭宏; 田中輝雄; 深谷猛; 須田礼仁
情報処理学会論文誌コンピューティングシステム（ACS）, 9, 3, 1, 13, 2016年08月04日, ［査読有り］, ［国内誌］
日本語, 研究論文（学術雑誌）, スーパコンピュータの性能はコア数の増加とともに向上している．大規模な線形解法として共役勾配法（CG法）が広く用いられる．高並列な環境において，内積計算で発生する集団通信が深刻なボトルネックになると指摘されている．近年，Communication-avoiding CG法の一種としてChebyshev基底共役勾配法（CBCG法）が提案されている．本論文では，CBCG法で現れる集団通信の回数を減らしたCBCGR法を示し，CBCGR法に対して通信削減手法であるMatrix Powers Kernel（MPK）の適用を行った．また，2次元と3次元のPoisson方程式に対してFX10（oakleaf-fx）スーパコンピュータシステムで最大1,440ノードを使用したOpenMP/MPIのHybrid並列での計測を行った．2次元Poisson方程式ではCBCGR法およびCBCGR-MPK法が一定の並列数以上でCG法およびCBCG法よりも高速になり，3次元Poisson方程式では一定の並列数以上でCBCGR法が高速となった．

Performance Analysis of the Chebyshev Basis Conjugate Gradient Method on the K Computer
Yosuke Kumagai; Akihiro Fujii; Teruo Tanaka; Yusuke Hirota; Takeshi Fukaya; Toshiyuki Imamura; Reiji Suda
Parallel Processing and Applied Mathematics, 9573, 74, 85, 2016年, ［査読有り］, ［国際誌］
論文集(書籍)内論文

CAHTR: Communication-avoiding householder TRidiagonalization
Toshiyuki Imamura; Takeshi Fukaya; Yusuke Hirota; Susumu Yamada; Masahiko Machida
Advances in Parallel Computing, 27, 381, 390, 2016年, ［査読有り］, ［国際誌］
研究論文（国際会議プロシーディングス）

Roundoff error analysis of the CholeskyQR2 algorithm in an oblique inner product
Yamamoto Yusaku; Nakatsukasa Yuji; Yanagisawa Yuka; Fukaya Takeshi
JSIAM Letters, 8, 5, 8, 一般社団法人日本応用数理学会, 2016年, ［査読有り］, ［国内誌］
英語, 研究論文（学術雑誌）, The Cholesky QR algorithm is an ideal QR decomposition algorithm for high performance computing, but known to be unstable. We present error analysis of the Cholesky QR algorithm in an oblique inner product defined by a positive definite matrix, and show that by repeating the algorithm twice (called CholeskyQR2), its stability is greatly improved.

Performance Evaluation of the Eigen Exa Eigensolver on Oakleaf-FX: Tridiagonalization Versus Pentadiagonalization
Takeshi Fukaya; Toshiyuki Imamura
2015 IEEE International Parallel and Distributed Processing Symposium Workshop, 2015年05月, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
研究論文（国際会議プロシーディングス）

ROUNDOFF ERROR ANALYSIS OF THE CHOLESKYQR2 ALGORITHM
Yusaku Yamamoto; Yuji Nakatsukasa; Yuka Yanagisawa; Takeshi Fukaya
ELECTRONIC TRANSACTIONS ON NUMERICAL ANALYSIS, 44, 306, 326, 2015年, ［査読有り］, ［国際誌］
英語, 研究論文（学術雑誌）

Performance Analysis of the Householder-Type Parallel Tall-Skinny QR Factorizations Toward Automatic Algorithm Selection
Takeshi Fukaya; Toshiyuki Imamura; Yusaku Yamamoto
Lecture Notes in Computer Science, 8969, 269, 283, 2015年, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
論文集(書籍)内論文

CholeskyQR2: A Simple and Communication-Avoiding Algorithm for Computing a Tall-Skinny QR Factorization on a Large-Scale Parallel System
Takeshi Fukaya; Yuji Nakatsukasa; Yuka Yanagisawa; Yusaku Yamamoto
2014 5th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems, 31, 38, 2014年11月, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
研究論文（国際会議プロシーディングス）

動的計画法を用いたブロックハウスホルダQR分解アルゴリズムの性能最適化 (コンピューティングシステム Vol.4 No.4)
深谷猛; 山本有作; 張紹良
情報処理学会論文誌論文誌トランザクション, 2011, 2, 146, 157, 情報処理学会, 2012年04月, ［査読有り］, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究論文（学術雑誌）

Acceleration of Hessenberg Reduction for Nonsymmetric Eigenvalue Problems in a Hybrid CPU-GPU Computing Environment.
Jun-ichi Muramatsu; Takeshi Fukaya; Shao-Liang Zhang; Kinji Kimura; Yusaku Yamamoto
IJNC, 1, 2, 132, 143, 2011年, ［査読有り］, ［国際誌］
研究論文（学術雑誌）

Differential qd algorithm for totally nonnegative Hessenberg matrices: introduction of origin shifts and relationship with the discrete hungry Lotka-Volterra system
Yamamoto Yusaku; Fukaya Takeshi
JSIAM Letters, 2, 69, 72, The Japan Society for Industrial and Applied Mathematics, 2010年, ［査読有り］, ［国内誌］
英語, 研究論文（学術雑誌）, We propose an approach for introducing the origin shift into the multiple dqd algorithm for computing the eigenvalues of a totally nonnegative matrix. Numerical experiments show that the shift speeds up the convergence while retaining the accuracy of the computed eigenvalue.

正方行列向け特異値分解のCUDAによる高速化
深谷猛; 山本有作; 畝山多加志; 中村佳正
情報処理学会論文誌コンピューティングシステム（ACS）, 2, 2, 98, 109, 情報処理学会, 2009年07月02日, ［査読有り］, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究論文（学術雑誌）, 本論文では GPGPU 向けの統合開発環境 CUDA を用いた，正方行列の特異値分解の高速化について報告する．正方行列の特異値分解では，計算対象の行列を二重対角行列に変換してから特異値分解を行い，その後逆変換を行うことで，もとの行列の特異値分解を得る．本論文では CUDA の BLAS ライブラリ（CUBLAS）の中の高性能な SGEMM （行列乗算ルーチン）を効率的に利用することで，比較的少ないコストで大幅な高速化を行うことを目指し，演算の大部分が BLAS によって行われる二重対角化と逆変換部分を GPU を用いて高速化した．実装にあたっては，行列乗算を中心に二重対角化が可能な Bischof の手法が GPU 向けに適していることを簡単な性能予測を通して確認し，この手法を採用した．また，各計算ステップにおける CPU と GPU との仕事の適切な分担や計算のオーバラップについても考慮した．GPU として NVIDIA の GeForce8800 GTX を用いた性能評価の結果，CPU （Intel Core2 Duo 1.86GHz 2 コア使用）のみで計算する場合と比べて，5,120 次元の正方行列の特異値分解の計算が約 4 倍高速化できることを確認した．In this paper, we report the result of acceleration of computing the singular value decomposition (SVD) for a square matrix using CUDA, which is an integrated development environment for GPGPU. Computing of the SVD for a square matrix consists of the following three parts: bidiagonalization of the input matrix, the SVD of the bidiagonal matrix, and inverse transformation. Among them, we accelerate the first and the third step using GPU. This is because it is easy to use the CUBLAS, the BLAS library provided in CUDA, in these two steps. Through simple performance prediction, we assessed that the Bischof's method, in which bidiagonalization can be computed with matrix multiplications, is effective for computation using GPU. Therefore we implemented the algorithm for the SVD based on such method. When computing the SVD of a 5,120×5,120 matrix, we obtained about four times speedup using a GPU over using only a CPU (Intel Core2 Duo, 1.86 GHz, using 2 cores).

An efficient bidiagonalization algorithm for combined CPU-accelerator environments
Yusaku Yamamoto; Takeshi Fukaya; Takashi Uneyama; Yoshimasa Nakamura
Proceedings of the IASTED International Conference on Parallel and Distributed Computing and Networks, PDCN 2009, 121, 126, 2009年, ［査読有り］
英語, 研究論文（国際会議プロシーディングス）

Differential qd algorithm for totally nonnegative band matrices: convergence properties and error analysis
Yamamoto Yusaku; Fukaya Takeshi
JSIAM Letters, 1, 56, 59, The Japan Society for Industrial and Applied Mathematics, 2009年, ［査読有り］, ［国内誌］
英語, 研究論文（学術雑誌）, We analyze convergence properties and numerical properties of the differential qd algorithm generalized for totally nonnegative band matrices. In particular, we show that the algorithm is globally convergent and can compute all eigenvalues to high relative accuracy.

A dynamic programming approach to optimizing the blocking strategy for the Householder QR decomposition
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
2008 IEEE International Conference on Cluster Computing, 402, 410, 2008年09月, ［査読有り］, ［筆頭著者, 責任著者］, ［国際誌］
研究論文（国際会議プロシーディングス）

長方行列向け特異値分解の浮動小数点コプロセッサによる高速化
深谷猛; 山本有作; 畝山多加志; 堀玄, 梅野健
情報処理学会論文誌, 48, SIG8(ACS18), 31, 43, 2007年05月, ［査読有り］, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究論文（学術雑誌）

Accelerating the Singular Value Decomposition of Rectangular Matrices with the CSX600 and the Integrable SVD
Yusaku Yamamoto; Takeshi Fukaya; Takashi Uneyama; Masami Takata; Kinji Kimura; Masashi Iwasaki; Yoshimasa Nakamura
Lecture Notes in Computer Science, 4671, 340, 345, 2007年, ［査読有り］, ［国際誌］
論文集(書籍)内論文

■ その他活動・業績

FS3.0: 富岳NEXT時代を見据えたHPCI運用システム整備計画に関する調査研究
佐藤賢斗; 小松一彦; 高橋慧智; 横田理央; 小林諒平; 佐藤雅之; 冨嶋茂樹; 遠藤新; Mohamed Wahib; Jens Domke; 藤田典久; 宮島敬明; 深谷猛; 建部修見; 三木洋平; 下川辺隆史; 星野哲也, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2026-HPC-203, 33, 1, 6, 2026年03月
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

混合精度パイプライン型共役勾配法
中島研吾; 深谷猛; 南里豪志, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, Vol. 2025-HPC-199, 2, 1, 11, 2025年05月
研究発表ペーパー・要旨（全国大会，その他学術会議）

Shifted LOPBiCG法のハイブリッド並列化と性能評価
萬本遼太郎; 深谷猛; 佐竹祐樹; 曽我部知広; 剱持智哉; 張紹良, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2025-HPC-198, 50, 1, 10, 2025年03月
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

大規模分散並列環境におけるコレスキーQR型アルゴリズムによる縦長行列の列ピボット付きQR分解の性能評価（続）
深谷猛, 東京大学情報基盤センタースーパーコンピューティングニュース, 26, 2, 52, 58, 2024年03月, ［筆頭著者, 最終著者, 責任著者］
日本語, 記事・総説・解説・論説等（大学・研究所紀要）

並列ES-SC-ILU-BiCGSTAB法の求解性能評価
多森浩俊; 深谷猛; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2024-HPC-193, 9, 1, 12, 2024年03月
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

誤差ベクトルサンプリングに基づく非対称行列向けSubspace Correction前処理法による複数連立一次方程式の求解高速化
多森浩俊; 深谷猛; 岩下武史, 日本応用数理学会年会講演予稿集(CD-ROM), 2024, 2024年

ICCG法における反復回数と前処理後の係数行列の固有値分布の関係性
岩下武史; 深谷猛, 日本応用数理学会年会講演予稿集(CD-ROM), 2024, 2024年

北海道大学情報基盤センター次期スーパーコンピュータシステムの紹介
深谷猛; 梅田隆行; 佐竹祐樹; 岩下武史; 更科高広; 吉川浩; 吉川潤; 角鹿千枝; 高口智美; 折谷智咲; 齋藤珠紀; 村田欽正, 大学ICT推進協議会年次大会論文集(Web), 2024, 2024年

分散並列環境におけるCholeskyQRとBCGS2を用いた非縦長行列のQR分解
門倉陣之介; 深谷猛; 佐竹祐樹; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2023-HPC-192, 20, 1, 15, 2023年12月
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

ILU(0)前処理付きGMRES(m)法に対する低精度計算の導入可能性の検証
深谷猛; Zhao Yingqi; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2023-HPC-192, 36, 1, 9, 2023年12月, ［筆頭著者, 責任著者］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

大規模分散並列環境におけるコレスキーQR型アルゴリズムによる縦長行列の列ピボット付きQR分解の性能評価
深谷猛, 東京大学情報基盤センタースーパーコンピューティングニュース, 25, 4, 20, 28, 2023年07月, ［筆頭著者, 最終著者, 責任著者］
日本語, 記事・総説・解説・論説等（大学・研究所紀要）

分散並列環境上での縦長行列のQR分解に対する各種アルゴリズムの性能評価
深谷猛, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2022-HPC-184, 2, 1, 9, 2022年05月, ［筆頭著者, 最終著者, 責任著者］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

GMRES(m)法に対する低精度演算・データの積極的導入の可能性に関する検証
深谷猛; 深谷猛; 岩下武史, 日本応用数理学会年会講演予稿集(CD-ROM), 2021, 2022年

ブロック構造に基づくフィルイン制御を用いたSIMD演算に適したILU分解前処理手法
鈴木謙吾; 深谷猛; 岩下武史, 日本応用数理学会年会講演予稿集(CD-ROM), 2022, 2022年

近似逆行列前処理における前処理行列生成部の簡略化とスレッド並列化
鈴木謙吾; 深谷猛; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2021-HPC-182, 9, 1, 8, 2021年12月
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

Accelerating the SpMV kernel on standard CPUs by exploiting the partially diagonal structures
Takeshi Fukaya; Koki Ishida; Akie Miura; Takeshi Iwashita; Hiroshi Nakashima, CoRR, abs/2105.04937, 2021年05月11日, ［筆頭著者, 責任著者］
Sparse Matrix Vector multiplication (SpMV) is one of basic building blocks in
scientific computing, and acceleration of SpMV has been continuously required.
In this research, we aim for accelerating SpMV on recent CPUs for sparse
matrices that have a specific sparsity structure, namely a diagonally
structured sparsity pattern. We focus a hybrid storage format that combines the
DIA and CSR formats, so-called the HDC format. First, we recall the importance
of introducing cache blocking techniques into HDC-based SpMV kernels. Next,
based on the observation of the cache blocked kernel, we present a modified
version of the HDC formats, which we call the M-HDC format, in which partial
diagonal structures are expected to be more efficiently picked up. For these
SpMV kernels, we theoretically analyze the expected performance improvement
based on performance models. Then, we conduct comprehensive experiments on
state-of-the-art multi-core CPUs. By the experiments using typical matrices, we
clarify the detailed performance characteristics of each SpMV kernel. We also
evaluate the performance for matrices appearing in practical applications and
demonstrate that our approach can accelerate SpMV for some of them. Through the
present paper, we demonstrate the effectiveness of exploiting partial diagonal
structures by the M-HDC format as a promising approach to accelerating SpMV on
CPUs for a certain kind of practical sparse matrices.

縦長行列のQR分解に対する各種アルゴリズムの比較：Oakforest-PACS上での性能評価
深谷猛, 東京大学情報基盤センタースーパーコンピューティングニュース, 22, 6, 28, 39, 2020年12月, ［筆頭著者, 責任著者］, ［国内誌］
記事・総説・解説・論説等（大学・研究所紀要）

ブロックに基づくfill-in選択手法を利用したILU-GMRESソルバ
鈴木謙吾; 深谷猛; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2020-HPC-177, 20, 1, 7, 2020年12月, ［国内誌］
研究発表ペーパー・要旨（全国大会，その他学術会議）

White Paper from Workshop on Large-scale Parallel Numerical Computing Technology (LSPANC 2020): HPC and Computer Arithmetic toward Minimal-Precision Computing
Roman Iakymchuk; Daichi Mukunoki; Artur Podobas; Fabienne Jézéquel; Toshiyuki Imamura; Norihisa Fujita; Jens Huthmann; Shuhei Kudo; Yiyu Tan; Jens Domke; Kai Torben Ohlhus; Takeshi Fukaya; Takeo Hoshi; Yuki Murakami; Maho Nakata; Takeshi Ogita; Kentaro Sano; Taisuke Boku, https://arxiv.org/abs/2004.04628, abs/2004.04628, 2020年04月09日, ［国際共著］
In numerical computations, precision of floating-point computations is a key
factor to determine the performance (speed and energy-efficiency) as well as
the reliability (accuracy and reproducibility). However, precision generally
plays a contrary role for both. Therefore, the ultimate concept for maximizing
both at the same time is the minimal-precision computing through
precision-tuning, which adjusts the optimal precision for each operation and
data. Several studies have been already conducted for it so far (e.g.
Precimoniuos and Verrou), but the scope of those studies is limited to the
precision-tuning alone. Hence, we aim to propose a broader concept of the
minimal-precision computing system with precision-tuning, involving both
hardware and software stack.
In 2019, we have started the Minimal-Precision Computing project to propose a
more broad concept of the minimal-precision computing system with
precision-tuning, involving both hardware and software stack. Specifically, our
system combines (1) a precision-tuning method based on Discrete Stochastic
Arithmetic (DSA), (2) arbitrary-precision arithmetic libraries, (3) fast and
accurate numerical libraries, and (4) Field-Programmable Gate Array (FPGA) with
High-Level Synthesis (HLS).
In this white paper, we aim to provide an overview of various technologies
related to minimal- and mixed-precision, to outline the future direction of the
project, as well as to discuss current challenges together with our project
members and guest speakers at the LSPANC 2020 workshop;
https://www.r-ccs.riken.jp/labs/lpnctrt/lspanc2020jan/.

ランタイムシステムを用いたマルチフロンタルコレスキー分解の開発
中野智輝; 横川三津夫; 深谷猛; 山本有作, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2020-HPC-173, 10, 1, 14, 2020年03月, ［国内誌］
研究発表ペーパー・要旨（全国大会，その他学術会議）

テンソル分解におけるMTTKRPのスレッド並列化に関する考察
深谷猛, 計算工学講演会論文集, 24, 2019年05月, ［筆頭著者, 責任著者］, ［国内誌］
研究発表ペーパー・要旨（全国大会，その他学術会議）

緩和型スーパーノードマルチフロンタル法の最適な緩和パラメータについて
中野智輝; 横川三津夫; 深谷猛; 山本有作, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2018-HPC-167, 25, 1, 8, 2018年12月, ［国内誌］
数値シミュレーションにおける多くの問題は，偏微分方程式を離散化して得られる連立一次方程式を解く問題に帰着される．そして，多くの場合，連立一次方程式を解く時間は全体のシミュレーション時間の大部分を占める．よって，連立一次方程式を高速に解くことは非常に重要である．本研究では，正定値対称行列に適用できるコレスキー分解を扱う．疎行列に対して，コレスキー分解を行う手法はいくつかあるが，本稿では，緩和型スーパーノードマルチフロンタル法を用いた．同手法では，2 つのスーパーノードを融合する際に非零と見なす零要素数の上限である緩和パラメータが性能に大きな影響を与える。そこで，このパラメータの最適値を求めることを目的として，Intel Xeon (Ivy Bridge-EX) とIntel Xeon Phi(Knights Landing, KNL) のそれぞれ1 コ, 情報処理学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

Chebyshev基底通信削減CG法のマルチコア・メニーコア計算環境における性能評価
大島聡史; 藤井昭宏; 田中輝雄; 深谷猛; 須田礼仁, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2018-HPC-165, 17, 1, 9, 2018年07月, ［国内誌］
研究発表ペーパー・要旨（全国大会，その他学術会議）

Knights LandingにおけるTilied3D FDTDカーネルの性能評価
深谷猛; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2018-HPC-164, 6, 1, 9, 2018年05月, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

One‐way dissectionオーダリングによる連立一次方程式の直接解法の並列化
中野智輝; 横川三津夫; 深谷猛; 山本有作, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2017-HPC-162, 19, 1, 10, 2017年12月11日, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

タイルレベルの並列処理を可能とする時空間タイリング手法を用いた3次元FDTDカーネルの実装と性能評価
深谷猛; 岩下武史, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2017-HPC-160, 35, 1, 11, 2017年07月19日, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

ステンシル構造を利用した疎行列ベクトル積の高速化
深谷猛; 三浦瑛絵; 岩下武史, 計算工学講演会論文集, 22, 4p, 2017年05月31日, ［筆頭著者, 責任著者］, ［国内誌］
日本計算工学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

大規模並列計算機における連立一次方程式の精度保証付き数値計算に対する性能評価
森倉悠介; 椋木大地; 深谷猛; 山中脩也; 大石進一, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2016-HPC-157, 1, 1, 7, 2016年12月14日, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

1次元分散型のCAQRアルゴリズムの性能評価とパネルサイズの自動チューニングに向けた検討
深谷猛; 深谷猛; 深谷猛; 山本有作; 山本有作; 今村俊幸; 今村俊幸, 計算工学講演会論文集, 20, 4p, 2015年06月08日, ［筆頭著者, 責任著者］, ［国内誌］
日本計算工学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

QR分解に対する通信回避型アルゴリズムと自動チューニング
深谷猛, 計算工学, 20, 2, 3247, 3250, 2015年04月30日, ［筆頭著者, 責任著者］, ［国内誌］
日本計算工学会, 日本語, 記事・総説・解説・論説等（学術雑誌）

FX10 4800ノードを用いた通信削減型QR分解アルゴリズムの性能評価
深谷猛, 東京大学情報基盤センタースーパーコンピューティングニュース, 16, 4, 11, 20, 2014年07月, ［筆頭著者, 責任著者］, ［国内誌］
記事・総説・解説・論説等（大学・研究所紀要）

密行列固有値計算における通信回避(CA)と通信隠蔽(CH)について
今村俊幸; 廣田悠輔; 深谷猛; 山田進; 町田昌彦, 計算工学講演会論文集, 19, 2014年06月11日, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

TSQRで生じる特殊な構造を持ったQR分解に対する自動チューニングの検討
深谷猛; 今村俊幸, 計算工学講演会論文集, 19, 4p, 2014年06月11日, ［筆頭著者, 責任著者］, ［国内誌］
日本計算工学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

通信削減アルゴリズムCAQRのRSDFTの直交化処理への適用と評価
片桐孝洋; 高山恒一; 米村崇; 熊洞宏樹; 猪貝光祥; 北上純一; 江口義之; 深谷猛; 山本有作; 岩田潤一; 内田和之; 大島聡史; 中島研吾, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2014-HPC-144, 3, 1, 6, 2014年05月19日, ［国内誌］
本報告では，量子力学的第一原理シミュレーションのソフトウェア RSDFT における直交化処理に，通信削減アルゴリズムを用いた QR 分解アルゴリズムである CAQR を組み込んだ性能について報告する．東京大学情報基盤センターの FX10 を用いた 1,024 ノード実行（4,096MPI，MPI 当たり 4OMP 実行のハイブリッド MPI-OpenMP 実行）におけるバンド分割が 64 の時の実行では，従来の Gram-Schmidt 法による直交化に比べ CAQR を利用すると，最大で 11 倍の高速化が得られる事例があった．, 一般社団法人情報処理学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

FX10 4800ノードを用いた密行列向け固有値ソルバEigenExaの性能評価
深谷猛; 今村俊幸, 東京大学情報基盤センタースーパーコンピューティングニュース, 16, 3, 20, 27, 2014年05月, ［筆頭著者, 責任著者］, ［国内誌］
記事・総説・解説・論説等（大学・研究所紀要）

超並列環境向け固有値計算プログラムの性能予測モデルの開発（続）
深谷猛, 東京大学情報基盤センタースーパーコンピューティングニュース, 16, 1, 21, 28, 2014年01月, ［筆頭著者, 責任著者］, ［国内誌］
記事・総説・解説・論説等（大学・研究所紀要）

超並列環境向け固有値計算プログラムの性能予測モデルの開発
深谷猛, 東京大学情報基盤センタースーパーコンピューティングニュース, 15, 6, 33, 43, 2013年11月, ［筆頭著者, 責任著者］, ［国内誌］
記事・総説・解説・論説等（大学・研究所紀要）

超並列環境における密行列計算プログラムの性能モデリングに向けた検討
深谷猛; 今村俊幸; 山本有作, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2013-HPC-140, 41, 1, 8, 2013年07月24日, ［筆頭著者, 責任著者］, ［国内誌］
現在のペタスケールの計算機やこれから先のポストペタスケールの計算機向けに密行列計算プログラムを開発する際，性能モデルを用いて性能を予測することで作業を効率化することが期待される．本稿では，そのような性能モデルを構築するための検討を行うことを目的とし，その検討材料として，我々が行った「京」コンピュータにおける行列の三重対角化プログラムの性能モデリングと，その過程で行った予備調査の結果を報告する．そして，その結果を踏まえて，密行列計算の性能モデリングに向けた検討を行う．, 一般社団法人情報処理学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

超並列環境における縦長行列のQR分解に対する自動チューニングの検討
深谷猛; 山本有作, 計算工学講演会論文集, 18, 4p, 2013年06月19日, ［筆頭著者, 責任著者］, ［国内誌］
日本計算工学会, 日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

京における密行列固有値ソルバEigen-Kの性能評価と性能モデリング
深谷猛; 今村俊幸; 山本有作, 先進的計算基盤システムシンポジウム論文集, 2013, 132, 133, 2013年05月15日
日本語

QR分解アルゴリズムに対する自動チューニング―性能モデルに関する考察―
深谷猛; 山本有作; ZHANG Shao‐Liang, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2011-HPC-130, 42, 1, 6, 2011年08月15日, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

動的計画法に基づく密行列計算アルゴリズムの再帰的ブロック化
深谷猛; 山本有作; 張紹良, ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集, 2011, 65, 65, 2011年01月11日
日本語

密行列計算アルゴリズムに対するブロック分割法の最適化と性能評価
深谷猛; 山本有作; ZHANG Shao‐Liang, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2010-HPC-126, 33, 1, 6, 2010年10月15日, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

階層的な性能モデルに基づく行列計算の自動チューニング
山本有作; 深谷猛, 応用数理, 20, 3, 201, 211, 2010年09月24日, ［国内誌］
日本語, 記事・総説・解説・論説等（学術雑誌）

密行列計算アルゴリズムに対するブロック分割法の最適化と性能評価
深谷猛; 山本有作; 張紹良, 研究報告ハイパフォーマンスコンピューティング（HPC）, 2010, 33, 1, 6, 2010年07月27日
高性能な行列計算を行う場合，プログラムの性能チューニングが必要不可欠である．我々は基本的な密行列計算が BLAS ルーチンを使って実行される点に着目し，チューニング済みの BLAS ルーチンを効率的に使えるようにプログラムをチューニングすることを目指す．ブロック化されたアルゴリズムにおいて，効率的に BLAS を使うためには行列のブロック分割法を最適化することが重要となる．本稿では，LU 分解のアルゴリズムをブロック化して，ブロック分割法が性能に与える影響を評価し，さらに適切な分割法を決定するための手法の検討を行う．For high performance matrix computations, it is necessity to tune the software. Since basic dense matrix computations consist almost entirely of the BLAS routines, it is important how to tune programs for exploiting the peak performance of optimized BLAS routines. In blocked algorithm, this means how to optimize the partitioning of the target matrix. In this paper, we evaluate and discuss the blocking strategy for the blocked LU decomposition., 情報処理学会, 日本語

ブロックハウスホルダーQR分解の並列計算における自動チューニング手法の検討
深谷猛; 山本有作; ZHANG Shao‐Liang, 情報処理学会研究報告：ハイパフォーマンスコンピューティング, 2009-HPC-121, 18, 1, 7, 2009年10月15日, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

ブロックハウスホルダーQR分解の並列計算における自動チューニング手法の検討
深谷猛; 山本有作; 張紹良, 研究報告ハイパフォーマンスコンピューティング（HPC）, 2009, 18, 1, 7, 2009年07月28日
行列計算を並列化する場合，行列ベクトル積や行列乗算などの BLAS ルーチンを並列化する方法と，それらのルーチンをコールする階層で並列化する方法が考えられる．また，行列をブロックに分割して計算を行うことが一般的となっている．そのため，ユーザーは並列化方法とブロック分割法の両者のチューニングを行う必要があるが，自由度が非常に大きいため，効果的なチューニングをすることが難しい．そこで，本稿ではハウスホルダー QR 分解を対象として，自動チューニング手法の検討を行う．In matrix computation, we can parallelize an algorithm by two ways: parallelization of BLAS routines such as matrix-vector multiplication, and parallelization in algorithm levels where BLAS routines are called. In addition, blocking techniques are widely used for matrix computations. Therefore we have many choices when tuning our programs for parallel computers. But it is very difficult for general users to tune their programs effectively. In this paper, we discuss an approach to automatic tuning the algorithm of the blocked Householder QR decomposition., 情報処理学会, 日本語

正方行列向け特異値分解のCUDAによる高速化
深谷猛; 山本有作; 畝山多加志; 中村佳正, 2009年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2009）論文集, 107, 114, 2009年01月15日, ［査読有り］, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

長方行列向け特異値分解の浮動小数点コプロセッサによる高速化
深谷猛; 山本有作; 畝山多加志; 堀玄, 梅野健, 2007年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2007）論文集, 2007, 1, 111, 118, 2007年01月17日, ［査読有り］, ［筆頭著者, 責任著者］, ［国内誌］
日本語, 研究発表ペーパー・要旨（全国大会，その他学術会議）

■ 書籍等出版物

Sustained Simulation Performance 2018 and 2019
Tomoki Nakano; Mitsuo Yokokawa; Yusaku Yamamoto; Takeshi Fukaya, Affecting the Relaxation Parameter in the Multifrontal Method
Springer, 2020年, 9783030391805, 215-224, ［分担執筆］

数値線形代数の数理とHPC
櫻井鉄也; 松尾宇泰; 片桐孝洋; 日本応用数理学会, 第6章固有値・特異値問題における並列計算 6.1 直接法
共立出版, 2018年, 9784320019553, 229-249, 日本語, ［分担執筆］

Software automatic tuning : from concepts to state-of-the-art results
直野, 健; 寺西, 慶太; Cavazos, John; 須田, 礼仁, Dynamic Programming Approaches to Optimizing the Blocking Strategy for Basic Matrix Decompositions
Springer, 2010年, 9781441969347, xiv, 377 p., 69-85, 英語, ［査読有り］, ［分担執筆］

■ 講演・口頭発表等

Tall-Skinny QR Factorization with Column Pivoting via a CholeskyQR algorithm
Takeshi Fukaya
2026 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT in HPSC), 2026年03月21日, 日本語, 口頭発表（一般）

Performance Evaluation of the ES-SC Preconditioned CG Method on GPU
Yuya Kudo; Yuki Satake; Takeshi Fukaya; Takeshi Iwashita
SCA/HPCAsia 2026: Supercomputing Asia and International Conference on High Performance Computing in Asia Pacific Region, 2026年01月27日, 英語, ポスター発表

An Overview of Hokkaido University Information Initiative Center
Takeshi Fukaya
SCA/HPCAsia 2026 Invited Session: Vision and Strategy: How will supercomputing centers contribute to the future development of HPC/AI+?, 2026年01月27日, 英語, 口頭発表（一般）

国内におけるスーパーコンピュータの整備状況と関連する数値線形計算分野の研究動向
深谷猛
第2回：計算技術による学際的統計解析ワークショップ, 2026年, 日本語, 口頭発表（招待・特別）
［招待講演］

北海道大学情報基盤センター新スーパーコンピュータシステム「Grand Chariot 2 」運用開始
深谷猛; 佐竹祐樹; 梅田隆行; 更科高広; 吉川浩; 吉川潤; 角鹿千枝; 高口智美; 折谷智咲; 齋藤珠紀; 村田欽正
大学ICT推進協議会2025年度年次大会（AXIES2025）, 2025年12月03日, 日本語, 口頭発表（一般）

低精度のクリロフ部分空間法を用いた混合精度型反復改良法の検証
深谷猛; Zhao Yingqi; 加藤勇太; Shin Sunho; 佐竹祐樹; 岩下武史
RIMS共同研究 (公開型) 数値解析が切り開く新たな情報社会～データ駆動型から「富岳NEXT」～, 2025年10月10日, 日本語, 口頭発表（招待・特別）
［招待講演］

大規模Sylvester方程式に対するKrylov部分空間法
佐竹祐樹; 深谷猛; 曽我部知広; 張紹良
RIMS共同研究 (公開型) 数値解析が切り開く新たな情報社会～データ駆動型から「富岳NEXT」～, 2025年10月08日, 日本語, 口頭発表（招待・特別）
［招待講演］

Tall-skinny QR factorization with column pivoting by a Cholesky QR type algorithm
Takeshi Fukaya
2025 Dalian International Conference on Mathematics, 2025年09月23日, 英語, 口頭発表（一般）

縦長行列の列ピボット付きQR分解に対するコレスキーQR型アルゴリズムの実装方法改良の検討
深谷猛
日本応用数理学会2025年度年会, 2025年09月03日, 日本語, 口頭発表（一般）

整数演算を主体とするFGMRES法
鈴木謙吾; 深谷猛; 岩下武史
The 9th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2025), 2025年08月06日, 日本語, ポスター発表

数値計算への応用を念頭においたIntel NPUの基礎評価
今多和歩; 内野佑基; 今村俊幸; 佐竹祐樹; 深谷猛
The 9th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2025), 2025年08月06日, 日本語, ポスター発表

低精度Krylov部分空間法を用いた混合精度型反復改良法における前処理技術の有効性検証
加藤勇太; 佐竹祐樹; 深谷猛
The 9th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2025), 2025年08月06日, 日本語, ポスター発表

ESSC法を前処理とするCG法のGPU実装とその有効性検証
工藤侑也; 佐竹祐樹; 深谷猛; 岩下武史
The 9th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2025), 2025年08月06日, 日本語, 口頭発表（一般）

最小二乗問題に対するDCTを利用した乱択アルゴリズムのGPU実装及び性能評価
阿部龍仁; 佐竹祐樹; 深谷猛
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第39回研究会（SWoPP2025）, 2025年08月05日, 日本語, 口頭発表（一般）

Convergence Analysis of the Parallel Block Jacobi ICCG Solver Through Eigenvalue Distribution
Takeshi Iwashita; Yasuhito Takahashi; Takeshi Fukaya
The 25th International Conference on the Computation of Electromagnetic Fields (COMPUMAG 2025), 2025年06月26日, 英語, ポスター発表

Extension of a Cholesky QR algorithm to tall-skinny QR factorization with column pivoting
Takeshi Fukaya; Yuji Nakatsukasa; Yusaku Yamamoto
The 26th Conference of the International Linear Algebra Society (ILAS2025), 2025年06月26日, 英語, 口頭発表（一般）

Performance Evaluation of Algorithms for Tall-Skinny QR Factorization on Recent Computer Systems
Takeshi Fukaya
SIAM Conference on Computational Science and Engineering (CSE25), 2025年03月05日, 英語, ポスター発表

Improving the Convergence of the Preconditioned Bi-CGSTAB Solver through Error Vector Sampling for a Sequence of Asymmetric Linear Systems
Hirotoshi Tamori; Takeshi Fukaya; Takeshi Iwashita
The 8th International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2025), 2025年02月20日, 英語, ポスター発表

Site Update from Hokkaido University: An Overview of the Next Supercomputer System in Hokkaido University
Takeshi Fukaya
IXPUG Workshop at HPC Asia 2025, 2025年02月19日, 英語, 口頭発表（一般）

縦長行列のQR分解に対するコレスキーQR型アルゴリズムの最近の進展
深谷猛
第16回自動チューニング技術の現状と応用に関するシンポジウム（ATTA2024）, 2024年12月26日, 日本語, 口頭発表（一般）

北海道大学情報基盤センター次期スーパーコンピュータシステムの紹介
深谷猛; 梅田隆行; 佐竹祐樹; 岩下武史; 更科高広; 吉川浩; 吉川潤; 角鹿千枝; 高口智美; 折谷智咲; 齋藤珠紀; 村田欽正
大学ICT推進協議会2024年度年次大会（AXIES2024）, 2024年12月10日, 日本語, 口頭発表（一般）

縦長行列の列ピボット付きQR分解に対するコレスキーQR型アルゴリズム
深谷猛; 中務佑治; 山本有作
RIMS共同研究（公開型）計算科学に資する数値解析学の展開, 2024年10月25日, 日本語, 口頭発表（招待・特別）
［招待講演］

縦長行列のQR分解に対する様々なアルゴリズムの性能評価
深谷猛
日本応用数理学会2024年度年会, 2024年09月14日, 日本語, 口頭発表（一般）

誤差ベクトルサンプリングに基づく非対称行列向けSubspace Correction前処理法による複数連立一次方程式の求解高速化
多森浩俊; 深谷猛; 岩下武史
日本応用数理学会2024年度年会, 2024年09月14日, 日本語, 口頭発表（一般）

ICCG法における反復回数と前処理後の係数行列の固有値分布の関係性
岩下武史; 深谷猛
日本応用数理学会2024年度年会, 2024年09月14日, 日本語, 口頭発表（一般）

GMRES(m)法における近似疎行列ベクトル積の導入可能性の検証
今多和歩; 佐竹祐樹; 深谷猛
The 8th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2024), 2024年08月07日, 日本語, 口頭発表（一般）

Recent progresses of the Cholesky QR type algorithms for the QR factorization of a tall and skinny matrix
Takeshi Fukaya
The 17th SIAM East Asian Section Conference (EASIAM 2024), 2024年07月01日, 英語, 口頭発表（一般）

マルチプロセス実行によるGPU演算性能向上への試み
大島聡史; 伊田明弘; 河合直聡; 深谷猛; 横田理央; 山崎市太朗
第29回計算工学講演会, 2024年06月12日, 日本語, 口頭発表（一般）

CholeskyQRとBCGS2を用いた非縦長行列のQR分解
門倉陣之介; 深谷猛; 佐竹祐樹; 岩下武史
日本応用数理学会若手の会第9回学生研究発表会, 2024年03月07日, 日本語, ポスター発表

大規模連立一次方程式の求解を前提とした疎な係数行列の条件数推定手法とその性能評価
工藤侑也; 佐竹祐樹; 深谷猛; 岩下武史
日本応用数理学会若手の会第9回学生研究発表会, 2024年03月07日, 日本語, ポスター発表

Performance Evaluation of Mixed Precision Iterative Refinement using Low Precision Krylov Methods
Yingqi Zhao; Takeshi Fukaya; Takeshi Iwashita
日本応用数理学会若手の会第9回学生研究発表会, 2024年03月07日, 英語, ポスター発表

QRCP of a Tall-skinny Matrix by a Cholesky QR Type Algorithm
Takeshi Fukaya; Yuji Nakatsukasa; Yusaku Yamamoto
SIAM Conference on Parallel Processing for Scientific Computing (PP24), 2024年03月07日, 英語, 口頭発表（一般）

Condition Number Estimation in a Solution Process of a Large and Sparse Linear System
Yuya Kudo; Yuki Satake; Takeshi Fukaya
The 7th International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2024), 2024年01月26日, 英語, ポスター発表

A New Matrix Reordering Method for GPU Acceleration of an ILU Preconditioner
Kengo Suzuki; Takeshi Fukaya; Takeshi Iwashita
The 7th International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2024), 2024年01月26日, 英語, ポスター発表

低精度計算を活用した混合精度型疎行列ソルバーの可能性
深谷猛; Zhao Yingqi; 岩下武史
第15回自動チューニング技術の現状と応用に関するシンポジウム（ATTA2023）, 2023年12月22日, 日本語, 口頭発表（一般）

スーパーコンピュータシステムの運用状況について
更科高広; 吉川浩; 角鹿千枝; 吉川潤; 高口智美; 折谷智咲; 齋藤珠紀; 村田欽正; 深谷猛; 岩下武史
大学ICT推進協議会2023年度年次大会（AXIES2023）, 2023年12月13日, 日本語, 口頭発表（一般）

最先端のスパコンを活用するための線形計算技術の研究
深谷猛
北海道大学情報基盤センター創立20周年記念式典, 2023年11月02日, 日本語, 口頭発表（一般）

数値線形代数分野における高性能計算の研究
深谷猛
令和5年度電気・情報関係学会北海道支部連合大会（企画セッション：IEEE札幌支部25周年記念講演会電気・情報分野の最新動向と25年後の技術）, 2023年10月28日, 日本語, 口頭発表（招待・特別）
［招待講演］

Numerical Evaluation of Mixed Precision Iterative Refinement using Low Precision Krylov Methods
Yingqi Zhao; 〇Takeshi Fukaya; Takeshi Iwashita
10th International Congress on Industrial and Applied Mathematics (ICIAM 2023 TOKYO), 2023年08月23日, 英語, ポスター発表

ブロックヤコビIC前処理付きCG法の収束性に関する分析
岩下武史; 深谷猛
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第35回研究会 (SWoPP2023）, 2023年08月03日, 日本語, 口頭発表（一般）

連立一次方程式の求解を前提とした大規模疎行列の条件数推定
工藤侑也; 深谷猛; 岩下武史
The 7th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2023), 2023年08月02日, 日本語, 口頭発表（一般）

Tall-skinny QR factorization with column pivoting by a Cholesky QR type algorithm
Takeshi Fukaya; Yuji Nakatsukasa; Yusaku Yamamoto
ISC High Performance 2023, 2023年05月23日, 英語, ポスター発表

A challenge of exploiting low precision computing in iterative linear solvers
Takeshi Fukaya
HPC challenges for new extreme scale applications, 2023年03月06日, 英語, 口頭発表（一般）

An Attempt of Exploiting Low Precision Computing in the GMRES(m) Method
Takeshi Fukaya; Yingqi Zhao; Takeshi Iwashita
SIAM Conference on Computational Science and Engineering (CSE23), 2023年03月02日, 英語, 口頭発表（一般）

Krylov部分空間法における低精度演算・データの活用に向けて
深谷猛; Zhao Yingqi; 岩下武史
第14回自動チューニング技術の現状と応用に関するシンポジウム（ATTA2022）, 2022年12月23日, 日本語, 口頭発表（一般）

誤差ベクトルのサンプリングによるクリロフ分空間反復法の収束性改善
岩下武史; 池原紘太; 多森浩俊; 深谷猛
RIMS共同研究：数値解析が拓く次世代情報社会～エッジから富岳まで～, 2022年10月14日, 日本語, 口頭発表（招待・特別）
［招待講演］

A new version of AINV preconditioning simplified by using nonzero element positions of a coefficient matrix
Kengo Suzuki; Takeshi Fukaya; Takeshi Iwashita
15th World Congress on Computational Mechanics & 8th Asian Pacific Congress on Computational Mechanics (WCC-APCOM 2022), 2022年08月05日, 英語, 口頭発表（一般）

CholeskyQRとBCGS2による非縦長行列のQR分解
門倉陣之介; 深谷猛; 岩下武史
The 6th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2022), 2022年07月27日, 日本語, 口頭発表（一般）

非対称行列向けSubspace correction法による複数連立一次方程式の求解高速化
多森浩俊; 深谷猛; 岩下武史
The 6th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2022), 2022年07月27日, 日本語, 口頭発表（一般）

Performance Evaluation of Various Algorithms for Computing Tall-skinny QR Factorization
Takeshi Fukaya
2022 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2022), 2022年03月29日, 英語, 口頭発表（一般）

Development of the Mixed Precision GMRES(m) Method using Low Precision Computing
Takeshi Fukaya
第41回ASE研究会, 2022年02月04日, 英語, 口頭発表（一般）

Performance Evaluation of the Mixed Precision GMRES(m) Method using FP64 and FP32
Yingqi Zhao; Takeshi Fukaya; Takeshi Iwashita
2022 International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2022), 2022年01月12日, 英語, ポスター発表

A simplified AINV method based on nonzero element positions of a coefficient matrix
Kengo Suzuki; Takeshi Fukaya; Takeshi Iwashita
2022 International Conference on High Performance Computing in Asia-Pacific Region (HPC Asia 2022), 2022年01月12日, 英語, ポスター発表

ブロック構造に基づくフィルイン制御を用いたSIMD演算に適したILU分解前処理手法
鈴木謙吾; 深谷猛; 岩下武史
日本応用数理学会 2022年度年会, 2022年01月08日, 日本語, 口頭発表（一般）

低精度演算を活用したGMRES(m)法の研究
深谷猛; Yingqi Zhao; 岩下武史
第13回自動チューニング技術の現状と応用に関するシンポジウム(ATTA2021), 2021年12月13日, 日本語, 口頭発表（一般）

Exploring the Potential of Low Precision Computing in the GMRES(m) Method
Takeshi Fukaya
International Workshop on the Integration of (Simulation + Data + Learning): Towards Society 5.0 by h3-Open-BDEC, 2021年11月30日, 英語, 口頭発表（招待・特別）
［招待講演］

誤差ベクトルのサンプリングに基づくSubspace CorrectionおよびDeflationによる前処理付きCGソルバの収束性改善
池原紘太; 深谷猛; 岩下武史
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第32回研究会, 2021年10月01日, 日本語, 口頭発表（一般）

低精度演算を用いた線形計算アルゴリズムの研究
深谷猛
第7回北大・部局横断シンポジウム, 2021年10月01日, 口頭発表（一般）
オンライン, ［国内会議］

ベイズ推定による超並列計算の性能予測
星健夫; 小橋恒士; 山本有作; 深谷猛
日本応用数理学会2021年度年会, 2021年09月09日, 日本応用数理学会, 口頭発表（一般）
オンライン, ［国内会議］

GPUに適した近似逆行列前処理の簡略化手法
鈴木謙吾; 深谷猛; 岩下武史
日本応用数理学会2021年度年会, 2021年09月07日, 日本応用数理学会, 口頭発表（一般）
オンライン, 日本国, ［国内会議］

GMRES(m)法に対する低精度演算・データの積極的導入の可能性に関する検証
深谷猛; 岩下武史
日本応用数理学会2021年度年会, 2021年09月07日, 日本応用数理学会, 口頭発表（一般）
オンライン, 日本国, ［国内会議］

最近のマルチコアCPU環境における疎行列ベクトル積の性能に関する一考察
深谷猛; 岩下武史; 中島浩
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第31回研究会（SwoPP2021）, 2021年07月20日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
オンライン, 日本国, ［国内会議］

SIMD演算に適したブロック構造を有する新しいILU分解前処理手法
鈴木謙吾; 深谷猛; 岩下武史
The 5th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2021), 2021年07月19日, 情報処理学会 ARC/HPC/OS/PRO 各研究会, 口頭発表（一般）
オンライン, ［国内会議］

Exploiting Lower Precision Computing in the GMRES(m) Method
Takeshi Fukaya; Yingqi Zhao; Takeshi Iwashita
SIAM Conference on Applied Linear Algebra (LA21), 2021年05月20日, SIAM, 口頭発表（一般）
online, ［国際会議］

Exploiting Lower Precision Computing in the GMRES(m) Method
Takeshi Fukaya
2021 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2021), 2021年03月19日, 口頭発表（一般）
Taoyuan City & online, 台湾, ［国際会議］

GMRES(m)法における行列データの低精度化に関する検討
深谷猛; 岩下武史
日本応用数理学会第17回研究部会連合発表会, 2021年03月04日, 日本応用数理学会, 口頭発表（一般）
オンライン, 日本国, ［国内会議］

Hierarchical Block Multi-Color Ordering for Vectorization and Parallelization of the ICCG Method
Takeshi Iwashita; Senxi Li; Takeshi Fukaya
SIAM Conference on Computational Science and Engineering (CSE21), 2021年03月04日, SIAM, 口頭発表（一般）
online, ［国際会議］

低精度・低信頼性演算を活用した数値計算アルゴリズムの創出
深谷猛
第12回自動チューニング技術の現状と応用に関するシンポジウム(ATTA2020), 2020年12月25日, 自動チューニング研究会, 口頭発表（一般）
オンライン, ［国内会議］

縦長行列の列ピボット付きQR分解に対するコレスキーQR型アルゴリズムの検討
深谷猛; 中務佑治; 山本有作
日本応用数理学会2020年度年会, 2020年09月09日, 日本応用数理学会, 口頭発表（一般）
オンライン, 日本国, ［国内会議］, ［国際共著］

Automated Subspace Correction法を前処理とするCGソルバの開発と評価
池原紘太; 深谷猛; 岩下武史
The 4th cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2020), 2020年07月29日, 情報処理学会 ARC/HPC/OS/PRO 各研究会, 口頭発表（一般）
オンライン, 日本国, ［国内会議］

Shifted CholeskyQR3 for High Performance Tall-Skinny QR Factorization
Takeshi Fukaya; Ramaseshan Kannan; Yuji Nakatsukasa; Yusaku Yamamoto; Yuka Yanagisawa
SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP20), 2020年02月13日, SIAM, 口頭発表（一般）
Seattle, アメリカ合衆国, ［国際会議］, ［国際共著］

Investigation into the convergence behavior of the mixed-precision GMRES(m) method using FP64 and FP32
Takeshi Fukaya
Workshop on Large-scale Parallel Numerical Computing Technology (LSPANC 2020 January), 2020年01月29日, RIKEN R-CCS, 口頭発表（一般）
Kobe, 日本国, ［国際会議］

Benchmarking Basic Dense Linear Algebra Kernels on the supercomputer Grand Chariot
Takeshi Fukaya
Sapporo Winter HPC Seminar 2020, 2020年01月24日, Information Initiative Center, Hokkaido University, 口頭発表（一般）
Sapporo, 日本国, ［国際会議］

HPC視点に基づくテンソル分解アルゴリズムの高性能化
深谷猛
第11回自動チューニング技術の現状と応用に関するシンポジウム(ATTA2019), 2019年12月23日, 自動チューニング研究会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

北海道大学情報基盤センター新スーパーコンピュータシステム利用者からの問い合わせ分析
吉川潤; 更科高広; 吉川浩; 金子修己; 岩﨑誠; 折野神惠; 岩舩歩美; 深谷猛; 岩下武史
大学ICT推進協議会2019年度年次大会（AXIES2019）, 2019年12月13日, 一般社団法人大学ICT推進協議会, 口頭発表（一般）
福岡市, 日本国, ［国内会議］

3 次元FDTD 法に対する並列処理に適した時空間タイリング手法
深谷猛
北海道大学共同利用・共同研究拠点アライアンス部局横断シンポジウム「計算科学が拓く汎分野研究」, 2019年10月31日, 北海道大学共同利用・共同研究拠点アライアンス, 口頭発表（一般）
札幌市, 日本国, ［国内会議］

倍精度と単精度を用いた混合精度GMRES(m)法の収束性に関する実験的評価
深谷猛; グドール聖哉; 張臨傑; 岩下武史
日本応用数理学会2019年度年会, 2019年09月03日, 日本応用数理学会, 口頭発表（一般）
東京都, 日本国, ［国内会議］, ［国際共著］

Recent progress of the Cholesky QR factorization
Takeshi Fukaya
2019 Mini-Workshop on Computational Science (MWCS2019), 2019年08月18日, 口頭発表（一般）
Dalian, 中華人民共和国, ［国際会議］

Mixed-Precision GMRES(m) Method using Double and Single Precision: Experimental Evaluation of its Convergence Properties
Takeshi Fukaya
Sapporo Summer HPC Seminar 2019, 2019年08月15日, Information Initiative Center, Hokkaido University, 口頭発表（一般）
Sapporo, 日本国, ［国際会議］

倍精度と単精度を用いた混合精度 GMRES(m) 法の性能評価
深谷猛; グドール聖哉; 張臨傑; 岩下武史
第48回数値解析シンポジウム（NAS2019）, 2019年06月12日, 口頭発表（一般）
福井市, 日本国, ［国内会議］, ［国際共著］

ALS法を用いた密テンソルのCP分解におけるMTTKRPの性能評価
深谷猛
The 3rd cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2019), 2019年05月28日, 情報処理学会 ARC/HPC/OS/PRO 各研究会, 口頭発表（一般）
横浜市, 日本国, ［国内会議］

ベクトル直交化手法に関する最近の進展
深谷猛
大規模並列数値計算技術に関する研究集会 (LSPANC2019 March), 2019年03月26日, 理研 R-CCS, 口頭発表（一般）
神戸市, 日本国, ［国内会議］

Accelerating Multithreaded Linear Solver with Mixed Precision Hierarchical Matrix Computation and Data Structure
Rise Ooi Kok Thong; Takeshi Fukaya; Takeshi Iwashita
日本応用数理学会若手の会主催第4回学生研究発表会, 2019年03月03日, 日本応用数理学会若手の会, ポスター発表
つくば市, 日本国, ［国内会議］

High performance QR factorization of ill-conditioned matrices based on the Cholesky QR algorithm
Takeshi Fukaya; Ramaseshan Kannan; Yuji Nakatsukasa; Yusaku Yamamoto; Yuka Yanagisawa
SIAM Conference on Computational Science and Engineering (CSE19), 2019年02月27日, SIAM, 口頭発表（一般）
Spokane, アメリカ合衆国, ［国際会議］, ［国際共著］

Shifted Cholesky QR algorithm for computing the QR factorization of ill-conditioned matrices
Takeshi Fukaya; Ramaseshan Kannan; Yuji Nakatsukasa; Yusaku Yamamoto; Yuka Yanagisawa
2019 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT2019), 2019年02月15日, 口頭発表（一般）
Kaohsiung, 台湾, ［国際会議］, ［国際共著］

超並列計算に対するベイズ推定型性能予測
原田祐希; 田中和幸; 深谷猛; 山本有作; 星健夫
ポスト「京」重点課題（７）「次世代の産業を支える新機能デバイス・高性能材料の創成(CDMSI）」第4回シンポジウム, 2018年12月17日, ポスター発表
東京都, 日本国, ［国内会議］

北海道大学情報基盤センター新スーパーコンピュータシステムの概要
深谷猛; 岩下武史; 金子修己; 折野神惠; 更科高広
大学ICT推進協議会2018年度年次大会（AXIES2018）, 2018年11月21日, 一般社団法人大学ICT推進協議会, 口頭発表（一般）
札幌市, 日本国, ［国内会議］

Performance Evaluation of the Shifted Cholesky QR Algorithm for Ill-Conditioned Matrices
Takeshi Fukaya; Ramaseshan Kannan; Yuji Nakatsukasa; Yusaku Yamamoto; Yuka Yanagisawa
SC’18: The International Conference for High Performance Computing, Networking, Storage, and Analysis, 2018年, IEEE/ACM, ポスター発表
2018年11月11日 - 2018年11月16日, Dallas, アメリカ合衆国, ［国際会議］, ［国際共著］

コレスキー分解を用いたQR分解の高性能計算手法
深谷猛
名古屋大学張研究室コロキウム, 2018年10月19日, 名古屋大学張研究室, 口頭発表（一般）
名古屋市, 日本国, ［国内会議］

Bayesian Inference Based Performance Prediction For Massively Parallel Numerical Solver
Yuki Harada; Kazuyuki Tanaka; Takeshi Fukaya; Yusaku Yamamoto; Takeo Hoshi
3rd International Symposium on Research and Education of Computational Science (RECS2018), 2018年09月21日, The Computational Science Alliance, The University of Tokyo, ポスター発表
Tokyo, 日本国, ［国際会議］

An overview of various algorithms for computing tall-skinny QR factorization
Takeshi Fukaya; Yusaku Yamamoto
The 37th JSST Annual International Conference on Simulation Technology (JSST2018), 2018年09月18日, JAPAN SOCIETY FOR SMILATION TECHNOLOGY, 口頭発表（一般）
Muroran, 日本国, ［国際会議］

High performance multi-threaded ILU-GMRES solver with algebraic block multi-color ordering
Takeshi Iwashita; Senxi Li; Takeshi Fukaya
CoSaS 2018: International Symposium on Computational Science at Scale, 2018年, ポスター発表
2018年09月05日 - 2018年09月07日, Erlangen, ドイツ連邦共和国, ［国際会議］

マルチコア・メニーコア計算機環境におけるChebyshev基底通信削減CG法の性能評価
大島聡史; 藤井昭宏; 田中輝雄; 深谷猛; 須田礼仁
日本応用数理学会2018年度年会, 2018年09月05日, 日本応用数理学会, 口頭発表（一般）
名古屋市, 日本国, ［国内会議］

密テンソルに対するALS法の実装方法に関する考察
深谷猛
日本応用数理学会2018年度年会, 2018年09月05日, 日本応用数理学会, 口頭発表（一般）
名古屋市, 日本国, ［国内会議］

シフト付きCholeskyQR法を用いた一般内積空間におけるQR分解の計算
深谷猛; 中務佑治; Kannan Ramaseshan; 山本有作; 柳澤優香
日本応用数理学会2018年度年会, 2018年09月04日, 日本応用数理学会, ポスター発表
名古屋市, 日本国, ［国内会議］

ベイズ推定を用いた並列数値計算ライブラリの性能予測
原田祐希; 田中和幸; 福本智哉; 深谷猛; 山本有作; 星健夫
日本応用数理学会2018年度年会, 2018年09月04日, 日本応用数理学会, ポスター発表
名古屋市, 日本国, ［国内会議］

QR factorization via Cholesky factorization
Takeshi Fukaya
Sapporo Summer HPC Seminar 2018, 2018年08月08日, Information Initiative Center, Hokkaido University, 口頭発表（一般）
Sapporo, 日本国, ［国際会議］

H行列ベクトル積のスレッド並列化における負荷均衡に関する検討
岩下武史; 川村卓人; 深谷猛; 伊田明弘
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第25回研究会（SwoPP2018）, 2018年07月31日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
熊本市, 日本国, ［国内会議］

ベイズ推定を用いた並列固有値ソルバーの性能予測
田中和幸; 深谷猛; 山本有作; 星健夫
H30年度ポスト「京」重点課題（７）第3回CDMSI研究会, 2018年07月19日, 口頭発表（一般）
東京都, 日本国, ［国内会議］

DIA 形式と CRS 形式を組み合わせた Hybrid 形式を用いた疎行列ベクトル積のキャッシュブロッキング
石田幸輝; 三浦瑛絵; 深谷猛; 岩下武史; 中島浩
The 2nd. cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2018), 2018年05月30日, 情報処理学会 ARC/HPC/OS/PRO 各研究会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

Enhancement of Algebraic Block Multi-Color Ordering for ILU Preconditioning and Its Performance Evaluation in Preconditioned GMRES Solver
Senxi Li; Takeshi Iwashita; Takeshi Fukaya
The 2nd. cross-disciplinary Workshop on Computing Systems, Infrastructures, and Programming (xSIG2018), 2018年05月30日, 情報処理学会 ARC/HPC/OS/PRO 各研究会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

Performance Evaluation of Time-Space Tiling with Tile-Level Parallelism for Iterative Stencil Computations
Takeshi Fukaya; Takeshi Iwashita
2018 Conference on Advanced Topics and Auto Tuning in High-Performance Scientific Computing (ATAT in HPSC 2018), 2018年03月26日, 口頭発表（一般）
Tainan, 台湾, ［国際会議］

Oakforest-PACSにおける一般化固有値計算の性能解析と性能予測
星健夫; 福本智哉; 深谷猛; 山本有作
日本応用数理学会 2018年研究部会連合発表会, 2018年03月16日, 日本応用数理学会, 口頭発表（一般）
吹田市, 日本国, ［国内会議］

高性能計算入門：より高速な計算を目指して
深谷猛
日本応用数理学会若手の会主催応用数理学生・若手研究者のための研究交流会, 2018年03月14日, 日本応用数理学会若手の会, 公開講演，セミナー，チュートリアル，講習，講義等
吹田市, ［国内会議］

複数のデータ構造を用いた疎行列ベクトル積のキャッシュブロッキング手法の検討と評価
石田幸輝; 三浦瑛絵; 深谷猛; 岩下武史; 中島浩
日本応用数理学会若手の会主催応用数理学生・若手研究者のための研究交流会, 2018年03月14日, 日本応用数理学会若手の会, 口頭発表（一般）
吹田市, 日本国, ［国内会議］

An Approach to Accelerating the SpMV Kernel by Exploiting Specific Sparse Structures
Takeshi Fukaya; Koki Ishida; Akie Miura; Takeshi Iwashita; Hiroshi. Nakashima
SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18), 2018年03月10日, SIAM, 口頭発表（一般）
Tokyo, 日本国, ［国際会議］

Shifted Cholesky QR for Computing the QR Factorization for Ill-conditioned Matrices
Yuka Yanagisawa; Takeshi Fukaya; Yuji Nakatsukasa; Yusaku Yamamoto; Ranseshan Kannan
SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18), 2018年03月09日, SIAM, 口頭発表（一般）
Tokyo, 日本国, ［国際会議］, ［国際共著］

Effect of Algebraic Block Multi-Color Ordering for Multi-Threaded ILU-GMRES Solver
Senxi Li; Takeshi Fukaya; Takeshi Iwashita
SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18), 2018年03月08日, SIAM, ポスター発表
Tokyo, 日本国, ［国際会議］

Performance Evaluation of Tiled 3D FDTD Solver on Recent Multicore Processors
Takeshi Iwashita; Takeshi Fukaya
SIAM Conference on Parallel Processing for Scientific Computing (SIAM PP18), 2018年03月07日, SIAM, 口頭発表（一般）
Tokyo, 日本国, ［国際会議］

Current status of EigenExa, high-performance parallel dense eigensolver
Toshiyuki Imamura; Yusuke Hirota; Takeshi Fukaya
2018 International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2018), 2018年03月06日, ポスター発表
Tsukuba, 日本国, ［国際会議］

Analysis and prediction of the performance in generalized eigenvalue solvers on Oakforest-PACS
Takeo Hoshi; Tomoya Fukumoto; Takeshi Fukaya; Yusaku Yamamoto
2018 International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2018), 2018年03月06日, ポスター発表
Tsukuba, 日本国, ［国際会議］

Overview of the EigenExa project, past, present and future
Toshiyuki Imamura; Yusuke Hirota; Takeshi Fukaya
2018 International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2018), 2018年03月06日, 口頭発表（一般）
Tsukuba, 日本国, ［国際会議］

並列計算機上での反復型ステンシル計算に対する効果的な時空間タイリングとその応用
深谷猛
科研費基盤B課題「O(1億)コア環境におけるスケーラブルな数値計算ソフトウェアの理論と応用」ワークショップ, 2018年01月23日, 口頭発表（一般）
札幌市, 日本国, ［国内会議］

疎行列のステンシル構造の活用による疎行列ベクトル積の性能向上の調査
深谷猛; 三浦瑛絵; 岩下武史
大学ICT推進協議会 2017年度年次大会（AXIES2017）, 2017年12月13日, 一般社団法人大学ICT推進協議会, 口頭発表（一般）
広島市, 日本国, ［国内会議］

A parallel solver for a linear system with a symmetric sparse matrix by one-dissection ordering
Tomoki Nakano; Mitsuo Yokokawa; Takeshi Fukaya; Yusaku Yamamoto
Workbench on Sustained Simulation Performance (WSSP), 2017年10月10日, 口頭発表（一般）
Stuttgart, ドイツ連邦共和国, ［国際会議］

時空間タイリングを用いた反復型ステンシル計算とその応用
岩下武史; 深谷猛
日本機械学会第30回計算力学講演会（CMD2017）, 2017年09月17日, 日本機械学会, 口頭発表（一般）
東大阪市, 日本国, ［国内会議］

TSQRアルゴリズムにおける三角行列のリダクション処理に関する考察
深谷猛
日本応用数理学会2017年度年会, 2017年09月06日, 日本応用数理学会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

Temporal and spatial tiling technique with tile-level parallelism and its application to 3D FDTD method
Takeshi Fukaya
Sapporo Summer HPC Seminar 2017, 2017年08月07日, Information Initiative Center, Hokkaido University, 口頭発表（一般）
Sapporo, 日本国, ［国際会議］

縦長行列のQR分解に対する通信削減型アルゴリズムの性能評価
深谷猛; 山本有作
第2回CDMSI（ポスト「京」重点課題（７））研究会, 2017年07月, ポスター発表
2017年07月11日 - 2017年07月12日, 東京都, 日本国, ［国内会議］

複数の格納形式を利用した疎行列ベクトル積の高速化に関する検討
石田幸輝; 三浦瑛絵; 深谷猛; 岩下武史; 中島浩
2017年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2017）, 2017年06月05日, 情報処理学会 HPC研究会, ポスター発表
神戸市, 日本国, ［国内会議］

H行列ベクトル積のスレッド並列化手法に関する性能評価
川村卓人; 深谷猛; 岩下武史; 伊田明弘
2017年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2017）, 2017年06月05日, 情報処理学会 HPC研究会, ポスター発表
神戸市, 日本国, ［国内会議］

Shifted CholeskyQR for Computing the factorization of ill-conditioned matrices
Yuka Yanagisawa; Takeshi Fukaya; Ramaseshan Kannan; Yuji Nakatsukasa; Yusaku Yamamoto; Oishi Shin’ichi
The International Workshop on Numerical Verification and its Applications 2017 (INVA2017), 2017年03月16日, 口頭発表（一般）
Miyakojima, 日本国, ［国際会議］, ［国際共著］

ステンシル構造を利用した疎行列ベクトル積の高速化に関する検討
三浦瑛絵; 深谷猛; 岩下武史
日本応用数理学会若手の会第2回学生研究発表会, 2017年03月05日, 日本応用数理学会若手の会, ポスター発表
東京都, 日本国, ［国内会議］

Performance Evaluation of Time-Space Tiling Strategies for Iterative Stencil Computations on Multi/Many-Core CPU Systems
Takeshi Fukaya; Takeshi Iwashita
SIAM Conference on Computational Science and Engineering (CSE17), 2017年02月28日, SIAM, 口頭発表（一般）
Atlanta, アメリカ合衆国, ［国際会議］

最近の計算機環境における基本的な行列計算カーネルの性能とその考察
深谷猛
ワークショップ「行列計算のための数値計算法」, 2017年01月20日, 口頭発表（一般）
名古屋市, 日本国, ［国内会議］

時空間タイリングによる反復型ステンシル計算の性能向上に関する基礎評価
深谷猛; 岩下武史
大学ICT推進協議会 2016年度年次大会（AXIES2016）, 2016年12月16日, 一般社団法人大学ICT推進協議会, 口頭発表（一般）
京都市, ［国内会議］

ScaLAPACKの性能分析と次世代アルゴリズム研究への指針
深谷猛
計算物質科学における時空間アップスケーリングと数理手法, 2016年11月29日, 公開講演，セミナー，チュートリアル，講習，講義等
調布市, 日本国, ［国内会議］

マルチコア・メニーコア環境における反復型ステンシル計算と時空間タイリング
深谷猛; 岩下武史
日本応用数理学会2016年度年会, 2016年09月07日, 日本応用数理学会, 口頭発表（一般）
北九州市, 日本国, ［国内会議］

Time-space tiling strategies for iterative stencil computations on multi/many-core CPU systems
Takeshi Fukaya; Takeshi Iwashita
Sapporo Summer HPC Seminar 2016, 2016年08月22日, Information Initiative Center, Hokkaido University, 口頭発表（一般）
Sapporo, 日本国, ［国際会議］

反復型ステンシル計算のマルチコア・メニーコア向け実装に関する考察
深谷猛; 岩下武史
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第21回研究会（SwoPP2016）, 2016年08月09日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
松本市, 日本国, ［国内会議］

Performance Evaluation of Verified Computation for Linear System on Supercomputer
Yusuke Morikura; Daichi Mukunoki; Takeshi Fukaya; Naoya Yamanaka
The 11th East Asia Section of SIAM Conference (EASIAM 2016), 2016年06月20日, EASIAM, 口頭発表（一般）
Macau, 中華人民共和国, ［国際会議］

分散並列計算機における密行列ベクトル積の通信隠蔽実装の評価
川村卓人; 深谷猛; 岩下武史
2016年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2016）, 2016年06月06日, 情報処理学会 HPC研究会, ポスター発表
仙台市, 日本国, ［国内会議］

An Impact of Tuning the Kernel of the Structured QR Factorization in the TSQR
Takeshi Fukaya; Toshiyuki Imamura
SIAM Conference on Parallel Processing for Scientific Computing (PP16), 2016年04月14日, SIAM, 口頭発表（一般）
Paris, フランス共和国, ［国際会議］

分散並列計算環境における通信隠蔽手法を用いた密行列ベクトル積実装の性能評価
川村卓人; 深谷猛; 岩下武史
日本応用数理学会若手の会第1回学生研究発表会, 2016年03月03日, 日本応用数理学会若手の会, ポスター発表
神戸市, 日本国, ［国内会議］

Performance evaluation of the tall-skinny QR factorization on recent parallel systems
Takeshi Fukaya; Yusaku Yamamoto; Toshiyuki Imamura
The 6th AICS International Symposium, 2016年02月22日, RIKEN AICS, ポスター発表
Kobe, ［国際会議］

Performance Evaluation of Verified Computation for Linear Systems on Parallel Computers
Yusuke Morikura; Daichi Mukunoki; Takeshi Fukaya; Naoya Yamanaka; Shin’ichi Oishi
2nd Annual Meeting on Advanced Computing System and Infrastructure (ACSI 2016), 2016年01月18日, ポスター発表
福岡市, 日本国, ［国内会議］

線形計算アルゴリズムと通信回避
深谷猛
研究会「数理構造保存を接点として数学・HPC・実科学のクロスオーバー」, 2015年11月25日, 口頭発表（一般）
東京都, 日本国, ［国内会議］

Roundoff Error Analysis of the Choleskyqr2 and Related Algorithms
Yusaku Yamamoto; Yuji Nakatsukasa; Yuka Yanagisawa; Takeshi Fukaya
SIAM Conference on Applied Linear Algebra (LA15), 2015年10月28日, SIAM, 口頭発表（一般）
Atlanta, アメリカ合衆国, ［国際会議］

Performance Evaluation of the Choleskyqr2 Algorithm
Takeshi Fukaya; Yuji Nakatsukasa; Yuka Yanagiswa; Yusaku Yamamoto
SIAM Conference on Applied Linear Algebra (LA15), 2015年10月27日, SIAM, 口頭発表（一般）
Atlanta, アメリカ合衆国, ［国際会議］

The CholeskyQR2 algorithm and its applications
Takeshi Fukaya
20th ASE Seminar (Advanced Supercomputing Environment), 2015年10月16日, Information Technology Center, The University of Tokyo, 口頭発表（一般）
Tokyo, 日本国, ［国際会議］

Performance evaluation of the divide-and conquer method in the EigenExa eigensolver
Takeshi Fukaya; Toshiyuki Imamura
International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA2015), 2015年09月15日, ポスター発表
Tsukuba, 日本国, ［国際会議］

重み付き内積空間における行列のQR分解アルゴリズムの考察－高性能計算の視点から
深谷猛; 中務佑治; 柳澤優香; 山本有作
日本応用数理学会2015年度年会, 2015年09月09日, 日本応用数理学会, ポスター発表
金沢市, 日本国, ［国内会議］

CAHTR: Communication-Avoiding Householder TRidiagonalization
Toshiyuki Imamura; Takeshi Fukaya; Yusuke Hirota; Susumu Yamada; Masahiko Machida
International Conference on Parallel Computing (ParCo) 2015, 2015年09月03日, 口頭発表（一般）
Edinburgh, グレートブリテン・北アイルランド連合王国(英国), ［国際会議］

Moving a specified eigenvalue and eigenvector
Yuji Nakatsukasa; Takeshi Fukaya; Agnieszka Miedlar
The 8th International Congress on Industrial and Applied Mathematics (ICIAM2015), 2015年08月10日, ICIAM, 口頭発表（一般）
Beijing, 中華人民共和国, ［国際会議］, ［国際共著］

ペタ・ポストペタスケールシステムにおける密行列向けアルゴリズムの実行時間：EigenExaの開発を通して得られた実測データに基づく考察
深谷猛; 山本有作; 今村俊幸
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第19回研究会（SWoPP2015）, 2015年08月05日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
別府市, 日本国, ［国内会議］

コレスキーQR分解を用いたブロック直交変換の生成
深谷猛; 中務佑治; 山本有作
第44回数値解析シンポジウム（NAS2015）, 2015年06月09日, 口頭発表（一般）
甲府市, 日本国, ［国内会議］

ストペタスケール計算機上での密行列向け固有値ソルバーの性能の展望
深谷猛; 山本有作; 今村俊幸
2015年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2015）, 2015年05月19日, 情報処理学会 HPC研究会, ポスター発表
東京都, ［国内会議］

Performance Evaluation of EigenExa Dense Eigensolver on the Oakleaf-Fx Supercomputer System
Takeshi Fukaya; Toshiyuki Imamura
SIAM Conference on Computational Science and Engineering (CSE15), 2015年03月14日, SIAM, 口頭発表（一般）
Salt Lake City, アメリカ合衆国, ［国際会議］

Numerical Eigenvalue Engine towards Extreme-scale Computing Era
Toshiyuki Imamura; Takeshi Fukaya; Yusuke Hirota; Susumu Yamada; Masahiko Machida
SIAM Conference on Computational Science and Engineering (CSE15), 2015年03月14日, SIAM, 口頭発表（一般）
Salt Lake City, アメリカ合衆国, ［国際会議］

オンライン自動チューニングのための性能モデルの構築法～正方行列の特異値分解を例にして～
長島聖児; 深谷猛; 山本有作; 横川三津
日本応用数理学会2015年研究部会連合発表会, 2015年03月06日, 日本応用数理学会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

CholeskyQR2: an algorithm of the Cholesky QR factorization with reorthogonalization
Takeshi Fukaya
2015 Conference on Advanced Topics and Auto Tuning in High Performance Scientific Computing (2015 ATAT in HPSC), 2015年02月28日, 口頭発表（一般）
Taipei, 台湾, ［国際会議］

Performance evaluation of the EigenExa eigensolver on the Oakleaf-FX supercomputing system
Takeshi Fukaya; Imamura Toshiyuki
Annual Meeting on Advanced Computing System and Infrastructure (ACSI 2015), 2015年01月27日, 口頭発表（一般）
つくば市, 日本国, ［国内会議］

高性能計算におけるコレスキーQR分解
深谷猛
第12回計算数学研究会, 2014年12月28日, 口頭発表（招待・特別）
焼津市, 日本国, ［招待講演］, ［国内会議］

Performance evaluation og the EigenExa dense eigensolver on the K computer
Takeshi Fukaya; Toshiyuki Imamura
5th AICS International Symposium, 2014年12月08日, RIKEN AICS, ポスター発表
Kobe, 日本国, ［国際会議］

Modeling the performance of parallel dense eigensolvers on peta/post-petascale systems
Takeshi Fukaya
JST/CREST International Symposium on Post Petascale System Software (ISP2S2), 2014年12月02日, ポスター発表
Kobe, 日本国, ［国際会議］

コレスキー分解に基づくQR分解の計算方法について
深谷猛
第8回協定講座シンポジウム「計算科学次代を担う若手の集い2014」, 2014年09月11日, 神戸大学大学院システム情報学研究科, ポスター発表
神戸市, 日本国, ［国内会議］

シフト付きコレスキーQR分解アルゴリズムの提案
柳澤優香; 深谷猛; 中務佑治; Kannan Ramaseshan; 山本有作; 大石進一
日本応用数理学会2014年度年会, 2014年09月, 日本応用数理学会, 口頭発表（一般）
2014年09月03日 - 2014年09月05日, 東京都, 日本国, ［国内会議］, ［国際共著］

大規模並列計算機上での再直交化付きコレスキーQR分解の性能評価
深谷猛; 中務佑治; 柳澤優香; 山本有作
本応用数理学会2014年度年会, 2014年09月, 日本応用数理学会, 口頭発表（一般）
2014年09月03日 - 2014年09月05日, 東京都, 日本国, ［国内会議］

ハウスホルダー変換のブロック化と通信回数削減に関する一考察
深谷猛; 山本有作; 今村俊幸
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第17回研究会（SWoPP2014）, 2014年07月28日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
新潟市, 日本国, ［国内会議］

EigenExa: high performance dense eigensolver, present and future
Toshiyuki Imamura; Yusuke Hirota; Takeshi Fukaya; Susumu Yamada; Masahiko Machida
8th International Workshop on Parallel Matrix Algorithm and Applications (PMSS14), 2014年, 口頭発表（一般）
2014年07月02日 - 2014年07月04日, Lugano, スイス連邦, ［国際会議］

通信削減型QR分解アルゴリズムと自動チューニング
深谷猛
第9回AT研究会オープンアカデミックセッション（ATOS9）, 2014年05月12日, 自動チューニング研究会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

A Communication-Avoiding Algorithm for the Gram-Schmidt Orthogonalization
Takeshi Fukaya
2014 Conference on Advanced Topics and Auto Tuning in High Performance Scientific Computing (2014 ATAT in HPSC), 2014年03月, 口頭発表（一般）
2014年03月14日 - 2014年03月15日, Taipei, 台湾, ［国際会議］

Cholesky-QR and Householder-QR factorizations in nonstandard inner product spaces
Yuka Yanagisawa; Yuji Nakatsukasa; Takeshi Fukaya
International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA 2014), 2014年03月, ポスター発表
2014年03月07日 - 2014年03月09日, Tsukuba, 日本国, ［国際会議］

An overview of parallel algorithms for tall-skinny QR factorizations
Takeshi Fukaya; Yusaku Yamamoto; Toshiyuki Imamura
International Workshop on Eigenvalue Problems: Algorithms; Software and Applications, in Petascale Computing (EPASA 2014), 2014年03月, ポスター発表
2014年03月07日 - 2014年03月09日, Tsukuba, 日本国, ［国際会議］

Auto-tuning Tall and Skinny QR Factorization
Takeshi Fukaya; Yusaku Yamamoto
SIAM Conference on Parallel Processing for Scientific Computing (PP14), 2014年02月, SIAM, 口頭発表（一般）
2014年02月18日 - 2014年02月21日, Portland, アメリカ合衆国, ［国際会議］

グラム・シュミットの直交化に基づくTSQRアルゴリズムとその性能評価
深谷猛; 山本有作; 今村俊幸
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第16回研究会, 2013年12月26日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
東京都, 日本国, ［国内会議］

大規模並列環境における縦長行列のQR分解の性能評価
深谷猛; 山本有作; 今村俊幸
第11回計算数学研究会, 2013年11月, 口頭発表（一般）
2013年11月02日 - 2013年11月04日, 三朝町, 日本国, ［国内会議］

超並列環境におけるTSQRアルゴリズムの性能に関する一考察
深谷猛
第5回協定講座シンポジウム「計算科学次代を担う若手の集い2013」, 2013年09月30日, 神戸大学大学院システム情報学研究科, ポスター発表
神戸市, 日本国, ［国内会議］

オンライン自動チューニング数理基盤ライブラリATMathCoreLibの特異値分解問題への適用
長島聖児; 深谷猛; 山本有作
日本応用数理学会2013年度年会, 2013年09月, 日本応用数理学会, 口頭発表（一般）
2013年09月09日 - 2013年09月11日, 福岡市, 日本国, ［国内会議］

ブロックヤコビ法に基づく固有値解法の超並列計算機上での実装
工藤周平; 高橋佑輔; 深谷猛; 山本有作
日本応用数理学会2013年度年会, 2013年09月, 日本応用数理学会, 口頭発表（一般）
2013年09月09日 - 2013年09月11日, 福岡市, 日本国, ［国内会議］

京コンピュータにおける対称密行列向け固有値計算プログラムの性能評価と性能予測
深谷猛; 今村俊幸; 山本有作
日本応用数理学会2013年度年会, 2013年09月, 日本応用数理学会, 口頭発表（一般）
2013年09月09日 - 2013年09月11日, 福岡市, 日本国, ［国内会議］

超並列環境における縦長行列のQR分解に対する種々の計算方法の性能比較
深谷猛; 山本有作
第42回数値解析シンポジウム（NAS2013）, 2013年06月, 口頭発表（一般）
2013年06月12日 - 2013年06月14日, 松山市, 日本国, ［国内会議］

京における密行列固有値ソルバEigen-Kの性能評価と性能モデリング
深谷猛; 今村俊幸; 山本有作
SACSIS2013 -先進的計算基盤システムシンポジウム, 2013年05月, ポスター発表
2013年05月22日 - 2013年05月24日, 仙台市, 日本国, ［国内会議］

Performance Evaluation and Tuning of Tall Skinny Type QR Factorization on the K Computer
Takeshi Fukaya; Yusaku Yamamoto
2013 Conference on Advanced Topics and Auto Tuning in High Performance Scientific Computing (2013 ATAT in HPSC), 2013年03月, 口頭発表（一般）
2013年03月27日 - 2013年03月29日, Taipei, 台湾, ［国際会議］

Performance Modeling of the Eigen-K Dense Eigensolver on Massively Parallel Machines
Takeshi Fukaya, Toshiyuki Imamura and Yusaku Yamamoto
SIAM Conference on Computational Science and Engineering (CSE13), 2013年02月, SIAM, 口頭発表（一般）
2013年02月25日 - 2013年03月01日, Boston, アメリカ合衆国, ［国際会議］

TSQRアルゴリズムに基づくQR分解の並列計算に対する自動チューニング
深谷猛
日本応用数理学会若手の会単独研究集会, 2012年12月26日, 日本応用数理学会若手の会, 口頭発表（招待・特別）
東京都, 日本国, ［招待講演］, ［国内会議］

ハウスホルダーQR分解の数値計算アルゴリズムと高性能計算のための工夫
深谷猛
一橋大学第14回「数理科学セミナー」, 2012年11月21日, 一橋大学商学研究科, 口頭発表（招待・特別）
東京都, 日本国, ［招待講演］, ［国内会議］

超並列環境向け固有値計算プログラムの性能予測モデルの開発
深谷猛
E-サイエンス若手・女性研究者シンポジウム2012, 2012年10月17日, 東京大学情報基盤センター, 口頭発表（一般）
柏市, 日本国, ［国内会議］

SMP上での並列QR分解に対する自動チューニングの検討
深谷猛; 山本有作; 張紹良
日本応用数理学会2012年度年会, 2012年08月, 日本応用数理学会, 口頭発表（一般）
2012年08月28日 - 2012年09月02日, 稚内市, 日本国, ［国内会議］

QR分解の並列計算における自動チューニングの検討
深谷猛; 山本有作; 張紹良
第2回協定講座シンポジウム「計算科学次代を担う若手の集い」, 2012年08月23日, 神戸大学大学院システム情報学研究科, ポスター発表
神戸市, 日本国, ［国内会議］

TSQR アルゴリズムを用いたSMP 上でのQR 分解計算に対する自動チューニングの検討
深谷猛; 山本有作; 張紹良
第41回数値解析シンポジウム（NAS2012）, 2012年06月, ポスター発表
2012年06月06日 - 2012年06月08日, 渋川市, 日本国, ［国内会議］

ブロックQR分解アルゴリズムの性能最適化 -動的計画法を利用したブロック分割方法の決定
深谷猛; 山本有作; 張紹良
第1回協定講座シンポジウム「計算アルゴリズムと化学・生物学の融合」, 2012年02月17日, 神戸大学大学院システム情報学研究科, ポスター発表
神戸市, 日本国, ［国内会議］

Automatic Performance Tuning for the Blocked Householder QR Algorithm
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
The 7th East Asia SIAM Conference & RIMS Workshop on Methods in Industrial and Applied Mathematics, 2011年06月, EASIAM/RIMS, 口頭発表（一般）
2011年06月27日 - 2011年06月29日, Kiakyushu, 日本国, ［国際会議］

ブロックQR分解アルゴリズムの性能最適化－ブロック化による性能向上についての考察－
深谷猛; 山本有作; 張紹良
第40回数値解析シンポジウム（NAS2011）, 2011年06月, ポスター発表
2011年06月20日 - 2011年06月22日, 鳥羽市, 日本国, ［国内会議］

Auto-tuning for BLAS-based Matrix Computations
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
SIAM Conference on Computational Science and Engineering (CSE11), 2011年02月, SIAM, 口頭発表（一般）
2011年02月28日 - 2011年03月04日, Reno, アメリカ合衆国, ［国際会議］

動的計画法に基づく密行列計算アルゴリズムの再帰的ブロック化
深谷猛; 山本有作; 張紹良
2011年ハイパフォーマンスコンピューティングと計算科学シンポジウム（HPCS2011）, 2011年01月, 情報処理学会 HPC研究会, ポスター発表
2011年01月18日 - 2011年01月19日, つくば市, 日本国, ［国内会議］

密行列計算の再帰構造を利用した適応的なブロック化
深谷猛; 山本有作; 張紹良
2010年度特異値・固有値合同ワークショップ, 2010年11月27日, 口頭発表（一般）
つくば市, 日本国, ［国内会議］

LU分解アルゴリズムにおけるブロック分割法と性能の関係について
深谷猛; 山本有作; 張紹良
第８回計算数学研究会, 2010年10月, ポスター発表
2010年10月29日 - 2010年10月31日, 神戸市, 日本国, ［国内会議］

動的計画法によるQR分解のブロック分割法の決定
深谷猛; 山本有作; 張紹良
第39回数値解析シンポジウム（NAS2010）, 2010年05月, ポスター発表
2010年05月26日 - 2010年05月28日, 鳥羽市, 日本国

A Dynamic Programming Approach to Auto-Tuning the Blocking Strategy For the Householder QR Decomposition
Takeshi Fukaya, Yusaku Yamamoto and Shao-Liang Zhang
Workshop on Advanced Auto-tuning on Numerical Software (AANS2010), 2010年04月02日, 口頭発表（一般）
Tokyo, 日本国, ［国際会議］

An Approach to Automatic Tuning for the Parallel Householder Qr Decomposition
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
SIAM Conference on Parallel Processing for Scientific Computing (PP10), 2010年02月, SIAM, 口頭発表（一般）
2010年02月24日 - 2010年02月26日, Seattle, アメリカ合衆国, ［国際会議］

A Dynamic Programming Approach to Performance Optimization for the QR Decomposition
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
International Symposium of Electronic Structure Calculations, 2009年12月, ポスター発表
2009年12月07日 - 2009年12月09日, Tokyo, 日本国, ［国際会議］

マルチコア環境向けハウスホルダーQR 分解アルゴリズムの性能チューニング
深谷猛; 山本有作; 張紹良
特異値・固有値合同ワークショップ, 2009年11月, 口頭発表（一般）
2009年11月21日 - 2009年11月22日, つくば市, 日本国, ［国内会議］

ハウスホルダーQR分解の並列計算の効率化
深谷猛; 山本有作; 張紹良
第7回計算数学研究会, 2009年10月, 口頭発表（一般）
2009年10月16日 - 2009年10月18日, 北塩原村, 日本国, ［国内会議］

An Approach to Automatic Tuning for Parallel Householder QR Decomposition
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
The Fourth International Workshop on Automatic Performance Tuning (iWAPT 2009), 2009年10月, ポスター発表
2009年10月01日 - 2009年10月02日, Tokyo, 日本国, ［国際会議］

Totally Nonnegative帯行列向けqd法へのシフト導入について
山本有作; 深谷猛
日本応用数理学会2009年度年会, 2009年09月, 日本応用数理学会, 口頭発表（一般）
2009年09月28日 - 2009年09月30日, 大阪市, 日本国, ［国内会議］

Totally Nonnegativeな帯行列に対するqd法
山本有作; 深谷猛
第38回数値解析シンポジウム (NAS2009), 2009年06月, ポスター発表
2009年06月15日 - 2009年06月17日, 東伊豆町, 日本国, ［国内会議］

A Dynamic Programming Approach to Optimizing the Blocking Strategy for the Householder QR Decomposition
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
The 2nd International Conference in Mathematical Modelling and Computation and The 5th East Asia SIAM Conference, 2009年06月, EASIAM, 口頭発表（一般）
2009年06月08日 - 2009年06月10日, Bandar Seri Begawan, ブルネイ・ダルサラーム国, ［国際会議］

ハウスホルダーQR分解のためのブロック分割法の動的決定
深谷猛; 山本有作; 張紹良
第6回計算数学研究会, 2009年03月, 口頭発表（一般）
2009年03月16日 - 2009年03月18日, 熱海市, 日本国, ［国内会議］

A Dynamic Programming Approach to Auto-Tuning the Blocking Strategy For the Householder QR Decomposition
Takeshi Fukaya; Yusaku Yamamoto; Shao-Liang Zhang
SIAM Conference on Computational Science and Engineering (CSE09), 2009年03月, SIAM, 口頭発表（一般）
2009年03月02日 - 2009年03月06日, Miami, アメリカ合衆国, ［国際会議］

ハウスホルダーQR分解におけるブロック分割パターンの最適化
深谷猛; 山本有作; 張紹良
日本応用数理学会「行列・固有値問題の解法とその応用」研究部会第5回研究会（SWoPP2008）, 2008年08月05日, 日本応用数理学会「行列・固有値問題の解法とその応用」研究部会, 口頭発表（一般）
佐賀市, 日本国, ［国内会議］

Level3 BLASを用いたQR分解アルゴリズムの性能評価
深谷猛; 山本有作
第5回計算数学研究会, 2007年10月, ポスター発表
2007年10月27日 - 2007年10月29日, 新潟市, 日本国, ［国内会議］

■ 主な担当授業

ハイパフォーマンスコンピューティング特論, 2024年, 修士課程, 情報科学院

ハイパフォーマンスコンピューティング特論, 2024年, 博士後期課程, 情報科学院

超高速計算機網工学特論, 2024年, 博士後期課程, 情報科学研究科

情報理工学実験Ⅱ, 2024年, 学士課程, 工学部

計算機プログラミングⅡ, 2024年, 学士課程, 工学部

■ 所属学協会

2024年08月 - 現在
IEEE

2023年09月 - 現在
ACM

2018年01月 - 現在
SIAM

2010年 - 現在
日本応用数理学会

2008年 - 現在
情報処理学会

■ 共同研究・競争的資金等の研究課題

計算科学・計算工学の未来を拓く次世代高性能線形ソルバの実現
科学研究費助成事業
2026年04月 - 2030年03月
岩下武史; 塙敏博; 伊田明弘; 美舩健; 横田理央; 高橋康人; 今倉暁; 深谷猛
日本学術振興会, 基盤研究(A), 京都大学, 研究分担者, 26H02492

次世代計算機の潜在能力を引き出すための科学技術ソフトウェアの刷新
科学研究費助成事業
2025年04月 - 2028年03月
横田理央; WAHIB MOHAMED; 芝隼人; 岩下武史; 深谷猛; 西澤誠也; 金森逸作; 伊田明弘; 尾崎克久
日本学術振興会, 基盤研究(A), 東京科学大学, 研究分担者, 25H01109

低精度計算を活用した混合精度型線形計算技術の深化
科学研究費助成事業
2025年04月 - 2028年03月
深谷猛; 張紹良; 山本有作; 岩下武史; 佐竹祐樹
日本学術振興会, 基盤研究(B), 北海道大学, 研究代表者, 25K03124

計算科学・計算工学の未来を拓く次世代高性能線形ソルバ
科学研究費助成事業
2023年04月 - 2027年03月
岩下武史; 塙敏博; 伊田明弘; 美舩健; 横田理央; 高橋康人; 今倉暁; 深谷猛
日本学術振興会, 基盤研究(A), 北海道大学, 研究分担者, 23H00462

society5.0におけるデータ解析に資する高性能線形計算技術の研究
科学研究費助成事業基盤研究(C)
2021年04月 - 2024年03月
深谷猛; 相島健助
本研究課題では，Society 5.0におけるビッグデータ解析の基盤となり得る新しい線形計算アルゴリズムの研究開発を行う．エッジコンピューティングに代表される，従来のスーパーコンピュータとは異なる特徴を有する分散並列計算インフラ上で，IoTなどから生成される分散データを効率的に解析するために必要となる線形計算技術に関して，HPCと数理の両方の知見に基づいてアルゴリズムの研究開発を実施する．
2021年度は，分散並列環境における代表的なデータ分析手法（例：主成分分析，回帰分析）の現状に関する調査を行った．調査の結果，組み込み機器におけるストリームデータの主成分分析等の具体的なアプリケーション事例の現状を把握することができた．今回の調査の限りでは，アルゴリズムや実装方法において，性能改善に向けた検討の余地が十分にあることが分かった．一方で，使用メモリ量など，従来のHPCアプリケーションとは評価尺度の優先度が異なることも確認できた．今後は，今回の調査結果を踏まえて，本課題で取り組む具体的な問題設定や評価尺度などを整理する．
上述の調査と並行して，これまで研究を行ってきた行列計算アルゴリズムの中で，本課題と関わりの深い，行列のQR分解のアルゴリズムに関する研究を実施した．具体的には，縦長行列のQR分解を行う様々なアルゴリズムに関して，異なる特徴を持ったスーパーコンピュータ上での実行時間を評価した．特に，全体の実行時間に加えて，内部の通信時間などに関する詳細な測定を実施しており，得られた結果を用いて各アルゴリズムの実行時間の性能モデルを構築することで，エッジコンピューティング環境における各アルゴリズムの実行コストの予測等が可能となる．
日本学術振興会, 基盤研究(C), 北海道大学, 研究代表者, 競争的資金, 21K11909

低精度・低信頼性演算を活用した数値計算アルゴリズムの創出
戦略的創造研究推進事業さきがけ
2020年11月 - 2024年03月
深谷猛
国立研究開発法人科学技術振興機構, 研究代表者, 競争的資金, JPMJPR20M8

整数演算のみを用いた次世代計算機向けシミュレーション技術の確立
科学研究費助成事業挑戦的研究(萌芽)
2020年07月 - 2023年03月
岩下武史; 深谷猛
2021年度の研究実績の概要は，以下に示す通りである．① 代表的な反復型ステンシル計算であるFDTD（Finite Difference Time Domain）法について，整数演算（固定小数点演算）のみを用いて，解析を行う方法についてその基本的な実装方針を構築した．本方針では，解析対象となる物理空間を複数の部分領域に分割し，部分領域ごとに異なるスケーリングファクタを用いることで，各領域内の物理量を与えられたビット幅の整数（固定小数点数）で表現する方式を採用する．領域間での物理量の連続性を保つ方策が実装面では必要となる．② 次世代の計算デバイスにおいて，高性能な整数演算処理はSIMD型の整数演算命令として実装される可能性がある．そこで，線形反復法を対象として，その代表的な前処理手法であるILU分解前処理をSIMD演算を前提として高速化する方法を考案し，性能評価を行った．本研究成果について口頭発表を行うとともに，学術論文としての発表準備を進めた．③ 2020年度に考案した整数演算のみを使用した線形ソルバは反復改良法の概念を利用しており，広義には混合精度演算を用いたソルバの一種と理解できる．実際，2021年度に発表された英国マンチェスター大学の数値線形代数における混合精度演算技術のレビュー論文において，本研究の成果が引用されている．そこで，反復改良法に基づく混合精度演算を利用した線形ソルバの性能評価について，主に計算結果の精度面から評価を行った．
日本学術振興会, 挑戦的研究(萌芽), 北海道大学, 研究分担者, 競争的資金, 20K21782

低精度・低信頼性演算を活用した数値計算アルゴリズムの創出
2020年 - 2023年
深谷猛
ポストムーア時代のハードウェアでは、性能向上と引き換えに、浮動小数点演算の精度や信頼性の低下が予想されます。そこで、本研究では、低精度・低信頼性演算を積極的に活用しつつ、従来と同程度の計算結果を担保する、新しい行列計算アルゴリズムの開発を目指します。これにより、アプリケーションレイヤーに対して、従来のハードウェアとの差異を隠蔽し、ポストムーア時代のハードウェアのシームレスな利用を実現します。
科学技術振興機構, 戦略的な研究開発の推進/戦略的創造研究推進事業/さきがけ, 20345481

計算電磁気学の深化を導く高性能線形ソルバ
科学研究費助成事業基盤研究(B)
2019年04月 - 2022年03月
岩下武史; 伊田明弘; 塙敏博; 美舩健; 高橋康人; 深谷猛
本研究では，有限要素法や境界要素法に基づく電磁場解析の高速化を目的に，線形ソルバの高性能化について研究を行った．計算機科学的アプローチと数理・解法的アプローチの両面から研究を行い，前者では，時間並列処理の高度化，SIMD演算に適合する前処理手法の開発，アクセラレータ向けの解法研究，混合精度演算導入による高速化について，多くの研究成果を得た．また，後者については，同一の係数行列を持つ連立一次方程式を複数回解く場合に着目した高速化に関する研究を実施した．
日本学術振興会, 基盤研究(B), 北海道大学, 研究分担者, 競争的資金, 19H04122

HPCの視点に基づくテンソル分解アルゴリズムの高性能化
科学研究費助成事業若手研究
2018年04月 - 2021年03月
深谷猛
本研究課題では，ビッグデータ解析等において注目を集めているテンソル分解の計算手法を，高性能計算の視点から高速化することを目的としている．2018年度は，主に，代表的なテンソル分解の計算手法について，高性能計算の視点から解決すべき課題を調査した．具体的には，代表的なテンソル分解であるCP分解を計算するALS法を対象に，基本的な実装の性能分析を行った．高性能な線形代数ライブラリ（BLAS）に基づいたプログラムコードを実装し，最新のマルチコアCPU環境上で性能評価を行った結果，MTTKRPと呼ばれる計算カーネルが実行時間の大半を占めることが確認された．また，反復計算において，条件（テンソルのモード）によって，MTTKRPの実行時間が大きく異なっており，その原因がスレッド並列化の方法に起因することが分かった．そこで，別のスレッド並列化の方法を試した結果，該当箇所の実行時間を大きく削減できることが確認できた．

上記の成果に加えて，テンソル分解の計算では，テンソルを行列化して処理を行うことが多々あるが，その際に生じる行列の形状が特徴的であり，そのような行列に対する高性能な計算手法が必要となる．そこで，これまでの行列計算に関する研究を生かして，テンソルの計算で必要となる行列計算手法の高速化について研究を進めた．具体的には，HOSVDと呼ばれるテンソル分解の計算手法等で必要となる，縦長行列の特異値分解計算の前処理のQR分解に関して，行列のQR分解を利用して高速に計算する手法（コレスキーQR分解）を研究した．主な成果としては，従来，対象とする縦長行列の条件数が大きい場合にアルゴリズムが破綻していた問題を，シフトの技術を導入することで回避した．そして，実際にプログラムコードを実装して，最新の計算機環境において，改良した手法が計算速度の点において，従来の計算手法よりも優れていることを示した．
日本学術振興会, 若手研究, 北海道大学, 研究代表者, 競争的資金, 18K18058

O(1億)コア環境におけるスケーラブルな数値計算ソフトウェアの理論と応用
科学研究費助成事業基盤研究(B)
2015年04月 - 2018年03月
今村俊幸; 大井祥栄; 深谷猛; 廣田悠輔; 椋木大地; 山本有作; 藤堂眞治
本研究は、数万から数億のコアプロセッサが搭載される計算システム環境下において、過去に蓄積された高性能な数値計算サービスを新しい数学原理に基づき実現することを目的にし、「異粒度数値カーネル構築」と共に「非同期的な数値計算アルゴリズム」の２大テーマのもと、１）非同期的数値計算アルゴリズムに関する理論と実用レベルにある省通信・省同期アルゴリズムについて研究しCAHTRやFDTD向けの手法を提案した。更に、２）超メニイコアでのスケーラブルな軽量コード生成のための自動チューニングなどの核基盤技術研究を推進し次世代数値計算ソフトウェアの新技術創出に繋がる新機軸探究を進めた。
日本学術振興会, 基盤研究(B), 国立研究開発法人理化学研究所, 研究分担者, 競争的資金, 15H02709

通信回避型行列分解の実用性向上に資する基盤技術の研究
科学研究費助成事業若手研究(B)
2015年04月 - 2018年03月
深谷猛
大規模並列計算における通信コストを削減するために，通信回避型の行列分解アルゴリズムが注目されている．本研究では，これらのアルゴリズムの実装方法やチューニング手法に主眼を置き，実際の計算機上でより高い性能を得るための基盤技術を研究した．具体的には，通信回避型アルゴリズムで必要となる計算カーネルの実装方法や，異なる通信回避型アルゴリズムの性能比較などを実施した．また，これらの研究を支える，並列計算機上でのアルゴリズムの性能モデルの構築方法についても検討を行った．
日本学術振興会, 若手研究(B), 北海道大学, 研究代表者, 競争的資金, 15K16000

大規模行列計算のための階層的自動チューニング手法の開発
科学研究費助成事業特別研究員奨励費
2010年 - 2011年
深谷猛
計算機環境の複雑化・多様化により,それぞれの条件(問題や計算機環境)に応じてアルゴリズムをチューニングすることが,高性能計算を実現するために不可避となっている。その際,従来の人手によるチューニングだけでなく,何らかの仕組みに基づいて計算機自身がチューニングを行う「自動チューニング」技術の開発が求められている。このような背景の下で,昨年度は基本的な行列計算の一つであるQR分解におけるブロック化の方法を自動的に決定する仕組みを構築し,有効な自動チューニング手法として期待できることを示した。そこで,本年度はこの手法をベースにして,実用化の観点から研究を進めた。
構築した手法では,動的計画法を用いることでアルゴリズムの候補を効率的に比較することが可能となっていた。また,比較の際に使用する評価値は性能予測モデルにより算出されることを前提としていた。そこで,本年度は,使用する性能予測モデルによる,チューニングの効果と実行コストの変化について考察した。また,行列サイズが大規模になった場合,全ての候補を比較することが困難になることが予想されるため,候補を限定してチューニングを行う手法の効果について検討した。さらに,限定の仕方を徐々に変化させることで,チューニングの効果とコストのトレードオブを効率的に制御する手法についても検討した。一方,並列計算を想定して,共有メモリ型並列計算機を用いてQR分解を行う場合の自動チューニング手法に関して検討した。並列計算では,TSQRと呼ばれるブロック分割が可能となり,同時に有効であることが知られているので,これを新たに取り入れたチューニング手法を構築し,その効果を検証した。
その他,QR分解以外として,LU分解アルゴリズムに対する自動チューニング手法を検討した。
以上の研究により,大規模行列計算アルゴリズムに対する実用的な自動チューニング手法の開発に向けた一つの方向性を示すとともに,その過程で解決すべき課題を具体的に明らかにすることができた。
日本学術振興会, 特別研究員奨励費, 名古屋大学, 研究代表者, 競争的資金, 10J08599

研究シーズ集

■ 研究シーズ

通信回避型行列計算アルゴリズム
カテゴリ：情報通信
キーワード：数値計算,ハイパフォーマンスコンピューティング

SEARCH

深谷 猛 (フカヤ タケシ)

情報基盤センター スーパーコンピューティング研究部門准教授

研究者基本情報

経歴

研究活動情報

研究シーズ集

深谷　猛 (フカヤ　タケシ)

情報基盤センター　スーパーコンピューティング研究部門准教授