研究者データベース

深谷 猛(フカヤ タケシ)
情報基盤センター スーパーコンピューティング研究部門
助教

基本情報

所属

  • 情報基盤センター スーパーコンピューティング研究部門

職名

  • 助教

学位

  • 博士(工学)(名古屋大学)

J-Global ID

研究キーワード

  • 並列計算   数値線形代数   高性能計算   

研究分野

  • 情報通信 / 計算科学
  • 情報通信 / 高性能計算

職歴

  • 2015年04月 - 現在 北海道大学 情報基盤センター 助教
  • 2013年10月 - 2015年03月 理化学研究所 計算科学研究機構 研究部門 大規模並列数値計算技術研究チーム 特別研究員
  • 2012年04月 - 2013年09月 神戸大学 大学院システム情報学研究科 特命助教

学歴

  • 2007年04月 - 2012年03月   名古屋大学   大学院工学研究科   計算理工学専攻
  • 2002年04月 - 2007年03月   名古屋大学   工学部   物理工学科

所属学協会

  • SIAM   日本応用数理学会   情報処理学会   

研究活動情報

論文

  • Rise Ooi, Takeshi Iwashita, Takeshi Fukaya, Akihiro Ida, Rio Yokota
    HPCAsia2020: Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region 92 - 101 2020年 [査読有り][通常論文]
  • Takeshi Fukaya, Ramaseshan Kannan, Yuji Nakatsukasa, Yusaku Yamamoto, Yuka Yanagisawa
    SIAM J. Scientific Computing 42 1  - 503 2020年 [査読有り][通常論文]
     
    The Cholesky QR algorithm is an efficient communication-minimizing algorithm
    for computing the QR factorization of a tall-skinny matrix. Unfortunately it
    has the inherent numerical instability and breakdown when the matrix is
    ill-conditioned. A recent work establishes that the instability can be cured by
    repeating the algorithm twice (called CholeskyQR2). However, the applicability
    of CholeskyQR2 is still limited by the requirement that the Cholesky
    factorization of the Gram matrix runs to completion, which means it does not
    always work for matrices $X$ with $\kappa_2(X)\gtrsim { { \bf u } }^{-\frac{1},{2 } }$
    where ${ { \bf u } }$ is the unit roundoff. In this work we extend the
    applicability to $\kappa_2(X)=\mathcal{O}({\bf u}^{-1})$ by introducing a shift
    to the computed Gram matrix so as to guarantee the Cholesky factorization
    $R^TR= A^TA+sI$ succeeds numerically. We show that the computed $AR^{-1}$ has
    reduced condition number $\leq { { \bf u } }^{-\frac{1},{2 } }$, for which CholeskyQR2
    safely computes the QR factorization, yielding a computed $Q$ of orthogonality
    $\|Q^TQ-I\|_2$ and residual $\|A-QR\|_F/\|A\|_F$ both $\mathcal{O}({ { \bf u } })$.
    Thus we obtain the required QR factorization by essentially running Cholesky QR
    thrice. We extensively analyze the resulting algorithm shiftedCholeskyQR to
    reveal its excellent numerical stability. shiftedCholeskyQR is also highly
    parallelizable, and applicable and effective also when working in an oblique
    inner product space. We illustrate our findings through experiments, in which
    we achieve significant (up to x40) speedup over alternative methods.
  • Kazuyuki Tanaka, Hiroto Imachi, Tomoya Fukumoto, Akiyoshi Kuwata, Yuki Harada, Takeshi Fukaya, Yusaku Yamamoto, Takeo Hoshi
    JAPAN JOURNAL OF INDUSTRIAL AND APPLIED MATHEMATICS 36 2 719 - 742 2019年07月 [査読有り][通常論文]
     
    An open-source middleware named EigenKernel was developed for use with parallel generalized eigenvalue solvers or large-scale electronic state calculation to attain high scalability and usability. The middleware enables the users to choose the optimal solver, among the three parallel eigenvalue libraries of ScaLAPACK, ELPA, EigenExa and hybrid solvers constructed from them, according to the problem specification and the target architecture. The benchmark was carried out on the Oakforest-PACS supercomputer and reveals that ELPA, EigenExa and their hybrid solvers show better performance, when compared with pure ScaLAPACK solvers. The benchmark on the K computer is also used for discussion. In addition, a preliminary research for the performance prediction was investigated, so as to predict the elapsed time T as the function of the number of used nodes P (T=T(P)). The prediction is based on Bayesian inference in the Markov Chain Monte Carlo (MCMC) method and the test calculation indicates that the method is applicable not only to performance interpolation but also to extrapolation. Such a middleware is of crucial importance for application-algorithm-architecture co-design among the current, next-generation (exascale), and future-generation (post-Moore era) supercomputers.
  • Senxi Li, Takeshi Iwashita, Takeshi Fukaya
    JIP 27 201 - 210 2019年 [査読有り][通常論文]
  • Takeshi Fukaya
    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region, HPC Asia 2019, Guangzhou, China, January 14-16, 2019 81 - 90 ACM 2019年 [査読有り][通常論文]
  • DIA形式とCRS形式を組み合わせたHybrid形式を用いた疎行列ベクトル積のキャッシュブロッキング
    石田幸輝, 三浦瑛絵, 深谷猛, 岩下武史, 中島浩
    Proc, Cross-disciplinary WS. Computing Systems, Infrastructures, and Programming 2018年05月 [査読有り][通常論文]
  • Takeshi Fukaya, Toshiyuki Imamura, Yusaku Yamamoto
    2018 IEEE International Parallel and Distributed Processing Symposium Workshops, IPDPS Workshops 2018, Vancouver, BC, Canada, May 21-25, 2018 1113 - 1122 IEEE Computer Society 2018年 [査読有り][通常論文]
  • Takeshi Fukaya, Takeshi Iwashita
    Proceedings of the International Conference on High Performance Computing in Asia-Pacific Region, HPC Asia 2018, Chiyoda, Tokyo, Japan, January 28-31, 2018 116 - 126 ACM 2018年 [査読有り][通常論文]
  • 熊谷洋佑, 藤井昭宏, 田中輝雄, 深谷猛, 須田礼仁
    情報処理学会論文誌トランザクション コンピューティングシステム(Web) 9 3 1‐13 (WEB ONLY)  2016年08月 [査読有り][通常論文]
  • On constructing cost models for online automatic tuning using ATMathCoreLib
    Seiji Nagashima, Takeshi Fukaya, Yusaku Yamamoto
    Proceedings of IEEE MCSoC 2016 1 1 1 - 8 IEEE Computer Society Press 2016年 [査読有り][通常論文]
  • Yosuke Kumagai, Akihiro Fujii, Teruo Tanaka, Yusuke Hirota, Takeshi Fukaya, Toshiyuki Imamura, Reiji Suda
    PARALLEL PROCESSING AND APPLIED MATHEMATICS, PPAM 2015, PT I 9573 74 - 85 2016年 [査読有り][通常論文]
     
    The conjugate gradient (CG) method is useful for solving large and sparse linear systems. It has been pointed out that collective communication needed for calculating inner products becomes serious performance bottleneck when executing the CG method on massively parallel systems. Recently, the Chebyshev basis CG (CBCG) method, a communication avoiding variant of the CG method, has been proposed, and theoretical studies have shown promising results, particularly for upcoming exascale supercomputers. In this paper, we evaluate the CBCG method on an actual system, namely the K computer, to examine the potential of the CBCG method. We first construct a realistic performance model that reflects the computation on the K computer, and the model indicates that the CBCG method is faster than CG method if the number of cores is sufficient large. We then measure the execution time of both methods on the K computer, and obtained results agree with our estimation.
  • Toshiyuki Imamura, Takeshi Fukaya, Yusuke Hirota, Susumu Yamada, Masahiko Machida
    Advances in Parallel Computing 27 381 - 390 2016年 [査読有り][通常論文]
     
    © 2016 The authors and IOS Press. The present paper describes an efficient communication optimization technique for Householder tridiagonalization called CAHTR and evaluates its parallel performance. CAHTR is intended to reduce the number of problems in collective communication, especially MPI Allreduce operations. We demonstrate the optimal version of CAHTR(3) compared with a naive implementation CAHTR(0). The CAHTR algorithms are evaluated on the K supercomputer system, and speedup exceeds x1.4 for the case of N = 5000 and P = 1024.
  • Seiji Nagashima, Takeshi Fukaya, Yusaku Yamamoto
    2016 IEEE 10TH INTERNATIONAL SYMPOSIUM ON EMBEDDED MULTICORE/MANY-CORE SYSTEMS-ON-CHIP (MCSOC) 345 - 352 2016年 [査読有り][通常論文]
     
    We consider the problem of online automatic tuning. In this setting, we execute the target program with some tuning parameters N times, where N is given, while optimizing the parameters to minimize some objective function such as the total execution time. Thus we have to choose the parameters for each execution by taking into account the trade-off between exploration and exploitation. The ATMathCoreLib library developed by Suda is a set of software that solves this problem. To model the performance of the target software, ATMathCoreLib uses a linear statistical model, and its basis functions must be provided by the user. In this paper, we investigate how to choose the basis functions appropriately, using the singular value decomposition of a square matrix as an example. We consider three cases, namely, (I) when the performance characteristics of the target problem are well understood by the user, (II) when the tuning parameter has a complicated structure, as occurs in the case of simultaneous selection of an algorithm and its parameter, and (III) when the performance characteristics of the target problem are not known to the user. The results of using ATMathCoreLib with different basis functions for each case are given. They help one understand the tuning by ATMathCoreLib and contribute to the progress of ATMathCoreLib.
  • Yamamoto Yusaku, Nakatsukasa Yuji, Yanagisawa Yuka, Fukaya Takeshi
    JSIAM Letters 8 0 5 - 8 一般社団法人 日本応用数理学会 2016年 [査読無し][通常論文]
     
    The Cholesky QR algorithm is an ideal QR decomposition algorithm for high performance computing, but known to be unstable. We present error analysis of the Cholesky QR algorithm in an oblique inner product defined by a positive definite matrix, and show that by repeating the algorithm twice (called CholeskyQR2), its stability is greatly improved.
  • Yusaku Yamamoto, Yuji Nakatsukasa, Yuka Yanagisawa, Takeshi Fukaya
    ELECTRONIC TRANSACTIONS ON NUMERICAL ANALYSIS 44 306 - 326 2015年 [査読有り][通常論文]
     
    We consider the QR decomposition of an m x n matrix X with full column rank, where m >= n. Among the many algorithms available, the Cholesky QR algorithm is ideal from the viewpoint of high performance computing since it consists entirely of standard level 3 BLAS operations with large matrix sizes, and requires only one reduce and broadcast in parallel environments. Unfortunately, it is well-known that the algorithm is not numerically stable and the deviation from orthogonality of the computed Q factor is of order O((kappa(2)(X))(2) u), where kappa(2)(X) is the 2-norm condition number of X and u is the unit roundoff. In this paper, we show that if the condition number of X is not too large, we can greatly improve the stability by iterating the Cholesky QR algorithm twice. More specifically, if kappa(2)(X) is at most O(u(-1/2)), both the residual and deviation from orthogonality are shown to be of order 0(u). Numerical results support our theoretical analysis.
  • Takeshi Fukaya, Toshiyuki Imamura
    2015 IEEE 29TH INTERNATIONAL PARALLEL AND DISTRIBUTED PROCESSING SYMPOSIUM WORKSHOPS 960 - 969 2015年 [査読有り][通常論文]
     
    The solution of real symmetric dense eigenvalue problems is one of the fundamental matrix computations. To date, several new high-performance eigensolvers have been developed for peta and postpeta scale systems. One of these, the EigenExa eigensolver, has been developed in Japan. EigenExa provides two routines: eigen_s, which is based on traditional tridiagonalization, and eigen_sx, which employs a new method via a pentadiagonal matrix. Recently, we conducted a detailed performance evaluation of EigenExa by using 4,800 nodes of the Oakleaf-FX supercomputer system. In this paper, we report the results of our evaluation, which is mainly focused on investigating the differences between the two routines. The results clearly indicate both the advantages and disadvantages of eigen_sx over eigen_s, which will contribute to further performance improvement of EigenExa. The obtained results are also expected to be useful for other parallel dense matrix computations, in addition to eigenvalue problems.
  • Takeshi Fukaya, Toshiyuki Imamura, Yusaku Yamamoto
    HIGH PERFORMANCE COMPUTING FOR COMPUTATIONAL SCIENCE - VECPAR 2014 8969 269 - 283 2015年 [査読有り][通常論文]
     
    We consider computing tall-skinny QR factorizations on a large-scale parallel machine. We present a realistic performance model and analyze the difference of the parallel execution time between Householder QR and TSQR. Our analysis indicates the possibility that TSQR becomes slower than Householder QR as the number of columns of the target matrix increases. We aim for estimating the difference and selecting the faster algorithm by using models, which falls into auto-tuning. Numerical experiments on the K computer support our analysis and show our success in determining the faster algorithm.
  • Performance analysis of the Householder-type parallel tall-skinny QR factorizations toward automatic algorithm selection
    T. Fukaya, T. Imamura, Y. Yamamoto
    Proceedings of VECPAR 2014 1 1 1 - 1 2014年 [査読有り][通常論文]
  • Takeshi Fukaya, Yuji Nakatsukasa, Yuka Yanagisawa, Yusaku Yamamoto
    2014 5th Workshop on Latest Advances in Scalable Algorithms for Large-Scale Systems (ScalA) 31 - 38 2014年 [査読有り][通常論文]
     
    Designing communication-avoiding algorithms crucial for high performance computing on a large-scale parallel system. The TSQR algorithm is a communication-avoiding algorithm for computing a tall-skinny QR factorization, and TSQR is known to he much faster and as stable as the classical Householder QR algorithm The Cholesky QR algorithm is another very simple and fast communication-avoiding algorithm, but rarely used in practice because of its numerical instability. Our recent work points out that an algorithm that simply repeats Cholesky QR twice, which we call CholeskyQR2, gives excellent accuracy for a wide range of matrices arising in practice. Although the communication cost of CholeskyQR2 is twice that of TSQR, it has an advantage that its reduction operation is addition whereas that of TSQR is a QR factorization, whose high-performance implementation is more difficult. Thus, CholeskvQR2 can potentially be significantly faster than TSQR. Indeed, in our experiments using 16384 nodes of the K computer, CholeskyQR2 ran about three times faster than TSQR for a 4194304 x 64 matrix,
  • 深谷 猛, 山本 有作, 張 紹良
    情報処理学会論文誌 論文誌トランザクション 2011 2 146 - 157 情報処理学会 2012年04月 [査読有り][通常論文]
  • Jun-ichi Muramatsu, Takeshi Fukaya, Shao-Liang Zhang, Kinji Kimura, Yusaku Yamamoto
    IJNC 1 2 132 - 143 2011年 [査読有り][通常論文]
  • Yusaku Yamamoto, Takeshi Fukaya
    Software Automatic Tuning: From Concepts to State-of-the-Art Results 69 - 85 2010年 [査読有り][通常論文]
     
    In this chapter, we survey several approaches to optimizing the blocking strategy for basic matrix decompositions, such as LU, Cholesky, and QR. Conventional blocking strategies such as fixed-size blocking and recursive blocking are widely used to optimize the performance of these decompositions. However, these strategies have only a small number of parameters such as the block size or the level of recursion and are not sufficiently flexible to exploit the performance of modern high-performance architectures. As such, several attempts have been made to define a much larger class of strategies and to choose the best strategy among them according to the target machine and the matrix size. The number of candidate strategies is usually exponential in the size of the matrix. However, with the use of dynamic programming, the cost of optimization can be reduced to a realistic level. As representatives of such approaches, we survey variable-size blocking, generalized recursive blocking, and the combination of variable-size blocking and the TSQR algorithm. Directions for future research are also discussed. © 2010 Springer Science+Business Media LLC.
  • 深谷猛, 山本有作, 畝山多加志, 中村佳正
    情報処理学会論文誌トランザクション(CD-ROM) 2009 1 KONPYUTINGUSHISUTEMU,VOL.2,NO.2,98-109  2009年11月 [査読有り][通常論文]
  • 深谷猛, 山本有作, 畝山多加志, 中村佳正
    情報処理学会論文誌. コンピューティングシステム 2 2 98 - 109 2009年07月 [査読有り][通常論文]
  • YAMAMOTO Yusaku, FUKAYA Takeshi
    JSIAM Lett (Web) 1 56-59 (J-STAGE)  2009年 [査読有り][通常論文]
  • Takeshi Fukaya, Yasaku Yamamoto, Shao-Liang Zhang
    2008 IEEE INTERNATIONAL CONFERENCE ON CLUSTER COMPUTING 402 - 410 2008年 [査読有り][通常論文]
     
    In this paper, we present a new approach to optimizing the blocking strategy for the Householder QR decomposition. In high performance implementations of the Householder QR algorithm, it is common to use a blocking technique for the efficient use of the cache memory. There are several well known blocking strategies like the fixed-size blocking and recursive blocking, and usually their parameters such as the block size and the recursion level are tuned according to the target machine and the problem size. However, strategies generated with this kind of parameter optimization constitute only a small fraction of all possible blocking strategies. Given the complex performance characteristics of modern microprocessors, non-standard strategies may prove effective on some machines. Considering this situation, we first propose a new universal model that can express a far larger class of blocking strategies than has been considered so far. Next, we give an algorithm to find a near-optimal strategy from this class using dynamic programming. As a result of this approach, we found an effective blocking strategy that has never been reported. Performance evaluation on the Opteron and Core2 processors show that our strategy achieves about 1.2 times speedup over recursive blocking when computing the QR decomposition of a 6000 x 6000 matrix.
  • 深谷猛, 山本有作, 畝山多加志, 堀玄, 梅野健
    情報処理学会論文誌 48 SIG8(ACS18) 31 - 43 2007年05月 [査読有り][通常論文]
  • Yusaku Yamamoto, Takeshi Fukaya, Takashi Uneyama, Masami Takata, Kinji Kimura, Masashi Iwasaki, Yoshimasa Nakamura
    Parallel Computing Technologies, 9th International Conference, PaCT 2007, Pereslavl-Zalessky, Russia, September 3-7, 2007, Proceedings 340 - 345 Springer 2007年 [査読有り][通常論文]

書籍

  • 櫻井 鉄也, 松尾 宇泰, 片桐 孝洋, 日本応用数理学会 (担当:分担執筆範囲:第6章 固有値・特異値問題における並列計算 6.1 直接法)
    共立出版 2018年 (ISBN: 9784320019553)
  • 直野, 健, 寺西, 慶太, Cavazos, John, 須田, 礼仁 (担当:分担執筆範囲:Dynamic Programming Approaches to Optimizing the Blocking Strategy for Basic Matrix Decompositions)
    Springer 2010年 (ISBN: 9781441969347) xiv, 377 p. 69-85

その他活動・業績

受賞

  • 2019年03月 情報処理学会 2018年度(平成30年度)山下記念研究賞
     タイルレベルの並列処理を可能とする時空間タイリング手法を用いた3次元FDTDカーネルの実装と性能評価 
    受賞者: 深谷猛
  • 2018年05月 情報処理学会シンポジウム xSIG2018 Best Research Award
     Enhancement of Algebraic Block Multi-Color Ordering for ILU Preconditioning and Its Performance Evaluation in Preconditioned GMRES Solver 
    受賞者: Senxi Li;Takeshi Iwashita;Takeshi Fukaya
  • 2009年06月 EASIAM 2009 EASIAM Student Paper Competition 2nd Prize
     A Dynamic Programming Approach to Optimizing the Blocking Strategy for the Householder QR Decomposition 
    受賞者: Fukaya Takeshi
  • 2009年01月 2009年ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS2009) 最優秀論文賞
     正方行列向け特異値分解のCUDA による高速化 
    受賞者: 深谷 猛;山本 有作;畝山 多加志;中村 佳正

共同研究・競争的資金等の研究課題

  • 計算電磁気学の深化を導く高性能線形ソルバ
    日本学術振興会:科学研究費助成事業 基盤研究(B)
    研究期間 : 2019年04月 -2022年03月 
    代表者 : 岩下 武史, 伊田 明弘, 塙 敏博, 美舩 健, 高橋 康人, 深谷 猛
  • HPCの視点に基づくテンソル分解アルゴリズムの高性能化
    日本学術振興会:科学研究費助成事業 若手研究
    研究期間 : 2018年04月 -2021年03月 
    代表者 : 深谷 猛
     
    本研究課題では,ビッグデータ解析等において注目を集めているテンソル分解の計算手法を,高性能計算の視点から高速化することを目的としている.2018年度は,主に,代表的なテンソル分解の計算手法について,高性能計算の視点から解決すべき課題を調査した.具体的には,代表的なテンソル分解であるCP分解を計算するALS法を対象に,基本的な実装の性能分析を行った.高性能な線形代数ライブラリ(BLAS)に基づいたプログラムコードを実装し,最新のマルチコアCPU環境上で性能評価を行った結果,MTTKRPと呼ばれる計算カーネルが実行時間の大半を占めることが確認された.また,反復計算において,条件(テンソルのモード)によって,MTTKRPの実行時間が大きく異なっており,その原因がスレッド並列化の方法に起因することが分かった.そこで,別のスレッド並列化の方法を試した結果,該当箇所の実行時間を大きく削減できることが確認できた.
    上記の成果に加えて,テンソル分解の計算では,テンソルを行列化して処理を行うことが多々あるが,その際に生じる行列の形状が特徴的であり,そのような行列に対する高性能な計算手法が必要となる.そこで,これまでの行列計算に関する研究を生かして,テンソルの計算で必要となる行列計算手法の高速化について研究を進めた.具体的には,HOSVDと呼ばれるテンソル分解の計算手法等で必要となる,縦長行列の特異値分解計算の前処理のQR分解に関して,行列のQR分解を利用して高速に計算する手法(コレスキーQR分解)を研究した.主な成果としては,従来,対象とする縦長行列の条件数が大きい場合にアルゴリズムが破綻していた問題を,シフトの技術を導入することで回避した.そして,実際にプログラムコードを実装して,最新の計算機環境において,改良した手法が計算速度の点において,従来の計算手法よりも優れていることを示した.
  • 日本学術振興会:科学研究費助成事業 基盤研究(B)
    研究期間 : 2015年04月 -2018年03月 
    代表者 : 今村 俊幸, 大井 祥栄, 深谷 猛, 廣田 悠輔, 椋木 大地, 山本 有作, 藤堂 眞治
     
    本研究は、数万から数億のコアプロセッサが搭載される計算システム環境下において、過去に蓄積された高性能な数値計算サービスを新しい数学原理に基づき実現することを目的にし、「異粒度数値カーネル構築」と共に「非同期的な数値計算アルゴリズム」の2大テーマのもと、1)非同期的数値計算アルゴリズムに関する理論と実用レベルにある省通信・省同期アルゴリズムについて研究しCAHTRやFDTD向けの手法を提案した。更に、2)超メニイコアでのスケーラブルな軽量コード生成のための自動チューニングなどの核基盤技術研究を推進し次世代数値計算ソフトウェアの新技術創出に繋がる新機軸探究を進めた。
  • 日本学術振興会:科学研究費助成事業 若手研究(B)
    研究期間 : 2015年04月 -2018年03月 
    代表者 : 深谷 猛
     
    大規模並列計算における通信コストを削減するために,通信回避型の行列分解アルゴリズムが注目されている.本研究では,これらのアルゴリズムの実装方法やチューニング手法に主眼を置き,実際の計算機上でより高い性能を得るための基盤技術を研究した.具体的には,通信回避型アルゴリズムで必要となる計算カーネルの実装方法や,異なる通信回避型アルゴリズムの性能比較などを実施した.また,これらの研究を支える,並列計算機上でのアルゴリズムの性能モデルの構築方法についても検討を行った.
  • 大規模行列計算のための階層的自動チューニング手法の開発
    日本学術振興会:科学研究費助成事業 特別研究員奨励費
    研究期間 : 2010年 -2011年 
    代表者 : 深谷 猛
     
    計算機環境の複雑化・多様化により,それぞれの条件(問題や計算機環境)に応じてアルゴリズムをチューニングすることが,高性能計算を実現するために不可避となっている。その際,従来の人手によるチューニングだけでなく,何らかの仕組みに基づいて計算機自身がチューニングを行う「自動チューニング」技術の開発が求められている。このような背景の下で,昨年度は基本的な行列計算の一つであるQR分解におけるブロック化の方法を自動的に決定する仕組みを構築し,有効な自動チューニング手法として期待できることを示した。そこで,本年度はこの手法をベースにして,実用化の観点から研究を進めた。 構築した手法では,動的計画法を用いることでアルゴリズムの候補を効率的に比較することが可能となっていた。また,比較の際に使用する評価値は性能予測モデルにより算出されることを前提としていた。そこで,本年度は,使用する性能予測モデルによる,チューニングの効果と実行コストの変化について考察した。また,行列サイズが大規模になった場合,全ての候補を比較することが困難になることが予想されるため,候補を限定してチューニングを行う手法の効果について検討した。さらに,限定の仕方を徐々に変化させることで,チューニングの効果とコストのトレードオブを効率的に制御する手法についても検討した。一方,並列計算を想定して,共有メモリ型並列計算機を用いてQR分解を行う場合の自動チューニング手法に関して検討した。並列計算では,TSQRと呼ばれるブロック分割が可能となり,同時に有効であることが知られているので,これを新たに取り入れたチューニング手法を構築し,その効果を検証した。 その他,QR分解以外として,LU分解アルゴリズムに対する自動チューニング手法を検討した。 以上の研究により,大規模行列計算アルゴリズムに対する実用的な自動チューニング手法の開発に向けた一つの方向性を示すとともに,その過程で解決すべき課題を具体的に明らかにすることができた。

教育活動情報

主要な担当授業

  • 情報理工学実験Ⅱ
    開講年度 : 2019年
    課程区分 : 学士課程
    開講学部 : 工学部
    キーワード : データベース、Web、機械学習、並列プログラミング
  • コンピュータサイエンス実験Ⅱ
    開講年度 : 2019年
    課程区分 : 学士課程
    開講学部 : 工学部
    キーワード : データベース、Web、機械学習、並列プログラミング

大学運営

委員歴

  • 2019年04月 - 現在   自動チューニング研究会   幹事
  • 2019年04月 - 現在   日本応用数理学会 行列・固有値問題の解法とその応用 研究部会   運営委員
  • 2019年04月 - 現在   日本応用数理学会 若手の会   幹事
  • 2019年04月 - 現在   日本応用数理学会 JSIAM Letters   編集委員
  • 2019年04月 - 現在   情報処理学会 ACS論文誌   編集委員
  • 2017年04月 - 現在   HPCI 連携サービス運営・作業部会   会員
  • 2016年04月 - 2020年03月   情報処理学会 ハイパフォーマンスコンピューティング研究会   運営委員
  • 2020年   HPC Asia 2020 Organizing Committee   Publicity chair
  • 2020年   PDSEC'20 Program Committee   member
  • 2020年   iWAPT2020 Program Committee   member
  • 2017年04月 - 2019年03月   日本応用数理学会 若手の会   主査
  • 2019年   MCSoC-19: Special Session ATMG Program Committee   member
  • 2019年   ICPP2019 Program Committee   member
  • 2019年   PDSEC'19 Program Committee   member
  • 2019年   iWAPT2019 Program Committee   member
  • 2018年   MCSoC-18: Special Session ATMG Program Committee   member
  • 2018年   PDSEC'18 Program Committee   member
  • 2018年   iWAPT2018 Program Committee   member
  • 2015年04月 - 2017年03月   日本応用数理学会 若手の会   幹事
  • 2017年   MCSoC-17: Special Session ATMG Program Committee   Chair
  • 2017年   PDSEC'17 Program Committee   member
  • 2017年   iWAPT2017 Program Committee   member
  • 2017年   HPCS2017 プログラム委員会   委員
  • 2016年   iWAPT2016 Program Committee   member
  • 2016年   HPCS2016 プログラム委員会   副委員長(広報・ポスター担当)
  • 2015年   EPASA2015 Program committee   vice chair
  • 2015年   iWAPT2015 Program Committee   member
  • 2015年   HPCS2015 プログラム委員会   委員


Copyright © MEDIA FUSION Co.,Ltd. All rights reserved.