OpenMP 中的线程任务调度 - 旭东的博客

OpenMP中任务调度主要针对并行的for循环，当循环中每次迭代的计算量不相等时，如果简单地给各个线程分配相同次数的迭代，则可能会造成各个线程计算负载的不平衡，影响程序的整体性能。

如下面的代码中，如果每个线程执行的任务数量平均分配，有的线程会结束早，有的线程结束晚：

 1 #include<stdio.h>
 2 #include<omp.h>
 4 int main(){
 5     int a[100][100] = {0};
 6 #pragma omp parallel for
 7     for (int i =0; i < 100; i++){
 8         for(int j = i; j < 100; j++ )
 9             a[i][j] = ((i%7)*(j%13)%23);
10     }
11     return 0;
为此，OpenMP提供了schedule子句来实现任务的调度。
schedule子句：
　　schedule(type[, size])，
　　参数type是指调度的类型，可以取值为static，dynamic，guided，runtime四种值。其中runtime允许在运行时确定调度类型，因此实际调度策略只有前面三种。
　　参数size表示每次调度的迭代数量，必须是整数。该参数是可选的。当type的值是runtime时，不能够使用该参数。
1.静态调度static
　　大部分编译器在没有使用schedule子句的时候，默认是static调度。static在编译的时候就已经确定了，那些循环由哪些线程执行。
　　当不使用size 时，将给每个线程分配┌N/t┐个迭代。当使用size时，将每次给线程分配size次迭代。
　　如下面代码：
 1 #include<stdio.h>
 2 #include<omp.h>
 3 int main(){
 4     int a[100][100] = {0};
 5 #pragma omp parallel for schedule(static)
 6 //#pragma omp parallel for schedule(static,5)
 7     for (int i =0; i < 100; i++){
 8         printf("id=%d i=%d\n",omp_get_thread_num(),i);
10     return 0;
View Code
　　在四核机器上执行：
　　(1)当不使用参数时，100/4=25，0-24由1号线程执行；25-49由2号线程执行；50-74由3号线程执行；75-99由4号线程执行
　　(1)当不使用参数时，x(x=0,1,2,3)线程执行((n/5)%4)任务。其中n=0-99。
2.动态调度dynamic
　　动态调度依赖于运行时的状态动态确定线程所执行的迭代，也就是线程执行完已经分配的任务后，会去领取还有的任务。由于线程启动和执行完的时间不确定，所以迭代被分配到哪个线程是无法事先知道的。
　　当不使用size 时，是将迭代逐个地分配到各个线程。当使用size 时，逐个分配size个迭代给各个线程。
　　如下面代码：
 1 #include<stdio.h>
 2 #include<omp.h>
 3 int main(){
 4     int a[100][100] = {0};
 5 #pragma omp parallel for schedule(dynamic)
 6 //#pragma omp parallel for schedule(dynamic,5)
 7     for (int i =0; i < 100; i++){
 8         printf("id=%d i=%d\n",omp_get_thread_num(),i);
10     return 0;
View Code
3.启发式调度guided
 　　采用启发式调度方法进行调度，每次分配给线程迭代次数不同，开始比较大，以后逐渐减小。
　　size表示每次分配的迭代次数的最小值，由于每次分配的迭代次数会逐渐减少，少到size时，将不再减少。如果不知道size的大小，那么默认size为1，即一直减少到1。具体采用哪一种启发式算法，需要参考具体的编译器和相关手册的信息。
三种运行方式总结：
静态调度static：每次哪些循环由那个线程执行时固定的，编译调试。由于每个线程的任务是固定的，但是可能有的循环任务执行快，有的慢，不能达到最优。
动态调度dynamic：根据线程的执行快慢，已经完成任务的线程会自动请求新的任务或者任务块，每次领取的任务块是固定的。
启发式调度guided：每个任务分配的任务是先大后小，指数下降。当有大量任务需要循环时，刚开始为线程分配大量任务，最后任务不多时，给每个线程少量任务，可以达到线程任务均衡。