进程控制(PCB,进程ID,进程状态,fork函数,文件共享)

进程控制块PCB

  • 我们知道,每个进程在内核中都有一个进程控制块(PCB)来维护进程相关的信息,Linux内核的进程控制块是task_struct结构体。/usr/src/linux-headers-3.16.0-30/include/linux/sched.h文件中可以查看 struct task_struct 结构体定义。
Linux中task_struct用来控制管理进程,结构如下:

struct task_struct 
{
 //说明了该进程是否可以执行,还是可中断等信息
    volatile long state;  
 //Flage 是进程号,在调用fork()时给出
 unsigned long flags;  
 //进程上是否有待处理的信号
 int sigpending;   
 //进程地址空间,区分内核进程与普通进程在内存存放的位置不同
 mm_segment_t addr_limit; //0-0xBFFFFFFF for user-thead  
      //0-0xFFFFFFFF for kernel-thread
                        
 //调度标志,表示该进程是否需要重新调度,若非0,则当从内核态返回到用户态,会发生调度
 volatile long need_resched;
 //锁深度
 int lock_depth;  
 //进程的基本时间片
 long nice;      

 //进程的调度策略,有三种,实时进程:SCHED_FIFO,SCHED_RR, 分时进程:SCHED_OTHER
 unsigned long policy;
 //进程内存管理信息
 struct mm_struct *mm; 
 
 int processor;
 //若进程不在任何CPU上运行, cpus_runnable 的值是0,否则是1 这个值在运行队列被锁时更新
 unsigned long cpus_runnable, cpus_allowed;
 //指向运行队列的指针
 struct list_head run_list; 
 //进程的睡眠时间
 unsigned long sleep_time; 

 //用于将系统中所有的进程连成一个双向循环链表, 其根是init_task
 struct task_struct *next_task, *prev_task;
 struct mm_struct *active_mm;
 struct list_head local_pages;       //指向本地页面      
 unsigned int allocation_order, nr_local_pages;
 struct linux_binfmt *binfmt;  //进程所运行的可执行文件的格式
 int exit_code, exit_signal;
 int pdeath_signal;     //父进程终止是向子进程发送的信号
 unsigned long personality;
 //Linux可以运行由其他UNIX操作系统生成的符合iBCS2标准的程序
 int did_exec:1; 
 pid_t pid;    //进程标识符,用来代表一个进程
 pid_t pgrp;   //进程组标识,表示进程所属的进程组
 pid_t tty_old_pgrp;  //进程控制终端所在的组标识
 pid_t session;  //进程的会话标识
 pid_t tgid;
 int leader;     //表示进程是否为会话主管
 struct task_struct *p_opptr,*p_pptr,*p_cptr,*p_ysptr,*p_osptr;
 struct list_head thread_group;   //线程链表
 struct task_struct *pidhash_next; //用于将进程链入HASH表
 struct task_struct **pidhash_pprev;
 wait_queue_head_t wait_chldexit;  //供wait4()使用
 struct completion *vfork_done;  //供vfork() 使用
 unsigned long rt_priority; //实时优先级,用它计算实时进程调度时的weight值
 //it_real_value,it_real_incr用于REAL定时器,单位为jiffies, 系统根据it_real_value

 //设置定时器的第一个终止时间. 在定时器到期时,向进程发送SIGALRM信号,同时根据

 //it_real_incr重置终止时间,it_prof_value,it_prof_incr用于Profile定时器,单位为jiffies。

 //当进程运行时,不管在何种状态下,每个tick都使it_prof_value值减一,当减到0时,向进程发送

 //信号SIGPROF,并根据it_prof_incr重置时间.
 //it_virt_value,it_virt_value用于Virtual定时器,单位为jiffies。当进程运行时,不管在何种

 //状态下,每个tick都使it_virt_value值减一当减到0时,向进程发送信号SIGVTALRM,根据

 //it_virt_incr重置初值。

 unsigned long it_real_value, it_prof_value, it_virt_value;
 unsigned long it_real_incr, it_prof_incr, it_virt_value;
 struct timer_list real_timer;   //指向实时定时器的指针
 struct tms times;      //记录进程消耗的时间
 unsigned long start_time;  //进程创建的时间

 //记录进程在每个CPU上所消耗的用户态时间和核心态时间
 long per_cpu_utime[NR_CPUS], per_cpu_stime[NR_CPUS]; 
 //内存缺页和交换信息:

 //min_flt, maj_flt累计进程的次缺页数(Copy on Write页和匿名页)和主缺页数(从映射文件或交换

 //设备读入的页面数); nswap记录进程累计换出的页面数,即写到交换设备上的页面数。
 //cmin_flt, cmaj_flt, cnswap记录本进程为祖先的所有子孙进程的累计次缺页数,主缺页数和换出页面数。

 //在父进程回收终止的子进程时,父进程会将子进程的这些信息累计到自己结构的这些域中
 unsigned long min_flt, maj_flt, nswap, cmin_flt, cmaj_flt, cnswap;
 int swappable:1; //表示进程的虚拟地址空间是否允许换出
 //进程认证信息
 //uid,gid为运行该进程的用户的用户标识符和组标识符,通常是进程创建者的uid,gid

 //euid,egid为有效uid,gid
 //fsuid,fsgid为文件系统uid,gid,这两个ID号通常与有效uid,gid相等,在检查对于文件

 //系统的访问权限时使用他们。
 //suid,sgid为备份uid,gid
 uid_t uid,euid,suid,fsuid;
 gid_t gid,egid,sgid,fsgid;
 int ngroups; //记录进程在多少个用户组中
 gid_t groups[NGROUPS]; //记录进程所在的组

 //进程的权能,分别是有效位集合,继承位集合,允许位集合
 kernel_cap_t cap_effective, cap_inheritable, cap_permitted;

 int keep_capabilities:1;
 struct user_struct *user;
 struct rlimit rlim[RLIM_NLIMITS];  //与进程相关的资源限制信息
 unsigned short used_math;   //是否使用FPU
 char comm[16];   //进程正在运行的可执行文件名
 //文件系统信息
 int link_count, total_link_count;

 //NULL if no tty 进程所在的控制终端,如果不需要控制终端,则该指针为空
 struct tty_struct *tty;
 unsigned int locks;
 //进程间通信信息
 struct sem_undo *semundo;  //进程在信号灯上的所有undo操作
 struct sem_queue *semsleeping; //当进程因为信号灯操作而挂起时,他在该队列中记录等待的操作
 //进程的CPU状态,切换时,要保存到停止进程的task_struct中
 struct thread_struct thread;
   //文件系统信息
 struct fs_struct *fs;
   //打开文件信息
 struct files_struct *files;
   //信号处理函数
 spinlock_t sigmask_lock;
 struct signal_struct *sig; //信号处理函数
 sigset_t blocked;  //进程当前要阻塞的信号,每个信号对应一位
 struct sigpending pending;  //进程上是否有待处理的信号
 unsigned long sas_ss_sp;
 size_t sas_ss_size;
 int (*notifier)(void *priv);
 void *notifier_data;
 sigset_t *notifier_mask;
 u32 parent_exec_id;
 u32 self_exec_id;

 spinlock_t alloc_lock;
 void *journal_info;
 };
task_struct 中成员又可以分成下面几类
- 标示符: 描述本进程的唯一标示符,用来区别其他进程。
- 状态: 任务状态,退出代码,退出信号等。
- 优先级: 相对于其他进程的优先级。
- 程序计数器: 程序中即将被执行的下一条指令的地址。
- 内存指针: 包括程序代码和进程相关数据的指针,还有和其他进程共享的内存块的指针
- 上下文数据: 进程执行时处理器的寄存器中的数据。
- I/O状态信息: 包括显示的I/O请求,分配给进程的I/O设备和被进程使用的文件列表。
- 记账信息: 可能包括处理器时间总和,使用的时钟数总和,时间限制,记账号等。
- 其他信息
  • 其内部成员有很多,我们重点掌握以下部分即可:
    • 进程id。系统中每个进程有唯一的id,在C语言中用pid_t类型表示,其实就是一个非负整数。
    • 进程的状态,有就绪、运行、挂起、停止等状态。
    • 进程切换时需要保存和恢复的一些CPU寄存器。
    • 描述虚拟地址空间的信息。
    • 描述控制终端的信息。
    • 当前工作目录(Current Working Directory)。
    • umask掩码。
    • 文件描述符表,包含很多指向file结构体的指针。
    • 和信号相关的信息。
    • 用户id和组id。
    • 会话(Session)和进程组。
    • 进程可以使用的资源上限(Resource Limit)。

进程标识(进程ID)

  • 每个进程都有一个非负整数表示的唯一进程ID。因为进程ID标识符总是唯一的,常用其用作其他标识符的一部分以保证其唯一性。例如:应用程序有时就把进程ID作为名字的一部分来创建唯一的文件名。
  • 虽然是唯一的,但是进程ID是可复用的。当一个进程终止后,其进程ID就成为复用的候选者。大多数操作系统实现了延迟复用算法,使得赋予新建进程的ID不同于最近终止进程所使用的ID。这防止了将新进程误认为是使用同一个ID的某个已经终止的先前进程。
  • 系统中有一些专用的进程,但是具体的细节随实现而不同。ID为0的进程通常是调度进程,常常被称作交换进程。该进程是内核的一部分,它并不执行任何磁盘还上的程序,因此也被称为系统进程。进程ID为1通常是init进程,在自举过程结束时由内核调用。此进程在自举内核后启动一个操作系统。init通常读取与系统相关的初始化文件,并将系统引导到一个状态。init进程绝对不会停止。他是一个普通的用户进程(与交换级进程不同,他不是一个内核中的系统进程),但是它以超级用户特权运行。后面会说到init会成为所有孤儿进程的父进程。
  • 下面介绍几个关于进程的几个函数。
	#include<unistd.h>
	pid_t getpid(void);     //返回值:调用进程的进程ID
	pid_t getppid(void);   //返回值:调用进程的父进程ID

进程状态

  • 为了弄明白正在运行的进程是什么意思,我们需要知道进程的不同状态。一个进程可以有几个状态(在Linux内核里,进程有时候也叫做任务)。 下面的状态在kernel源代码里定义:
	/*
	* The task state array is a strange "bitmap" of
	* reasons to sleep. Thus "running" is zero, and
	* you can test for combinations of others with
	* simple bit tests.
	*/
	static const char * const task_state_array[] = {
	"R (running)", /* 0 */
	"S (sleeping)", /* 1 */
	"D (disk sleep)", /* 2 */
	"T (stopped)", /* 4 */
	"t (tracing stop)", /* 8 */
	"X (dead)", /* 16 */
	"Z (zombie)", /* 32 */
	};
  1. R运行状态(running): 并不意味着进程一定在运行中,它表明进程要么是在运行中要么在运行队列里。
  2. S睡眠状态(sleeping): 意味着进程在等待事件完成(这里的睡眠有时候也叫做可中断睡眠(interruptible sleep))。
  3. D磁盘休眠状态(Disk sleep)有时候也叫不可中断睡眠状态(uninterruptible sleep),在这个状态的进程通常会等待IO的结束。
  4. T停止状态(stopped): 可以通过发送 SIGSTOP 信号给进程来停止(T)进程。这个被暂停的进程可以通过发送 SIGCONT 信号让进程继续运行。
  5. X死亡状态(dead):这个状态只是一个返回状态,你不会在任务列表里看到这个状态。
  • 如果用我们自己的话来说,说的简单一点,进程基本的状态有5种。分别为初始态,就绪态,运行态,挂起态与终止态。其中初始态为进程准备阶段,常与就绪态结合来看。
    进程控制(PCB,进程ID,进程状态,fork函数,文件共享)
查看进程
  • 进程的信息可以通过 /proc 系统文件夹查看
    • 如:要获取PID为1的进程信息,你需要查看 /proc/1 这个文件夹
      进程控制(PCB,进程ID,进程状态,fork函数,文件共享)
    • 大多数时候我们也可以使用 ps 加管道符来查看进程。
      进程控制(PCB,进程ID,进程状态,fork函数,文件共享)

函数 fork

	#include<unistd.h>
	pid_t  fork(void );    //返回值:子进程返回0,父进程返回子进程ID,如果出错,返回-1
  • 由fork创建出来的新进程称为子进程(child process)。fork函数被调用一次,但返回两次。两次返回的区别是自己吃呢航的返回值是0,父进程返回值的是新建子进程的进程ID。
  • 将子进程ID返回给父进程的理由:因为一个进程的子进程可以有多个,并且没有一个函数使一个进程可以获得其所有子进程的进程ID。
  • fork使子进程得到返回值0的理由是:一个进程只会有一个父进程,所以子进程可以调用getppid 以获得其父进程的进程ID(进程ID 0 总是由内核交换进程使用,所以一个子进程的进程ID不可能为0)。
  • 接下来,父子进程继续执行fork调用后的指令。子进程是父进程的副本。例如:子进程获得父进程数据空间、堆和栈的副本。请注意:这是子进程的副本父进程和子进程并不共享这些存储空间部分。父进程和子进程共享正文段。
  • 由于在fork之后进程跟随着exec,所以现在的很多实现并不执行一个父进程数据段、栈和堆的完全副本。作为替代,使用了写时复制技术。这些区域的父子进程共享,而且内核将他们的访问权限改变为只读。如果父进程和子进程中的任一个试图修改这些区域,则内核只为修改区域的那块内存制作一个副本,通常是虚拟存储系统中的一“页”。后面再做详细的说明。
	#include<unistd.h>
  2 #include<stdio.h>
  3 #include<sys/types.h>
  4 #include<stdlib.h>
  5 int val = 1;
  6 
  7 int main()
  8 {
  9     pid_t pid;
 10     printf("xxxxxxxxxxxxxxx\n");
 11 
 12     pid = fork();
 13     if(pid < 0) 
 14     { 
 15         perror("fork error");
 16         exit(0);
 17     }
 18     else if(pid > 0)
 19     {
 20         sleep(3);
 21         printf("i am parent process, pid = %d, ppid = %d, val = %d\n",getpid(),getppid(),val);
 22     }
 23     else if(pid == 0)
 24     { 
 25         val++;
 26         printf("i am child process, pid = %d, ppid = %d, val = %d\n",getpid(),getppid(),val);
 27     }
 28     
 29     return 0;
 30 }

进程控制(PCB,进程ID,进程状态,fork函数,文件共享)

  • 一般来说,在fork之后是父进程先执行还是子进程先执行是不确定的,这取决于内核所使用的调度算法。在上面的程序中,我们让父进程先睡3秒,以此让子进程先执行。(但是不能保证2s就已经足够)。
  • 还有就是结果中,我们可以看到子进程的val进行了加1,但是父进程的val没有变。而且子进程的ppid就是父进程的进程ID。

文件共享

  • 这边我不详细说了,父进程的很多属性被子进程继承,包括:
1. 实际用户ID、实际组ID、有效用户ID、有效组ID 
2. 附属组ID
3. 进程组ID
4. 回话ID
5. 控制终端
6. 设置用户ID标志和设置组ID标志
7. 当前工作目录
8. 根目录
9. 文件模式创建屏蔽字
10. 信号屏蔽和安排
11.  对任一文件描述符的执行时关闭标志
12.  环境
13.  连接的共享存储段
14.  存储映像
15.  资源限制 
  • 父进程和子进程之间的区别
1. fork的返回值不同
2. 进程ID不同
3.这两个进程的父进程ID不同:子进程的父进程ID是创建它的进程ID,而父进程的父进程ID则不变
4. 子进程不继承父进程设置的文件锁
5. 子进程的未处理闹钟被清除
6. 子进程的为处理信号集设置为空集 

还有很多特性我会在后面讨论。

  • fork失败的两个原因:
1. 系统中有太多的进程
2. 该实际用户ID的进程总数超过了系统限制(其中CHILD_MAX规定了每个实际用户ID在任一时刻可拥有的最大进程数)