牛客国庆集训派对Day2 A - 矩阵分块
题目描述
深度学习算法很大程度上基于矩阵运算。例如神经网络中的全连接,本质上是一个矩阵乘法;而卷积运算也通常是用矩阵乘法来完成的。有一些科研工作者为了让神经网络的计算更快捷,提出了二值化网络的方法,就是将网络权重压缩成只用两种值表示的形式,这样就可以用一些 trick 加速计算了。例如两个二进制向量点乘,可以用计算机中的与运算代替,然后统计结果中 1 的个数即可。
然而有时候为了降低压缩带来的误差,只允许其中一个矩阵被压缩成二进制。这样的情况下矩阵乘法运算还能否做进一步优化呢?给定两个整数矩阵A, B,计算矩阵乘法 C = A x B。为了减少输出,你只需要计算 C 中所有元素的的异或和即可。
输入描述:
第一行有三个整数 N, P, M, 表示矩阵 A, B 的大小分别是 N x P, P x M 。 接下来 N 行是矩阵 A 的值,每一行有 P 个数字。第 i+1 行第 j 列的数字为 Ai,j, Ai,j 用大写的16进制表示(即只包含 0~9, A~F),每个数字后面都有一个空格。 接下来 M 行是矩阵 B 的值,每一行是一个长为 P 的 01字符串。第 i + N + 1 行第 j 个字符表示 Bj,i 的值。
输出描述:
一个整数,矩阵 C 中所有元素的异或和。
示例1
输入
4 2 3 3 4 8 A F 5 6 7 01 11 10
输出
2
说明
矩阵 C 的值为: 4 7 3 10 18 8 5 20 15 7 13 6
备注:
2 ≤ N, M ≤ 4096, 1 ≤ P ≤ 64, 0 ≤ Ai,j< 65536.
思路:
p最多64,那么可将矩阵A的每一行纵向切割,最多切割8块,矩阵B的每一列,横向切割,最多切割8块,矩阵B是01串,那么每一列的每一块的值就有256种,可将矩阵A与矩阵B分块后这256种情况相乘的结果先预处理求出来,再进行求最后答案。大概就是通过减小p值(矩阵分块)来降低复杂度的吧~
代码如下:
#include<iostream>
#include<cstdio>
#include<algorithm>
#include<vector>
#include<cmath>
#include<set>
#include<string>
#include<cstring>
#define ll long long
using namespace std;
const int N=4100;
int A[N][N],B[N][N];
int Ap[N][10][260],Bp[N][10];
int n,p,m;
int main(){
char ch;
scanf("%d%d%d",&n,&p,&m);
for(int i=0;i<n;i++){
for(int j=0;j<p;j++){
scanf("%x",&A[i][j]);
}
}
for(int i=0;i<p;i++){
for(int j=0;j<m;j++){
scanf("%1d",&B[j][i]);
}
}
p=(p-1)/8+1;//矩阵B分成p块
//预处理A矩阵,将其分块,并将每一块对应的256种情况预处理出来
//Ap[i][j][k]:=将第i行第j快与对应的k所代表的的8位二进制块相乘所得的结果
for(int i=0;i<n;i++){
for(int j=0;j<p;j++){
int base=j*8;
for(int k=0;k<256;k++){//对应矩阵B的分出的小块的值
for(int b=0;b<8;b++){
//1<<b表示B矩阵这一位上的数是1,如果对应的k值这一位上也是1
//说明Ap[i][j][k]的值需要加上A矩阵对应的值
if(k&(1<<b))Ap[i][j][k]+=A[i][base+b];
}
}
}
}
//处理矩阵B,将其分块,并将其每块对应的二进制串所对应的整数求出来
for(int i=0;i<m;i++){
for(int j=0;j<p;j++){
int base=j*8;
for(int k=0;k<8;k++){
Bp[i][j]+=(B[i][base+k]<<k);
}
}
}
//利用预处理出来的结果,将c[i][j]所对应的块的相乘的值加起来
int ans=0,tmp;
for(int i=0;i<n;i++){
for(int j=0;j<m;j++){
tmp=0;
for(int k=0;k<p;k++){
tmp+=Ap[i][k][Bp[j][k]];
}
ans^=tmp;
}
}
printf("%d\n",ans);
}