集成MySQL的自定义函数,存储过程,游标应用,实现分词功能和统计功能.
使用MySQL中的函数,存储过程,游标,来实现,数据库里分词并且统计的功能。
先看功能效果:
有这么一个tempic表,其中有个字段 是keyword.这个字段的数据是用“,” 或者“,”隔开的. 现在我们实现的功能是将keyword中的数据,根据逗号“,”把她分开。并且统计相同分割后的词语的filedowntime的和.
举个例 :
id=1的数据,keyword是 宝宝,可爱,熊
id=6的数据,keyword是 可爱,宝宝,啊啊.
id=2的数据,keyword是 啊啊,宝宝,可爱.
则我们需要分别得到词语 "宝宝", "可爱", "熊", "啊啊" 并且得到"宝宝"的filedowntime的次数是:12+232+233 .
而 "熊"的filedowntime的次数是:12 .
等等....
我们把分离后的词语以及统计的filedowntime的数据, 添加到另外一个表里去.
表的结构如右图:
接下来.看张图表现出具体效果.
现在展现表,实际上是temptable1的数据内容.说明已经分词成功.
下面具体说明怎么实现该功能.
如果上图.我们用到了一个存储过程.两个方法.
分别是:sp_split_result,func_get_split_string,
func_get_split_string_total
下面贴出来SQL:
函数: func_get_split_string
DELIMITER $$
DROP FUNCTION IF EXISTS `func_get_split_string`$$
CREATE FUNCTION `func_get_split_string`(f_string VARCHAR(50), f_delimiter VARCHAR(5), f_order INTEGER(11)) RETURNS varchar(50)
begin
declare result varchar(25) default '';
declare str_key varchar(25) default '';
set str_key = f_string ;
set result=reverse(substring_index(reverse(substring_index(str_key,f_delimiter,f_order)),f_delimiter,1));
return result;
end$$
DELIMITER ;
表达的效果即下图:
如上图所示:我们传一个f_string参数: a, b , d, c 。 用 “,” 逗号 分割. f_order 代表,取得第"二"个词语.
下面介绍:func_get_split_string_total 函数
SQL 代码:
DELIMITER $$
DROP FUNCTION IF EXISTS `func_get_split_string_total`$$
CREATE FUNCTION `func_get_split_string_total`(f_string VARCHAR(50), f_delimiter VARCHAR(5)) RETURNS int(11)
return 1+(length(f_string)-length(replace(f_string,f_delimiter,'')))$$
DELIMITER ;
她表达的功能如右图:
即:我们传人参数f_string : a, b , c , d ,s 参数f_delimiter 即: "," 返回出结果是: 5,即说明用“,” 分割f_string可以得到5个词语.
重点介绍:存储过程.sp_split_result
SQL:
DELIMITER $$
DROP PROCEDURE IF EXISTS `sp_split_result`$$
CREATE PROCEDURE `sp_split_result`( IN f_delimiter VARCHAR(5))
BEGIN
declare cnt int default 0 ;
declare i int default 0 ;
declare f_string VARCHAR(50) default '';
declare down_sum int default 0;
declare temp_sum int default 0;
declare f_tempkey varchar(50) default '';
declare cur_1 CURSOR FOR select replace(keyword,',',',') 'keyword' ,sum(filedowntime) 'sum1' from temppic where keyword <> '' and keyword not like '%null%' group by keyword order by 'sum1' desc ;
DECLARE CONTINUE HANDLER FOR NOT FOUND set f_string=null;
open cur_1;
delete from temptable1;
fetch cur_1 into f_string , down_sum ;
while (f_string is not null) do
set cnt = func_get_split_string_total(f_string,f_delimiter);#获得字符串总数。
while i<cnt do
set i=i+1;
set f_tempkey =func_get_split_string(f_string,f_delimiter,i);#获得分割后的单个词语
select count(1) into temp_sum from temptable1 where tempkey= f_tempkey;#判断关键词语时候已经在temptable1表中出现啦.
if temp_sum=0 then
insert into temptable1(tempkey,downcount) values (f_tempkey,down_sum);
else if temp_sum<>0 then
update temptable1 set downcount= downcount+down_sum where tempkey=f_tempkey;
end if;
end if;
end while;
fetch cur_1 into f_string ,down_sum;
set i=0; #记得一个循环之后,将i 清零. 循环是指形如 "a,b,c" .这样的一个词语,产生了3次循环.
end while;
close cur_1;
select tempkey, downcount from temptable1 order by downcount desc ;
END$$
DELIMITER ;
select replace(keyword,',',',') 'keyword' ,sum(filedowntime) 'sum1' from temppic where keyword <> '' and keyword not like '%null%' group by keyword order by 'sum1' desc ;
这句代码为目标查询结果,我们将keyword中的","全部替换成了 "," 。为了下面的程序更好的调用.
好了就这样啦..over ..也是自己摸索出来的。贴出来.希望以后在其中会有新的突破.