记一次自定义服务器的网页分词器

大概流程是:用socket套接字监听端口然后用socket套接字的输入流拿到数据进行操作,然后再用socket的输出流返回到页面上。
分词器用的结巴分词的接口。

这里主要是遇到了两个问题
1.URL地址栏中文乱码的问题,
记一次自定义服务器的网页分词器
就和上面图片里看到的一样
浏览器怎么计算文件长度 变成了 %E6%B5%8F%E8%A7%88%E5%99%A8%E6%98%AF%E6%80%8E%E4%B9%88%E8%AE%A1%E7%AE%97%E6%96%87%E4%BB%B6%E9%95%BF%E5%BA%A6

因为是自己做的服务器,没有考虑到会有这样的URL转码,tomcat服务器是自带了转码的。
然后我用 java.net.URLDecoder.decode(str,enc)
在request端请求数据和response端回送数据分别用了一次(因为一次转不出来具体原因可以百度一下。)
后来页面显示的数据就是中文了。

response端
记一次自定义服务器的网页分词器
request端
记一次自定义服务器的网页分词器

第二个问题就是 页面显示的字符串不完整的问题,
记一次自定义服务器的网页分词器
回传的协议的长度,必须是文件的byte字节数,不然显示的文件的长度不完整。

记一次自定义服务器的网页分词器