当前位置: 首页 > 新闻 > 信息荟萃
编号:5464
Java中文文本信息处理从海量到精准.pdf
http://www.100md.com 2020年11月11日
第1页
第9页
第11页
第30页
第32页
第386页

    参见附件(297664KB,400页)。

     Java中文文本信息处理从海量到精准以让零基础的读者通过自学完成一个中文分词系统为目标,从Java基础语法开始讲解,然后介绍文本处理相关的数据结构和算法,最后介绍如何实现文本切分和词性标注。本书是介绍业界热门的以Java开发中文分词技术的专享书籍

    作者简介

    罗刚,计算机软件硕士,毕业于吉林工业大学。2005年创立北京盈智星科技发展有限公司,2008年联合创立上海数聚软件公司。猎兔搜索创始人,当前猎兔搜索在北京和上海以及石家庄均设有研发部。带领猎兔搜索技术开发团队先后开发出猎兔中文分词系统、猎兔文本挖掘系统,智能垂直搜索系统以及网络信息监测系统等,实现互联网信息的采集、过滤、搜索和实时监测,其开发的搜索软件日用户访问量达万次以上。

    路线图

    我们的目的是开发出专业的中文文本信息处理程序。首先从结构化程序设计入手,然后开始面向对象程序设计。将介绍编程所需要的数据结构与算法,以及处理文本的方法等。

    在电影《源代码》中,主人公一开始并不明白为什么镜子中的形象并不是他自己,但这并不妨碍他在布置好的场景中做一些简单的事情。很多时候,不可能一次性地把见到的东西完全看明白,有时候,会再次回到以前的代码,每次多明白一点点。到最后,对常用的东西,基本上就都明白了。

    小李喜欢通过用他的笔记本电脑看教学视频来学习Java,但是,笔记本的屏幕太小了,视频中的代码看不清楚。他外接了一个显示器,用这个外接的显示器看教学视频,他自己笔记本上的显示器则用来练习。

    机器翻译

    很多软件方面的技术文档最开始是使用英文写的。虽然很多经典文档已经翻译成了中文,但是,如果译者水平不够,就会导致信息丢失。很多开源软件也是只有英文说明。能够阅读英文技术文档对学习软件开发会很有帮助。但学习外语又是一件很费时的事情。机器翻译技术的发展,部分地解决了阅读英文的问题。英语基础不太好的读者可以在开始时使用在线机器翻译,来阅读英文技术文档,然后逐渐过渡到阅读英文原文。可以使用Google机器翻译(http://ranslategooglecn.)查看英文网页。例如用Google机器翻译来查看最新的Java开发文档。

    假如只要能把一个操作过程用自然语言描述出来,就能写出对应的程序,那该多好啊。

    Java程序中的处理逻辑都是由英文字母和一些简单的符号来描述的。可以借助机器翻译中的概念来学习程序设计。写代码可以看成是把自然语言翻译成机器语言的过程。机器翻译中有个对齐的概念,类似于双向映射。例如,把“如果”和"if"对齐。

    对齐是一个很多学科都使用的概念。例如DNA测序也会用到对齐。可以把不同人种白基因对齐,找出同样功能的基因。

    Java中文文本信息处理从海量到精准截图

您现在查看是摘要介绍页, 详见PDF附件(297664KB,400页)