信息资源管理
信息资源管理
一、介绍
1.1 信息及信息资源
In a narrow sense, information resources refer to the collection of useful information that has been processed and accumulated in large quantities in human social and economic activities
狭义上,信息资源是指在人类社会经济活动中经过大量加工和积累的有用信息的集合。
The other view is a broad understanding that information resources are the collection of information, information producers, information technology and other elements of information activities accumulated in the information activities of human society.
另一种观点是广义地理解,信息资源是人类社会信息活动中积累的信息、信息生产者、信息技术等信息活动的集合。
信息是负熵。Brillouin points out directly that information is negative entropy.
information can be said to be a universal attribute of things.
控制论:(维纳) Wiener(The founder of cybernetics) 信息是广义交流的内容。 他把人与外部环境之间信息交换的过程视为一个广义的交流过程,一般是指人与人、机器与机器、机器与自然物体、人与自然物体之间的信息传递与交流。
信息被定义为事物存在的方式和运动状态的表现。The way things exist and the manifestation of their states of motion.
在本体论(ontological)层面:信息的存在不是基于主体的存在。信息被定义为:主体感知或表达的事物的存在方式和运动状态。
The way of existence and the state of movement of things perceived or expressed by the subject.
在认识论层面:没有主体,我们就无法识别信息,在认识论层面就没有信息。没人没信息
信息分类
我们把兼顾事物存在方式和运动状态的外在形式、内在意义和效用价值的认识论信息称为“整体信息”。
We call the epistemological information that takes into account the external form, internal meaning and utility value of both the mode of existence and state of motion of things “ whole information”.
仅考虑形式因素的信息称为“语法信息”。
Information in which only formal factors are considered is called “grammatical information”.
考虑内容(意义)因素的信息称为“语义信息”。 。
The information in which content (meaning) factors are considered is called “semantic information”.
考虑效用因素的信息称为“实用信息”
The information in which utility factors are considered is called “pragmatic information”.
Epistemological information is the whole information which considers syntactic, semantic and pragmatic information simultaneously.
信息资源是指人类社会信息活动中以信息为核心积累的各种信息活动要素(信息技术、设备、设施、信息生产者等)的集合。 信息活动包括围绕信息的收集、整理、提供和利用的一系列社会和经济活动。 信息要素是信息资源的核心。
Information resources refer to the collection of various information activity elements (information technology, equipment, facilities, information producers, etc.) with information as the core accumulated in the information activities of human society.
- Information activities include a series of social and economic activities around the collection, sorting, provision and utilization of information.
- Information elements are the core of information resources.
According to the level and processed degree of information sources,, information source is divided into
- The first information source
- Secondary information source
- Three times information source
- Four times information source
根据文献
- non-document information sources
- document information sources.
Information sources can be divided into five types according to their content categories:
- Natural information sources;
- Sources of social information;
- Sources of economic information;
- Sources of scientific and technological information;
- Control information sources.
Information source can be divided into static information source and dynamic information source, according to the movement mode of information source.
Characteristics of Information Resources
- Human Demand as a Factor of Production
- Scarcity is the most basic feature of information resources
- Optionality of use direction 使用方向的可选性
- Sharing: This is the natural characteristic of information resources
- Timeliness
- Inseparability in production and use 生产和使用中离不开
- Controllability:Information resources have the ability to develop and control other resources (material and energy).
- Accumulation and regeneration
1.2 信息资源管理
==信息资源管理==(简称IRM)是指管理者(如中央或地方政府部门、企业或事业单位)运用现代管理手段和方法,研究经济活动和其他活动中信息资源利用的规则,以实现预定目标。并根据这些规则组织、规划、协调、配置和控制信息资源。
Information resource management (IRM ) refers to managers (such as central or local government departments, enterprises or institutions) use modern management tools and methods to study the rules of information resource utilization in economic activities and other activities in order to achieve predetermined goals. And organize, plan, coordinate, allocate and control information resources according to these rules.
The objectives of information resource management can be divided into general objectives and sub- objectives.
总目标是信息资源管理的最终目标和最基本的程序,也是信息资源管理的主体系统与托管对象系统交互的最终结果。 信息资源管理系统的独立和具体目标是信息资源管理的子目标。
The general objectives is the ultimate objectives and the most fundamental program of information resource management, and it is also the final result of the interaction between the subject system of information resource management and the managed object system.
分目标用于确保总体目标的实现,并受到总体目标的限制。
The independent and specific target of information resource management system is the sub- objectives of information resource management. sub- objectives serve to ensure the realization of the general objectives and are restricted by the general objectives.
信息资源管理的目标和任务
营造只允许相关信息进入公司决策活动的环境;
Establish an environment that allows only relevant information to enter the company’s decision-making activities;
实施一系列措施,将生产和信息收集的成本与使用信息后应获得的效果进行比较;
Implement a series of measures to compare the cost of production and information collection with the effect that should be obtained after using the information;
改变观念和政策,使信息成为企业经营和管理活动中的重要财产
Change ideas and policies so that information can be regarded as an important property in the business and management activities of enterprises;
使用信息技术前应分析需求;
Demand should be analyzed before using information technology;
使信息管理者的地位合法化;
Legalize the status of information managers;
为所有管理人员和员工提供培训、教育和晋升机会,使他们能够掌握信息资源管理技能;
Provide training, education and promotion opportunities to all managers and staff to enable them to master information resource management skills;
吸收用户参与系统设计及相关决策,使其负责信息化生产活动、人员、设备等资源。
Absorb users to participate in system design and related decisions, so that they can be responsible for information production activities, personnel, equipment and other resources.
信息资源管理的总体目标可以确定如下: 确保信息资源的开发利用在领导和组织的统一规划和管理下协调有序地进行。使各类信息资源以更高的效率、效率和更低的成本,在国家社会进步、经济发展和人民物质文化生活水平的提高中发挥应有的作用。
信息资源开发的子目标包括: 根据社会发展的需要,合理组织规划信息资源开发,确保相关潜在信息资源及时、经济地转化为真实的信息资源。 按照社会化、专业化、产业化的原则,合理组织信息资源分配,确保信息资源得到充分有效利用。
信息资源管理任务包括:
制定信息资源开发的战略、规划、方针和政策;使信息资源的开发活动在国家的统一指导和管理下有序开展,使信息资源的开发成果不仅成本低、价格低,而且实现三个“贴近”(即贴近实际、贴近需求、贴近用户);适应国民经济和社会发展的总体需要
制定信息资源管理法律法规,建立信息资源管理监督保障体系;使开发的信息资源得到充分、及时、有效的利用
综合运用经济、法律和必要的行政手段,协调各部门、各地区、各企业之间的关系,明确各级信息资源开发利用机构的责任、权益界限,在平等互利的基础上实现资源共享最大化。
加强国家信息基础设施和信息资源管理网络建设,使信息资源开发利用在更高的起点上、良好的社会基础上建立起来。
信息资源管理的意义:
- 信息资源管理开辟了新的管理世界
- 加强信息资源管理是合理开发和有效利用信息资源的必要条件
- 加强信息资源管理有利于保障信息资源开发利用组织的合法权益
信息资源管理的效果可以分为宏观效应、中等效应和微观效应。因此,信息资源管理活动可以分为宏观管理、媒介管理和微观管理三个层次。宏观管理和媒介管理是微观管理的前提,微观管理是宏观管理和媒介管理的基础。
Information resource management activities can be correspondingly divided into three levels of macro management, medium management and micro management.
宏观层面的信息资源管理是一种战略性管理,一般由国家信息资源管理部门通过经济、合法和必要的行政手段实施。主要通过宏观层面的国家相关政策、法规和管理规定,组织协调信息资源的开发利用。按照国家宏观调控的目标,在不影响国家信息主权和信息安全的情况下,以最合理有效的方式开发利用信息资源。
中观级信息资源管理 中观层面的信息资源管理一般是由各地区、各行业的信息资源管理部门通过制定区域或行业政策、法规和管理条例来组织协调,组织和协调区域内和行业内信息资源的开发利用活动,以及区域与行业之间信息资源的交流关系。 工业和其他地区和行业;使区域和行业内信息资源的开发利用总体上不与宏观层面的信息资源管理活动发生冲突,能够更好地满足区域和行业的客观现实,反映区域和行业的利益。
微观管理 微观层面的信息资源管理是最基本的信息资源管理,一般由各级政府部门、信息机构、企业等基层组织实施。其主要任务是认识组织各级各类人员对信息资源的实际需求,合理组织协调信息资源的开发利用。微观层面的信息资源管理主要包括政府信息资源管理和企业信息资源管理。 Government information resource management enterprise information resource management
资源管理的手段和方法多种多样。根据其性质,信息资源管理的主要手段如下: 技术手段 经济手段 法律手段 行政措施
Technical means,Economic means,Legal means,Administrative measures
技术手段:现代信息资源管理基本上是通过信息系统和信息网络实现的。信息系统和网络作为基本技术手段,是现代信息资源管理的重要领域。
The technical means of information resource management refers to the modern information system and information network based on computer and communication technology and the corresponding information processing methods. It is the main means and content of information resource management.
经济手段:信息资源管理的经济手段是指利用各种经济杠杆,从经济利益中诱导信息资源开发利用机构关心自身活动的利益。它是间接组织和协调信息资源开发和利用活动的一种手段。 在信息资源管理活动中,运用经济手段有利于增强信息资源开发利用机构的微观经济活力,发挥市场机制的作用。
The economic means of information resource management refers to the use of various economic levers to induce the interests of information resource development and utilization institutions to care about their own activities from the economic interests. It is a means of indirectly organizing and coordinating the activities of information resource development and utilization.
一是调节职能(the regulation function),包括规范各机构之间信息资源开发利用的关系,国家、集体和个人利益的关系;
二是控制功能(the control function),即通过价格、税率、利率等经济杠杆引导信息资源开发利用向信息资源管理的目标;
三是会计功能(accounting function),即借助价格、税收、工资、利润等经济杠杆来计算劳动力成本,比较投入产出,平衡社会需求;
四是监督职能(the supervisory function),即通过会计、统计、审计、银行、监督检查等手段,依照法律法规对信息资源的开发利用及其与政府、职工和相关企业的关系进行监督管理。
信息资源管理的法律手段 信息资源管理的法律手段是指用于协调信息资源开发利用的各种相关法律规范的总称。运用法律手段管理信息资源,即各级信息资源管理,依托国家权力,通过经济立法和司法机构,利用信息资源开发利用的经济法律法规,调整机构之间复杂的经济关系和各方面的经济矛盾, 解决经济纠纷,涉及经济犯罪,维护信息资源开发利用活动的正常秩序。
与经济手段相比,信息资源管理的法律手段具有普遍约束、严格强制、相对稳定、规定明确等特点。
Compared with economic means, the legal means of information resource management has the characteristics of universal constraint, strict compulsion, relative stability and clear stipulation.
信息资源管理的行政手段,是指利用国家权力的权威,以命令、指令的形式,对信息资源和相关活动进行直接控制和管理。 行政手段是信息资源管理的必要辅助手段,合理运用,有利于整顿经济秩序,加强组织,减少混乱,更好地利用信息资源管理的技术手段、经济手段和法律手段。
The administrative means of information resource management refers to the direct control and management of information resources and related activities in the form of orders and instructions by virtue of the authority of state power.
1.3 信息资源管理的演进与发展
数据->知识 本来:数据->信息->知识
we can divide it into three typical stages: traditional management, technology management and information resource management.
Traditional management:Take management information source as the core and library as the symbol
information resource management is the core and library is the symbol. It also includes file management and other document management.
信息资源管理是核心,图书馆是标志。它还包括文件管理和其他文档管理。图书馆不知道何时何地可以“使用”馆藏。文档收集和利用之间的冲突很难解决。传统图书馆在提供文件方面落后
Technology management stage:With the control of information flow as the core
The technology management stage takes the control of information flow as the core, takes the computer as the tool, takes the automatic information processing and the information system construction as the main work content, makes the technical factor and the technical expert occupy the dominant position;
技术管理阶段以控制信息流为核心,以计算机为工具,以信息自动化处理和信息系统建设为主要工作内容,使技术因素和技术专家占据主导地位;在信息技术的支撑下克服了信息技术使用中“信息爆炸”带来的问题,当信息技术无力实现预期目标时,人们误以为技术不够先进,完全忽视了其他因素在信息管理中的作用
Information resource management:Regard information as resources and implement resource management on information
在资源管理阶段,信息被视为资源,资源管理是对信息实施的。随着信息技术的发展,信息可以有效地处理、传输、利用和共享,但也出现了信息安全和利用的问题。网络的快速扩张带来了信息污染、信息混乱、信息犯罪、信息侵权和信息资源难以配置等问题;技术、经济、文化相结合是一项紧迫的任务。
1.4 信息资源标准化
信息资源标准化是指在信息资源的收集、整理、加工、存储、开发利用过程中,通过制定、发布和实施标准,使信息资源的内容和形式标准化,使信息资源发挥最大的效益。
Standardization of information resources refers to standardizing the content and form of information resources through formulating, publishing and implementing standards in the process of information resources collection, collation, processing, storage, development and utilization, so as to maximize the effectiveness of information resources.
信息资源标准主要包括 信息内容标准 内容标准涉及信息编码、信息格式、信息识别等。
Content standard involves information encoding, information format, information identification, etc.
信息描述标准 信息描述标准主要涉及元数据(关于数据的数据)和资源语义描述规范(RDF)。
Information description standards mainly involve metadata and resource semantic description specifications.
信息编码 :Xml,gb2312
文本格式 jpeg…
元数据是指一组描述域或行业内特定数据的标准规范。此标准规范的应用有助于识别、发现、呈现、互操作、管理和应用此数据。
Metadata refers to a set of standard specifications that describe specific data within a domain or industry. The application of this standard specification facilitates the identification, discovery, presentation, interoperation, management, and application of this data.
元数据的类型:托管元数据、描述性元数据、保留元数据、使用情况元数据和技术元数据
Managed Metadata, Descriptive Metadata, Preserved Metadata, Usage Metadata, and Technical Metadata
二、信息资源管理中的内容管理
2.1 信息资源类型
- 按信息载体划分(Divided by information carrier)
Printed information resources:paper materials as the carrier
缩微型信息资源(**Microform information resources **):以感光材料为载体(with the photosensitive material as the carrier),采用光学缩微技术将文字或图像记录存储在感光材料上,有缩微平片、缩微胶卷和缩微卡片之分。
声像型信息资源(Audio-visual information resources):又称音视频信息资源。以磁性和光学材料为载体,采用磁录技术和光录技术将声音和图像记录存储在磁性或光学材料上。
also known as audio and video information resources. Using magnetic and optical materials as the carrier
Digital information resources,also known as electronic information resources。采用计算机和存储技术,把文字、图像和音视频资料等转换为数字化信息,记录在磁带、磁盘、磁鼓、光盘、磁光盘和网络等载体上的各种信息资源。\
Using computer and storage technology
按加工深度划分
零次信息 :成为文献前的信息存在状态,通出指有关何处或何人正在进行何种研究工作的信息,即所谓“进行中的研究”。形式一般表现为进行中的研究项目的名称、主持人、资助人、预算规模、研究目标及进展情况。
The state of existence of information before becoming a document, which refers to information about where or who is doing what kind of research work, the so-called “research in progress”. The form is generally expressed as the name of the ongoing research project, the host, the funder, the size of the budget, the research objectives and the progress.
一次信息:以作者本人的研究工作或研制成果为依据攥写、制作和发布的信息,又称为原始文献或者一手资料,包括已正式出版和公开发行的阅读性图书、期刊论文、会议文献、专利说明书、技术标准,也包括未公开的实验记录、会议记录、译文、内部档案、论文草稿、设计草稿、日记、备忘录、信件等。
Information written, produced and published on the basis of the author’s own research work or research and development results, also known as original documents or first-hand materials, including reading books, journal papers, conference documents, patent specifications, technical standards that have been officially published and publicly distributed, as well as undisclosed experimental records, meeting minutes, translations, internal archives, draft papers, design drafts, diaries, memoranda, letters。
二次信息:是信息工作者对一次信息进行整理、加工、提炼和压缩后得到的产物。一般以目录、题录、文摘、索引、手册、名录等形式出现。
It is the product obtained by information workers after sorting, processing, refining and compressing a piece of information. It generally appears in the form of table of contents, bibliographies, abstracts, indexes, manuals, directories, etc.
三次信息:根据一定的目的和需求,在大量利用有关的一、二次信息和其他三次信息的基础上,对有关信息和知识进行综合分析、提炼、重组、概括而成的产物。一般以综述、述评、领域进展性出版物以及文献指南或书目指南等形式出现。
According to certain purposes and needs, on the basis of the extensive use of relevant primary and secondary information and other tertiary information, the relevant information and knowledge are comprehensively analyzed, refined, reorganized and summarized. They generally take the form of reviews, reviews, progressive publications in the field, and literature or bibliographic guides.
文本类信息资源,数据类信息资源,数据类信息资源(科学)
文本信息资源按出版形式划分,可分为:
1.书籍 2. 期刊(Periodicals) 3. 会议资料(Conference literature) 4. 论文(Dissertation) 5. 专利文献 6. 研究报告 7. 政府出版物 8. 标准文献(Standard literature) 9. 产品信息 10. 文书档案(Clerical Archives)
数据类型
经济数据资源
- 宏观经济统计
- 微观经济数据
- 股票市场交易数据
- 上市公司财务指标分析数据
- 上市公司治理结构研究数据
- 上市公司并购及资产重组研究数据
- 证券投资基金研究数据
- 上市债券研究数据
- 期货市场调研数据
- 行业研究数据
- 商品市场数据
- 经济资源数据
- 自然资源数据
- 城市基础数据
- 企业法人数据
- 人口数据
科学数据资源 科学数据来源于各部门、各单位的观测、监测、调查、实验、实验和研究分析等科技活动,涉及各类数值数据、空间数据、图形数据、文本数据等,分布广、内容复杂、形式多样、格式多、数量大。
- 基础科学数据
- 地理基础数据
- 空间数据
- 地震科学数据
数据类信息资源
科学的数据共享工程 科技部启动五大科学数据中心 测绘科学数据共享服务 …
2.2 信息采集
信息源:信息资源的数量和来源
信息采集原则
系统性原则:尽可能全面地采集符合需求的信息,注意重点需求信息的连续性和完整性。
Systematic principle: the continuity and integrity of the information on key requirements.
针对性原则根据任务和服务对象的实际需求,有重点、有选择地采集利用价值较大并且符合用户需求的信息。
According to the actual needs of the task and service recipients, the principle of pertinence is to collect information with greater utilization value and meet the needs of users in a focused and selective manner.
及时性原则(Timeliness principle):信息具有时效性。只有及时、迅速地提供给它的使用者才能有效地发挥作用。
可靠性原则(Reliability principle):也称准确性原则,即要求所采集的信息要真实、准确、可靠。
方便、经济的原则(Convenient and economic principles):同样的信息可能有多种不同的载体形式,应注意首先选择使用方便、目前人们使用较多且比较经济的信息资源。
计划性原则(Planning principle):制订比较周密详细的采集计划和规章制度,详细列明有关信息采集的目的、范围、方式以及人员配备、时间限定、经费数额以及来源情况。
预见性原则(The principle of foresight):信息采集人员要掌握社会、经济和科学技术的发展动态,采集的信息既要着眼于现实需求,又要有一定的超前性,善于抓苗头、抓动向,随时了解未来。采集那些对将来发展有指导作用的预测性信息
定向采集与定题采集(Targeted collection and fixed topic collection):定向采集指在采集计划范围内,对某一学科、某一国别、某一特定信息尽可能全面、系统地采集。定题采集是根据用户指定的范围或需求有针对性地进行采集工作。
Targeted collection and fixed topic collection: Targeted collection refers to the comprehensive and systematic collection of a certain discipline, a certain country, and a specific information as much as possible within the scope of the collection plan. The collection of fixed topics is based on the scope or needs specified by the user to carry out targeted collection work.
单向采集与多向采集(One-way collection and multi-directional collection):单向采集指对特定用户的要求,只通过一条渠道,向一个信息源进行采集,针对性强。多向采集指对特殊用户的特殊要求,广泛地多渠道地进行采集,这种方法成功率高,但容易相互重复。
One-way collection and multi-directional collection: One-way collection refers to the requirements of specific users, only through one channel, to a source of information collection, highly targeted. Multi-directional collection refers to the special requirements of special users, widely collected through multiple channels, this method has a high success rate, but it is easy to repeat each other.
主动采集与跟踪采集(Active collection and tracking collection):针对需求或者根据采集人员的预测,事先发挥主观能动性,赶在用户提出信息要求之前即着手采集工作。跟踪采集指对有关信息源进行动态监视和跟踪,这对深入研究跟踪对象很有益处。
Active collection and tracking collection: According to the demand or according to the prediction of the collection personnel, the subjective initiative is exerted in advance, and the collection work is started before the user puts forward the information request. Trace collection refers to the dynamic monitoring and tracking of the relevant information sources, which is beneficial for in-depth study of the tracked object.
建立信息网络(Establish an information network):建立信息采集网络,运用多种途径收集信息。
Establish an information network: Establish an information collection network and use a variety of ways to collect information.
利用互联网进行信息采集(Use the Internet for information collection):为吸引更多用户的访问,不少网站往往提供很多有价值的免费信息,用户可以利用搜索引擎找到这些网站。
严格管理与激励措施相结合(Combination of strict management and incentives)。要加强对信息采集质量的管理。首先,制定采集标准,其次,通过激励措施提高信息采集人员的积极性,最后,各级主管应认真审阅采集人员的工作记录中反映信息的质量
采集方式
文献型信息资源的采集 Collection of literature-type information resources
购买 交换 接收 申请 复制网络搜索 purchase exchange reception application copy Web search
实物型信息资源的采集 Collection of physical information resources
采集人员通过参观或参加各种实物展览、定货会、展销会、交易会,或者现场参观考察和观摩同行实验室、试验站等方式实地考察实物,直接购买或索取实物样品
鲜活型信息资源的采集 Collection of fresh information resources
交谈(Talk):通过与员工、同事、熟人等进行直接对话、交谈、讨论和辩论来获取信息。
采访(Interview):选择特定对象,针对某些感兴趣的问题主动提问,获取信息。
社会调查(Social survey):指直接从社会中了解情况,采集信息和数据,收集到第一手资料。这是获得真实可靠信息的重要手段。数据的采集
主要的采集方式有观察、实验、检测、考察、调查、统计、检索、普查和科学研究等。
例如,空间信息的采集通常GPS系统、激光三维扫描系统、空间信息合成与编辑系统以及其他实时采集系统来实现。
新的采集技术
- 全自动电话访谈(CATS)Fully Automated Telephone Interview :近年来出现的一种使用内置声音回答技术,取代了传统的调研方式和电话访谈。它利用专业调研员的录音来代替访问员逐字逐句地念出问题及答案。回答者可以将封闭式问题的答案通过电话上的拨号盘键入,开放式问题的答案则被逐一录在磁带上。
- 交互式计算机辅助电话访谈(CATI)Interactive computer-aided telephone interviews:是中心控制电话访谈的“电脑化”形式。每一位访问员各坐在一台计算机终端或个人电脑前,当被访者电话被接通后,访问员通过一个或几个键启动机器开始提问,问题和多选题的答案便立刻出现在屏幕上。这一方法省略了数据的编辑及录入的步骤
- 计算机柜调研Computer cabinet research:一种类似于公用电话亭的电脑直接访谈调研方式。
- 网络调研系统 Web Research System
- 传感器 Sensor
- 网络爬虫 Web crawlers
2.3 信息组织
① 信息表述概述
“ Information Representation” is a term that has been used since the 1980s and is also known as “message representation” in the field of communications. Its general meaning refers to a statement.
“信息表示”是自1980年代以来一直使用的术语,在通信领域也称为“消息表示”。其一般含义是指声明
信息表示的来源
信息从创建到传播利用的每一个阶段都可能产生不同形式的信息表示,常见的有:
- 信息的创作(生产)者为自己的作品命名;
- 编辑出版部门对作品或信息的编辑加工,提供编辑排版符号、置标语言、关键词、类别标记、特种文献编号等;
- 发行销售部门对出版物加注标识,如陈列标志,或编制销售目录;
- 图书馆对出版物进行编目和分类;
- 信息机构对信息内容进行分析、标引和摘录;
- 数据库生产者和联机服务商对每一个记录(信息条目)进行识别,提取出检索键;
- 文本分析系统(如自动标引系统)自动生成的信息表示。
信息表示的生成方法
- 派生法(Derivation method),是指信息表示直接来自对象信息集合自身,利用某些识别和分析技术,从对象信息集合中提取出可用于信息组织和检索的语词符号或其他特征标识。不同的对象信息有不同的特征,所以其特征信息的识别和提取方法也不同。传统的派生法又称为关键词索引法、自动抽词标引或派生式标引
- 指派法(The assignment method),是指信息表示来自对象信息的外部,由信息加工处理者在对信息内容进行分析的基础上;考虑其潜在用户的知识结构,参考社会的公共知识结构,确定要揭示的信息内容属性及表示方式,直至把标识(如标引词、分类号)赋予对象信息的过程。
置标语言
置标语言(Markup Language)由一些代码(codes)或控制标记(tags)组成,这些代码或控制标记本身若单独存在是无意义的,即应用软件能够解读电子文件中的置标语言,并通过置标语言的意义对电子文件进行特定的处理。
置标语言不同于一般的控制流程序设计语言,基本上可以被视为是一种数据流的文档结构描述语言。在计算机处理过程中,置标语言的标记既可以作为数据,也可以作为控制语句来使用。
置标语言的产生有多种因素:信息交换(Information Exchange)与信息再利用(Information Reuse)问题。
sgml(是数据描述、数据模型化和数据交换的标准),xml,html
元数据
元数据是关于数据的有结构的数据,或者定义和描述其它数据的数据。它规定了数字化信息的组成,其基本功能在于规范数据组织,便于检索和传递。本质上说,元数据(Metadata)是一种数据结构标准。
Metadata is structured data about data, or data that defines and describes other data. It specifies the composition of digitized information, and its basic function is to standardize the organization of data and facilitate retrieval and transmission. Essentially, metadata is a data structure standard.
元数据按功能分类:
- 知识描述型元数据(Knowledge descriptive metadata):用来描述、发现和鉴别数字化信息对象,如MARC等。
- 结构型元数据(Structural metadata):用来描述数字化信息资源的内部结构。比前者更侧重于数字化信息资源的内在的形式特征,如目录、章节、段落等特征。
- 存取控制型元数据(Access control metadata):用来描述数字化信息资源能够被利用的基本条件和期限,以及指示这些资源的知识产权特征和使用权限。
都柏林核心元数据格式(DC)
DC元数据所包含的三个大类十五个要素,可基本揭示信息资源的特征。
第一大类为描述资源内容的要素;
The first category is the elements that describe the content of the resource;
第二大类为描述知识产权的要素;
The second broad category is the elements that describe intellectual property rights;
第三大类为描述资源外部属性的要素。
The third largest category is features that describe attributes external to resources.
- 题名(Title):资源的名称,通常由创作者或出版者赋予。
- 著者或创作者(Author or Creator):对于创建资源的知识内容负有主要责任的个人或组织,如文献的作者、视觉资源的艺术家、摄影师或插图绘画者。
- 主题词和关键词(Subject and Keywords):表示资源主题内容的单词或词组。属于主题编目的范围,见下面的主题标引小节。
- 描述(Description):资源内容的文本描述,如文献的文摘、视觉资源的内容描述等。
- 出版者(Publisher):负责使资源能够以现有形式获得的实体,如出版社、大学里的部门或社团实体。
- 其他贡献者(Other Contributor):在创作者(Creator)项中未指明的、对资源作出了重要贡献,但其贡献次于创作者项中指明的个人或组织所做的贡献的其他个人或组织(如编者、转录者和说明者)。
- 日期(Date):与资源的创建或可获得性相关的日期。
- 资源类型(Resource Type):资源的种类,如网页、小说、诗歌、工作报告、技术报告、散文和词典。
- 形式或格式(Format):资源的数据形式和尺寸(如大小、持续时间,可选择)。
- 资源标识符(Resource Identifier):用来唯一标识资源的字符串或数字,如URL和URN。
- 来源(Source):有关另一资源的信息,当前资源源于该资源。
- 语言(Language):资源的内容中所使用的语言。
- 相关资源(Relation):另一资源的标识符及其与当前资源的关系。
- 覆盖范围(Coverage):资源内容的空间或时间方面的特征。
- 权限管理(Rights Management):有关作品版权生命和使用方面的规范。
② 信息表示语言
信息检索语言
在信息检索系统中,信息的表示和组织需借助一定的标记系统或语言。信息检索语言就是最重要的标记系统或语言。
根据国际标准化组织(ISO)颁布的有关标准的解释,是指用于信息内容表示、存储和检索等过程的语言。
信息检索语言的类型
- 自然语言(natural languages)在这里是指索引词汇直接来自系统所处理的文献或提问本身,使用前未经优选和规范化处理的一类检索语言。
表现形式为题名或文中的关键词集合、自然语言文本、自然语言提问以及早期的单元词。它往往是标引时手工或机器自动抽词的产物。 - 受控语言(control languages)指索引词汇在使用前经过优选和规范化处理,并且整个语言经常处于某种权威机构或检索系统的管理和控制之下的各种检索语言的总称,又称规范化语言。
受控语言的分类
受控语言按索引词汇的组配特征来划分,又可分为先组式语言和后组式语言两大类型。
Controlled languages are divided according to the combined characteristics of indexed vocabularies, and can be divided into two types: pre-group language and post-group language.
索引词汇的“组配”(coordination)问题主要是因某些主题概念或命题不能用单个具词来全面表示所引起的。用两个或更多的词或类的组合起来描述和表示文献主题,这样的作业或过程就称为组配。
- 先组式语言(Pre-group language)——组配作业是在标引前或标引中完成的。其中前者称为定组式,后者称为散组式。
- 后组式语言(Post-group language)——标引时只用一些基本词汇分别去描述文献主题的各个组成要素,索引词汇不是事先组配好,而是事后组配,让检索者依需要进行自由组配。
③ 信息资源编目
信息资源编目就是生成信息资源的替代记录,利用这些记录可以方便地鉴别、定位、访问和使用资源。它是信息资源组织的基础性工作。
Information resource cataloging is an alternative record that generates information resources that can be used to easily identify, locate, access, and use resources. It is the foundational work of the organization of information resources
其主要任务:
描述每一个信息资源单位或单元的外部特征和形式上的特征,也就是资源一般特征的著录工作。
它还包括目录体系设计、目录组织、有关规章制度的制定等。
出现了机读目录(MARC),编目自动化系统,联机编目网络
编目需要完成如下准备工作:
- 元数据格式(元数据格式(如Dublin Core, MARC)是一些数据输入和查询的框架。)
- 必备的信息类型及其来源:
- 内容标准和编目规则
- 编目工具和接口
必备的信息类型及其来源:
- 书目型描述性信息(题名、位置以及该资源内容的责任个人和机构等),这类信息一般直接从资源自身摘取;
- 主题信息(如分类号,编目人员添加的关键词,以及取自叙词表或标题表的词汇),主要由标引员根据主题法或分类法给出;
- 管理型元数据,包括有助于管理信息资源的其他任何信息,如负责选择和编目特定资源的相关人员的信息,一个目录记录的创建(或更新)日期以及对外发布所选资源的日期等。
计算机编目就是借助计算机系统完成编目作业,包括单机编目和联机编目。机读目录(Machine-readable catalogue,简称MARC)是一种以代码形式和特定结构记录在计算机存贮载体上,可由计算机自动控制、处理和编辑输出的目录。
联机编目是指利用计算机和网络环境,由多个机构共同编目,合作建立具有统一标准的信息资源联合目录数据库,并在此基础上实现联机合作编目。其优点是降低编目成本,提高书目质量,分享专业知识和技能,提高编目效率。
目录体系是指信息机构为了合理地组织和揭示信息资源库藏而设置的各种目录所形成的一个体系。这些不同类型的目录在内容和功能上相互联系相互补充。
目录体系的设计要考虑信息机构的类型、任务、资源状况、用户需求和成本等因素,并且要保证目录体系的稳定性和连续性。
目录组织是指按照一定的次序将各类著录完成的款目排列起来组成目录的过程,目的是方便读者检索。
④ 信息分类
分类法可以归纳为两大类型:
等级列举式分类语法:等级列举式分类语法主要根据学科门类来列类,又称体系分类语言,主要用于藏书组织和分类目录编制。
分面分类法:分面分类语言要按主题来列类,经过描述对象的概念的分析与综合,可以把复杂主题概念分析为若干简单的主题概念或概念因素,简单的主题概念可以综合表达复杂的主题。简单主题属性即构成”面”。它属于散组式语言,适用于编制分类目录或索引。
主题标引(Topic indexing)是对文献的内容主题及其它有检索意义的特征进行分析、识别、提炼和归纳,然后用某种检索语言标写出来,作为信息存储与检索的依据的信息处理过程。标引是信息分析加工过程中的重要环节。
通过标引,赋予文献检索标识,指明其内容特征,再配以书目信息编制出各种目录、索引或数据库,是实现文献检索的基础。
使用分类检索语言时,称为分类标引,
使用主题检索语言时,称为主题标引。
主题标引又分为受控标引与自然语言标引。
受控标引指须由事先指定的叙词表(主题词表)中选用相应规范词,对文献进行标引。
自然语言标引又称自由词标引,指不设规范词表而由标引人员直接选用的文献内自然语言词,对文献进行标引。
主题标引包括两个很不相同的智力工作步骤,即主题分析与概念转换。
topic analysis and concept transformation
主题分析是对所标引的信息资源的内容进行全面准确的分析,把握其主题内容或中心思想,形成主题概念(包括核心概念和辅助概念)。
概念转换,指就是选用指定的检索语言来表达主题概念。如果采用自然语言标引,就可以用该资源本身提供的重要词语(即关键词)做标引词。如果采用受控语言标引,则需要从某种指定的受控语言(如叙词表、标题表或分类表)中选择适当的词(即受控词)来表达该主题概念。常见的方法有标题法、元词法、叙词法。
标题法采用标题词语言描述文献主题和信息需求,编制主题目录、索引、或建立索引文档。它按照文献所论及的事物(而不是学科属性)集中相关文献,强调知识的特指性。
与分类法相比,标题法具有较好的直接性和专指性,较适合于特性检索。在系统性方面则比较差,不适合于特性检索。此外,在表达主题的灵活性方面,又逊于元词法和叙词法。在主题标引和索引工作中,它已逐渐被叙词法所取代。
元词法采用单元词语言描述文献主题和信息需求,编制索引或建立检索文档。它反对标题法等传统的标引方法所用的主题词预先固定组配的做法,主张标引时用最小最基本的词汇单位(即单元词)做主题词,通过检索阶段的布尔逻辑组配来合成主题概念,实现文献主题与用户提问的匹配,即后组配原理。
- 元词法的主要优点是:表达主题灵活性好,词汇控制工作量小,简化了文献标引作业,便于提高标引深度和专制度,用户可通过调节组配元的成分和数量来优化检索结果。
- 主要缺点是:单元词又限于字面分解与组配,以造成分解不当和错误组配,影响查准率。
叙词法采用叙词语言描述文献主题和信息需求,编制主题目录、索引或建立检索文档。它吸收和融合了多种索引方法和检索语言的原理和长处,如元词法的后组配原理,标题法的预先组配原理和参照系统,分面组配分类法的概念分析与综合原理,列举式分类法的学科分类展示原理,关键词法的轮排显示原理等。
- 叙词法的主要优点是:叙词的表现力强,专指性和灵活性好,组配方法科学;词汇控制技术较完善,显示手段多;参照系统完善,词间关系指示明确;能比其他索引方法更好地满足特性检索和族性检索的需要
叙词法逐渐取代了标题法和元词法,成为文献标引和情报检索中应用最普遍一种方法。
2.4 信息检索
信息检索的类型
1.文献检索(Literature search)
2.数据检索(Data retrieval)
数据检索是将经过选择、整理和评价(鉴定)的数据存入某种载体中,并根据用户需要从某种数据集合中检索出能回答其问题的准确(确定)数据的过程或技术。
数据检索是一种确定性的检索,它要直接提供用户所需要的确切的数据或事实,而且检索的结果也是确定的,要么输出能回答用户的具体问题的答案,要么检索结果为零。
数据检索的对象为数值性数据、非数值性但可用数值表示的(可量化的)数据(如颜色、形状等)和事实。它们或来自文献资料,或直接来自实验、观测和调查过程,是信息内容的高度浓缩物。
3.事实检索(Fact retrieval)
计算机信息检索
如脱机检索系统、联机检索系统、光盘检索系统、计算机辅助微缩品检索系统、电视信息查询系统(图文电视、多媒体检索系统等
计算机检索系统的逻辑构成一般有
信息源采集与选择子系统、内容分析与标引子系统、建库系统、用户接口子系统、提问处理子系统、词表管理子系统等部分
信息源采集与选择子系统的功能是根据系统的经营方针和服务对象的需要,以快速和经济的手段,全面地选择和采集各种信息源(文献、数据、事实等),为建立和维护数据库提供充足而适用的数据资源
The function of the information source collection and selection subsystem is to comprehensively select and collect various information sources (literature, data, facts, etc.) in a rapid and economical manner according to the needs of the system’s business policy and service objects, so as to provide sufficient and applicable data resources for the establishment and maintenance of the database.
内容分析与标引子系统的功能是根据一定的规则和程序,由标引员或计算机(或二者共同作用)对资源内容进行分析,从中提取或赋予资源一定数量的标识(如分类号、主题词、关键词等),作为信息存贮与检索的依据。
The function of the content analysis and indexing subsystem is to analyze the content of the resource by the indexer or computer (or both) according to certain rules and procedures, and extract or give a certain number of identifiers (such as class numbers, subject words, keywords, etc.) of the resources as the basis for information storage and retrieval.
建库子系统又称数据库生产子系统,其功能是建立和维护可直接用于信息检索的数据库。
The database building subsystem, also known as the database production subsystem, has the function of establishing and maintaining a database that can be used directly for information retrieval.
主要作业内容有:数据录入,错误检查与处理,数据格式转换,生成并定期更新各种文档。
data entry, error checking and processing, data format conversion, generation and regular updating of various documents.
用户接口子系统简称用户接口,是面向系统用户的一种人-机接口,系统与用户之间实现通讯不可缺少的连接系统。通常由用户模型、信息显示、命令语言、反馈机制以及各种输入输出设备构成。
The user interface subsystem, referred to as the user interface, is a kind of human-machine interface for system users, and the communication between the system and the user is indispensable to the connection system. It typically consists of a user model, information display, command language, feedback mechanisms, and various input and output devices.
提问处理子系统的功能是处理用户输入的检索词或提问式,并将它们与数据库中存贮的数据(如信息表示或其他数据标识)进行比较运算,根据给定的匹配标准生成命中信息集合输出。它一般要完成提问的接收、校验、加工和匹配比较等操作。
The function of the question processing subsystem is to process the search terms or questions entered by the user and compare them to the data stored in the database( such as information representations or other data identification) to generate a hit information set output based on a given matching criterion. It generally completes the receiving, calibration, processing and matching comparison of questions.
词表管理子系统的功能是对系统使用的检索词汇进行管理维护,使之与标引、建库和检索等子系统相连接,支持用户的各种词汇查询操作,并从提问、人-机对话或其他可获得来源中采集新的词汇信息,以及生成和输出各种形式的词汇数据和词表产品。
The function of the thesaurus management subsystem is to manage and maintain the search vocabulary used by the system, so that it is connected with subsystems such as indexing, library building and retrieval, supporting the user’s various vocabulary query operations, and collecting new vocabulary information from questions, human-machine dialogues or other available sources, as well as generating and outputting various forms of vocabulary data and thesaurus products.
计算机检索系统的物理构成
Hardware (computers and peripherals)
Software (system software and intelligence retrieval software)
Database (document or data collection)
计算机及外围设备 系统软件和情报检索软件 文献或数据集合
软件部分包括系统软件和应用软件。
- 系统软件一般包括操作系统、编译程序与汇编程序、诊断程序、输入输出控制程序、作业程序与记帐程序、报表生成程序等。
- 应用软件通常包括数据库管理系统、建库程序、数据输入输出程序、自动标引程序、文档管理程序、词表管理程序、定题检索服务程序、回溯检索程序、记帐统计程序、通讯管理程序、总控程序等。
数据库部分包括各种数据库和文档。数据库是在计算机存储设备上按照一定方式存储的相互关联的数据集合。按照国际通用的数据库分类方法,计算机检索用的数据库通常有下列类型。
- 参考数据库(Reference database)
- 源数据库(Source database)
- 混合型数据库(Hybrid databases)
- 此外,还可以按照载体形式来区分,有磁媒体数据库(Databases on magnetic media)、光盘数据库(Database on optical disc)、多媒体数据库(Multimedia database)。
网络搜索技术
搜索器(Searcher):其主要功能是在互联网中漫游,发现和搜集信息
分析器(Analyzer):分析器即分析程序,功能是理解搜索器所搜索的信息
索引器(Indexer):索引器将生成从关键词到URL的关系索引表
检索器(Retriever):检索器的主要功能是根据用户输入的关键词
- 集合理论模型 Set theory models
- 代数模型 Algebraic models
- 概率模型 Probabilistic models
- 混合模型 Hybrid models
用户接口(User interface):用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。
2.5 信息分析
① 内容分析
内容分析(content analysis)是指识别某一信息的属性或特征,以达到准确地推理出该信息源(message source)的意义的过程。一般指自动内容分析。
Content analysis refers to the process of identifying the attributes or characteristics of a certain information in order to accurately deduce the meaning of the information source. Generally refers to automatic content analysis.
自动编目与文摘工作
自动编目(Automated cataloguing)指应用自动内容分析技术(如人工智能和专家系统技术),从待编目的文献中自动识别和提取书目信息生成目录产品的过程。
Automated cataloguing refers to the process of automatically identifying and extracting bibliographic information from the bibliographic literature to generate catalog products by applying automated content analysis techniques such as artificial intelligence and expert system techniques.
自动编目系统有三种类型:
- 编目知识和规则咨询系统
- 书目记录自动生成系统
- 编目全程自动化系统。
它们一般具有以下技术特征:
- 运用专家系统原理,利用编目规则建造知识库,使系统有一定的智能水平;
- 主要从较规范的文献文本(如书名页、版权页等)中采集书目信息;
- 重点研究主要著录信息源(即书名页和版权页)的内容与形式特征及其识别技术;
文摘是信息工作者处理和传递信息时经常使用的一种文体和信息产品。
Abstracts are a stylistic and information product often used by information workers when processing and transmitting information
自动编制文摘(Automatic abstracting)
自动标引(automatic indexing)是指标引作业全部或部分实现自动化的过程。
Automatic indexing is the process of automating all or part of the index indexing operation.
自动标引可分为自动抽词标引和自动赋词标引。
Automatic indexing can be divided into automatic word indexing and automatic word labeling.
自动抽词标引指利用计算机直接从文献的机读文本(题名、文摘或正文)中抽取关键词,自动生成关键词索引或检索文档的过程。它又可分为主关键词标引和全关键词标引。前者要求计算机能选出少量主要关键词做标引词,后者则是把除停用词以外的全部关键词抽出做标引词。
自动赋词标引指用计算机模仿人的赋词标引方法,分析文献内容,提取主题概念,然后用适当的语词符号描述这种概念。
信息过滤技术
信息过滤(Information filtering)就是信息的选择性传播。信息过滤技术面向非结构化及半结构化的数据,主要用于处理文本信息。信息过滤关注用户在一段时间内比较固定的信息需求,其目标是帮助用户处理大量的信息,对动态的信息流进行筛选。它基于用户需求大纲(profile),从输入的信息流中滤掉用户不希望得到的信息。
Information filtering is the selective dissemination of information. Information filtering technology is aimed at unstructured and semi-structured data and is mainly used to process textual information. Information filtering focuses on the user’s relatively fixed information needs over a period of time, and its goal is to help users process a large amount of information and filter the dynamic information flow. It is based on the user’s requirements outline (profile), filtering out the information that the user does not want from the input stream.
信息过滤技术可从3个方面分类:
①根据操作的主动性分为主动或被动过滤技术;
②根据操作的位置可分为代理服务器过滤或客户端过滤;
③根据过滤方法分为认知过滤、社会学过滤及经济学过滤。
信息提取技术
信息服务提供者必须掌握能更有效地分析信息并从海量信息中提取重要或关键信息的手段。
② 数据挖掘
数据挖掘(data mining)就是对数据库(数据仓库)中蕴涵的、未知的、非平凡的、有潜在应用价值的知识的提取。
Data mining (data mining) is the extraction of the unknown, non-trivial, potentially useful knowledge contained in the database (data warehouse).
数据挖掘的对象可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。
数据挖掘发现的知识可以用在信息管理、过程控制、科学研究、决策支持等许多方面。
数据挖掘必须包括三个要素:
①数据挖掘的本源:大量、完整的数据。 The origin of data mining: a large amount of complete data.
②数据挖掘的结果:知识、规则。 The results of data mining: knowledge, rules.
③结果的隐含性:因而需要一个挖掘过程。Implicitness of results: Thus a mining process is required.
数据挖掘的基本步骤
- 数据集成
- 数据简约化
- 实施挖掘
- 评价
- 表示
Web挖掘(Web mining)指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。
Web mining refers to the use of data mining techniques to discover potentially useful patterns or information in WWW data.
Web挖掘一般可以分为三类:
- Web内容挖掘(Web Content mining)
- Web结构挖掘(Web structure mining)
- Web 用法挖掘(Web usage Mining)。
Web内容挖掘(WCM)
内容挖掘的对象隐藏在半结构化数据中的模式和数据实体(Pattern, Entity),包括文本、图象、音频、视频、多媒体和其他各种类型的数据。
Web content mining objects are hidden in semi-structured data and patterns, entities, including text, images, audio, video, multimedia, and various other types of data.
Web结构挖掘 (WSM)
指对Web文档的结构进行挖掘,如通过超链接分析来评估Web上的资源,提高搜索质量。
Refers to the mining of the structure of Web documents, such as evaluating resources on the Web through hyperlink analysis and improving the quality of searches.
Web 用法挖掘 (WUM)
即Web使用记录挖掘,或称Web使用挖掘。
通过挖掘Web日志记录,可发现用户访问Web页面的模式;
通过分析日志记录,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。
③ 大数据
“大数据”(big data)是对海量(TR~PB级)数据进行采集、管理、分析/挖掘以支持决策和经营管理的理论、方法、技术(工具、平台、分析系统等)的统称
“大数据”具有四大特性。
- 体量巨大(volume)
- 多样化(Variety),包括数值、文本、音频、视频、图片、表格、日志等许多异构异质的数据类型,且非结构化数据在高速增长,占总数据量的比重超过了结构化数据
- 处理高速化(velocity),要求处理的速度和响应的时间越来越快,达到实时(或准实时)和交互式的分析处理。
- 价值密度低(Value),数据增长速度快,数据处理的时间要求高。数据增长速度快(年均增长率41%,2009—2020),需要进行实时分析。
挖掘“大数据”价值的三项主要工作是:
数据管理,对各种来自不同的地方、不同的大小的数据,都进行采集和管理,这里面有实时的数据,也有非实时的数据。
数据的挖掘/分析,怎么样去挖掘、推荐、转换、分享和控制,这就是传统的ETL(extract-transform-load,提取-转换-加载)流程。
分析结果的可视化,怎么样把数据很好地呈现出来,用好的工具,让人们获得更直观的结果。
接收层:接收各种各样的数据,属于物理层次,有企业的、有IOT(传感网)传感器的、有从网络里面经过爬虫收集的数据。
处理层:根据所接收的数据不同的种类来处理,如果是企业数据,可用数据仓库来进行处理;如果这些数据可以传送到公有云或私有云上,则可以用支持“大数据”的数据处理系统(如基于开源的Hadoop的系统)来处理。
分析挖掘层:经过处理之后,数据进入商业智能(BI)系统中进行分析和挖掘。
展示应用层:运用好的可视化呈现的工具,包括PowerView等,以便人们可以更好地理解和使用这些数据。
由于“大数据”分析挖掘的难度大大增大,所以在策略上须注意融合和创新。在融合方面,要注意多领域和多源的融合,注重定量分析与定性分析的结合,减少主观性。在创新方面,要重视新的数据类型(如社交网络数据、GPS位置数据、网络交互数据),关注针对新型数据(特别是动态数据和流数据)的分析方法。
2.6 信息资源开发利用
信息资源开发利用是指根据社会需要,对信息资源进行采集、处理、存储、传播、服务、交换、共享和应用的过程。
The development and utilization of information resources refers to the process of collecting, processing, storing, disseminating, serving, exchanging, sharing and applying information resources according to social needs.
意义
- 现代资源观:信息成为主要的生产要素。
- 信息资源是促进经济变革和增长的强大动力。
- 信息资源开发利用能力是核心竞争力的重要体现。
- 信息资源开发利用是完善市场经济的重要手段。
- 信息资源开发利用是提高政府运作效率的需要。
- 信息资源开发利用是实现可持续发展的需要。
我国信息资源开发利用的原则
- 统筹协调。 Overall planning and coordination
- 需求导向。 Demand-oriented
- 创新开放 Innovation and openness
- 确保安全。 Ensure safety.
关键技术
信息采集技术(Information collection technology)
数字化信息
信息组织技术(Information organization technology)、
信息组织技术是一个开放系统,它随着新技术、新方法在信息组织中的应用而不断充实、发展。其中的关键技术主要有数据库技术、数据仓库技术、自动标引、自动分类、信息检索技术。
信息检索技术(Information retrieval technology)
信息共享平台技术(Information sharing platform technology)
目前,主要通过一系列的有关数字对象的存储、元数据描述和传输的规范性协议来建立统一的、标准化的、可扩展的、灵活的、开放的信息共享的技术平台,以达到数据交换和资源共享的目的。其中的关键技术有:Web服务技术、信息推送技术和数字资源描述技术。
信息安全技术(Information security technology)
数字加密技术、数字签名技术、数字水印技术、数字版权管理技术、和安全传输标准。
四、政府信息资源管理
B2G
①电子采购与招标 Electronic procurement and bidding
**②电子税务 ** Electronic taxation
③电子证照办理。 Electronic license processing
④信息咨询服务。 Information consulting services
⑤中小企业电子服务 SME e-services
the basic characteristics of government information resources Large quantity Wide range High value
(单选)Which of the following statements is true()
A.According to information sources, government information can be divided into public information, internal information, and confidential information
B.Government information resources are completely non-exclusive
C.Document management is recognized as the origin of government information resource management
D.The goal of government informatization at this stage is to realize e-government
C
(多选) Attributes of government information resources include()
A.Imbalance
B.Social
C.Weak monopoly
D.Non-competitive
ABCD
(多选) At this stage, government informatization mainly includes () contents
A.Government office automation
B.Government office networking
C.Sharing of government information resources
D.Government public websites construction and external services
ABCD
(多选) The content of government information resource management includes ()
A.Formulation of government informatization policies
B.Management of government information infrastructure
C.Human resource development of government informatization
D.Security management of government information
ABCD
Tasks of GIRM
- Enhancing information awareness and raising understanding of information resources among government department staff.
- Improving the ability to develop and utilize government information resources, i.e., the ability to collect, process, utilize and communicate government information resources.
- Minimizing the cost of government information activities so that the production of government information is the most economical, the distribution of information is the most effective, the use of government information by society is the easiest and most convenient, and the effectiveness of government information is maximized.
- To safeguard national information security.
What factors promote the emergence of government information resource management? Try to brief the evolution of government information resource management.
Background of government information resource management:
- Transformation of the view of information resources
- Development of information technology
- Promotion of economic informatization
- The need for government system reform
Evolution of government information resource management:
- Government records management
- Government information technology management
- Government information resource management
- E-government
Records management, also known as document management, is recognized as the origin of GIRM, and e-government represents the development direction of GIRM in the future.
The government records management stage is the origin of modern information resource management, especially government information resource management.
Lu Taihong suggest that government information can be divided into political information (intelligence), military information (intelligence), scientific and technological information, economic information, cultural information according to the content; endogenous information and exogenous information according to the information source; public information, internal information and confidential information according to information circulation mode and transmission scope; policy and regulation information, industry management information, statistical information, daily affairs information according to information type.
类型上:主要是狭义和广义政府信息资源的划分。
狭义的政府信息资源主要指信息内容资源,包括数据、记录、文本、图片、影音资料和程序软件等。
GIRs in a narrow sense mainly refer to information content resources, including data, record, text, picture, audio and video material, and program software, etc.
广义的政府信息资源是指内容资源以及收集、处理、传输、发布、使用、储存信息内容的技术、设备、网络和人等资源。
GIRs in a broad sense refer to content resources as well as technology, equipment, network and human resources for collecting, processing, transmitting, publishing, using and storing information contents.
E-government is that government agencies apply modern information and communication technology, integrate management and services through network technology, realize the optimization and reorganization of government organizational structure and work flow on the Internet, which can transcend the limitations of time, space and departmental separation, and provide to society with high-quality, standardized, transparent, and international-level management and services.
电子政务是指政府机构运用现代信息通信技术,通过网络技术整合管理和服务,在互联网上实现政府组织结构和工作流程的优化重组,能够超越时间、空间和部门分离的限制,为社会提供高质、,标准化、透明化和国际水平的管理和服务。
Definition of OGD: The government provides raw, unprocessed data to the public without discrimination based on public demand, while ensuring data security, in order to promote the public’s ability to participate in society and enhance the transparency of open government.
In a broad sense, OGD actually includes all contents related to “open”, “security” and “sharing” of government data.
There are obvious differences between OGD and government information disclosure (政府信息公开). The latter emphasizes the public’s right to know and government transparency, while the former emphasizes the value realization of both government and users, and pay more attention to the socialization value-added of government data.
OGD与政府信息公开存在明显差异(政府信息公开). 后者强调公众的知情权和政府透明度,前者强调政府和用户双方的价值实现,更注重政府数据的社会化增值。
There are obvious differences between OGD and government information disclosure (政府信息公开). The latter emphasizes the public’s right to know and government transparency, while the former emphasizes the value realization of both government and users, and pay more attention to the socialization value-added of government data.
G2E refers to the various services provided by the government to citizens through the electronic network system.==错==