在linux shell中用awk如何实现这个问题：

想处理一个文件，每一行有4个部分，用逗号隔开。其格式如下：
chr1,3001633,3001652,-
chr1,3001635,3001646,+
chr1,3004207,3004222,+
chr1,3004212,3004222,+
chr1,3004213,3004226,+
chr2,3000500,3000507,+
chr3,3000500,3000507,-

其中，每行第二第三列表示一个区间，如第一行的区间为[3001633,3001652]
且文本已按先第一列再第二列的优先级升序排序。

输出要求是这样的：
如果任意2行之间的第一第四列相同，则比较第三列区间。若区间有重叠部分，则融合合成一个新的区间，如第三第四第五行可融合为chr1,+,[3004207:3004226]。
以上文本的输出应为：
chr1,3001633,3001652,-
chr1,3001635,3001646,+
chr1,3004207,3004222,+
chr2,3000500,3000507,+
chr3,3000500,3000507,-

请问对于任意一个以上格式的文本，如何在linux shell中使用awk实现这样的输出？
非常感谢。

举报该问题

推荐答案 2011-09-29

你这个题目很有意思，你看我脚本对么：
awk -F "[,]" 'BEGIN{b="";}{
if (a[$1$4]) {
split(a[$1$4],value,",");
if( $2 <= value[2]) {
a[$1$4]=value[1]","$3;
b=$1","a[$1$4]","$4;
} else {
b=$1","a[$1$4]","$4;
printf("%s\n",b);
a[$1$4]=$2","$3;
b=$1","a[$1$4]","$4;
};
}else {
printf("%s\n",b);
a[$1$4]=$2","$3;
b=$1","$2","$3","$4;
};
}END{printf("%s\n",b);}' test.txt追问

不太对。如果是如下文本：
chr1,3001633,3001652,-
chr1,3001635,3001646,+
chr1,3001637,3001656,-
chr1,3004207,3004222,+
chr1,3004212,3004222,+
chr1,3004213,3004226,+
第一和第三行应该合并
而您的代码无视了文本第三行。
觉得还需要一个变量c。第一列相同时，b保存第四列为“+”的，c保存为“-”的。再根据下一行第四列的情况，决定应与b还是c比较、融合。我自己改好了，感谢您的启发。分数奉上。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/8YWIvpG8v.html

其他回答

第1个回答 2011-09-29

没太明白你的具体意思？
1. 任意两行是要连续行，还是可以不是连续行
2. 上面的第三第四第五行为
chr1,3004207,3004222,+
chr1,3004212,3004222,+
chr1,3004213,3004226,+
这个符合你说的第一列和第四列相同，第三列有相同的就融合，但
chr1,3004213,3004226,+
这一行怎么不见了。
能不能再说得明白点追问

1. 无需连续，也未必是连续的2行。可以是多行，只要满足融合条件，多行就融合为一行。因为已经排序过，所以可以融合的多行必定是连续的。
2. 第三第四第五行，三行可以融合为一行。因为满足融合的条件，即第一第四列相同；且三个区间互相重叠。

相似回答

shell中awk问题答：1、通过while语句实现循环。awk '{ i=1;while(i<=NF) {print $i;i++}}' a.txt 2、通过for语句实现循环。awk '{ for(i=1;i<=NF;i++) {print $i}}' b.txt

shell如何实现 数字自动补零字符串自动补零 awk答：大家在处理数据文件的时候，可能会遇到这个问题，shell 对字符串进行处理，如果字符串长度不足3位，需要左边自动补0。比如：12，自动补齐为 012解决的方法有两种，一种是shell的pringf命令，另一种是使用神器awk ：

Linux运算符linux或运算符答：-Wsourceprogram-textor--sourceprogram-text 使用program-text作为源代码，可与-f命令混用。-Wversionor--version 打印bug报告信息的版本。Linuxshell命令，-d？部分是判断表达式，-d表示判断是否是目录(directory)。是“逻辑与”操作符（这个与C语法类似啊），只有前面的判断成立（返回逻辑真），后面的语...

在linux shell中用awk如何实现这个问题:答：你这个题目很有意思，你看我脚本对么：awk -F "[,]" 'BEGIN{b="";}{ if (a[$1$4]) { split(a[$1$4],value,",");if( $2 <= value[2]) { a[$1$4]=value[1]","$3;b=$1","a[$1$4]","$4;} else { b=$1","a[$1$4]","$4;printf("%s\n",b);a[$1...

Linux Shell awk中怎么调用数组和for循环 ?答：echo | awk '{ array[1] = 1 array[2] = 2 array[3] = 3 array[4] = 4 array[5] = 5 for (i = 1; i <= 5; ++i) { print array[i] }}'

linux命令awk什么意思linux命令awk答：强大程度不同：awk的处理能力比sed更强大，可以进行比较复杂的计算和逻辑运算，也可以自定义函数和数组。应用场景不同：sed主要用于快速的文本替换和编辑，常用于shell脚本中的批量处理；awk则更适合处理结构化文本数据，如日志、报表、数据统计等。总之，sed和awk都是Linux/Unix系统下非常实用的文本处理工具...

shell awk语法问题求教视频时间 10:09

大家正在搜

linuxshellawk linuxshell脚本awk shell basename linux中awk怎么用 linux awk if shell中的awk命令 awk使用linux命令 awk shell shell bash